Otros aspectos. Procesado de la entrada Procesado de la salida. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid

Save this PDF as:
 WORD  PNG  TXT  JPG

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Otros aspectos. Procesado de la entrada Procesado de la salida. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid"

Transcripción

1 Otros aspectos Procesado de la entrada Procesado de la salida Carlos J. Alonso González Departamento de Informática Universidad de Valladolid

2 Contenido 1. Procesado de la entrada 1. Motivación y tareas 2. Limpieza de datos 3. Transformación de datos 4. Reducción de datos 5. Discretización de atributos 6. Selección de atributos 2. Procesado de la salida 1. Combinación de modelos 2. Descomposición bias-varianza 3. Bagging 4. Boosting 5. Stacking Otros Aspectos 2

3 1.1 Motivación y tareas Se dispone de numerosos algoritmos de aprendizaje que se pueden aplicar de forma efectiva a la solución de problemas prácticos Los problemas de aprendizaje o minería de datos no se resuelven solamente aplicando distintos algoritmos y estimando su tasa de error Es preciso conocer en detalle el problema de aplicación y la naturaleza de los datos Hay que garantizar una cierta calidad en los datos Hay que adaptar los datos al algoritmo seleccionado Otros Aspectos 3

4 Preprocesado de la entrada Limpieza de datos Transformación de datos Reducción de datos Discretización de atributos Selección de atributos Otros Aspectos 4

5 1.2 Limpieza de datos Es una de las primeras fases del preprocesado de los datos de entrada. Pretende eliminar las redundancias, inconsistencias, ruido, identificar outliers... El proceso involucra varias fases: Valores ausentes Datos con ruido Outliers Otros Aspectos 5

6 Valores ausentes Ignorar instancias Poco efectivo salvo si hay pocos atributos con valores perdidos Rellenar manualmente Muy costoso (tiempo) Uso de constante global Constante unknown Poco recomendable Uso de la media, mediana, moda del atributo Mejor por clase Uso del valor más probable Regresión, Inferencia, Árboles de decisión Por ejemplo construir un árbol de decisión utilizando los restantes atributos, incluso la clase, para predecir el valor Tener en cuenta que los tres últimos modifican el conjunto de datos Otros Aspectos 6

7 Datos con ruido Reducir el ruido: controvertido En general Ruido en los atributos: puede ser mejor dejarlo Nunca entrenar con datos sin ruido si se va a utilizar en un entorno con ruido Ruido en la clase Sistemático: mejor dejarlo Asistemático: intentar eliminarlo Otros Aspectos 7

8 Reducción de ruido Filtros dinámicos: puede modificar la dinámica, particularmente los transitorios Suavizado local Ventana fija/deslizante Suavizado por medias Mejor con ventana deslizante Suavizado por fronteras: máximo/mínimo Ejemplo: 4, 8, 15, 21, 21, 24, 25, 28, 34 Ventana fija, suavizado por máximo, mínimo Ventanas <4, 8, 15>, <21, 21, 24>, <25, 28, 34> Resultado: 4, 4, 15, 21, 21, 24, 25, 25, 34 Otros Aspectos 8

9 Detección de outliers (y anomalías) Inspección visual (también para el ruido asistemático e inconsistencias) Clustering Regresión robusta Remover outliers Por ejemplo, 10% puntos más alejados del plano de regresión Minimizar error absoluto en vez de cuadrático Minimizar mediana en vez de media (outliers en dirección x e y) Otros Aspectos 9

10 Ejemplo: mínima mediana de los cuadrados Nº de llamadas internacionales desde Bélgica, 1950, 1973 Otros Aspectos 10

11 1.3 Transformación de datos Normalización Importante en muchos métodos numéricos, para dar igual importancia a cada atributo Escalar al intervalo [0, 1] Estandarizar a media 0 y desviación 1 Construcción de atributos Añadir nuevos atributos para introducir conceptos relevantes Alto, ancho área Facilita clasificación, pero aumenta la dimensionalidad Otros Aspectos 11

12 1.4 Reducción de datos Técnicas de compresión También clustering Técnicas de muestreo (numerosity) Aleatorio con/sin reemplazamiento Estratificado Series temporales Múltiplos del periodo base (si periódica) Mejor sin filtrar Puede ser interesante suavizado por fronteras Reducción de la dimensionalidad Análisis de componentes principales Proyección aleatoria Otros Aspectos 12

13 Análisis de componentes principales (PAC) Método clásico para detectar las direcciones principales de los datos Uso: reducir dimensionalidad, visualización Se basa en que la varianza total es invariante ante la rotación de ejes ortogonales Componentes principales: ejes de máxima varianza Puede rotar los datos en el sistema de coordenada (reducido) de los componentes principales Otros Aspectos 13

14 Rotación componentes principales Otros Aspectos 14

15 Obtención componentes principales Método intuitivo: 1. Normalizar 2. Encontrar dirección de máxima varianza 3. Repetir 4. Buscar eje ortogonal al anterior de máxima varianza 4. Hasta % varianza deseado Método computacional Buscar autovectores matriz de covarianza Ordenar por autovalores Otros Aspectos 15

16 Ejemplo: datos dimensión 10 Otros Aspectos 16

17 Proyección aleatoria PAC tiene un coste elevado, O(a 3 ) Alternativa: proyectar sobre ejes aleatorios, de dimensión deseada En media, conserva bien las relaciones de distancias En principio, peor que PAC Introduce variabilidad en las hipótesis Otros Aspectos 17

18 1.5 Discretización de atributos Necesario para algunos algoritmos Útil para otros Por ejemplo, la extensión de Naïve Bayes a atributos continuos requiere distribución normal Algunos métodos son más rápidos con atributos nominales que con numéricos Útil para la aplicación Por ejemplo, temperatura fiebre Dos familias No supervisado Supervisado Otros Aspectos 18

19 Discretización no supervisada División por intervalos Dividir el rango en número predeterminado de intervalos de igual longitud Puede distribuir las instancias de forma poco uniforme División por frecuencias Dividir el rango en número predeterminado de intervalos de distinta amplitud, con igual nº de instancias Buenos resultados con Naïve Bayes, eligiendo nº de intervalos D 1/2 Clustering K-medias Otros Aspectos 19

20 Discretización supervisada En general, el proceso de discretización mejora si se usa información de la clase Manual: basada en conocimiento Automática: preferir métodos basados en la entropía (ganancia de información) frente al error Discretización local: árbol de decisión Discretización global Extender el método de la ganancia de información a los valores de los atributos de todas las instancias Criterio de parada Otros Aspectos 20

21 Discretización basada en 1R Error de clasificación Ordenar los valores del atributo Límites de los intervalos: cambio de clase Restricción: tiene que haber un número mínimo de instancias (6) de la clase mayoritaria Método global Otros Aspectos 21

22 Ejemplo discretización 1R Otros Aspectos 22

23 Discretización local Discretizar mediante árbol de decisión Habitualmente nodos binarios El mismo atributo puede discretizarse de modo diferente en distintos nodos Según se desciende en el árbol, las decisiones están basadas cada vez en menos ejemplos: Menos fiable Otros Aspectos 23

24 Discretización global basada en entropía Aplicar criterio de la ganancia de información al atributo a discretizar de todas las instancias Crear árbol de decisión utilizando sólo el atributo a discretizar Considerar como candidatos los valores en que cambia la clase Repetir para cada subintervalo Criterio de parada: Principio de Mínima Longitud de Descripción (MDL) Otros Aspectos 24

25 Ejemplo: atributo temperatura!sin criterio de parada! Otros Aspectos 25

26 Criterio de parada: MDL Usar MDL para decidir si se introduce una partición N instancias Conjunto original: k-clases, entropía E 1 er intervalo, k 1, E 1 2º intervalo, k 2, E 2 Dividir si ganancia Con este criterio,!no se introduce ninguna partición en el atributo temperatura! Eliminar el atributo Otros Aspectos 26

27 1.6 Selección de atributos Los atributos irrelevantes dificultan el proceso de aprendizaje Crítico en basado en instancias y clustering Incluso algoritmos como C4.5 empeoran En general, todos los métodos que subdividen el conjunto de datos: con pocos datos pueden recurrir a atributos irrelevantes Naïve Bayes los ignora, pero le afectan los atributos redundantes Además con más atributos, Se precisan más instancias Aumenta riesgo de sobreajuste Dificulta la comprensión del concepto Otros Aspectos 27

28 Métodos de selección de atributos Manual En base a la comprensión del problema En muchos casos, el mejor Automática (semi-) Métodos filtro Selección independiente del algoritmo de aprendizaje Métodos envoltorio El propio algoritmo de aprendizaje interviene en la selección de atributos Otros Aspectos 28

29 Métodos de filtro Independientes del algoritmo de aprendizaje Se basan en características generales de los datos Conjunto de Atributos de Entrada Selección de un Subconjunto de Atributos Algoritmo de Aprendizaje Algunos métodos Utilizar otro algoritmo de aprendizaje para la selección, por ejemplo, C4.5, SVM Mejor SVM: eliminar recursivamente los atributos con menores coeficientes: SVM- RFE (Recursive Feature Elimination) Correlacción Ente atributos: redundancia Atributos clase: eliminar los de menor correlación Incertidumbre simétrica (SU) Otros Aspectos 29

30 Selección basada en la correlación (I) Correlación entre dos atributos nominales: Incertidumbre simétrica (SU) H es la entropía, H(A,B) es la entropía conjunta de A y B Todas las combinaciones de valores de A y B 0 <= SU(A, B) <= 1 SU(A, B)=1 indica que A y B están totalmente correlacionados Otros Aspectos 30

31 Selección basada en la correlación (II) Adecuación de un conjunto de atributos: C es la clase, i, j iteran sobre los atributos Si todos los atributos se correlacionan perfectamente con la clase y ente ellos, el valor es 1 (el mínimo es 0) No es ideal, pues no elimina los redundantes Cualquier subconjunto de estos atributos también tiene valor 1 Resolver empates a favor del subconjunto más pequeño Otros Aspectos 31

32 Selección individual de mejores atributos Utilizar alguna medida para evaluar el atributo: Ganancia información, SU(A i,c), ReliefF, Entropía Ranking: seleccionar los mejores Fijando umbral Fijando nº atributos Otros Aspectos 32

33 Búsqueda en el retículo de atributos Cielo Temperatura Humedad Viento Cielo Temperatura Cielo Humedad Temperatura Humedad Cielo Viento Temperatura Viento Humedad Viento Cielo Temperatura Humedad Cielo Temperatura Viento Cielo Humedad Viento Temperatura Humedad Viento Cielo Temperatura Humedad Viento Otros Aspectos 33

34 Aproximaciones básicas Selección hacia delante (forward selection) Se comienza por Búsqueda voraz añadiendo una atributo en cada paso Eliminación hacia atrás (backward elimination) Se comienza con todos los atributos Búsqueda voraz eliminando un atributo en cada paso Comportamiento similar Eliminación hacia atrás genera subconjuntos más grandes y clasificadores más precisos Selección hacia delante tiende a generara menos atributos y facilita la comprensión del concepto Otros Aspectos 34

35 Otros métodos de búsqueda Búsqueda primero el mejor Mantiene lista de subconjuntos evaluados, ordenada por rendimiento Criterio de parada para no recorrer todo el espacio Búsqueda en haz Similar, limitando el número de subconjuntos evaluados Algoritmos genéticos Otros Aspectos 35

36 Métodos de envoltorio (I) Los métodos de envoltorio realizan una búsqueda en el espacio de atributos para seleccionar el mejor subconjunto de atributos Debido al tamaño del espacio de atributos, se suele utilizar un método de búsqueda voraz El comportamiento de cada subconjunto de atributos considerado se evalúa estimando el comportamiento del clasificador inducido con dichos atributos Típicamente error y validación cruzada Otros Aspectos 36

37 Métodos de envoltorio (II) Computacionalmente costoso: Con forward selection o backward elimination se multiplica el tiempo de procesamiento por k 2, con k el número de atributos. En general, no compensa utilizar métodos de búsqueda más complejos Propenso al sobreajuste al utilizar el método de aprendizaje como evaluador Es difícil predecir en que condiciones se justifica su uso Prueba y error Otros Aspectos 37

38 Ejemplo selección atributos Datos originales: 20 atributos Otros Aspectos 38

39 Todos los atributos Método: Alternating Decision Trees. Tasa de acierto: 76% Otros Aspectos 39

40 Filtro Selección hacia delante, bpm Atributos seleccionados: 10 atributos. Tasa acierto: 80,6 Otros Aspectos 40

41 Envoltorio Selección hacia adelante Atributos seleccionados: 5 atributos. Tasa acierto: 87,7 Otros Aspectos 41

42 Discusión En general, mejores resultados lo métodos que evalúan subconjuntos de atributos (filtro o envoltorio) pero Coste computacional Con k atributos, puede ser necesario considerar hasta k 2 subconjuntos Si envoltorio y validación cruzara repetida... Suponiendo validación cruzada con 10 particiones, sin repetir Si 100 atributos: 10 5 clasificadores! Buenos resultados en algunos conjuntos de datos En muchos empeora ligeramente la tasa de error, pero mayor eficacia computacional Curiosidad: Naïve Bayes Selectivo Naïve Bayes utilizando como medida el error de resubstitución; mejora su comportamiento en los conjuntos de datos donde se comporta peor, sin empeora los resultados donde NB se comporta bien. Otros Aspectos 42

43 2 Procesado de la salida 2.1 Combinación de modelos En general, la toma de decisiones mejora cuando se contrastan opiniones diversas Símil en aprendizaje Generar diversos modelos Combinar su salida Ventajas Generalmente, aumento importante precisión Inconveniente Modelos difíciles de comprender Otros Aspectos 43

44 2.2 Descomposición bias-varianza Análisis teórico origen del error de una hipótesis Suponer infinitos clasificadores, generados con infinitos conjuntos de entrenamiento independientes, de un tamaño dado infinitos conjuntos de prueba, independientes, de un tamaño dado Se identifican dos fuentes de error Bias: valor medio del error esperado. Está asociado al método de aprendizaje Varianza: valor medio del error debido al conjunto de entrenamiento usado en un escenario real Otros Aspectos 44

45 Descomposición bias-varianza Descomposición bias-varianza: el error esperado total de un clasificador es la suma de bias y varianza La combinación de clasificadores puede disminuir la componente varianza Dificultad práctica: generalmente no se dispone más que de un conjunto de entrenamiento Alternativa: manipular el conjunto de entrenamiento para generar distintas hipótesis Otros Aspectos 45

46 2.3 Bagging Combina distintas hipótesis por mayoría (media si regresión) Método más simple Todas las hipótesis igual peso Método ideal Obtener varios conjuntos de datos de tamaño n, independientes, aleatoriamente Construir un clasificador con cada conjunto Combinar las predicciones de los clasificadores Otros Aspectos 46

47 Bagging Bagging funciona porque reduce la componente varianza mediante voto Dificultad: en muchos casos sólo se dispone de un conjunto de entrenamiento Solución: generar distintos conjuntos de tamaño n muestreando con reemplazo Otros Aspectos 47

48 Esquema Bagging Conjunto Entrenamiento 1 Hipótesis 1 Predicción 1 Conjunto Entrenamiento Inicial Conjunto Entrenamiento 2 Algoritmo Aprendizaje Hipótesis 2 Predicción 2 Vot o Predicción Final Conjunto Entrenamiento k Hipótesis k Predicción k Otros Aspectos 48

49 Algoritmo Bagging Generación de modelos N número de instancias del conjunto de entrenamiento. Para cada cjto auxiliar a crear Obtener aleatoriamente N instancias con reemplazo del cjto de entrenamiento Aplicar el algoritmo de aprendizaje a dichas instancias Almacenar el modelo del resultado. Clasificación Para cada modelo generado: Predecir la clase de instancia usando el modelo Devolver la clase que aparece con más frecuencia Otros Aspectos 49

50 Discusión Bagging Particularmente efectivo con métodos inestables Pequeñas modificaciones del conjunto de datos provocan cambios importantes en la hipótesis (ej: árboles de decisión) Puede mejorar haciendo más inestable el método (ej: eliminando la poda) Ligera mejora si las hipótesis tienen asociada alguna medida de certeza: voto ponderado Generalmente, la tasa de error decrece con el nº de clasificadores, que puede llegar a ser muy grande (miles) En algunos casos patológicos, el error pueda aumentar No suele aumentar sobreajuste Puede ayudar con el ruido Otros Aspectos 50

51 Modelos estables Intuitivamente: la combinación de hipótesis funciona mejor si estas son diferentes Bagging: métodos inestables Alternativa: forzar la búsqueda de modelos que se complementen Boosting: buscar nuevos modelos para las instancias mal clasificadas por los anteriores Otros Aspectos 51

52 2.4 Boosting Combina múltiples hipótesis generadas con el mismo algoritmo de aprendizaje Asigna un peso a las hipótesis según su calidad Utiliza voto ponderado Método iterativo Los nuevos modelos se ven influenciados por el comportamiento de los anteriores Fuerza al algoritmo a centrarse en los ejemplos mal clasificados por las hipótesis anteriores Justificación: modelos complementarios Otros Aspectos 52

53 AdaBoost.M1 Asumir algoritmo aprendizaje puede manejar ejemplos ponderados Error: suma pesos ejemplos mal clasificados normalizado por peso todas las instancias Inicialmente, asignar igual peso a todas las instancias Crear hipótesis y calcular error resubstitución, e, 0 e 1. Si e 0, e<0,5 Modificar pesos ejemplos bien clasificados peso peso * e/(1-e) Normalizar Clasificación Peso hipótesis: -log [e/(1-e)] Sumar peso asignado a cada clase Otros Aspectos 53

54 Esquema Boosting Error Conjunto Inicial Peso i Conjunto Entrenamiento Algoritmo Aprendizaje Hipótesis i i Predicción(i) Predicción Final Otros Aspectos 54

55 Algoritmo AdaBoost.M1 Generación de modelos Para cada instancia i del conjunto de aprendizaje Asignar Pi Peso (mismo valor para todas) Para cada iteración t Aplicar el Algoritmo de aprendizaje al conjunto de aprendizaje ponderado Almacenar el resultado Calcular error e del modelo y almacenarlo Si (e == 0) or (e >= 0.5) Terminar la generación de modelos Para cada instancia i del conjunto de aprendizaje Si (i bien clasificada) e Pi = P i (1 e) Para cada instancia i del conjunto de aprendizaje Normalizar Pi Otros Aspectos 55

56 Algoritmo AdaBoost.M1 Generación de modelos Para cada instancia i del conjunto de aprendizaje Asignar Pi Peso (mismo valor para todas) Para cada iteración t Aplicar el Algoritmo de aprendizaje al conjunto de aprendizaje ponderado Almacenar el resultado Calcular error e del modelo y almacenarlo Si (e == 0) or (e >= 0.5) Terminar la generación de modelos Para cada instancia i del conjunto de aprendizaje Si (i bien clasificada) e Pi = P i (1 e) Para cada instancia i del conjunto de aprendizaje Normalizar Pi Otros Aspectos 56

57 Algoritmo AdaBoost.M1 Clasificación Para cada clase c Asignar peso Pc=0 Para cada modelo t Sumar -log [e/(1-e)] al peso de la clase predicha por el modelo Devolver la clase con el mayor peso Otros Aspectos 57

58 Discusión Boosting Necesita pesos Adaptar algoritmo de aprendizaje Muestreo con reemplazo según pesos Teóricamente: Error resubstitución decrece exponencialmente con ejemplos de entrenamiento Error verdadero disminuye si Clasificadores individuales no muy complejos Su error resubstitución no aumenta muy rápidamente Puede sobreajustar Otros Aspectos 58

59 Boosting y clasificadores base Clasificador base: clasificador que se construye en cada iteración Boosting funciona particularmente bien si los clasificadores base son simples Requisito clasificador base Error resubstitución < 50% También denominados clasificadores débiles Ejemplo paradigmático Boosting de stumps Otros Aspectos 59

60 Métodos híbridos Métodos homogéneos: combinan el mismo tipo de modelo Bagging, boosting Combinación: voto (ponderado) Métodos híbridos Combinan clasificadores de distinto tipo Reemplazan el mecanismo de voto Stacking, Cascading Otros Aspectos 60

61 2.5 Stacking Introduce el concepto de meta-aprendizaje para reemplazar el mecanismo de voto Meta-Aprendizaje: Nivel 0: Predicciones de los modelos base Nivel 1: Proporciona predicción final a partir de niveles 0 Nivel 0 Nivel 1 Algoritmo 1 Clasificador 1 Predicción 1 Fuente de Datos Algoritmo 2 Clasificador 2 Predicción 2 Algoritmo (Meta) Aprendizaje Predicción Final Predicción k Algoritmo k Clasificador k Otros Aspectos 61

62 Entrenamiento Stacking No se pueden usar las predicciones del nivel 0 para generar datos para entrenar nivel 1 Reservar datos para entrenamiento nivel 0, entrenamiento meta aprendiz, prueba Entrenar algoritmos nivel 0 con datos entrenamiento nivel 0 Clasificar con ellos las instancias de entrenamiento meta aprendiz y añadir clase: conjunto de entrenamiento nivel 1 Unir conjuntos entrenamiento 0 y meta aprendiz y generar nuevos clasificadores base -ligera mejora- Entrenar meta aprendiz con conjunto de nivel 1 Método habitual: validación cruzada (interna) Validación cruzada cada algoritmo nivel 0 Crear instancias nivel 1 con cada instancia de cada partición Permite al nivel-1 usar todos los ejemplos de entrenamiento Otros Aspectos 62

63 Discusión Stacking Algoritmos Nivel 0; cualquiera Nivel uno: modelos globales, suaves David Wolpert- Nivel 0 casi todo el trabajo, nivel 1 árbitro Justificación: reduce riesgos sobreajuste Modelos lineales: perceptrón, árboles con modelos lineales en los nodos hojas Pero: Naïve Bayes puede ir bien Menos popular que boosting, bagging Dificultad de análisis teórico: caja negra Múltiples variantes Se puede interpretar como una mejora (generalización) del método de votación Si los clasificadores base pueden generar medidas de certeza, suele funcionar mejor Otros Aspectos 63

64 Biboiografía Ethem Alpaydin. Introduction to Machine Learning. The MIT Press, 2004 Jiawei Hand and Micheline Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2nd edition, Pang-Ning Tan, Michael Steinbach, and Vipin Kumar. Introduction to Data Mining. Addison Wesley, I. H. Witten and E. Frank. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, 2nd edition, Otros Aspectos 64

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

PREPROCESADO DE DATOS PARA MINERIA DE DATOS Ó 10.1007/978-3-319-02738-8-2. PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado

Más detalles

Cómo se usa Data Mining hoy?

Cómo se usa Data Mining hoy? Cómo se usa Data Mining hoy? 1 Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta

Más detalles

SVM: Máquinas de Vectores Soporte. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid

SVM: Máquinas de Vectores Soporte. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid SVM: Máquinas de Vectores Soporte Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Contenido 1. Clasificación lineal con modelos lineales 2. Regresión

Más detalles

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Introducción a selección de atributos usando WEKA Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Contenido 1 Introducción a WEKA El origen Interfaces

Más detalles

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. 1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2. GENERALIDADES SOBRE LAS TÉCNICAS DE INVESTIGACIÓN SOCIAL Y DE MERCADOS

Más detalles

Contenido del Curso. Descubrimiento de Conocimiento a partir de datos. Introducción. Motivación

Contenido del Curso. Descubrimiento de Conocimiento a partir de datos. Introducción. Motivación Contenido del Curso Descubrimiento de Conocimiento a partir de Datos ISISTAN UNCPBA sschia@exa.unicen.edu.ar http://www.exa.unicen.edu.ar/catedras/dbdiscov/ Introducción al KDD Etapas Pre-procesamiento

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés

Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés Aplicación de Vectores Estadísticos de Características y Ensambles para el Reconocimiento Automático del Llanto de Bebés Amaro Camargo Erika, Reyes García Carlos A. Instituto Nacional de Astrofísica, Óptica

Más detalles

Análisis de Datos. Práctica de métodos predicción de en WEKA

Análisis de Datos. Práctica de métodos predicción de en WEKA SOLUCION 1. Características de los datos y filtros Una vez cargados los datos, aparece un cuadro resumen, Current relation, con el nombre de la relación que se indica en el fichero (en la línea @relation

Más detalles

Data Mining: Conceptos y Técnicas Preprocesamiento de Datos

Data Mining: Conceptos y Técnicas Preprocesamiento de Datos Cap. 3: Preprocesamiento de Datos Data Mining: Conceptos y Técnicas Preprocesamiento de Datos (Basado en material de Jiawei Han and Micheline Kamber) Intelligent Database Systems Research Lab School of

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

Minería de Datos. Preprocesamiento: Reducción de Datos - Discretización

Minería de Datos. Preprocesamiento: Reducción de Datos - Discretización Minería de Datos Preprocesamiento: Reducción de Datos - Discretización Dr. Edgar Acuña Departamento de Ciencias Matemáticas Universidad de Puerto Rico-Mayaguez E-mail: edgar.acuna@upr.edu, eacunaf@gmail.com

Más detalles

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

Guía docente de la asignatura

Guía docente de la asignatura Guía docente de la asignatura Asignatura Materia Minería de Datos Complementos de Computación Módulo Titulación Grado en Ingeniería Informática Plan 463 45220 Periodo de impartición 1 er Cuatrimestre Tipo/Carácter

Más detalles

Aprendizaje Computacional. Eduardo Morales y Jesús González

Aprendizaje Computacional. Eduardo Morales y Jesús González Aprendizaje Computacional Eduardo Morales y Jesús González Objetivo General La capacidad de aprender se considera como una de los atributos distintivos del ser humano y ha sido una de las principales áreas

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013

VivaMéxico sin PRI. Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres. Otoño 2013 VivaMéxico sin PRI Quiero que mi país sea de todos. Dr. Ivo H. Pineda Torres Facultad de Ciencias de la Computación Benemérita Universidad Autónoma de Puebla Otoño 2013 IMAGENESpemexmorena Adquisición

Más detalles

Algoritmos de minería de datos incluidos en SQL Server 2008 1. Algoritmo de árboles de decisión de Microsoft [MIC2009a] Cómo funciona el algoritmo

Algoritmos de minería de datos incluidos en SQL Server 2008 1. Algoritmo de árboles de decisión de Microsoft [MIC2009a] Cómo funciona el algoritmo 1 Algoritmos de minería de datos incluidos en SQL Server 2008 Los algoritmos que aquí se presentan son: Árboles de decisión de Microsoft, Bayes naive de Microsoft, Clústeres de Microsoft, Serie temporal

Más detalles

Introducción a la Minería de Datos y al Aprendizaje Automático

Introducción a la Minería de Datos y al Aprendizaje Automático Introducción a la Minería de Datos y al Aprendizaje Automático Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Juan José Rodriguez Diez Grupo

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

TÓPICOS AVANZADOS DE BASES DE DATOS

TÓPICOS AVANZADOS DE BASES DE DATOS TÓPICOS AVANZADOS DE BASES DE DATOS 1. DATOS DE LA ASIGNATURA. Nombre de la asignatura: TÓPICOS AVANZADOS DE BASES DE DATOS Carrera: Ingeniería en Sistemas Computacionales Clave de la asignatura: Modulo

Más detalles

Reglas de Asociación. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid

Reglas de Asociación. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Reglas de Asociación Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Reglas Proposicionales: Reglas de Clasificación Descripción de instancias:

Más detalles

Guía docente de la asignatura

Guía docente de la asignatura Guía docente de la asignatura Asignatura Materia Módulo Titulación TÉCNICAS DE APRENDIZAJE AUTOMÁTICO COMPUTACIÓN TECNOLOGÍAS ESPECÍFICAS GRADO EN INGENIERÍA INFORMÁTICA Plan 545 Código 46932 Periodo de

Más detalles

El Análisis de la Regresión a través de SPSS

El Análisis de la Regresión a través de SPSS El Análisis de la Regresión a través de SPSS M. D olores M artínez M iranda Profesora del D pto. E stadística e I.O. U niversidad de G ranada Referencias bibliográficas. Hair, J.F., Anderson, R.E., Tatham,

Más detalles

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

EPB 603 Sistemas del Conocimiento!#$ %& $ %' Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM EPB 603 Sistemas del Conocimiento!"#$ %& $ %' Modelos de proceso para proyectos de Data Mining (DM) Son diversos los modelos de

Más detalles

Aprendizaje automático mediante árboles de decisión

Aprendizaje automático mediante árboles de decisión Aprendizaje automático mediante árboles de decisión Aprendizaje por inducción Los árboles de decisión son uno de los métodos de aprendizaje inductivo más usado. Hipótesis de aprendizaje inductivo: cualquier

Más detalles

M1. FUNDAMENTOS DE MINERÍA DE DATOS

M1. FUNDAMENTOS DE MINERÍA DE DATOS MÁSTER OFICIAL DE LA UNIVERSIDAD DE GRANADA "SOFT COMPUTING Y SISTEMAS INTELIGENTES" M1. FUNDAMENTOS DE MINERÍA DE DATOS J.L. CUBERO, F. BERZAL, F. HERRERA Dpto. Ciencias de la Computación e I.A. Universidad

Más detalles

Repaso de conceptos. Tipos de RNA más utilizados. Técnicas de Clasificación con RNA. Contenido

Repaso de conceptos. Tipos de RNA más utilizados. Técnicas de Clasificación con RNA. Contenido Contenido Introducción al Diseño de Experimentos para el Reconocimiento de Patrones Capítulo 3: Redes Neuronales Artificiales Curso de doctorado impartido por Dr. Quiliano Isaac Moro Dra. Aranzazu Simón

Más detalles

Capítulo 12: Indexación y asociación

Capítulo 12: Indexación y asociación Capítulo 12: Indexación y asociación Conceptos básicos Índices ordenados Archivos de índice de árbol B+ Archivos de índice de árbol B Asociación estática Asociación dinámica Comparación entre indexación

Más detalles

Análisis Estadístico de Datos Climáticos

Análisis Estadístico de Datos Climáticos Análisis Estadístico de Datos Climáticos Análisis de agrupamiento (o clusters) (Wilks, Cap. 14) Facultad de Ciencias Facultad de Ingeniería 2013 Objetivo Idear una clasificación o esquema de agrupación

Más detalles

PROGRAMA DE CURSO. Personal 6 10 3.0 0 7. Electivo para ICC FI2002 Electromagnetismo. Competencia a la que Tributa el Curso. Propósito del Curso

PROGRAMA DE CURSO. Personal 6 10 3.0 0 7. Electivo para ICC FI2002 Electromagnetismo. Competencia a la que Tributa el Curso. Propósito del Curso PROGRAMA DE CURSO Código Nombre CC5206 Introducción a la Minería de Datos Nombre en Inglés Introduction to Data Mining SCT es Horas de Horas Docencia Horas de Trabajo Docentes Cátedra Auxiliar Personal

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones. 2.1 Revisión sistema reconocimiento caracteres [9]: Un sistema de reconocimiento típicamente esta conformado por

Más detalles

Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil

Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil Osvaldo M. Spositto spositto@unlam.edu.ar Martín E. Etcheverry metcheverry@unlam.edu.ar

Más detalles

Decidir cuándo autenticar en dispositivos móviles a partir de modelos de machine learning 1

Decidir cuándo autenticar en dispositivos móviles a partir de modelos de machine learning 1 Decidir cuándo autenticar en dispositivos móviles a partir de modelos de machine learning 1 En los dispositivos móviles como tablets o teléfonos celulares se tiene la opción de implementar o no un sistemas

Más detalles

Evaluación de modelos para la predicción de la Bolsa

Evaluación de modelos para la predicción de la Bolsa Evaluación de modelos para la predicción de la Bolsa Humberto Hernandez Ansorena Departamento de Ingeniería Telemática Universidad Carlos III de Madrid Madrid, España 10003975@alumnos.uc3m.es Rico Hario

Más detalles

Métodos de agregación de modelos y aplicaciones

Métodos de agregación de modelos y aplicaciones Métodos de agregación de modelos y aplicaciones Model aggregation methods and applications Mathias Bourel 1 Recibido: Mayo 2012 Aprobado: Agosto 2012 Resumen.- Los métodos de agregación de modelos en aprendizaje

Más detalles

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY)

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) Autor: Lic. Manuel Ernesto Acosta Aguilera Entidad: Facultad de Economía, Universidad de La Habana Dirección: Edificio

Más detalles

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Verónica Escobar González, Claudio Barrientos Ochoa, Sergio Barrientos Ochoa, Dirección de Modelamiento Geometalúrgico

Más detalles

Tema 5. Reconocimiento de patrones

Tema 5. Reconocimiento de patrones Tema 5. Reconocimiento de patrones Introducción al reconocimiento de patrones y a la clasificación de formas Un modelo de general de clasificador Características discriminantes Tipos de clasificación Clasificadores

Más detalles

Técnicas Multivariadas Avanzadas

Técnicas Multivariadas Avanzadas Regresión lineal Universidad Nacional Agraria La Molina 2014-2 Regresión lineal Regresión lineal simple Estimando los coecientes Evaluando la precisión de los coecientes estimados Evaluando la precisión

Más detalles

TEMA 3: TRATAMIENTO DE DATOS EN MS. EXCEL (I)

TEMA 3: TRATAMIENTO DE DATOS EN MS. EXCEL (I) VARIABLES Variable: característica de cada sujeto (cada caso) de una base de datos. Se denomina variable precisamente porque varía de sujeto a sujeto. Cada sujeto tiene un valor para cada variable. El

Más detalles

OPTATIVA I: MINERIA DE DATOS

OPTATIVA I: MINERIA DE DATOS UNIVERSIDAD AUTÓNOMA DE CHIHUAHUA Clave: 08MSU007H Clave: 08USU4053W FACULTAD DE INGENIERÍA PROGRAMA DEL CURSO: OPTATIVA I: MINERIA DE DATOS DES: Programa(s) Educativo(s): Tipo de materia: Clave de la

Más detalles

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Introducción al Data Mining Clases 5 Cluster Analysis Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina Cluster Análisis 1 El término cluster analysis (usado por primera

Más detalles

Visión. Sesión 4: Búsqueda y tracking de modelos 2D en imágenes. Departamento CCIA http://www.jtech.ua.es/vision/2011/

Visión. Sesión 4: Búsqueda y tracking de modelos 2D en imágenes. Departamento CCIA http://www.jtech.ua.es/vision/2011/ Visión Sesión 4: Búsqueda y tracking de modelos 2D en imágenes Departamento CCIA http://www.jtech.ua.es/vision/2011/ Hoy Detección de aristas Transformada de Hough Componentes conectadas Alineación de

Más detalles

código Java Solicitudes Reportes AJI resultados API

código Java Solicitudes Reportes AJI resultados API Analizador Java Inteligente Agüero Martin Jorge, miembro IT-Lab de la Universidad de Palermo, agüero.marin@gmail.com López De Luise María Daniela, miembro IT-Lab de la Universidad de Palermo, mlopez74@palermo.edu

Más detalles

Métricas de complejidad para la transformación del problema de detección de cáncer basado en

Métricas de complejidad para la transformación del problema de detección de cáncer basado en Índice para la transformación del problema de detección de cáncer basado en mamografías Alumna: Núria Macià Antoĺınez Asesora: Ester Bernadó Mansilla Núria Macià Antoĺınez PFC: 1/49 Índice 1 Planteamiento

Más detalles

Los pronósticos pueden ser utilizados para conocer el comportamiento futuros en muchas fenómenos, tales como:

Los pronósticos pueden ser utilizados para conocer el comportamiento futuros en muchas fenómenos, tales como: TEMA 1: PRONÓSTICOS 1.1. Introducción Pronostico es un método mediante el cual se intenta conocer el comportamiento futuro de alguna variable con algún grado de certeza. Existen disponibles tres grupos

Más detalles

5.1. Redes de aprendizaje supervisado basadas en la cuantificación vectorial. Curso de doctoramiento Técnicas de Computación Flexíbeis

5.1. Redes de aprendizaje supervisado basadas en la cuantificación vectorial. Curso de doctoramiento Técnicas de Computación Flexíbeis 5.1. Redes de aprendizaje supervisado basadas en la cuantificación vectorial Curso de doctoramiento Técnicas de Computación Flexíbeis Learning Vector Quantization (LVQ) Versión supervisada de SOM (SOM

Más detalles

Parte I: Introducción

Parte I: Introducción Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one

Más detalles

LA MINERÍA DE DATOS EN LA EXTRACCIÓN DE CONOCIMIENTOS APLICADOS A PROBLEMAS RELACIONADOS CON LA EDUCACIÓN

LA MINERÍA DE DATOS EN LA EXTRACCIÓN DE CONOCIMIENTOS APLICADOS A PROBLEMAS RELACIONADOS CON LA EDUCACIÓN LA MINERÍA DE DATOS EN LA EXTRACCIÓN DE CONOCIMIENTOS APLICADOS A PROBLEMAS RELACIONADOS CON LA EDUCACIÓN Blanca Maricela Ibarra Murrieta, Ricardo Blanco Vega y María Angélica García Fierro Departamento

Más detalles

Aprendizaje Basado en Similaridades (SBL) Árboles de Decisión (TDIDT) (INAOE) 1 / 65. Algoritmo ID3 Cómo le hace

Aprendizaje Basado en Similaridades (SBL) Árboles de Decisión (TDIDT) (INAOE) 1 / 65. Algoritmo ID3 Cómo le hace INAOE (INAOE) 1 / 65 Contenido 1 2 (INAOE) 2 / 65 SBL Atributos Peludo? Edad? Tamaño? Clase si viejo grande león no joven grande no león si joven mediano león si viejo pequeño no león si joven pequeño

Más detalles

La calidad de los datos ha mejorado, se ha avanzado en la construcción de reglas de integridad.

La calidad de los datos ha mejorado, se ha avanzado en la construcción de reglas de integridad. MINERIA DE DATOS PREPROCESAMIENTO: LIMPIEZA Y TRANSFORMACIÓN El éxito de un proceso de minería de datos depende no sólo de tener todos los datos necesarios (una buena recopilación) sino de que éstos estén

Más detalles

ANÁLISIS DISCRIMINANTE

ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE ANÁLISIS DISCRIMINANTE 1. Introducción 2. Etapas 3. Caso práctico Análisis de dependencias introducción varias relaciones una relación 1 variable dependiente > 1 variable dependiente

Más detalles

2 Representación poligonal

2 Representación poligonal INGENIERÍA INFORMÁTICA 2 Representación poligonal Introducción Modelo poligonal Teselación Simplificación Prof. Miguel Chover Introducción Modelado geométrico Creación del modelo 3D en el ordenador Técnica

Más detalles

REGRESIÓN LINEAL MÚLTIPLE

REGRESIÓN LINEAL MÚLTIPLE REGRESIÓN LINEAL MÚLTIPLE.- Planteamiento general....- Métodos para la selección de variables... 5 3.- Correlaciones parciales y semiparciales... 8 4.- Multicolinealidad en las variables explicativas...

Más detalles

Preparación de Datos. Preparación de datos

Preparación de Datos. Preparación de datos Preparación de Datos Dr. Ing. Biom. Elmer A. Fernández Universidad Católica de Córdoba Fac. Ingeniería Preparación de datos Esta es una etapa crítica. En esta etapa se acondicionan los datos que luego

Más detalles

Ingeniería en Informática

Ingeniería en Informática Departamento de Informática Universidad Carlos III de Madrid Ingeniería en Informática Aprendizaje Automático Junio 2007 Normas generales del examen El tiempo para realizar el examen es de 3 horas No se

Más detalles

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez Curso de Análisis de investigaciones con programas Informáticos 1 UNIVERSIDAD DE JAÉN Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos

Más detalles

CURSO ESTADÍSTICA APLICADA CON R

CURSO ESTADÍSTICA APLICADA CON R CURSO ESTADÍSTICA APLICADA CON R Organizado por: Instituto IMDEA Alimentación Facultad de Ciencias de la Universidad Autónoma de Madrid MADRID, de Septiembre a Diciembre de 2015 Estadística Aplicada con

Más detalles

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/ Minería de Datos Web 1 er Cuatrimestre 2015 Página Web http://www.exa.unicen.edu.ar/catedras/ageinweb/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs. As., Argentina http://www.exa.unicen.edu.ar/~dgodoy

Más detalles

Segmentación y predicción en los modelos de tarificación

Segmentación y predicción en los modelos de tarificación Segmentación y predicción en los modelos de tarificación Caro Carretero, Raquel. rcaro@doi.icai.upcomillas.es Departamento de Organización Industrial Universidad Pontificia Comillas. ICAI RESUMEN El análisis

Más detalles

código Java Solicitudes Reportes AJI resultados API

código Java Solicitudes Reportes AJI resultados API Analizador Java Inteligente López De Luise María Daniela, miembro IT-Lab de la Universidad de Palermo, mlopez74@palermo.edu Agüero Martín Jorge, miembro IT-Lab de la Universidad de Palermo, agüero.martin@gmail.com

Más detalles

Apoyo a la toma de Decisiones. Carlos A. Olarte Bases de Datos II

Apoyo a la toma de Decisiones. Carlos A. Olarte Bases de Datos II Carlos A. Olarte Bases de Datos II Contenido 1 Introducción 2 OLAP 3 Data Ware Housing 4 Data Mining Introducción y Motivación Cómo puede analizarse de forma eficiente volúmenes masivos de datos? La consulta,

Más detalles

CATÁLOGO DE INFERENCIAS

CATÁLOGO DE INFERENCIAS Las inferencias son los elementos claves en los modelos de conocimiento o Son los elementos constitutivos de los procesos de razonamiento No existe ningún estándar CommonKADS ofrece un catálogo que cubre

Más detalles

Capítulo 1. Minería de datos: Conceptos, técnicas y sistemas...

Capítulo 1. Minería de datos: Conceptos, técnicas y sistemas... , INDICE Introducción, ; XVII Capítulo 1. Minería de datos: Conceptos, técnicas y sistemas... Aproximación al concepto de minería de datos... El proceso de extracción del conocimiento... Técnicas de minería

Más detalles

STATGRAPHICS Centurion XVII Software de análisis de datos estadístico y gráfico. Mejoras de la versión 17.1

STATGRAPHICS Centurion XVII Software de análisis de datos estadístico y gráfico. Mejoras de la versión 17.1 STATGRAPHICS Centurion XVII Software de análisis de datos estadístico y gráfico STATGRAPHICS ofrece más de 230 procedimientos de Análisis Exploratorio de Datos, Estadística Descriptiva e Inferencial, Modelos

Más detalles

Capítulo V Operaciones Booleanas

Capítulo V Operaciones Booleanas 85 Capítulo V Operaciones Booleanas 5.1 Introducción Es muy posible que en muchos casos sea necesario comparar dos objetos y determinar cuál es su parte común. Esto implica intersectar los dos objetos

Más detalles

Dr. Carlos L. Jave Gutiérrez

Dr. Carlos L. Jave Gutiérrez PLANIFICACION DE LA PRODUCCION: PRONOSTICOS Dr. Carlos L. Jave Gutiérrez Universidad San Martín de Porras 2010-2 PLANIFICACION DE LA PRODUCCION Son variados y similares los enfoques que con respecto al

Más detalles

Cómo obtener un Modelo de Regresión Logística Binaria con SPSS

Cómo obtener un Modelo de Regresión Logística Binaria con SPSS Universitat de de Barcelona. Institut de de Ciències de de l Educació Cómo obtener un Modelo de Regresión Logística Binaria con SPSS Vanesa Berlanga-Silvente y Ruth Vilà-Baños Fecha de presentación:

Más detalles

Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco

Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales. Elkin García, Germán Mancera, Jorge Pacheco Clasificación de Música por Genero Utilizando Redes Neuronales Artificiales Elkin García, Germán Mancera, Jorge Pacheco Presentación Los autores han desarrollado un método de clasificación de música a

Más detalles

RECOMENDACIÓN UIT-R TF.538-3 MEDICIONES DE LA INESTABILIDAD DE FRECUENCIA Y EN EL TIEMPO (FASE) (Cuestión UIT-R 104/7)

RECOMENDACIÓN UIT-R TF.538-3 MEDICIONES DE LA INESTABILIDAD DE FRECUENCIA Y EN EL TIEMPO (FASE) (Cuestión UIT-R 104/7) Caracterización de las fuentes y formación de escalas de tiempo Rec. UIT-R TF.538-3 1 RECOMENDACIÓN UIT-R TF.538-3 MEDICIONES DE LA INESTABILIDAD DE FRECUENCIA Y EN EL TIEMPO (FASE) (Cuestión UIT-R 104/7)

Más detalles

9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de decisión.

9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de decisión. TEMA 9 TÉCNICAS DE INTELIGENCIA ARTIFICIAL PARA EL ANÁLISIS DE LA INFORMACIÓN CONTABLE 9.1.Los sistemas expertos. 9.2.Las redes neuronales artificiales. 9.3.Sistemas de inducción de reglas y árboles de

Más detalles

En este capitulo se presentan los métodos y algoritmos utilizados para el desarrollo del

En este capitulo se presentan los métodos y algoritmos utilizados para el desarrollo del 33 En este capitulo se presentan los métodos y algoritmos utilizados para el desarrollo del sistema de procesamiento de imágenes para controlar un robot manipulador y se describen en la forma como serán

Más detalles

Clasificación Automática de Textos de Desastres Naturales en México

Clasificación Automática de Textos de Desastres Naturales en México Clasificación Automática de Textos de Desastres Naturales en México Alberto Téllez-Valero, Manuel Montes-y-Gómez, Olac Fuentes-Chávez, Luis Villaseñor-Pineda Instituto Nacional de Astrofísica, Óptica y

Más detalles

Aprendizaje Automatizado

Aprendizaje Automatizado Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto

Más detalles

BASES DE DATOS TEMA 4 DISEÑO DE BASES DE DATOS RELACIONALES

BASES DE DATOS TEMA 4 DISEÑO DE BASES DE DATOS RELACIONALES BASES DE DATOS TEMA 4 DISEÑO DE BASES DE DATOS RELACIONALES El modelo relacional se basa en dos ramas de las matemáticas: la teoría de conjuntos y la lógica de predicados de primer orden. El hecho de que

Más detalles

4. MÉTODOS DE CLASIFICACIÓN

4. MÉTODOS DE CLASIFICACIÓN 4. MÉTODOS DE CLASIFICACIÓN Una forma de sintetizar la información contenida en una tabla multidimensional (por ejemplo una tabla léxica agregada), es mediante la conformación y caracterización de grupos.

Más detalles

Aplicación de Redes bayesianas usando Weka.

Aplicación de Redes bayesianas usando Weka. Aplicación de Redes bayesianas usando Weka. Cynthia Lorena Corso 1, Fabian Gibellini 1 1 Universidad Tecnológica Nacional, Facultad Regional Córdoba Laboratorio de Sistemas de Información Maestro M. López

Más detalles

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez

Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos Álvarez Curso de Análisis de investigaciones con programas Informáticos 1 UNIVERSIDAD DE JAÉN Material del curso Análisis de datos procedentes de investigaciones mediante programas informáticos Manuel Miguel Ramos

Más detalles

Análisis de Incidentes Informáticos usando Modelos de Asociación y Métodos del Análisis de Datos Multivariante.

Análisis de Incidentes Informáticos usando Modelos de Asociación y Métodos del Análisis de Datos Multivariante. Análisis de Incidentes Informáticos usando Modelos de Asociación y Métodos del Análisis de Datos Multivariante. García, Alejandro (1), Corso, Cynthia Lorena (2), Gibellini, Fabián (3), Rapallini, Marcos

Más detalles

MODELADO Y CONTROL MULTIVARIABLE DE TEMPERATURA Y HUMEDAD EN UN INVERNADERO

MODELADO Y CONTROL MULTIVARIABLE DE TEMPERATURA Y HUMEDAD EN UN INVERNADERO MODELADO Y CONTROL MULTIVARIABLE DE TEMPERATURA Y HUMEDAD EN UN INVERNADERO Autor: Cristina Sánchez Pérez Directores: José Luis Guzmán Sánchez y Jorge Antonio Sánchez Molina 19 de septiembre de 2014 2

Más detalles

Minera de datos aplicada a la detección de Cáncer de Mama

Minera de datos aplicada a la detección de Cáncer de Mama Minera de datos aplicada a la detección de Cáncer de Mama Eugenio Hernández Martínez Universidad Carlos III de Madrid 100039081@alumnos.uc3m.es Rodrigo Lorente Sanjurjo Universidad Carlos III de Madrid

Más detalles

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net Proyecto técnico MINERÍA DE DATOS Febrero 2014 www.osona-respon.net info@osona-respon.net 0. Índice 0. ÍNDICE 1. INTRODUCCIÓN... 2 2. LOS DATOS OCULTOS... 3 2.1. Origen de la información... 3 2.2. Data

Más detalles

La práctica del análisis de correspondencias

La práctica del análisis de correspondencias La práctica del análisis de correspondencias MICHAEL GREENACRE Catedrático de Estadística en la Universidad Pompeu Fabra Separata del capítulo 23 Recodificación de datos Primera edición: julio 2008 ISBN:

Más detalles

Capítulo 3. Análisis de Regresión Simple. 1. Introducción. Capítulo 3

Capítulo 3. Análisis de Regresión Simple. 1. Introducción. Capítulo 3 Capítulo 3 1. Introducción El análisis de regresión lineal, en general, nos permite obtener una función lineal de una o más variables independientes o predictoras (X1, X2,... XK) a partir de la cual explicar

Más detalles

TEMA 9: Desarrollo de la metodología de Taguchi

TEMA 9: Desarrollo de la metodología de Taguchi TEMA 9: Desarrollo de la metodología de Taguchi 1 La filosofía de la calidad de Taguchi 2 Control de calidad Off Line y On Line Calidad Off Line Calidad On Line 3 Función de pérdida 4 Razones señal-ruido

Más detalles

PLANIFICACIÓN DE LA DOCENCIA UNIVERSITARIA GUÍA DOCENTE. Datamining y Aprendizaje Automático

PLANIFICACIÓN DE LA DOCENCIA UNIVERSITARIA GUÍA DOCENTE. Datamining y Aprendizaje Automático CENTRO UNIVERSITARIO DE TECNOLOGÍA Y ARTE DIGITAL PLANIFICACIÓN DE LA DOCENCIA UNIVERSITARIA GUÍA DOCENTE Datamining y Automático 1. DATOS DE IDENTIFICACIÓN DE LA ASIGNATURA. Título: Facultad: Grado en

Más detalles

Minería de Datos. Universidad Politécnica de Victoria

Minería de Datos. Universidad Politécnica de Victoria Minería de Datos Universidad Politécnica de Victoria 1 Motivación Nuevas Necesidades del Análisis de Grandes Volúmenes de Datos El aumento del volumen y variedad de información que se encuentra informatizada

Más detalles

Text Mining. Laura Alonso i Alemany. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.

Text Mining. Laura Alonso i Alemany. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.ar/ laura SADIO 12, 13 y 14 de Marzo de 2008 grupo de PLN en FaMAF http://www.cs.famaf.unc.edu.ar/ pln/

Más detalles

UN MODELO PARA LA PREDICCIÓN DE RECIDIVA DE PACIENTES OPERADOS DE CÁNCER DE MAMA (CMO) BASADO EN REDES NEURONALES

UN MODELO PARA LA PREDICCIÓN DE RECIDIVA DE PACIENTES OPERADOS DE CÁNCER DE MAMA (CMO) BASADO EN REDES NEURONALES UN MODELO PARA LA PREDICCIÓN DE RECIDIVA DE PACIENTES OPERADOS DE CÁNCER DE MAMA (CMO) BASADO EN REDES NEURONALES José Alejandro Chiri Aguirre RESUMEN La predicción de recidiva en pacientes que han sido

Más detalles

(Data Analytics) Guía de Aprendizaje Información al estudiante

(Data Analytics) Guía de Aprendizaje Información al estudiante (Data Analytics) Guía de Aprendizaje Información al estudiante 1. Datos Descriptivos Titulación Grado en Matemáticas e Informática Módulo Materia Asignatura Carácter SISTEMAS Y SERVICIOS BASADOS EN EL

Más detalles

UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL

UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL Objetivo terminal: Calcular e interpretar medidas de tendencia central para un conjunto de datos estadísticos. Objetivos específicos: 1. Mencionar las características

Más detalles

Análisis de Redes Sociales

Análisis de Redes Sociales Análisis de Redes Sociales 1 sitios Web fuente Mark Newman red de terroristas fuente www.firstmonday.org red de terroristas fuente www.firstmonday.org red de citas bibliográficas fuente http://wwwcsif.cs.ucdavis.edu/~mcpherso/largegraph.html

Más detalles

Estimar, descomponer y comparar el error de mala clasificación

Estimar, descomponer y comparar el error de mala clasificación Estimar, descomponer y comparar el error de mala clasificación Evaluando y analizando el comportamiento de algoritmos de inducción de clasificadores Aritz Pérez, Pedro Larrañaga e Iñaki Inza Intelligent

Más detalles

BREVE APUNTE SOBRE EL PROBLEMA DE LA MULTICOLINEALIDAD EN EL MODELO BÁSICO DE REGRESIÓN LINEAL

BREVE APUNTE SOBRE EL PROBLEMA DE LA MULTICOLINEALIDAD EN EL MODELO BÁSICO DE REGRESIÓN LINEAL BREVE APUNTE SOBRE EL PROBLEMA DE LA MULTICOLINEALIDAD EN EL MODELO BÁSICO DE REGRESIÓN LINEAL Ramón Mahía Febrero 013 Prof. Ramón Mahía ramon.mahia@uam.es Qué se entiende por Multicolinealidad en el marco

Más detalles

REGRESION simple. Correlación Lineal:

REGRESION simple. Correlación Lineal: REGRESION simple Correlación Lineal: Dadas dos variable numéricas continuas X e Y, decimos que están correlacionadas si entre ambas variables hay cierta relación, de modo que puede predecirse (aproximadamente)

Más detalles