Data Mining. Hugo Alatrista-SALAS PUCP, GRPIAA Labs. 17 de noviembre de 2014

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Data Mining. Hugo Alatrista-SALAS PUCP, GRPIAA Labs. halatrista@pucp.pe http://hugo.alatristasalas.free.fr/ 17 de noviembre de 2014"

Transcripción

1 Data Mining Hugo Alatrista-SALAS PUCP, GRPIAA Labs. 17 de noviembre de 2014

2 Outline La información y el proceso KDD 1 La información y el proceso KDD 2 3 Métodos supervisados y no supervisados Busqueda de patrones Patrones complejos Minería de texto 4 Validación y visualización PUCP, GRPIAA Labs. June 21th, / 71

3 La informacio n y el proceso KDD Minerı a de datos Validacio n y visualizacio n de patrones El poder de la informacio n Informacio n difı cil a tratar Proceso KDD El poder de la informacio n PUCP, GRPIAA Labs. June 21th, / 71

4 El poder de la información Información difícil a tratar Proceso KDD Internet y la información: Algunas cifras 3000 millones de usuarios de Internet a finales del 2014 (la mayoría en Asia) 325 millones en América Latina y el Caribe 120,000 nuevos blogs creados cada día 6 de los websites TOP son redes sociales (YouTube: 1 billón, Facebook: 1,32 billones, Twitter: 271 millones) millones de abonados a la banda ancha móvil Fuentes: y PUCP, GRPIAA Labs. June 21th, / 71

5 Qué hacer con tanta información? El poder de la información Información difícil a tratar Proceso KDD Google, Microsoft, MySpace, AOL y Yahoo! mas de 336 billones de datos personales y Facebook 58 millones (Dic. 2007) PUCP, GRPIAA Labs. June 21th, / 71

6 La informacio n y el proceso KDD Minerı a de datos Validacio n y visualizacio n de patrones El poder de la informacio n Informacio n difı cil a tratar Proceso KDD Que hacer con tanta informacio n? /!\ Fb: 200 solicitudes enviados aleatoriamente 82 aceptadas PUCP, GRPIAA Labs. June 21th, / 71

7 Qué hacer con tanta información? El poder de la información Información difícil a tratar Proceso KDD Recolectarla Almacenarla Analizarla Extraer información interesante Validar la información extraída /!\... no es fácil!!! PUCP, GRPIAA Labs. June 21th, / 71

8 Qué hacer con tanta información? El poder de la información Información difícil a tratar Proceso KDD Recolectarla Almacenarla Analizarla Extraer información interesante Validar la información extraída /!\... no es fácil!!! PUCP, GRPIAA Labs. June 21th, / 71

9 Información heterogénea El poder de la información Información difícil a tratar Proceso KDD PUCP, GRPIAA Labs. June 21th, / 71

10 La informacio n y el proceso KDD Minerı a de datos Validacio n y visualizacio n de patrones El poder de la informacio n Informacio n difı cil a tratar Proceso KDD Fuerte temporalidad PUCP, GRPIAA Labs. June 21th, / 71

11 La informacio n y el proceso KDD Minerı a de datos Validacio n y visualizacio n de patrones El poder de la informacio n Informacio n difı cil a tratar Proceso KDD Representan feno menos complejos PUCP, GRPIAA Labs. June 21th, / 71

12 Encontrar información interesante El poder de la información Información difícil a tratar Proceso KDD PUCP, GRPIAA Labs. June 21th, / 71

13 Proceso KDD La información y el proceso KDD El poder de la información Información difícil a tratar Proceso KDD Proceso multi-etapas iterativo e interactivo Permite transformar grandes bases de datos en conocimiento 1 : 1 U. Fayyad, G. Piatetsky-shapiro, P. Smyth, From Data Mining to Knowledge Discovery in Databases, AI Magazine, vol. 7, pp , 1996 PUCP, GRPIAA Labs. June 21th, / 71

14 La información y el proceso KDD El poder de la información Información difícil a tratar Proceso KDD Eliminar los valores atípicos Recopilar de la información necesaria para modelar o representan el ruido Plantear estrategias para manejar los campos donde faltan datos Identificar la información temporal y reconocer los posibles cambios (si existen) PUCP, GRPIAA Labs. June 21th, / 71

15 Transformación La información y el proceso KDD El poder de la información Información difícil a tratar Proceso KDD Encontrar características útiles para representar los datos en función del objetivo de la tarea Usar técnicas de reducción de dimensionalidad o métodos de transformación para reducir el número efectivo de las variables a estudiar o para encontrar representaciones invariantes de los datos Presencia de un experto Decidir si el objetivo del proceso de KDD es la clasificación, regresión, clustering, extracción de patrones, etc. PUCP, GRPIAA Labs. June 21th, / 71

16 La información y el proceso KDD El poder de la información Información difícil a tratar Proceso KDD Seleccionar el (los) método(s) que se utilizará para la búsqueda de patrones en los datos Decidir qué modelos y parámetros pueden ser los más apropiados Buscar de un método de minería de datos particular que coincida con los criterios generales del proceso KDD PUCP, GRPIAA Labs. June 21th, / 71

17 Restitución de patrones obtenidos El poder de la información Información difícil a tratar Proceso KDD Interpretación de los patrones extraídos Presentar los patrones extraídos a los expertos y/o comunidad científica (visualmente) Consolidar el conocimiento descubierto gracias a la ayuda de los exepertos PUCP, GRPIAA Labs. June 21th, / 71

18 WEKA La información y el proceso KDD El poder de la información Información difícil a tratar Proceso KDD Gallirallus australis : Endemic bird (New Zeland) WEKA Waikato Environment for Knowledge Analysis PUCP, GRPIAA Labs. June 21th, / 71

19 WEKA La información y el proceso KDD El poder de la información Información difícil a tratar Proceso KDD Universidad de Waikato (New Zeland) Weka es una colección de algoritmos de aprendizaje automático para tareas de minería de datos Weka contiene herramientas de pre-procesamiento, clasificación, regresión, clustering, reglas de asociación, y visualización Concebido bajo la licencia GNU PUCP, GRPIAA Labs. June 21th, / 71

20 WEKA - Representación de datos El poder de la información Información difícil a tratar Proceso KDD CSV ARFF JSON (javascript) C4.5 (.data y.names) Conexión a un DBMS etc. PUCP, GRPIAA Labs. June 21th, / 71

21 WEKA - Representación de datos El poder de la información Información difícil a tratar Proceso KDD PUCP, GRPIAA Labs. June 21th, / 71

22 WEKA - Representación de datos El poder de la información Información difícil a tratar Proceso KDD Formato CSV Distrito, Fecha, Temperatura, Humedad, Viento, Alerta San Miguel, 14/03/2012, 14.4, 68, 57, Si San Miguel, 15/03/2012, 18.4, 60,, No Pueblo Libre, 14/03/2012, 20.3, 72, 45, Si Pueblo Libre, 01/04/2012, 15.6, 68, 11, No Comas, 18/04/2012, 28.0, 71,, No PUCP, GRPIAA Labs. June 21th, / 71

23 WEKA - Representación de datos El poder de la información Información difícil a tratar Proceso KDD Formato Distrito Fecha Temperatura Humedad Viento Alerta si, San Miguel, 14/03/2012, 14.4, 68, 57, Si San Miguel, 15/03/2012, 18.4, 60,, No Pueblo Libre, 14/03/2012, 20.3, 72, 45, Si Pueblo Libre, 01/04/2012, 15.6, 68, 11, No Comas, 18/04/2012, 28.0, 71,, No PUCP, GRPIAA Labs. June 21th, / 71

24 Normalización La información y el proceso KDD Normalización Discretización Vetorización Estandarizar todos los valores numéricos en valores pertenecientes al intervalo [0, 1] PUCP, GRPIAA Labs. June 21th, / 71

25 Discretización La información y el proceso KDD Normalización Discretización Vetorización Convertir los datos numéricos en valores nominales (clases) PUCP, GRPIAA Labs. June 21th, / 71

26 Normalización Discretización Vetorización Corpus a Vector de características Representar un corpus de forma vectorial utilizando, p.e., una representación TF-IDF (Term Frequency - Inverted Document Frequency) PUCP, GRPIAA Labs. June 21th, / 71

27 Normalización Discretización Vetorización Corpus a Vector de características PUCP, GRPIAA Labs. June 21th, / 71

28 Normalización Discretización Vetorización Corpus a Vector de características PUCP, GRPIAA Labs. June 21th, / 71

29 La información y el proceso KDD Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto Objetivo: transformar los datos en estructuras mas complejas: Arboles Clusters Reglas de asociación Secuencias Trayectorias Grafos Colocalizaciones etc. PUCP, GRPIAA Labs. June 21th, / 71

30 Clasificación La información y el proceso KDD Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto Aprendizaje Supervisado: el conjunto de posibles clases se conoce de antemano Cuáles son los mejores descriptores? Cuál es el atributo más representativo de una clase? Reducción de las dimensiones Clases desbalanceadas PUCP, GRPIAA Labs. June 21th, / 71

31 Clasificación La información y el proceso KDD Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto Clasificar los datos (construir un modelo) en base a un conjunto de entrenamiento etiquetado y utilizarlo en la clasificación de nuevos datos Los datos de entrada o conjunto de entrenamiento, se compone de varios registros que tienen cada uno varios atributos o características Cada registro se marca con una etiqueta de clase Analizar los datos de entrada y desarrollar un modelo para cada clase con las características presentes en los datos El modelo se utiliza para clasificar los datos de prueba para la que no se conocen las descripciones de las clases PUCP, GRPIAA Labs. June 21th, / 71

32 Clasificación La información y el proceso KDD Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto PUCP, GRPIAA Labs. June 21th, / 71

33 Clasificación La información y el proceso KDD Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto PUCP, GRPIAA Labs. June 21th, / 71

34 Clasificación La información y el proceso KDD Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto PUCP, GRPIAA Labs. June 21th, / 71

35 Clustering La información y el proceso KDD Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto Encontrar grupos de objetos de tal manera que los objetos de un grupo sean similares (o relacionados) entre sí y diferentes (o no relacionados con) a los objetos de otros grupos (método no supervisado). Fuente: Pascal Poncelet (SIMBig2014) PUCP, GRPIAA Labs. June 21th, / 71

36 Clustering La información y el proceso KDD Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto El resultado depende de la definición de similitud La elección de la medida de (des)-similaridad es un paso crítico, a menudo, más importante que el algoritmo de clustering Los resultados son difíciles de evaluar: a menudo no hay un único resultado correcto No existe una medida de similitud obvia: depende de lo que queremos encontrar Los algoritmos pueden encontrar grupos incluso cuando no hay grupos naturales en los datos PUCP, GRPIAA Labs. June 21th, / 71

37 Clustering La información y el proceso KDD Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto PUCP, GRPIAA Labs. June 21th, / 71

38 Reglas de Asociación Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto Buscar relaciones entre objetos RA: Itemset1 Itemset2 Itemset1, itemset2 son dos conjuntos disjuntos y no vacíos de items, Si la transacción incluye el Itemset1 entonces también contiene el Itemset2 P.e. si los clientes compran Pisco, también tienden a comprar limón PUCP, GRPIAA Labs. June 21th, / 71

39 Reglas de Asociación Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto Items: A,B,C,D,E,F 4 transacciones (sub-conjunto de items) T1: {A,D} Soporte de un itemset (Supp) Supp ({A,D})=1/4 Supp ({A,C})=2/4 Itemsets frecuentes (minsupp=50 %) {A,C} es un itemset frecuente ID Items 1 A, D 2 A, C 3 A, B, C 4 A, B, F, E Reglas (minsupp and minconf = 50 %) A C [50 %, 50 %] C A [50 %, 100 %] PUCP, GRPIAA Labs. June 21th, / 71

40 Reglas de Asociación Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto Items: A,B,C,D,E,F 4 transacciones (sub-conjunto de items) T1: {A,D} Soporte de un itemset (Supp) Supp ({A,D})=1/4 Supp ({A,C})=2/4 Itemsets frecuentes (minsupp=50 %) {A,C} es un itemset frecuente ID Items 1 A, D 2 A, C 3 A, B, C 4 A, B, F, E Reglas (minsupp and minconf = 50 %) A C [50 %, 50 %] C A [50 %, 100 %] PUCP, GRPIAA Labs. June 21th, / 71

41 Reglas de Asociación Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto Items: A,B,C,D,E,F 4 transacciones (sub-conjunto de items) T1: {A,D} Soporte de un itemset (Supp) Supp ({A,D})=1/4 Supp ({A,C})=2/4 Itemsets frecuentes (minsupp=50 %) {A,C} es un itemset frecuente ID Items 1 A, D 2 A, C 3 A, B, C 4 A, B, F, E Reglas (minsupp and minconf = 50 %) A C [50 %, 50 %] C A [50 %, 100 %] PUCP, GRPIAA Labs. June 21th, / 71

42 Reglas de Asociación Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto Items: A,B,C,D,E,F 4 transacciones (sub-conjunto de items) T1: {A,D} Soporte de un itemset (Supp) Supp ({A,D})=1/4 Supp ({A,C})=2/4 Itemsets frecuentes (minsupp=50 %) {A,C} es un itemset frecuente ID Items 1 A, D 2 A, C 3 A, B, C 4 A, B, F, E Reglas (minsupp and minconf = 50 %) A C [50 %, 50 %] C A [50 %, 100 %] PUCP, GRPIAA Labs. June 21th, / 71

43 Reglas de Asociación Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto Items: A,B,C,D,E,F 4 transacciones (sub-conjunto de items) T1: {A,D} Soporte de un itemset (Supp) Supp ({A,D})=1/4 Supp ({A,C})=2/4 Itemsets frecuentes (minsupp=50 %) {A,C} es un itemset frecuente ID Items 1 A, D 2 A, C 3 A, B, C 4 A, B, F, E Reglas (minsupp and minconf = 50 %) A C [50 %, 50 %] C A [50 %, 100 %] PUCP, GRPIAA Labs. June 21th, / 71

44 Reglas de Asociación Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto Items: A,B,C,D,E,F 4 transacciones (sub-conjunto de items) T1: {A,D} Soporte de un itemset (Supp) Supp ({A,D})=1/4 Supp ({A,C})=2/4 Itemsets frecuentes (minsupp=50 %) {A,C} es un itemset frecuente ID Items 1 A, D 2 A, C 3 A, B, C 4 A, B, F, E Reglas (minsupp and minconf = 50 %) A C [50 %, 50 %] C A [50 %, 100 %] PUCP, GRPIAA Labs. June 21th, / 71

45 Reglas de Asociación Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto Items: A,B,C,D,E,F 4 transacciones (sub-conjunto de items) T1: {A,D} Soporte de un itemset (Supp) Supp ({A,D})=1/4 Supp ({A,C})=2/4 Itemsets frecuentes (minsupp=50 %) {A,C} es un itemset frecuente ID Items 1 A, D 2 A, C 3 A, B, C 4 A, B, F, E Reglas (minsupp and minconf = 50 %) A C [50 %, 50 %] C A [50 %, 100 %] PUCP, GRPIAA Labs. June 21th, / 71

46 Reglas de Asociación Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto El espacio de búsqueda (trellis) PUCP, GRPIAA Labs. June 21th, / 71

47 Reglas de Asociación Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto PUCP, GRPIAA Labs. June 21th, / 71

48 Reglas de Asociación Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto PUCP, GRPIAA Labs. June 21th, / 71

49 Reglas de Asociación Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto PUCP, GRPIAA Labs. June 21th, / 71

50 Patrones secuenciales Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto Entender el comportamiento de fenómenos que cambian en el tiempo Item valor literal Itemset conjunto no vacío de items Secuencia lista ordenada de itemsets P.e. generalmente, los clientes compran Pisco y limón el viernes y Dolipran al día siguiente PUCP, GRPIAA Labs. June 21th, / 71

51 Patrones secuenciales Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto Items: A,B,C,D,E,F 4 secuencias (lista de itemsets) S1: {(A) (D)} Soporte de una secuencia (Supp) Supp ({(A, E) (C)})=1/4 Supp ({(A) (C)})=3/4 Secuencias frecuentes (minsupp=50 %) ID Secuencias 1 (A) (D) 2 (A) (C) 3 (A, E) (C) 4 (A) (B) (C D F) {(A) (C)} es un itemset frecuente {(A) (D)} es un itemset frecuente PUCP, GRPIAA Labs. June 21th, / 71

52 Patrones secuenciales Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto Items: A,B,C,D,E,F 4 secuencias (lista de itemsets) S1: {(A) (D)} Soporte de una secuencia (Supp) Supp ({(A, E) (C)})=1/4 Supp ({(A) (C)})=3/4 Secuencias frecuentes (minsupp=50 %) ID Secuencias 1 (A) (D) 2 (A) (C) 3 (A, E) (C) 4 (A) (B) (C D F) {(A) (C)} es un itemset frecuente {(A) (D)} es un itemset frecuente PUCP, GRPIAA Labs. June 21th, / 71

53 Patrones secuenciales Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto Items: A,B,C,D,E,F 4 secuencias (lista de itemsets) S1: {(A) (D)} Soporte de una secuencia (Supp) Supp ({(A, E) (C)})=1/4 Supp ({(A) (C)})=3/4 Secuencias frecuentes (minsupp=50 %) ID Secuencias 1 (A) (D) 2 (A) (C) 3 (A, E) (C) 4 (A) (B) (C D F) {(A) (C)} es un itemset frecuente {(A) (D)} es un itemset frecuente PUCP, GRPIAA Labs. June 21th, / 71

54 Patrones secuenciales Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto Items: A,B,C,D,E,F 4 secuencias (lista de itemsets) S1: {(A) (D)} Soporte de una secuencia (Supp) Supp ({(A, E) (C)})=1/4 Supp ({(A) (C)})=3/4 Secuencias frecuentes (minsupp=50 %) ID Secuencias 1 (A) (D) 2 (A) (C) 3 (A, E) (C) 4 (A) (B) (C D F) {(A) (C)} es un itemset frecuente {(A) (D)} es un itemset frecuente PUCP, GRPIAA Labs. June 21th, / 71

55 Patrones secuenciales Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto Items: A,B,C,D,E,F 4 secuencias (lista de itemsets) S1: {(A) (D)} Soporte de una secuencia (Supp) Supp ({(A, E) (C)})=1/4 Supp ({(A) (C)})=3/4 Secuencias frecuentes (minsupp=50 %) ID Secuencias 1 (A) (D) 2 (A) (C) 3 (A, E) (C) 4 (A) (B) (C D F) {(A) (C)} es una secuencia frecuente {(A) (D)} es una secuencia frecuente PUCP, GRPIAA Labs. June 21th, / 71

56 Patrones secuenciales Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto Items: A,B,C,D,E,F 4 secuencias (lista de itemsets) S1: {(A) (D)} Soporte de una secuencia (Supp) Supp ({(A, E) (C)})=1/4 Supp ({(A) (C)})=3/4 Secuencias frecuentes (minsupp=50 %) ID Secuencias 1 (A) (D) 2 (A) (C) 3 (A, E) (C) 4 (A) (B) (C, D F) {(A) (C)} es una secuencia frecuente {(A) (D)} es una secuencia frecuente PUCP, GRPIAA Labs. June 21th, / 71

57 Patrones secuenciales Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto El espacio de búsqueda (trellis) PUCP, GRPIAA Labs. June 21th, / 71

58 Trayectorias La información y el proceso KDD Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto Representa un objeto o conjunto de objetos del mismo tipo que se desplazan en el espacio y en el tiempo 2 2 F. Giannotti, M. Nanni, F. Pinelli, and D. Pedreschi. Trajectory pattern, Proceedings of the 13th ACM SIGKDD 2007 PUCP, GRPIAA Labs. June 21th, / 71

59 Colocalizaciones La información y el proceso KDD Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto Conjunto de características que aparecen frecuentemente en el espacio y en el tiempo 3 3 J. Han, K. Koperski, and N. Stefanovic. Geominer: a system prototype for spatial data mining, ACM SIGMOD 1997 PUCP, GRPIAA Labs. June 21th, / 71

60 Minería de texto La información y el proceso KDD Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto Análisis de una base de datos textual (corpus) y detectar patrones lexicales o lingüísticos que se puedan considerar (probablemente) como información interesante /!\ text mining information retrieval TALN PUCP, GRPIAA Labs. June 21th, / 71

61 Minería de texto La información y el proceso KDD Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto PUCP, GRPIAA Labs. June 21th, / 71

62 Minería de texto La información y el proceso KDD Métodos Supervisados y No supervisados Búsqueda de patrones Patrones complejos Minería de Texto Minería de opiniones Análisis de sentimientos Trayectoria de Tweets Detección de comunidades etc. PUCP, GRPIAA Labs. June 21th, / 71

63 Validación de patrones Los algoritmos de minería de datos pueden generar muchos patrones entre los cuales solo algunos pueden ser interesantes Analizar los patrones manualmente puede ser una tarea difícil Lo ideal es filtrar, ordenar, ponderar, etc. los patrones mas interesantes para el experto PUCP, GRPIAA Labs. June 21th, / 71

64 Validación de patrones Fuente: Camelis (S. Ferré) PUCP, GRPIAA Labs. June 21th, / 71

65 Visualización de patrones Los algoritmos de minería de datos generan patrones difíciles a interpretar Los patrones (secuenciales, trayectorias, etc) no son precisamente intuitivos Los expertos necesitan herramientas que les permitan aprender de los patrones extraídos PUCP, GRPIAA Labs. June 21th, / 71

66 Visualización de patrones PUCP, GRPIAA Labs. June 21th, / 71

67 Visualización de patrones PUCP, GRPIAA Labs. June 21th, / 71

68 Visualización de patrones PUCP, GRPIAA Labs. June 21th, / 71

69 La nueva tendencia Big Data: is an all-encompassing term for any collection of data sets so large and complex that it becomes difficult to process using on-hand data management tools or traditional data processing applications (source wikipedia). Streaming: how to compute new pattern knowing oldest ones that come in real-time Mining in social network Sentiment analysis PUCP, GRPIAA Labs. June 21th, / 71

70 Alguna duda sobre la importancia del curso? Pi π, el orden del caos... PUCP, GRPIAA Labs. June 21th, / 71

71 Thank you for your attention! PUCP, GRPIAA Labs. June 21th, / 71

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

Trabajo final de Ingeniería

Trabajo final de Ingeniería UNIVERSIDAD ABIERTA INTERAMERICANA Trabajo final de Ingeniería Weka Data Mining Jofré Nicolás 12/10/2011 WEKA (Data Mining) Concepto de Data Mining La minería de datos (Data Mining) consiste en la extracción

Más detalles

Introducción a la Minería de Datos

Introducción a la Minería de Datos Introducción a la Minería de Datos Abdelmalik Moujahid, Iñaki Inza y Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco Índice 1 Minería de

Más detalles

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING Aprendizaje Automático y Data Mining Bloque IV DATA MINING 1 Índice Definición y aplicaciones. Grupos de técnicas: Visualización. Verificación. Descubrimiento. Eficiencia computacional. Búsqueda de patrones

Más detalles

MINERIA DE DATOS Y Descubrimiento del Conocimiento

MINERIA DE DATOS Y Descubrimiento del Conocimiento MINERIA DE DATOS Y Descubrimiento del Conocimiento UNA APLICACIÓN EN DATOS AGROPECUARIOS INTA EEA Corrientes Maximiliano Silva La información Herramienta estratégica para el desarrollo de: Sociedad de

Más detalles

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Introducción a selección de atributos usando WEKA Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012 Contenido 1 Introducción a WEKA El origen Interfaces

Más detalles

Weka como herramienta de data mining

Weka como herramienta de data mining Weka como herramienta de data mining Lic. Aldave Rojas Isaac Alberto Instituto Tecnológico Superior de Ciudad Serdán Abstract El presente trabajo muestra un ejemplo introductorio a la herramienta de Data

Más detalles

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Vallejos, Sofia Contenido Introducción: Inteligencia de negocios (Business Intelligence). Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica.

Más detalles

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico Verónica Escobar González, Claudio Barrientos Ochoa, Sergio Barrientos Ochoa, Dirección de Modelamiento Geometalúrgico

Más detalles

Text Mining Introducción a Minería de Datos

Text Mining Introducción a Minería de Datos Text Mining Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.ar/~laura SADIO 12 de Marzo de 2008 qué es la minería de datos? A technique using software tools

Más detalles

Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil

Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil Osvaldo M. Spositto spositto@unlam.edu.ar Martín E. Etcheverry metcheverry@unlam.edu.ar

Más detalles

Los futuros desafíos de la Inteligencia de Negocios. Richard Weber Departamento de Ingeniería Industrial Universidad de Chile rweber@dii.uchile.

Los futuros desafíos de la Inteligencia de Negocios. Richard Weber Departamento de Ingeniería Industrial Universidad de Chile rweber@dii.uchile. Los futuros desafíos de la Inteligencia de Negocios Richard Weber Departamento de Ingeniería Industrial Universidad de Chile rweber@dii.uchile.cl El Vértigo de la Inteligencia de Negocios CRM: Customer

Más detalles

Minería de Datos. Vallejos, Sofia

Minería de Datos. Vallejos, Sofia Minería de Datos Contenido Introducción: Inteligencia de negocios (Business Intelligence). Componentes Descubrimiento de conocimiento en bases de datos (KDD). Minería de Datos: Perspectiva histórica. Fases

Más detalles

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) CLASIFICACIÓN NO SUPERVISADA CLUSTERING Y MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN) info@clustering.50webs.com Indice INTRODUCCIÓN 3 RESUMEN DEL CONTENIDO 3 APRENDIZAJE

Más detalles

M1. FUNDAMENTOS DE MINERÍA DE DATOS

M1. FUNDAMENTOS DE MINERÍA DE DATOS MÁSTER OFICIAL DE LA UNIVERSIDAD DE GRANADA "SOFT COMPUTING Y SISTEMAS INTELIGENTES" M1. FUNDAMENTOS DE MINERÍA DE DATOS J.L. CUBERO, F. BERZAL, F. HERRERA Dpto. Ciencias de la Computación e I.A. Universidad

Más detalles

Detección de Patrones de Bajo Rendimiento Académico y Deserción Estudiantil con Técnicas de Minería de Datos

Detección de Patrones de Bajo Rendimiento Académico y Deserción Estudiantil con Técnicas de Minería de Datos Detección de Patrones de Bajo Rendimiento Académico y Deserción Estudiantil con Técnicas de Minería de Datos Ricardo Timarán Pereira, Ph.D. Departamento de Sistemas, Facultad de Ingeniería, Universidad

Más detalles

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático?

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático? Ingeniería del conocimiento Sesión 1 Por qué estudiar aprendizaje automático? 1 Agenda Qué vamos a ver en la asignatura? Para qué sirve todo esto? Cómo aprobar la asignatura? 2 Extracción del conocimiento

Más detalles

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322 Nicole García Gómez 2830047-6 Diego Riquelme Adriasola 2621044-5 RESUMEN.- La minería de datos corresponde a la extracción

Más detalles

MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES

MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES Actualmente se vive una época donde se tiene una enorme cantidad de datos que se generan diariamente (del orden de Terabytes, Petabytes 1 (Han, Kamber, & Pei, 2012))

Más detalles

Reglas de Asociación. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid

Reglas de Asociación. Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Reglas de Asociación Carlos Alonso González Grupo de Sistemas Inteligentes Departamento de Informática Universidad de Valladolid Reglas Proposicionales: Reglas de Clasificación Descripción de instancias:

Más detalles

TweetAlert: Sistema de Análisis Semántico de la Voz de los Ciudadanos en Redes Sociales en la Ciudad del Futuro

TweetAlert: Sistema de Análisis Semántico de la Voz de los Ciudadanos en Redes Sociales en la Ciudad del Futuro TweetAlert: Sistema de Análisis Semántico de la Voz de los Ciudadanos en Redes Sociales en la Ciudad del Futuro Julio Villena-Román 1,2, Adrián Luna-Cobos 1,3, José Carlos González-Cristóbal 3,1 1 DAEDALUS

Más detalles

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre: : : lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. 12 6 lemas propios de la. 12 6 lemas propios de la.

Más detalles

Cómo se usa Data Mining hoy?

Cómo se usa Data Mining hoy? Cómo se usa Data Mining hoy? 1 Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta

Más detalles

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

EPB 603 Sistemas del Conocimiento!#$ %& $ %' Metodología para el Desarrollo de Proyectos en Minería de Datos CRISP-DM EPB 603 Sistemas del Conocimiento!"#$ %& $ %' Modelos de proceso para proyectos de Data Mining (DM) Son diversos los modelos de

Más detalles

Usos de Data Mining y KDD en Marketing Research

Usos de Data Mining y KDD en Marketing Research Usos de Data Mining y KDD en Marketing Research Charla Alumnos Maestría Minería de Datos y Explotación Conocimiento - Facultad Ciencias Exactas y Naturales UBA Buenos Aires - Noviembre 2008 Temario Los

Más detalles

OPTATIVA I: MINERIA DE DATOS

OPTATIVA I: MINERIA DE DATOS UNIVERSIDAD AUTÓNOMA DE CHIHUAHUA Clave: 08MSU007H Clave: 08USU4053W FACULTAD DE INGENIERÍA PROGRAMA DEL CURSO: OPTATIVA I: MINERIA DE DATOS DES: Programa(s) Educativo(s): Tipo de materia: Clave de la

Más detalles

Text Mining. Laura Alonso i Alemany. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.

Text Mining. Laura Alonso i Alemany. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu. Facultad de Matemática, Astronomía y Física UNC, Córdoba (Argentina) http://www.cs.famaf.unc.edu.ar/ laura SADIO 12, 13 y 14 de Marzo de 2008 grupo de PLN en FaMAF http://www.cs.famaf.unc.edu.ar/ pln/

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos Guía docente

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos Guía docente Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos Guía docente Impartido por: Juan Alfonso Lara Torralbo 1. Datos del docente NOMBRE Juan Alfonso Lara Torralbo FORMACIÓN

Más detalles

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/

Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/ Minería de Datos Web 1 er Cuatrimestre 2015 Página Web http://www.exa.unicen.edu.ar/catedras/ageinweb/ Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs. As., Argentina http://www.exa.unicen.edu.ar/~dgodoy

Más detalles

Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas

Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas Un modelo predictivo para reducir la tasa de ausentismo en atenciones médicas programadas Ing. Juan Miguel Moine Ing. Cristian Germán Bigatti Ing. Guillermo Leale Est. Graciela Carnevali Est. Esther Francheli

Más detalles

Procesamiento de Texto y Modelo Vectorial

Procesamiento de Texto y Modelo Vectorial Felipe Bravo Márquez 6 de noviembre de 2013 Motivación Cómo recupera un buscador como Google o Yahoo! documentos relevantes a partir de una consulta enviada? Cómo puede procesar una empresa los reclamos

Más detalles

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP Universidad Politécnica de Puebla UPP JESÚS ANTONIO GONZÁLEZ BERNAL 1 2 Evolución de la Tecnología BD 1960 s y antes Creación de las BD en archivos primitivos 1970 s hasta principios de los 1980 s BD Jerárquicas

Más detalles

Las reglas de asociación tienen diversas aplicaciones como:

Las reglas de asociación tienen diversas aplicaciones como: Capítulo 4 Reglas de Asociación El objetivo de las reglas de asociación es encontrar asociaciones o correlaciones entre los elementos u objetos de bases de datos transaccionales, relacionales o datawarehouses.

Más detalles

Web mining y obtención de información para la generación de

Web mining y obtención de información para la generación de Web mining y obtención de información para la generación de inteligencia Miguel Ángel Esteban (Universidad de Zaragoza) mesteban@unizar.es Instituto Juan Velázquez de Velasco de Investigación en Inteligencia

Más detalles

KDD y MD. Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA 2005. Juan Pedro Febles KDD y MD

KDD y MD. Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA 2005. Juan Pedro Febles KDD y MD KDD y MD Dr. Juan Pedro Febles Rodríguez BIOINFO febles@bioinfo.cu http://www.bioinfo.cu CITMA 2005 Temas a tratar Algunos antecedentes académicos. El proceso de descubrimiento de conocimientos en Datos

Más detalles

De qué tratará el curso. Otras consideraciones. Objetivos. Introducción. Motivación Explosión en la disponibilidad de información:

De qué tratará el curso. Otras consideraciones. Objetivos. Introducción. Motivación Explosión en la disponibilidad de información: Datamining y Aprendizaje Automatizado Prof. Carlos Iván Chesñevar Email: cic@cs.uns.edu.ar Http:\\cs.uns.edu.ar\~cic Departamento de Cs. e Ing. de la Computación Universidad Nacional del Sur Bahía Blanca,

Más detalles

ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA

ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA ARQUITECTURA ESCALABLE PARA LA DETECCIÓN DE PATRONES SECUENCIALES DIFUSOS EN MINERÍA DE DATOS CUANTITATIVA Pablo F. Provasi 1 Lucio J. Kleisinger 1 Francisco R. Villatoro 2 1 Dpto. de Informática, Universidad

Más detalles

APLICACIÓN DEL ALGORITMO GSP_M PARA LA IDENTIFICACIÓN DE PATRONES DE USUARIOS SOBRE AMBIENTES EDUCATIVOS

APLICACIÓN DEL ALGORITMO GSP_M PARA LA IDENTIFICACIÓN DE PATRONES DE USUARIOS SOBRE AMBIENTES EDUCATIVOS APLICACIÓN DEL ALGORITMO GSP_M PARA LA IDENTIFICACIÓN DE PATRONES DE USUARIOS SOBRE AMBIENTES EDUCATIVOS Héctor F Gómez A *, Susana A Arias T **, Yuliana C Jiménez *** Universidad Técnica Particular de

Más detalles

FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA

FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA FILTRADO DE CONTENIDOS WEB EN ESPAÑOL DENTRO DEL PROYECTO POESIA Enrique Puertas epuertas@uem.es Francisco Carrero fcarrero@uem.es José María Gómez Hidalgo jmgomez@uem.es Manuel de Buenaga buenga@uem.es

Más detalles

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda Inteligencia en Redes de Comunicaciones Tema 7 Minería de Datos Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda {jvillena, rcrespo, rueda}@it.uc3m.es Índice Definición y conceptos

Más detalles

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY)

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY) Autor: Lic. Manuel Ernesto Acosta Aguilera Entidad: Facultad de Economía, Universidad de La Habana Dirección: Edificio

Más detalles

Resumen. 1.1 Knowledge discovery in databases

Resumen. 1.1 Knowledge discovery in databases KDD (Knowledge Discovery in Databases): Un proceso centrado en el usuario Héctor Oscar Nigro, Daniel Xodo, Gabriel Corti, Damián Terren INCA/INTIA - Departamento de Computación y Sistemas Facultad de Ciencias

Más detalles

Métricas de complejidad para la transformación del problema de detección de cáncer basado en

Métricas de complejidad para la transformación del problema de detección de cáncer basado en Índice para la transformación del problema de detección de cáncer basado en mamografías Alumna: Núria Macià Antoĺınez Asesora: Ester Bernadó Mansilla Núria Macià Antoĺınez PFC: 1/49 Índice 1 Planteamiento

Más detalles

Evaluación de modelos para la predicción de la Bolsa

Evaluación de modelos para la predicción de la Bolsa Evaluación de modelos para la predicción de la Bolsa Humberto Hernandez Ansorena Departamento de Ingeniería Telemática Universidad Carlos III de Madrid Madrid, España 10003975@alumnos.uc3m.es Rico Hario

Más detalles

Big Data & Machine Learning. MSc. Ing. Máximo Gurméndez Universidad de Montevideo

Big Data & Machine Learning. MSc. Ing. Máximo Gurméndez Universidad de Montevideo Big Data & Machine Learning MSc. Ing. Máximo Gurméndez Universidad de Montevideo Qué es Big Data? Qué es Machine Learning? Qué es Data Science? Ejemplo: Predecir origen de artículos QUÉ DIARIO LO ESCRIBIÓ?

Más detalles

Una metaheurística para la extracción de reglas de asociación. Aplicación a terremotos.

Una metaheurística para la extracción de reglas de asociación. Aplicación a terremotos. Escuela Técnica Superior de Ingeniería Informática Máster Oficial en Ingeniería y Tecnología del Software TRABAJO FIN DE MÁSTER Una metaheurística para la extracción de reglas de asociación. Aplicación

Más detalles

CURSO MINERÍA DE DATOS AVANZADO

CURSO MINERÍA DE DATOS AVANZADO CURSO MINERÍA DE DATOS AVANZADO La minería de datos (en inglés, Data Mining) se define como la extracción de información implícita, previamente desconocida y potencialmente útil, a partir de datos. En

Más detalles

Anexo 11. Manual de Administración

Anexo 11. Manual de Administración PONTIFICIA UNIVERSIDAD JAVERIANA Anexo 11. Manual de Administración Para mantenimiento a los modelos y código fuente Alex Arias 28/05/2014 El presente documento muestra los requerimientos necesarios para

Más detalles

Trabajo Practico N 12

Trabajo Practico N 12 Trabajo Practico N 12 Minería de Datos CATEDRA: Actualidad Informática Ingeniería del Software III Titular: Mgter. Horacio Kuna JTP: Lic. Sergio Caballero Auxiliar: Yachesen Facundo CARRERAS: Analista

Más detalles

Impacto de la ironía en la minería de opiniones basada en un léxico afectivo

Impacto de la ironía en la minería de opiniones basada en un léxico afectivo Impacto de la ironía en la minería de opiniones basada en un léxico afectivo Yolanda Raquel Baca-Gómez a, Delia Irazú Hernández Farías b, Paolo Rosso b, Noé Alejandro Castro-Sánchez a, Alicia Martínez

Más detalles

WEB MINING FOR IDENTIFYING PATTERNS

WEB MINING FOR IDENTIFYING PATTERNS Minería de uso Web para la identificación de patrones Castaño P. Andres P. * Resumen La minería Web es la aplicación de técnicas de minería de datos para descubrir patrones de uso de los usuarios desde

Más detalles

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos Published on Dataprix (http://www.dataprix.com) Principal > Artículos de Minería de Datos de Dataprix By Dataprix Created 26/12/2009-17:13 Artículos de Minería de Datos de Dataprix Introducción a la minería

Más detalles

PREPROCESADO DE DATOS PARA MINERIA DE DATOS

PREPROCESADO DE DATOS PARA MINERIA DE DATOS Ó 10.1007/978-3-319-02738-8-2. PREPROCESADO DE DATOS PARA MINERIA DE DATOS Miguel Cárdenas-Montes Frecuentemente las actividades de minería de datos suelen prestar poca atención a las actividades de procesado

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 Índice de contenidos (I) Introducción a Data Mining Actividad. Tipos

Más detalles

HADES: Hidrocarburos Análisis de Datos de Estaciones de Servicio

HADES: Hidrocarburos Análisis de Datos de Estaciones de Servicio Hidrocarburos: Análisis de Pablo Burgos Casado (Jefe de Área Desarrollo (SGTIC - MITYC)) María Teresa Simino Rueda Rubén Pérez Gómez Israel Santos Montero María Ángeles Rodelgo Sanchez 1. INTRODUCCIÓN

Más detalles

Diseño e Implementación de un Sistema para la Segmentación de Clientes de una Operadora Celular

Diseño e Implementación de un Sistema para la Segmentación de Clientes de una Operadora Celular Diseño e Implementación de un Sistema para la Segmentación de Clientes de una Operadora Celular AUTORES: Fabián Cabrera Cuenca 1, Sergio Jonathan León García 2, Ilse Lorena Ycaza Díaz 3, Juan Aurelio Alvarado

Más detalles

Texto, imágenes, video Hiperenlaces Archivo log

Texto, imágenes, video Hiperenlaces Archivo log Web Mining Web Mining Aplicación técnicas data mining sobre datos que Web Descubrimiento automático información útil de documentos y servicios Web Texto, imágenes, video Hiperenlaces Archivo log Netcraft

Más detalles

Área Académica: Sistemas Computacionales. Tema: Introducción a almacén de datos. Profesor: Mtro Felipe de Jesús Núñez Cárdenas

Área Académica: Sistemas Computacionales. Tema: Introducción a almacén de datos. Profesor: Mtro Felipe de Jesús Núñez Cárdenas Área Académica: Sistemas Computacionales Tema: Introducción a almacén de datos Profesor: Mtro Felipe de Jesús Núñez Cárdenas Periodo: Agosto Noviembre 2011 Keywords Almacén de Datos, Datawarehouse, Arquitectura

Más detalles

Minería de datos para descubrir estilos de aprendizaje

Minería de datos para descubrir estilos de aprendizaje Minería de datos para descubrir estilos de aprendizaje ELENA DURÁN ROSANNA COSTAGUTA Universidad Nacional de Santiago del Estero, Argentina 1. Introducción Felder y Silverman (1988) afirman que los estudiantes

Más detalles

Proceso del KDD (minería de datos o DataMining)

Proceso del KDD (minería de datos o DataMining) Qué es el KDD? Es un proceso no trivial que identifica patrones validos, previamente desconocidos, potencialmente utiles y fundamentalmente entendibles en los datos. es como se reconoce de manera teoria

Más detalles

Grupo de investigación en Minería de Datos http://mida.usal.es

Grupo de investigación en Minería de Datos http://mida.usal.es Departamento de Informática y Automática Postgrado en Informática y Automática MÁSTER EN SISTEMAS INTELIGENTES ASIGNATURAS Introducción a la Minería de Datos Minería Web María N. Moreno García http://avellano.usal.es/~mmoreno

Más detalles

Recuperación de información visual utilizando descriptores conceptuales

Recuperación de información visual utilizando descriptores conceptuales Recuperación de información visual utilizando descriptores conceptuales J. Benavent, X. Benavent y E. de Ves Departament d Informàtica (Universitat de València) {esther.deves,xaro.benavent}@uv.es Abstract.

Más detalles

Práctica de Aprendizaje

Práctica de Aprendizaje Práctica de Aprendizaje 2013 1er Cuatrimestre cbea Enginyeria en Informàtica Departament de Llenguatges i Sistemes Informàtics Índice general 1. Práctica de laboratorio de aprendizaje inductivo 1 2. Procesamiento

Más detalles

Introducción a la minería de datos. Necesidades asociadas

Introducción a la minería de datos. Necesidades asociadas Universidad Nacional de La Pampa Facultad de Ciencias Económicas y Jurídicas Introducción a la minería de datos. Necesidades asociadas Mg. Ing. Mario José Diván mjdivan@divsar.com.ar Temario 1. Qué es

Más detalles

Data Mining Técnicas y herramientas

Data Mining Técnicas y herramientas Data Mining Técnicas y herramientas Introducción POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos

Más detalles

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 - Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 9 - Juan Alfonso Lara Torralbo 1 Índice de contenidos Actividad. Qué es un modelo de Data Mining Qué es

Más detalles

ETL: Extractor de datos georreferenciados

ETL: Extractor de datos georreferenciados ETL: Extractor de datos georreferenciados Dr. Juan Pablo Díaz Ezcurdia Doctor Honoris Causa Suma Cum Laude Master en Telecomunicaciones Master en Gestión Educativa Coordinador de la comisión de CSIRT de

Más detalles

Área Académica: Sistemas Computacionales. Tema: Arquitectura de un sistema de almacén de datos. Profesor: Mtro Felipe de Jesús Núñez Cárdenas

Área Académica: Sistemas Computacionales. Tema: Arquitectura de un sistema de almacén de datos. Profesor: Mtro Felipe de Jesús Núñez Cárdenas Área Académica: Sistemas Computacionales Tema: Arquitectura de un sistema de almacén de datos Profesor: Mtro Felipe de Jesús Núñez Cárdenas Periodo: Agosto Noviembre 2011 Keywords Almacen de Datos, Datawarehouse,

Más detalles

DETECCIÓN DE PATRONES DE ACCESIBILIDAD EN EL DESARROLLO DE PROYECTOS WEB

DETECCIÓN DE PATRONES DE ACCESIBILIDAD EN EL DESARROLLO DE PROYECTOS WEB DETECCIÓN DE PATRONES DE ACCESIBILIDAD EN EL DESARROLLO DE PROYECTOS WEB Villanueva, J. (p) ; Rodríguez, V.; Ortega, F.; Mijares, A. Abstract The use of accessibility requirements in the development of

Más detalles

DESARROLLO Y ANÁLISIS DE LA UTILIZACIÓN DE ALGORITMOS DE MINERÍA DE DATOS PARA LA BÚSQUEDA DE ANOMALÍAS Y PATRONES SECUENCIALES EN MINERÍA DE PROCESOS

DESARROLLO Y ANÁLISIS DE LA UTILIZACIÓN DE ALGORITMOS DE MINERÍA DE DATOS PARA LA BÚSQUEDA DE ANOMALÍAS Y PATRONES SECUENCIALES EN MINERÍA DE PROCESOS PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE ESCUELA DE INGENIERIA DESARROLLO Y ANÁLISIS DE LA UTILIZACIÓN DE ALGORITMOS DE MINERÍA DE DATOS PARA LA BÚSQUEDA DE ANOMALÍAS Y PATRONES SECUENCIALES EN MINERÍA

Más detalles

Minería de datos para la determinación del grado de exclusión social

Minería de datos para la determinación del grado de exclusión social Minería de datos para la determinación del grado de exclusión social Data mining to determine the degree of social exclusion * Jorge Enrique Rodríguez Rodríguez Fecha de recepción: 23 de agosto de 2008

Más detalles

Gestión del Conocimiento. Gestión del Conocimiento. Herramientas para la

Gestión del Conocimiento. Gestión del Conocimiento. Herramientas para la Herramientas para la Departamento de Informática Facultad de Ciencias Económicas Universidad Nacional de Misiones Universidad Nacional de Misiones Facultad de Ciencias Económicas Departamento de Informática

Más detalles

Revista Científica Guillermo de Ockham ISSN: 1794-192X investigaciones@ubscali.edu.co Universidad de San Buenaventura Colombia

Revista Científica Guillermo de Ockham ISSN: 1794-192X investigaciones@ubscali.edu.co Universidad de San Buenaventura Colombia Revista Científica Guillermo de Ockham ISSN: 1794-192X investigaciones@ubscali.edu.co Universidad de San Buenaventura Colombia Timarán Pereira, Ricardo Una Lectura sobre deserción universitaria en estudiantes

Más detalles

INTELIGENCIA DE NEGOCIO 2014-2015

INTELIGENCIA DE NEGOCIO 2014-2015 INTELIGENCIA DE NEGOCIO 2014-2015 Tema 1. Introducción a la Inteligencia de Negocio Tema 2. Retos en Inteligencia de Negocio Tema 3. Minería de Datos Tema 4. Modelos de Predicción: Clasificación, regresión

Más detalles

Otros aspectos. Procesado de la entrada Procesado de la salida. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid

Otros aspectos. Procesado de la entrada Procesado de la salida. Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Otros aspectos Procesado de la entrada Procesado de la salida Carlos J. Alonso González Departamento de Informática Universidad de Valladolid Contenido 1. Procesado de la entrada 1. Motivación y tareas

Más detalles

Ordenamiento de imágenes Web de acuerdo a su relevancia utilizando un enfoque de fusión multimodal

Ordenamiento de imágenes Web de acuerdo a su relevancia utilizando un enfoque de fusión multimodal Ordenamiento de imágenes Web de acuerdo a su relevancia utilizando un enfoque de fusión multimodal Reporte final Ricardo Omar Chávez García Instituto Nacional de Astrofísica Óptica y Electrónica, 72840

Más detalles

Botón menú Objetivo de la Minería de datos.

Botón menú Objetivo de la Minería de datos. Titulo de Tutorial: Minería de Datos N2 Botón menú: Introducción. Las instituciones y empresas privadas coleccionan bastante información (ventas, clientes, cobros, pacientes, tratamientos, estudiantes,

Más detalles

Qué factores influyen más en el crecimiento de los emprendimientos?

Qué factores influyen más en el crecimiento de los emprendimientos? Qué factores influyen más en el crecimiento de los emprendimientos? José Cazal 1, María Messina 2, Esther Hochsztain 2 1 Facultad Politécnica, Universidad Nacional de Asunción. 2 Facultad de Ciencias Económicas

Más detalles

Clasificación Bayesiana de textos y páginas web

Clasificación Bayesiana de textos y páginas web Clasificación Bayesiana de textos y páginas web Curso de doctorado: Ingeniería Lingüística aplicada al Procesamiento de Documentos Víctor Fresno Fernández Introducción Enorme cantidad de información en

Más detalles

Similaridad y Clustering

Similaridad y Clustering Similaridad y Clustering 1 web results motivación Problema 1: ambigüedad de consultas Problema 2: construcción manual de jerarquías de tópicos y taxonomías Problema 3: acelerar búsqueda por similaridad

Más detalles

Informática II Ing. Industrial. Data Warehouse. Data Mining

Informática II Ing. Industrial. Data Warehouse. Data Mining Data Warehouse Data Mining Definición de un Data Warehouses (DW) Fueron creados para dar apoyo a los niveles medios y altos de una empresa en la toma de decisiones a nivel estratégico en un corto o mediano

Más detalles

Minera de datos aplicada a la detección de Cáncer de Mama

Minera de datos aplicada a la detección de Cáncer de Mama Minera de datos aplicada a la detección de Cáncer de Mama Eugenio Hernández Martínez Universidad Carlos III de Madrid 100039081@alumnos.uc3m.es Rodrigo Lorente Sanjurjo Universidad Carlos III de Madrid

Más detalles

Aplicación de Redes bayesianas usando Weka.

Aplicación de Redes bayesianas usando Weka. Aplicación de Redes bayesianas usando Weka. Cynthia Lorena Corso 1, Fabian Gibellini 1 1 Universidad Tecnológica Nacional, Facultad Regional Córdoba Laboratorio de Sistemas de Información Maestro M. López

Más detalles

Inteligencia Artificial en Redes Sociales: la IA 2.0. Carlos A. Iglesias Univ. Politécnica Madrid. Santiago de Compostela, 2010

Inteligencia Artificial en Redes Sociales: la IA 2.0. Carlos A. Iglesias Univ. Politécnica Madrid. Santiago de Compostela, 2010 Inteligencia Artificial en Redes Sociales: la IA 2.0 Carlos A. Iglesias Univ. Politécnica Madrid Santiago de Compostela, 2010 Índice Inteligencia Colectiva Recomendación colectiva Minería de Opiniones

Más detalles

Desmitificando Big Data:

Desmitificando Big Data: Desmitificando Big Data: Data Mining y Business Intelligence 2.0 Ignacio Bustillo Ignacio.Bustillo@stratebi.com Twitter: @IgnacioBustillo Fecha presentación: 14 de Noviembre de 2014 'Hello world!' Creador

Más detalles

N i p1.5 : UNA HERRAMIENTA SOFTWARE PARA LA GENERACIÓN DE CONJUNTOS DE DATOS CON IMPERFECCIÓN PARA MINERÍA DE DATOS

N i p1.5 : UNA HERRAMIENTA SOFTWARE PARA LA GENERACIÓN DE CONJUNTOS DE DATOS CON IMPERFECCIÓN PARA MINERÍA DE DATOS N i p1.5 : UNA HERRAMIENTA SOFTWARE PARA LA GENERACIÓN DE CONJUNTOS DE DATOS CON IMPERFECCIÓN PARA MINERÍA DE DATOS José M. Cadenas Juan V. Carrillo M. Carmen Garrido Enrique Muñoz Departamento de Ingeniería

Más detalles

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA MSC ZOILA RUIZ VERA Empresa Cubana de Aeropuertos y Servicios Aeronáuticos Abril 2010 ANTECEDENTES El proyecto Seguridad es una

Más detalles

David Jordi Vallet Weadon.

David Jordi Vallet Weadon. <david.vallet@uam.es> David Jordi Vallet Weadon 1 Introducción Durante las últimas décadas, la personalización ha sido aplicada en diferentes campos de la informática, tanto en la rama científica como

Más detalles

JoséPino-Díaz 1 Rosario Ruiz-Baños 2 Rafael Bailón Moreno 3

JoséPino-Díaz 1 Rosario Ruiz-Baños 2 Rafael Bailón Moreno 3 Caracterización estratégica de la investigación española reciente sobre la literatura artística de los siglos XVI- XVIII, según ISOC. JoséPino-Díaz 1 Rosario Ruiz-Baños 2 Rafael Bailón Moreno 3 1. Departamento

Más detalles

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net Proyecto técnico MINERÍA DE DATOS Febrero 2014 www.osona-respon.net info@osona-respon.net 0. Índice 0. ÍNDICE 1. INTRODUCCIÓN... 2 2. LOS DATOS OCULTOS... 3 2.1. Origen de la información... 3 2.2. Data

Más detalles

Formalización de Web Mining como Conocimiento Estructurado

Formalización de Web Mining como Conocimiento Estructurado Formalización de Web Mining como Conocimiento Estructurado Gabriel R. Filocamo Carlos I. Chesñevar Laboratorio de Investigación y Desarrollo en Inteligencia Artificial (LIDIA) Departamento de Ciencias

Más detalles

Minería de datos: concepto y aplicaciones

Minería de datos: concepto y aplicaciones Minería de datos: concepto y aplicaciones Marvin Coto-Jiménez * *Universidad Autónoma Metropolitana/Universidad de Costa Rica. marvin.coto@ucr.ac.cr Minería de datos: concepto y aplicaciones. Marvin Coto-Jiménez.

Más detalles

1 www.webopinion.es. La herramienta definitiva para el seguimiento y análisis online de la reputación de su marca en castellano.

1 www.webopinion.es. La herramienta definitiva para el seguimiento y análisis online de la reputación de su marca en castellano. 1 www.webopinion.es La herramienta definitiva para el seguimiento y análisis online de la reputación de su marca en castellano. White paper Agosto 2013 QUÉ IMPACTO TIENE EN EL PÚBLICO SU LABOR EN LAS COMUNIDADES

Más detalles

Sistemas de Recuperación de Información

Sistemas de Recuperación de Información Sistemas de Recuperación de Información Los SRI permiten el almacenamiento óptimo de grandes volúmenes de información y la recuperación eficiente de la información ante las consultas de los usuarios. La

Más detalles

Análisis de opinión como un sistema multiagente distribuido

Análisis de opinión como un sistema multiagente distribuido Análisis de opinión como un sistema multiagente distribuido Pablo Kogan Sandra Roger email: {pkogan,sroger}@uncoma.edu.ar Grupo de Investigación en Lenguajes e Inteligencia Artificial Departmento de Teoría

Más detalles

Modeling the Retrieval Process for an Information Retrieval System using an Ordinal Fuzzy Linguistic Approach

Modeling the Retrieval Process for an Information Retrieval System using an Ordinal Fuzzy Linguistic Approach JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY, 52(6):460-475, 2001 Modeling the Retrieval Process for an Information Retrieval System using an Ordinal Fuzzy Linguistic Approach

Más detalles

SISTEMA DE INFORMACION GERENCIAL. Lic.Patricia Palacios Zuleta

SISTEMA DE INFORMACION GERENCIAL. Lic.Patricia Palacios Zuleta SISTEMA DE INFORMACION GERENCIAL Lic.Patricia Palacios Zuleta Pentaho Open BI Suite La suite Pentaho cubre principalmente las siguientes áreas: integración de datos, reportes, análisis, alertas y dashboards,

Más detalles

Taller práctico: Crear y visualizar nuevo conocimiento extraído de un corpus documental mediante

Taller práctico: Crear y visualizar nuevo conocimiento extraído de un corpus documental mediante Taller práctico: Crear y visualizar nuevo conocimiento extraído de un corpus documental mediante TextMining Análisis estratégico de la investigación en Información y documentación ambiental, según ISOC

Más detalles