5. Minería de datos. Minería de datos. Aprendizaje UPM UPM. c 2010 DIT-ETSIT-UPM Minería de datos transp. 1

Documentos relacionados
2. Algoritmos genéticos y redes neuronales 3. Inducción de árboles clasificadores. Inducción de árboles de clasificación. Aprendizaje UPM UPM

Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Índice general. Prefacio...5

DATA MINING CONCEPTOS Y EXPERIENCIA EN LA FISCALIZACIÓN DEL MERCADO DE VALORES DE CHILE

Minería de Datos. Índice. Raquel M. Crespo García. Julio Villena Román. Definición y conceptos Técnicas y modelos

TÓPICOS SELECTOS DE OTROS CURSOS

Posibles trabajos HIA

Buenas prácticas para la implementación de herramientas de Ciencia de Datos Leonardo Alfonso Ramos Corona Facultad de Geografía, UAEM.

1.-DATOS DE LA ASIGNATURA

How can I analyze this data? Knowledge. Data rich, Information poor. Conocimiento (patrones interesantes)

CURSO/GUÍA PRÁCTICA DEL BIG DATA INMOBILIARIO

Introducción a la minería de datos. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

Nuevo plan de estudios. Especialización en Inteligencia de Negocios. Marzo de Curso Descripción Corta Contenidos

PROGRAMA DE CURSO. Código Nombre INTRODUCCIÓN A LA MINERÍA DE DATOS Nombre en Inglés Introduction to Data Mining Unidades

La Red Martínez, David Luis Quintana, Osvaldo Pantaleón. Cutro, Luis Alfonso LU Nº:29027

Programa(s) Educativo(s): Clave de la materia: Semestre:

Identificación de variables asociadas al éxito académico en Estudiantes de la Facultad de Informática Mazatlán

Jesús García Herrero METODOLOGÍA DE ANÁLISIS DE DATOS

RECURSOS DE TI Aplicaciones - Bibliografía USO DE BD PARA MEJORAR EL DESEMPEÑO EMPRESARIAL

Itinerario: Inteligencia Computacional

Introducción a la Minería de Datos

Módulo Minería de Datos Diplomado. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

Bases Formales de la Computación: Redes de Bayes (segunda parte)

Rendimiento Académico: un estudio de la situación actual en las carreras de ingeniería en UTN Rafaela. Contexto

Clasificación Bayesiana

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

Modelos de Mercadotecnia. SESIÓN # 2. Bases de datos.

LA MINERÍA DE DATOS APLICADA A LA BÚSQUEDA DE PATRONES DE SUPERVIVIENCIA EN LA NEOPLASIA MALIGNA DE TRÁQUEA, BRONQUIOS Y PULMÓN

Inteligencia de Negoción con GlobalDataMED

Bases estadísticas del reconocimiento de patrones

Aseguramiento de la calidad y pruebas de software

Analizando patrones de datos

Automatización de la Evaluación del Impacto Social en Proyectos de Inversión Publica

10 EXÁMENES


Algoritmos de recubrimiento: AQ y derivados

Tareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR

Introducción a la minería de datos

Afinación y Rendimiento de Bases de Datos

Universidad Autónoma del Estado de México. La minería de datos en el proceso de KDD ( Knowledge Discovery and Data Mining)

Aux 1. Introducción a la Minería de Datos

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

Sistemas de Percepción Visión por Computador

Grado en Estadística Guía Académica Universidad de Salamanca

Asignaturas Temas Asignaturas Temas

Aprendizaje Automatizado

Taller #3. Carlos Reveco Cinthya Vergara

ANX-PR/CL/ GUÍA DE APRENDIZAJE

Introducción a la Minería de Datos. Instituto de Computación - CPAP

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

APLICACIONES DE MINERA DE DATOS EN ADUANA DE PERU. Luis Azaña Bocanegra

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Métodos de Inteligencia Artificial

MINERIA DE DATOS USANDO SISTEMAS INTELIGENTES

APRENDIZAJE PROBABILÍSTICO NAIVE BAYES

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

Minería de Datos. Profra. Heidy Marisol Marin Castro Universidad Politécnica de Victoria

Administración de las Bases de Datos

Estadística Computacional

Técnicas del aprendizaje automático para la asistencia en la toma de decisiones

Introducción: Data Mining

Selección de atributos

Aplicaciones empresariales

Visión global del KDD

Curso Básico de Análisis Predictivo Minería de Datos y Minería de Textos (DM051)

Inferencia en Modelos Gráficos para detección de Tópicos (LDA)

PROPUESTA DE MINOR CIENCIA DE LOS DATOS. DATA SCIENCE Resultados de Aprendizaje del Minor

CARACTERÍSTICAS GENERALES

Herramientas de Software Libre para el aprendizaje automático.

Introducción a la Minería de Datos

TÉCNICAS BASADAS EN GRAFOS APLICADOS AL PROCESAMIENTO DEL LENGUAJE

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP

Aprendizaje inductivo no basado en el error Métodos competitivos supervisados.

Clasificación estadística de patrones

UNIVERSIDAD TECNOLÓGICA DE PEREIRA FACULTAD DE INGENIERÍAS MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN APRENDIZAJE DE MÁQUINA

Sumario Prólogo Unidad didáctica 1. Introducción a business intelligence Objetivos de la Unidad... 12

1 CÁLCULO DE PROBABILIDADES

DIPLOMADO EN DATA MINING


TEMA 1: INTRODUCCIÓN N AL PROCESADO Y ANÁLISIS DE DATOS

Aplicaciones. Inteligencia Computacional Carrera de Ingeniería Informática

Inteligencia de Negocio

YO, CIENCIA DE DATOS. BIG DATA DAY Facultad de Ciencias, UNAM Ciudad de México, marzo 2016

Machine Learning y su Utilización en Riesgo de. Seemant Teotia Sr. Director International Analytics Equifax Inc. USA. Crédito

PROGRAMA DE LA ASIGNATURA. Curso académico: 2013/14

VISUALBITOOL: Una Herramienta para la Visualización de Datos en Inteligencia de Negocios MANUAL DEL USUARIO

DE LAS BD A LOS ALMACENES DE DATOS (DW) FINALIDADES Y EVOLUCIÓN DE LOS SISTEMAS DE INFORMACIÓN FINALIDADES Y EVOLUCIÓN DE LOS SISTEMAS DE INFORMACIÓN

Programa de Extensión Universitaria y Vinculación (PEUVI), Departamento de Matemáticas.

TABLA DE CONTENIDO. POSICIONAMIENTO ESTRATÉGICO DE LA ORGANIZACIÓN Clientes, usuarios y beneficiarios... 23

T E X T O D E L M A N U A L D E H T M L, W E B M A E S T R O, P O R F R A N C I S C O A R O C E N A

Trajectory Data Mining

Estudio y Comparativa de Diferentes Discretizaciones en Clasificadores Bayesianos

Inteligencia de Negocio Curso

Técnicas de Minería de Datos

MINERIA DE DATOS USANDO SISTEMAS INTELIGENTES

Transcripción:

1. Preliminares Aprendizaje 2. Algoritmos genéticos y redes neuronales 3. Inducción de árboles clasificadores 4. Inducción de reglas 5. Minería de datos c 20 DIT-ETSIT- Minería de datos transp. 1 Minería de datos Definiciones, aplicaciones y técnicas Clasificadores bayesianos en minería de textos Minería de web Herramientas c 20 DIT-ETSIT- Minería de datos transp. 2

Sobrecarga de información Vannevar Bush, «As we may think» (1945): «Memex» como ayuda a la recuperación de información Milford y Perry (1977), «Information overload»: Cuando el volumen de estímulos (datos de entrada) al procesador cognitivo supera su capacidad de procesamiento Blum (1980): Extracción de conocimiento de bases de datos médicas Date (1990). Publicaciones de BD: 100.000 págs./año Piatetsky Shapiro y Frawley (1991): La cantidad de «información» en el mundo se duplica cada 20 meses. c 20 DIT-ETSIT- Minería de datos transp. 3 La «ley de Piatetsky» en la web En 1994 WWWW tenía indexadas 110.000 páginas web En 1995 se estimaban 50 M ficheros disponibles Previsiones para el 2000: 150 M En 2000, ÐÐØ Û ºÓÑ: 300 M páginas web y 100 M ftp Google: 3.084 M documentos en 2002 8.058 M en noviembre 2004 1 B («trillion»: 10 12 ) (?) en julio 2008 The Internet Archive Wayback Machine (ÛÛÛº Ö Ú ºÓÖ ): 100 TB en 20 2 PB (85.000 M págs.) en 2008, creciendo a 20 TB/mes c 20 DIT-ETSIT- Minería de datos transp. 4

Extracción de conocimiento en bases de datos Proyecto RX: «programa que examina una base de datos clínica y genera un conjunto de posibles relaciones causales» (Blum, 1980) Modelo: observaciones Implementación: datos investigador experimento diseño de experimento conocimiento de estadística conocimiento del dominio módulo de descubrimiento módulo de estudio relaciones (hipótesis plausibles) conformación o rechazo de hipótesis conocimiento estadístico y médico c 20 DIT-ETSIT- Minería de datos transp. 5 KDD y DM: definiciones KDD: descubrimiento de conocimiento en bases de datos DM: minería de datos KDD = proceso completo: «extracción no trivial de conocimiento implícito, previamente desconocido y potencialmente útil, a partir de una base de datos» (Frawley et al., 1991) DM = etapa de descubrimiento en el proceso de KDD: «paso consistente en el uso de algoritmos concretos que generan una enumeración de patrones a partir de los datos preprocesados» (Fayyad et al., 1996) c 20 DIT-ETSIT- Minería de datos transp. 6

Proceso del KDD Preproceso Transformación Minería de datos Interpretación y evaluación K Conocimiento Datos Selección Datos Objetivo Datos Preprocesados Datos Transf. Patrones c 20 DIT-ETSIT- Minería de datos transp. 7 Selección previa: Selección, preproceso, transformación Si es un almacén (data warehouse), elección de vistas Si los datos están en una BDR, elección las tablas más adecuadas (dependiendo de los objetivos) Preproceso: Si las relaciones tienen muchas tuplas, muestreo Filtrado de valores imposibles, valores ausentes... Selección de atributos más relevantes (búsqueda en el espacio de características) Definición de nuevos atributos, función de otros Transformación para adaptar al algoritmo de DM: Redes neuronales, SVM... requieren valores numéricos codificación de valores nominales (nombres, direcciones... ), normalización... Otros requieren valores nominales discretización de los numéricos c 20 DIT-ETSIT- Minería de datos transp. 8

Ejemplo típico de aplicación de la minería de datos (1) Bank of America Objetivo: captar clientes para potenciar créditos con garantía hipotecaria Premisas de campaña de marketing basadas en «sentido común»: personas con hijos en edad escolar, y personas con ingresos altos pero variables. Resultados discretos Inducción de un árbol de clasificación (solicita crédito o no) con un subconjunto de la base de datos de clientes según diversos atributos: tipo de cuenta, situación familiar... Se aplicó al resto de clientes y se etiquetaron como «probables» (11%) o «no probables» (89%) c 20 DIT-ETSIT- Minería de datos transp. 9 Ejemplo típico de aplicación de la minería de datos (2) Por otra parte, Algoritmo de agrupamiento (clustering) para segmentar a todos los clientes 14 grupos, uno interesante: 39% tenían una cuenta personal y una cuenta de negocios el grupo incluía al 27% de los clientes que el árbol había etiquetado como «probables» Nueva premisa de campaña: los clientes utilizan los créditos para iniciar pequeñas empresas Con la nueva campaña se dobló la tasa de éxitos (Berry y Linof: Data Mining Techniques, Wiley, 1997) c 20 DIT-ETSIT- Minería de datos transp. 10

Otras: MD: aplicaciones actuales Análisis de la cesta de la compra mediante reglas de asociación Modelos para análisis de riesgos (seguros, créditos... ) Evaluación de campañas publicitarias Análisis de la fidelidad de clientes (churning) Análisis de valores de bolsa Detección y prevención de fraude en comercio electrónico Modelos de tráfico a partir de datos GPS Perfiles de usuarios de redes Detección de intrusos en redes KDD-2006 Conference on Knowledge Discovery and Data Mining c 20 DIT-ETSIT- Minería de datos transp. 11 Minería de datos: varios enfoques Comunidades (y enfoques) involucradas en la MD: Estadística: regresión, agrupamiento numérico... Inteligencia artificial, aprendizaje Visualización c 20 DIT-ETSIT- Minería de datos transp. 12

Objetivos: Aprendizaje vs. Minería de datos Aprendizaje: mejorar el funcionamiento de un agente Conductista: modificando su estructura Cognitivo: induciendo previamente el conocimiento Minería de datos: adquisición de conocimiento para su uso por personas u organizaciones Métodos: Aprendizaje: pocos ejemplos (eficiencia y escalabilidad de algoritmos no importa) Minería de datos: gran número de datos, incompletos, ruido... c 20 DIT-ETSIT- Minería de datos transp. 13 Técnicas aplicadas en MD Sin algoritmos de aprendizaje Consultas (SQL) OLAP (OnLine Analytical Processing) en BDM Estadísticas: correlación, regresión, agrupamiento (clustering) numérico Con algoritmos «clásicos» de aprendizaje Redes neuronales y algoritmos genéticos Inducción de árboles y reglas de clasificación Agrupamiento conceptual «Nuevos» algoritmos Inducción de reglas de asociación Inducción de clasificadores bayesianos c 20 DIT-ETSIT- Minería de datos transp. 14

Clasificadores bayesianos Clasificador basado en el teorema de Bayes: Si h es una hipótesis (conocida h se conoce la clase) y D son los datos (valores de los atributos para un ejemplar nuevo), P(h D)= P(h) P(D h) P(D) Hipótesis máxima a posteriori: con P(D)= j P(h j ) P(D h j ) P(h) P(D h) h MAP = argmaxp(h D) = argmax h H h H P(D) = argmax(p(h) P(D h)) h H Hipótesis de máxima verosimilitud: Si h i equiprobables, h MV = argmaxp(d h) h H c 20 DIT-ETSIT- Minería de datos transp. 15 Clasificador bayesiano óptimo Función de clasificación: f C : H C Si H C, h MAP no da siempre la mejor clasificación Ejemplo: H ={h 1,h 2,h 3 }; C={, } f C (h 1 )=, f C (h 2 )=, f C (h 3 )= Si P(h 1 D)=0,4, P(h 2 D)=0,3, P(h 3 D)=0,3, h MAP = h 1, pero el resultado debe ser (P( )=0,4,P( )=0,6) En general (con f C aleatorio): c MAP = argmaxp(c j D)=argmax c j C c j C h i H P(c j h i ) P(h i D) c 20 DIT-ETSIT- Minería de datos transp. 16

El clasificador bayesiano óptimo en la práctica Supongamos C=H y D=x 1 y x 2 y... y x n c MAP = argmaxp(c j x 1,x 2...x n )= c j C = argmax c j C P(c j ) P(x 1,x 2...x n c j ) P(x 1,x 2...x n ) = argmax(p(c j ) P(x 1,x 2...x n c j )) c j C P(c j ): simple recuento (frecuencias) P(x 1,x 2...x n c j ): inviable c 20 DIT-ETSIT- Minería de datos transp. 17 Clasificador bayesiano ingenuo (naïve) Suposición: los valores de los atributos, dado c j, son condicionalmente independientes P(x 1,x 2...x n c j )=P(x 1 c j ) P(x 2 c j )...P(x n c j ) Sencillo c NB = argmax c j C P(c j ) P(x i c j ) i Resultados sorprendentemente buenos (comparables a RN y árboles) Muy utilizado en las herramientas c 20 DIT-ETSIT- Minería de datos transp. 18

Clasificador bayesiano incremental Si x 2 «viene después» de x 1, probabilidad de h j condicionada a x 2 en el contexto de x 1 : P(h j x 1 x 2 )= P(h j x 1 )P(x 2 h j x 1 ) P(x 1 x 2 ) Suposición: P(x i h j x k )=P(x i h j ) (h j causa directa de x i ) P(h j x 1 x 2 )= P(h j x 1 )P(x 2 h j ) P(x 1 x 2 ) Es decir, Bayes aplicado al resultado de tener en cuenta x 1 algoritmo de actualización sucesiva de c MAP c 20 DIT-ETSIT- Minería de datos transp. 19 Minería de información «Proceso de extraer información previamente desconocida, integrada y útil, de cualquier fuente» transacciones, documentos, mensajes, páginas web, etc.»y utilizarla para la toma de decisiones» D.S. Tkach: Information Mining with the IBM Intelligent Miner Family. IBM White Paper, 1998. Minería de textos: De datos estructurados a datos no estructurados... c 20 DIT-ETSIT- Minería de datos transp. 20

Minería de textos: ejemplo (1) Clasificación de documentos recibidos en un grupo de news como «interesantes» o «no interesantes» para un usuario C={, }, E ={documentos} Extracción de características: un atributo por cada posición de palabra cuyo valor es la palabra en esa posición. Para este párrafo: 35 posiciones, a 1 = «Extracción»... a 35 = «más» (En un documento real, muchos más) c NB = argmax c j {, }[ P(c j ) P(a 1 = «Extracción» c j )... P(a 35 = «más» c j )] Cómo calcular las probabilidades? c 20 DIT-ETSIT- Minería de datos transp. 21 Estimaciones de probabilidades: Minería de textos: ejemplo (2) Para P(c j ) fácil: proporciones de ejemplos Si hay 300 y 700, P( )=0,3 y P( )=0,7 Suposición adicional: P(a i = x k c j )=P(x k c j ) P(x k c j )= n k+1 n+ V («estimador m»), con n = n o total posiciones en ejemplos clasificados c j n k = n o veces x k está en una de esas n V = n o total de palabras diferentes en E Resultados en casos reales con precisiones 90% (Mitchell, 1997) c 20 DIT-ETSIT- Minería de datos transp. 22

Minería de web: perdidos en el hiperespacio Problema de la navegación: el «navegante» no sabe qué dirección tomar para llegar al «destino» (información que busca) «getting lost in hyperspace» (Conklin, 1987) Intentos de solución: Directorios de recursos (Ý ÓÓºÓÑ, ÑÓÞºÓÖ... ) Motores de búsqueda ( ÓÓ Ð ºÓÑ, Û ÒÙغÓÑ... ) Sitios web adaptativos Agentes asistentes Web semántica... c 20 DIT-ETSIT- Minería de datos transp. 23 Aplicaciones de minería de datos en la web Además de ayudas a la navegación, Detección de ataques y fraudes en comercio electrónico Ejemplos en ØØÔ»»ÛÛÛº ºÓÐÙÑ º Ù»» Mejoras del diseño de los sitios Caracterización de visitantes Personalización de páginas... c 20 DIT-ETSIT- Minería de datos transp. 24

Minería de web: tipos Minería de contenido Tipo especial (o generalización) de minería de textos (hipertextos) Minería de estructura Descubrimiento de relaciones estructurales entre páginas Minería de uso Descubrimiento de patrones de acceso, perfiles de usuario... c 20 DIT-ETSIT- Minería de datos transp. 25 Minería de estructura de la web Hace uso de la información contenida en los enlaces (hyperlinks) Búsqueda de páginas «autoritativas»: algoritmo PageRank de Larry Page y Sergey Brin (Google) Búsqueda de páginas «eruditas» (o «concentradores», hubs): algoritmo HITS (Hypertext Induced Topic Selection) de Kleinberg «La web como un grafo»: los nodos son las páginas y los arcos orientados los enlaces de unas páginas hacia otras Idea básica: la existencia de un enlace en una página hacia otra representa un «reconocimiento de autoridad» del autor de la primera hacia la segunda Definición recursiva de «autoridad»: una página es «importante» si otras páginas importantes apuntan a ella c 20 DIT-ETSIT- Minería de datos transp. 26

Minería de uso de la web En los ficheros de registros (logs) del servidor web: Fecha y hora Elemento servido (URL) Parámetros (para consultas) Bytes reales/transferidos Cookie... Dirección IP de acceso Navegador y versión Errores Tiempo en transferir Página anterior Ó Ø½ ¾¼º ÒØ Öº Ù ¹ ¹ ¾¼»ÆÓÚ»¾¼¼½ ½ ¾¾ ¼½¼¼ Ì» Ö»» ÒØÖÓ¹»Ì¼¼ º Ô ÀÌÌÈ»½º¼ ¾¼¼ Ó Ø½ ¾¼º ÒØ Öº Ù ¹ ¹ ¾¼»ÆÓÚ»¾¼¼½ ½ ¾ ¼½¼¼ Ì» Ö»» ÒØÖÓ¹»Ì¼¼ º Ô ÀÌÌÈ»½º¼ ¾¼¼ ¼ ¾ º º½ º½¼½ ¹ ¹ ¾¼»ÆÓÚ»¾¼¼½ ½ ¾ ¼½¼¼ Ì» Ñ»» ÑÔÐÓ»Ô Ö Ò ¾ºÞ Ô ÀÌÌÈ»½º½ ¾¼¼ ¼ ½ º º½ º½¼½ ¹ ¹ ¾¼»ÆÓÚ»¾¼¼½ ½ ¾ ¼½¼¼ Ì» Ñ»» ÑÔÐÓ» Ó½ºÞ Ô ÀÌÌÈ»½º½ ¾¼¼ ¼ ½ Ó Ø½ ¾¼º ÒØ Öº Ù ¹ ¹ ¾¼»ÆÓÚ»¾¼¼½ ½ ¾ ¼½¼¼ Ì» Ö»» ÒØÖÓ¹»Ì¼¼ º Ô ÀÌÌÈ»½º¼ ¾¼¼ ½ Ó Ø½ ¾¼º ÒØ Öº Ù ¹ ¹ ¾¼»ÆÓÚ»¾¼¼½ ½ ¾ ¼½¼¼ Ì» Ö»» ÒØÖÓ¹»Ì¼¼ º Ô ÀÌÌÈ»½º¼ ¾¼¼ ½ ¾ Ó Ø½ ¾¼º ÒØ Öº Ù ¹ ¹ ¾¼»ÆÓÚ»¾¼¼½ ½ ¾ ¼½¼¼ Ì» Ö»» ÒØÖÓ¹»È¼¼½º ØÑÐ ÀÌÌÈ»½º¼ ¾¼¼ ¼½ c 20 DIT-ETSIT- Minería de datos transp. 27 Herramientas para el proceso completo de KDD Entornos de desarrollo integrado (IDE) que contienen implementaciones de redes neuronales, inducción de árboles, etc, junto con utilidades para preprocesamiento, clasificación, agrupamiento, vizualización... Piatetsky-Shapiro da enlaces a 63 privativas y 17 libres o shareware: ØØÔ»»ÛÛÛº ÒÙ Ø ºÓÑ» Ó ØÛ Ö» Ù Ø º ØÑÐ Dos herramientas libres: WEKA (Waikato Environment for Knowledge Analysis) Universidad de Waikato, Nueva Zelanda ØØÔ»»ÛÛÛº ºÛ ØÓº ºÒÞ»Ñлۻ RapidMiner (antes, YALE: Yet Another Learning Environment) Universidad de Dortmund, Alemania, ØØÔ»»Ö Ô ¹ ºÓÑ» Ambas GPL, implementadas en Java y muy bien documentadas UCI (University of California, Irvine) Machine Learning Repository: ØØÔ»» Ö Ú º ºÙ º Ù»Ñл, 174 datasets c 20 DIT-ETSIT- Minería de datos transp. 28