Universidad Nacional de La Pampa Facultad de Ciencias Económicas y Jurídicas Introducción a la minería de datos. Necesidades asociadas Mg. Ing. Mario José Diván mjdivan@divsar.com.ar
Temario 1. Qué es data mining? 2. Que no es data mining? 3. Causas del surgimiento del data mining 4. El proceso Knowledge Discovery in Databases (KDD) 5. Contexto de las bases de datos frente al data mining 6. Principales funciones del data mining 7. Aplicaciones actuales 8. Tendencias 30/10/2006 Total de diapositivas: 43 2
Temario 1. Qué es data mining? 2. Que no es data mining? 3. Causas del surgimiento del data mining 4. El proceso Knowledge Discovery in Databases (KDD) 5. Contexto de las bases de datos frente al data mining 6. Principales funciones del data mining 7. Aplicaciones actuales 8. Tendencias 30/10/2006 Total de diapositivas: 43 3
Qué es data mining? [1/6] La aplicación de técnicas en grandes volúmenes de datos para descubrir información interesante, útil, aplicable y no trivial 1. Características fundamentales de la definición: 1. Very large databases (VLDB) 2. Descubrir 3. Información 4. Interesante 5. Útil 6. Aplicable 7. No trivial 30/10/2006 Total de diapositivas: 43 4
Qué es data mining? [2/6] 1. Qué es un patrón? Síntesis o representación del conocimiento obtenido desde una base de datos 2. Cuándo un patrón es interesante? 1. Interés 2. Oportuno 3. Aplicable 4. No trivial 5. Nuevo 6. Fácil de entender 3. Un algoritmo debe buscar todos los patrones interesantes? 4. Importancia del conocimiento del dominio del negocio donde se aplicará data mining 30/10/2006 Total de diapositivas: 43 5
Qué es data mining? [3/6] Importancia del conocimiento del dominio del negocio donde se aplicará data mining Detección de los procesos de negocios centrales (Core Business) Detección de los procesos de negocios de soporte Trazabilidad del dato hasta la fuente de generación Nivel Estratégico Procesos de Negocios Nivel Táctico Sistemas de Información Nivel Operativo información 30/10/2006 Total de diapositivas: 43 6
Qué es data mining? [4/6] 1. Información versus dato Características: Interés Oportuna Veraz Consistente 2. Concepto de modelo, adaptación del modelo y error 30/10/2006 Total de diapositivas: 43 7
Qué es data mining? [5/6] [ ] Most data mining algorithms can be viewed as compositions of a few basics techniques and principles [ ], consist largely of some specific mix of three components: The model: There are two relevants factors: Function of the model: Eg. Classification and clustering and the Representational form: linear function of multiple variables and a gaussian probability density function. A model contains parameters that are to be determinated from the data. [ ] The preference criterion: [ ] The search algorithm: The specification of an algorithm for finding particular models and parameters, given data, model and a preference criterion.[ ] A parituclar data mining algorithm is usually a instantiation of the model/preference/search components (*) (*) Usama Fayyad & Ramazamy Uthurusamy; Data mining and Knowledge Discovery in Databases ; Communications of ACM, vol 39 Nro. 11, Noviembre de 1996 30/10/2006 Total de diapositivas: 43 8
Qué es data mining? [6/6] Siempre es necesario utilizar data mining? SQL Reporting OLAP Planillas de cálculo Entre otras (*) Chris Rogers; Database Desgins for Data Warehouse Solutions ; Sysbase, 2000. 30/10/2006 Total de diapositivas: 43 9
Temario 1. Qué es data mining? 2. Que no es data mining? 3. Causas del surgimiento del data mining 4. El proceso Knowledge Discovery in Databases (KDD) 5. Contexto de las bases de datos frente al data mining 6. Principales funciones del data mining 7. Aplicaciones actuales 8. Tendencias 30/10/2006 Total de diapositivas: 43 10
Qué no es data mining? 1. No es un software estadístico 2. No es un sistema experto 3. No es consulta sobre bases de datos 30/10/2006 Total de diapositivas: 43 11
Temario 1. Qué es data mining? 2. Que no es data mining? 3. Causas del surgimiento del data mining 4. El proceso Knowledge Discovery in Databases (KDD) 5. Contexto de las bases de datos frente al data mining 6. Principales funciones del data mining 7. Aplicaciones actuales 8. Tendencias 30/10/2006 Total de diapositivas: 43 12
Causas del surgimiento del DM&KDD 1. Crecimiento del volumen de datos Costos de almacenamiento en decrecimiento Poca información ejecutiva, demasiados datos operativos Poco aprovechamiento de los datos históricos 2. Problemas en la exposición de información 3. Surgimiento e implementación del concepto de data warehouse, data marts, corporate informatio factory (CIF) 30/10/2006 Total de diapositivas: 43 13
Causas del surgimiento del DM&KDD 1. Componentes del Corporate Information Factory (CIF) 30/10/2006 Total de diapositivas: 43 14
Temario 1. Qué es data mining? 2. Que no es data mining? 3. Causas del surgimiento del data mining 4. El proceso Knowledge Discovery in Databases (KDD) 5. Contexto de las bases de datos frente al data mining 6. Principales funciones del data mining 7. Aplicaciones actuales 8. Tendencias 30/10/2006 Total de diapositivas: 43 15
Knowledge Discovery in Databases (KDD) Selección Preprocesamiento de datos Escoger la función de data mining Ejecutar el algoritmo Escoger el algoritmo de data mining Interpretación Uso del conocimiento Datos trabajados Conjunto de datos objetivo Fuentes de datos Conocimiento del negocio 30/10/2006 Total de diapositivas: 43 16
KDD -> Conocimiento del Negocio Qué es conocer el negocio? Identificar los procesos centrales de la empresa (Core Business) Identificar los procesos de soporte de la empresa Identificar el proceso de generación de datos a través de los procesos empresariales Esquema conceptual de los procesos funcionales del laboratorio de análisis de la Administración Provincial del Agua (APA) La Pampa, Argentina- 30/10/2006 Total de diapositivas: 43 17
KDD -> Fuentes de datos Sobre qué datos puede aplicarse minería de datos? Identificar las fuentes de datos de los sistemas de información Identificar las fuentes de datos transaccionales Obtener la estructura de las fuentes de datos Analizar si existe redundancia intra e inter fuentes de datos Analizar si existe riesgos de pérdida de información en la estructura Analizar la semántica de la estructura de datos (Precaución con las unidades de medida de los datos) Ver esquema relacional Identificar las fuentes de datos orientadas a las consultas Obtener el modelado del esquema de bases de datos orientado a consultas Hechos versus métricas Identificar hechos y métricas de la estructura multidimensional Ver esquema multidimensional 30/10/2006 Total de diapositivas: 43 18
KDD -> Fuentes de datos -Selección- OLTP Data warehouse Data Mart OLAP Sistemas legados y otras fuentes Selección Problemas comunes de la integración y transformación Redundancia directa e indirecta Inconsistencia (debe decidirse) Unidades de medida para el mismo atributo en diferentes BD Conjunto de datos objetivo 30/10/2006 Total de diapositivas: 43 19
KDD -> Datos trabajados -Preprocesamiento- Preprocesamiento Depurar la fuente de datos, problemas comunes: Ruido en los datos & Análisis de Outliers Inconsistencias Incompleto Valores faltantes Conjunto de datos objetivo Agregar información complementaria al conjunto de datos (dataset) Ejemplo: Medidas descriptivas y/o de tendencia, datos contextuales al dato como paridades cambiarias si son divisas, etc. Datos trabajados 30/10/2006 Total de diapositivas: 43 20
KDD -> Escoger el algoritmo de data mining Datos trabajados Elegir la función de data mining: Agrupamiento (Clustering) Reglas de asociación (Association Rules) Patrones secuenciales (Sequential Patterns) Series temporales Clasificación Predicción Función seleccionada Ejemplo: Clasificación, Algoritmos disponibles: CHAID CART C4.5 J48 ID3 CART Naive Bayes Entre otros 30/10/2006 Total de diapositivas: 43 21
KDD -> Interpretación CART 30/10/2006 Total de diapositivas: 43 22
KDD -> Uso del conocimiento Uso del conocimiento if (cliente_antiguedad <= 10,12 AND mcaja_ahorro_paquete<=611,85 AND mcajeros_propiso_descuentos<=2,36) { } Prob(No)=0,558 (*) No: El cliente del banco no va a comprar una nueva tarjeta de crédito 30/10/2006 Total de diapositivas: 43 23
KDD -> Metodologías de data mining CRISP-DM CRoss Industry Standard Process for Data Mining (http://www.crisp-dm.org) Basado en el proceso KDD Iniciativa de la industria patrocinada por SPSS, Teradata, DaimlerChrysler & Ohra. Etapas: Business understanding Data understanding Data preparation Modeling Evaluation Deployment 30/10/2006 Total de diapositivas: 43 24
KDD -> Metodologías de data mining SEMMA Sample, Explore, Modify, Model, Asses http://www.sas.com Acercamiento que combina un proceso estructurado con la organización lógica de las herramientas necesarias para soportar cada uno de los pasos Propiedad de SAS Institute Etapas: Sample Explore Modify Model Asses 30/10/2006 Total de diapositivas: 43 25
Temario 1. Qué es data mining? 2. Que no es data mining? 3. Causas del surgimiento del data mining 4. El proceso Knowledge Discovery in Databases (KDD) 5. Contexto de las bases de datos frente al data mining 6. Principales funciones del data mining 7. Aplicaciones actuales 8. Tendencias 30/10/2006 Total de diapositivas: 43 26
Contexto de las bases de datos frente al data mining Heterogeneidad en las fuentes de datos Tipología de las fuentes de datos: Estructuradas: Sistemas legados Archivos de texto BD relacionales BD orientadas a objetos BD temporales BD espaciales BD orientadas a consultas Entre otras Semi estructuradas: HTML XML Entre otras 30/10/2006 Total de diapositivas: 43 27
Contexto de las bases de datos frente al data mining Fuertemente recomendable: No desarrollar actividades asociadas a data mining sobre la misma plataforma (Hardware) que utilizan los sistemas transaccionales de la empresa. Razones: Los algoritmos de data mining son en general intensivos en procesamiento Los algoritmos hacen uso intensivo de memoria Data mining trabaja sobre VLDB, por lo que el tiempo de ejecución de los algoritmos puede ser elevado 30/10/2006 Total de diapositivas: 43 28
Temario 1. Qué es data mining? 2. Que no es data mining? 3. Causas del surgimiento del data mining 4. El proceso Knowledge Discovery in Databases (KDD) 5. Contexto de las bases de datos frente al data mining 6. Principales funciones del data mining 7. Aplicaciones actuales 8. Tendencias 30/10/2006 Total de diapositivas: 43 29
Principales funciones del data mining: Reglas de asociación (Association rules) Dado I = {i 1, i 2, i 3,, i n } Sea D un conjunto de datos relevantes a la tarea Sea T un conjunto de ítems / T I Cada transacción T es identificado por un atributo al que denominamos TID Una regla de asociación es una regla de la forma: A B/ A I B I A B φ Soporte (s): % de transacciones en D que contienen A U B, en términos estadísticos es la P(AUB) Confianza(s): % de transacciones en D que contienen A B, en términos estadísticos es la P( A B) 30/10/2006 Total de diapositivas: 43 30
Principales funciones del data mining: Reglas de asociación (Association rules) Reglas fuertes: Así se denomina a aquellas reglas que satisfacen un soporte mínimo (min_sup) y una confianza o confidencia mínima (min_conf). Frecuencia de ocurrencia de un itemset (conjunto de ítems): es el número de transacciones que contienen el itemset. Un itemset satisface un soporte mínimo si y solo si su frecuencia de ocurrencia es superior o igual a min_sup e inferior o igual al número de transacciones en D. Si el itemset satisface el soporte mínimo entonces se lo denomina itemset frecuente Principio A priori : Cualquier subconjunto no vacío de un itemset frecuente debe ser frecuente. 30/10/2006 Total de diapositivas: 43 31
Principales funciones del data mining: Reglas de asociación (Association rules) Ejemplos de reglas de asociación: Basadas en un tipo de valor: Compra(X, CD ) y Compra(X, Reproductor de CD ) => Compra(X, Reproductor MP3 ) Basadas en la dimensión del dato asociado: edad(x, 25 40 ) e Ingreso(X, 24k 48k ) => Compra(X, Palm ) Basadas en niveles de abstracción: edad(x, 25 40 ) => Compra(X, Notebooks ) edad(x, 25 40 ) => Compra(X, Computadoras ) Se tiene diferentes niveles de granularidad en las reglas Se dispone de una jerarquía de conceptos (productos para el ejemplo) Los ítems de niveles inferiores dispondrán de menos soporte 30/10/2006 Total de diapositivas: 43 32
Principales funciones del data mining: Reglas de asociación (Association rules) Si exige que las reglas expuestas posean igual soporte en todos los niveles: Cuanto más descienda en la jerarquía, menos soporte dispondrá. Esto implica que perder algunas reglas pero aquellas que cumplan las condiciones valdrían en un contexto general. Si cede a menores soportes en los niveles inferiores: Se corre el riesgo de que la regla no sirva para el contexto general. Una regla es redundante si su soporte está cercano a un valor esperado basado en la regla de un ancestro. En otras palabras, si bien desciende en el nivel de granularidad de la información, ésta no se traduce en el incremento del conocimiento. Ver ejemplo con WEKA 30/10/2006 Total de diapositivas: 43 33
Principales funciones del data mining: Concepto de patrones secuenciales (Sequential patterns) Una secuencia es una lista ordenada de itemsets Una secuencia es maximal si no es contenida por otra Cada secuencia maximal es un patrón secuencial Series temporales son un caso particular de los patrones secuenciales. La secuencia está dada por algún parámetros asociado al tiempo. Aplicaciones específicas: Retención de clientes Marketing focalizado 30/10/2006 Total de diapositivas: 43 34
Principales funciones del data mining: Clasificación y predicción Clasificación versus Predicción: Predice etiquetas de clases categóricas mientras que la predicción se basa en modelos de funciones valuadas-continua. Clasificación: Método supervisado Se compone de 2 etapas: 1. Construcción (Entrenamiento) 2. Poda (Pruning). 1. 1. Overfitting 2. 2. Objetivo del pruning Función de splitting Frena la construcción del árbol si: No existen más atributos que analizar o No existen más ejemplos que procesar o Todos los ejemplos para un nodo determinado poseen igual clase 30/10/2006 Total de diapositivas: 43 35
Principales funciones del data mining: Clasificación y predicción Clasificación Ver ejemplo en SPSS Predicción Predice el valor para una variable continua Modelos de funciones valuadas continua Ejemplos: Regresión lineal simple [Y= Bo + B1*X] Regresión lineal múltiple [Y= Bo + B1*x1+ B2*x2 + + Bn*Xn] Entre otros Ver ejemplo con Infostat Particionamiento del conjunto de datos para evitar el overfitting 30/10/2006 Total de diapositivas: 43 36
Principales funciones del data mining: Agrupamiento (Clustering) Conjunto de datos u objetos reunidos bajo una misma agrupación en función de alguna medida de similaridad que maximiza la varianza entre grupos y la minimiza dentro del mismo No supervisado Tipo de acercamientos Orientados al particionamiento: K-means: Relativamente eficiente Necesita que se especifique el k (cantidad de grupos a armar) No es capaz de manejar ruido y outliers (Efecto similar a la media aritmética) K-medoids Ver ejemplo con Infostat No escala bien Buen desempeño en grupos de datos relativamente pequeños 30/10/2006 Total de diapositivas: 43 37
Principales funciones del data mining: Agrupamiento (Clustering) Tipo de acercamientos Continua Orientados al particionamiento: La principal diferencia entre K-means y k-medoids, es que en el primero el centro del cluster no necesariamente es un elemento, mientras que el segundo requiere que el centro sea un elemento representativo del grupo. Jerárquico Tiene la ventaja de no necesitar especificar la cantidad de grupos a generar Emplea una matriz de distancia entre los registros, para n datos genera una matriz nxn que contiene dichas distancias y cuya diagonal principal es 0 Existen dos variantes: Aglomerativo: Va reuniendo elementos desde lo más particular hasta obtener el conjunto de datos completo Divisivo: Va particionando el conjunto de datos completo hasta llegar a la división mínima de los mismos Ver ejemplo con Infostat Otros acercamientos: Basados en densidad, basados en grilla (detalles a diferentes niveles de granularidad), etc. 30/10/2006 Total de diapositivas: 43 38
Temario 1. Qué es data mining? 2. Que no es data mining? 3. Causas del surgimiento del data mining 4. El proceso Knowledge Discovery in Databases (KDD) 5. Contexto de las bases de datos frente al data mining 6. Principales funciones del data mining 7. Aplicaciones actuales 8. Tendencias 30/10/2006 Total de diapositivas: 43 39
Algunas aplicaciones 1. Minería de datos aplicado al audio, por ejemplo: Detector de mentiras, Patrones secuenciales aplicados a seguridad, etc. 2. Minería de datos aplicado a la calidad de datos 3. Minería de datos como parte del proceso ETL (Extraction, Trasnformation & Load en Data Warehousing) 4. Minería de datos aplicado a la exploración de cuencas petroleras 5. Minería de datos aplicado al tráfico de comunicaciones (Detección de fraudes) 6. Web mining (Entorno semiestructurado): 1. Web usage mining: Análisis de logs de servidores para análisis del patrón de recorrido y consumo del cybernauta [Ej: Amazon] 2. Web content mining: hincapie en el contenido de los documentos 3. Web structure mining: se enfoca la web como grafo dirigido (Page rank, comunidades, etc) 7. Entre otras 30/10/2006 Total de diapositivas: 43 40
Temario 1. Qué es data mining? 2. Que no es data mining? 3. Causas del surgimiento del data mining 4. El proceso Knowledge Discovery in Databases (KDD) 5. Contexto de las bases de datos frente al data mining 6. Principales funciones del data mining 7. Aplicaciones actuales 8. Tendencias 30/10/2006 Total de diapositivas: 43 41
Alguna de las líneas en desarrollo 1. Web mining: 1. Algoritmos 2. Semantic web 2. Minería de datos sobre data streams: 1. Data streams propiamente dicho dentro del área de bases de datos 2. Adecuación de funciones y algoritmos de data mining para data streams considerando respuestas on line y off line 3. Text Mining: 1. Problemática asociada al procesamiento del lenguaje natural 2. Adecuación y desarrollo de algoritmos para entornos semiestructurados 30/10/2006 Total de diapositivas: 43 42
Muchas gracias por su atención Es solo el inicio 30/10/2006 Total de diapositivas: 43 43