Data Mining. Data Mining Machine Learning Tools and Techniques. Ph.D. José Aldo Díaz-Prado

Transcripción

1 Data Mining Data Mining Machine Learning Tools and Techniques Ph.D. José Aldo Díaz-Prado

2 Raw Data Data Mining es la extracción de conocimiento desconocido, previamente implícito e información potencialmente útil a partir de datos. Fuertes patrones, pueden ser encontrados y generalizados, para realizar predicciones seguras para datos futuros. Machine learning provee la técnica básica para el Data Mining. ML es usado para extraer información raw data de las bases de datos.

3 Raw Data Para aplicar las tecnicas de machine learning de manera productiva, es necesario conocer como es que trabaja esta técnica. Machine Learning, no es una tecnología que se puede aplicar ciegamente y obtener buenos resultados. A problemas diferentes corresponden a técnicas de solución diferentes.

4 Machine Learning Actualmente estamos sobre abrumados con los datos. La cantidad de datos en el mundo, en nuestras vidas, se ve que se incrementan y no se ve señales de terminar. Conforme los volúmenes de datos se incrementan, inexorablemente, la proporción de estos que la gente entiende decrece. La mentira oculta en todos estos datos es información, información potencialmente útil, que es raramente explicita. La gente ha buscado patrones desde los inicios de la humanidad.

5 Machine Learning Los cazadores ven patrones en el ambiente de migración de los animales. Los agricultores ven patrones en el crecimiento del maíz. Los políticos ven patrones en los votos de opinión. Los enamorados ven patrones en la respuesta o reacción de su pareja. El trabajo de los emprendedores es identificar oportunidades o patrones que puedan traducir en negocios rentables.

6 Machine Learning En la minería de datos, los datos son almacenados electrónicamente y la búsqueda es automática o por lo menos ejecutado por computadoras. Se estima que la cantidad de datos almacenado en bases de datos mundiales, se duplica cada 20 meses. Conforme el mundo crece en complejidad, nos abruma con los datos que este genera. Data Mining viene ha ser nuestra única opción para visualizar los patrones subyacentes.

7 Machine Learning La minería de datos es definida como el proceso de descubrir patrones en datos. El proceso puede ser: Automático (Más común) Semi-automático Patrones utiles, permiten realizar prediciones no-triviales sobre nuevos datos. Hay dos extremos para la expresión de un patrón: 1. Black box.- su estructura es incomprensible 2. Transparent box.- su estructura revela la estructura del patrón Asumimos que ambas realizan buenas predicciones. Deseamos encontrar y describir patrones de estructuras en datos

8 Structural Patterns Que significa Patrones estructurales Structural Patterns? Como describimos estos? Que forma toman las entradas? Datos de lentes de contacto La tabla muestra las condiciones, sobre las cuales un optometrista puede prescribir lentes de contacto suaves, lentes duros o no usar lentes.

9

10 Descripción estructural (regla) If tear production rate= reduce then recomendation = none Otherwise, if age = young and astigmatic = no then recommendation = soft Los decisión trees árboles de decisión, especifican la secuencia de decisiones que necesitan ser realizadas para una recomendación resultante.

11 Structural Patterns Los árboles de decisión, explican la secuencia de decisiones que son necesarias ejecutar para obtener la recomendación resultante. Hay 24 renglones, que representan los tres valores posibles de la edad y dos valores (miopia y hipermetropia) para cada una de las prescripciones presentadas, astigmatismo y taza de producción de lagrimeo (3*2*2*2=24). Los conjuntos de datos (datasets), invariablemente contienen ejemplos de algunas caracteristicas o por lagunas razones son: desconocidos (quizás las médiciones fuerón tomadas o se perdieron).

12 Machine Learning Aprendizaje maquina, el diccionario define el aprender como: Obtener conocimiento por información, experiencia o por aprendizaje. Ser precavido por la información o la observación. Comprometerse con la memoria. Recibir instrucciones. Podemos definir data mining, operacionalmente, como el proceso de descubrir patrones automáticamente o semiautomáticamente, en grandes volúmenes de datos.

13 Data Mining Data mining, es la técnica para encontrar y describir patrones estructurales en datos y realizar predicciones de estos. Los datos tomarán la forma de un set of examples. La salida tomará la forma de predicciones acerca de nuevos datos en ciertas circunstancias. La salida también puede incluir una descripción actual de la estructura que pueda ser usada para clasificar los ejemplos desconocidos, para explicar la decisión. La gente frecuentemente usa data mining para adquirir conocimiento, no para predecir.

14 Weather Problem Aplicaciones serias de data mining involucran miles, cientos de miles o quízas millones de casos individuales. Para explicar que hacen los algoritmos y como trabajan ellos, necesitamos ejemplos simples que capturan la esencia del problema. Otro problema, es que los datasets de la vida real son propietarios. Nadie va a compartir su base de datos de clientes o productos. Los datos corporativos son un activo valioso.

15 Weather Problem Las instancias en un dataset son caracterizadas por los valores de sus características ó atributos, que miden diferentes aspectos de la instancia. En el ejemplo del clima hay 4 atributos: 1. Outlook (perspectiva) 2. Temperature (temperatura) 3. Humidity (humedad) 4. Windy (viento) El resultado es si jugar o no

16 Todos los atributos tienen valores que son categorías simbólicas más que números. Outlook: sunny, overcast, rainy. Temperature: hot, mild, cool Humidity: high, normal Windy: true, false Esto crea 36 posibles combinaciones (3X3X2X2=36), Conjunto de reglas de aprendizaje: If outlook=sunny and humidity=high then play=no If outlook=rainy and windy=true then play=no If outlook=overcast then play=yes If humidity= normal then play=yes If none of the above then play=yes Las reglas son aplicadas en orden secuencial y a esto se le denomina decision list Hay algunas reglas inconsistentes tales como: If humidity= normal then play=yes

17 Numeric-attribute problem Si los atributos de humedad y temperatura, tomarán valores numéricos, esto generaría desigualdad (problema atributos-numéricos). La primera regla tomaría la forma siguiente: If outlook=sunny and humidity>83 then play=no Un procesos un poco más complejo es requerido para elaborar reglas que invoquen pruebas numéricas.

18 Reglas de clasificación.- Predice la clasificación en términos de cuando o no jugar. Reglas de asociación.- reglas que asocian diferentes valores de atributos. Reglas de asociación: If temperature=cool If humidity=normal and windy=false If outlook=sunny and play=no If windy=false and play=no then humidity=normal then play=yes then humidity=high then outlook=sunny and humidity=high. Todas las reglas son 100% correctas sobre los datos dados. La regla 4 predice que perspectiva puede ser soleado y la humedad alta.

19 Contact Lenses Primera columna, es la edad del paciente. Presbyopia, es una forma de padecimiento que acompaña a la mediana edad. Segunda columna, es el tratamiento aplicado Tercera columna, muestra cuando el paciente tiene astigmatismo Cuarta columna, producción de lagrimas ( las lagrimas lubrican el lente de contacto) Ultima columna, tipo de lente a recetar.

20 Contact Lenses Ejemplos de reglas de la información en la tabla anterior son: If tear production rate= reduced then recommendation = none If age= young and astigmatism=no and tear production rate=normal then recommendation=soft If age=pre-presbyonic and astigmatism=no and tear production rate=normal then recommendation=soft If age=presbyonic and spectacle prescription0myope and astigmatism=no then recommendation=none GENERAR UN DATA SET DE 4 REGLAS VALIDAS. En algunas ocasiones, hay situaciones en las cuales no aplica ninguna regla, otra veces más de una regla puede aplicar resultando un conflicto en la recomendación. Algunas veces asignar probabilidades o pesos, pueden ser asociadas a la regla para asociar el nivel de importancia entre reglas.

21 Contact Lenses Frecuentemente se utilizan técnicas de machine learning para conocer mejor la estructura de los datos, más que realizar predicciones para nuevos casos. La descripción estructural, para los datos de los lentes de contacto en forma de árbol de decisión se muestra a continuación: Tear production rate reduced normal none astigmatism test branch leaf soft no yes Spectacle prescription myope hypermetrope hard none Para muchos propósitos es una representación más consisa de las reglas y tiene la ventaja que puede ser visualizada más fácilmente.

22 Conjunto de datos númericos clasico El conjuto de datos de Lirios, proporcionado por el estadístico R.A. Fisher a mediados de 1930 en un seminario de trabajo, es uno de los datasets más famosos usados en data mining. Este contiene datos de tres tipos de plantas: lirios sestosa, lirios versicolor y lirios virginia. Todos los atributos tiene valores numéricos

23 Conjunto de datos númericos clasico El siguiente conjunto de reglas puede ser inferido del dataset anterior: If ancho sepalo < 2.55 longitud del petalo < 4.95 and ancho del petalo < 1.55 then Lirio versicolor If longitud del petalo > and longitud del petalo <4.95 and ancho del petalo < 1.55 then lirio versicolor El dataset para Lirio involucra atributos numéricos, la salida tipo de lirio- es una categoría, no un valor numérico. ACTIVIDAD: GENERAR OTRAS 4 REGLAS DEL DATASET El conjunto de datos de los lirios, contenía atributos numéricos y la salida -el tipo de lirio- es una categoría que contiene un valor no numérico.

24 Predición numérica Analizaremos el desempeño relativo al poder de procesamiento computacional de 209 diferentes configuraciones de computadoras. La forma clásica de hacer frente a la predicción continua, es escribir la salida como una suma lineal de los valores de los tributos con sus apropiados pesos, por ejemplo: Performance PRP = MYCT MMIN MMAX CACH CHMIN CHMAX. Esta es llamada una ecuación de regresión múltivariable. El proceso de determinación de pesos es llamado regresión (método estádistico). El método básico de regresión es incapaz de descubrir relaciones no lineales.

25 Negociación Laboral La siguiente tabla contiene información de contratos colectivos para negocios y servicios profesionale, con menos de 500 empleados ( maestros, enfermeras, staff universitario, pólicias, etc). Cada caso corresponde a un contrato, el resultado de salida es evaluar si el contrato es aceptado o no aceptado. Tipo de contratos Información presentada en columnas. Este es un conjunto de datos, más realista que los anteriores que hemos visto, ya que contiene muchos datos perdidos u omitidos.

26 Decision Trees Bad Wage increase first year <- 2.5 good > 2.5 Statutory holidays >10 Bad <-10 Wage increase first year <- 4 Good >4 - El árbol es simple y aproximado: No representa los datos de manera exacta -Puede predecir mal para algunos contratos que son marcados como buenos. - Un contrato es malo, si el incremento de salario el primer año es muy pequeño (menos del 2.5%), si este es mayor que eso, es bueno si las vacaciones obligatorias son más de 10 días. Wage increase first year > 2.5 <- 2.5 Statutory holidays Working hours Per week >10 >36 <-36 Health plan Good bad contribution none half full Bad Good Bad <-10 Wage increase first year Bad <- 4 -Árbol más complejo, representa al mismo conjunto de datos. - Esta es una representación más segura del conjunto de datos actuales. - >4 Si trabajamos más de 36 horas el contrato es malo si no hay un plan de salud o un plan completo de salud, pero es bueno si solo se otorga la mitad del plan de salud. Good

27 A Clasical Machine Learning Success Clasificación de Soya: Una historia exitosa en la aplicación de aprendizaje maquinal a problemas prácticos es la identificación de reglas para el diagnóstico de enfermedades de la soya. Los datos fueron tomados de cuestionarios que describen la enfermedad de la planta.

28 A Clasical Machine Learning Success La tabla anterior da los atributos, los diferentes valores numéricos que cada uno puede tener y un ejemplo de registro para una planta en particular., los atributo se han colocado en diferentes categorías. Estos son dos ejemplos de reglas, aprendidos de estos datos. If [ leaf condition is normal and stem condition is abnormal] and stem cankers is below soil line and canker lesion color is brown] then diagnosis is rhizoctonia root rot If [leaf malformation is absent] and steam condition is abnormal and stema cakers is below soil line and canker lesion color is brown] then diagnosis is rhizoctonia root rot Estas reglas el rol potencial de conocimiento previo, comúnmente llamado domain knowledge

29 Campo de Aplicación Es importante aplicar sistemas de aprendizaje, para obtener conocimiento de estructuras de decisión que pueden ser inferidas de los datos. Decisiones basadas en juicio: Solicitar un préstamo (aceptado/rechazado) - Métodos estadísticos son usados para determinar si es aceptado o rechazado. - 90% de los casos son analizados por sistemas inteligentes, el otro 10% son referidos a expertos. Para el análisis de información crediticia, es importante contar con atributos tales como: edad, antigüedad con el banco, antigüedad laboral, otras tarjetas de crédito, etc.

30 Campo de Aplicación Imágenes La tecnología satelital, científicos ambientales han tratado de localizar petroleó a partir de imágenes satelitales. Las manchas negras aparecen como regiones obscuras en la imagen y la forma depende del las condiciones del mar. La entrada de es un conjunto de pixeles de imágenes del radar satelital y la salida es un número más pequeño de imágenes, con marcas coloreadas en su bordes -Primero se normaliza la imagen - Regiones obscuras sospechosas son identificadas. - Docena de atributos son extraidos de cada región - Caracterizar su tamaño, forma, área, intensidad, forma, etc. - Finalmente, técnicas de aprendizaje estandar son aplicas aplicadas.

31 Campo de Aplicación Pronóstico Precio de una acción en el mercado Diagnóstico Detección de tumores - El diagnóstico es una de las principales áreas de aplicación de los Sistemas expertos

32 Machine learning and statistics Cual es la diferencia entre aprendizaje maquinal y estadística? No se puede ver una línea divisoria entre aprendizaje maquinal y estadística por que hay un continuo, una multidimesionalidad de técnicas de análisis de datos.. Estadística, esta más relacionado con pruebas de hipotesis. Modelo de aprendizaje maquinal Modelo de aprendizaje estadístico Aprendizaje maquinal, esta más relacionado con formular el proceso de generalización, como una búsqueda de posibles hipotesis

33 Machine learning and statistics Search es una buena técnica a explorar en el procesos de aprendizaje. El espacio de búsqueda, aunque infinito, es extremado grande y es impráctico, para enumerar todas las posibles descripciones y luego ver cuales son las acertadas. En el caso del problema del clima, hay 4 X 4 X 3 X 3 X 2 = 228 posibilidades para cada regla. Hay 4 posibilidades para el atributo de outlook : sunny, overcast, rainy y otras. Similarmente, hay 4 para la temperatura, tres para la humedad y tres para el viento.

34 Sesgo Visualizando la generalización como la búsqueda de espacios posibles, hace claro que las decisiones más importantes en sistemas de aprendizaje maquinal son: 1. El lenguaje de descripción del concepto 2. El orden en el cual el espacio es buscado 3. El camino, para evitar el overfitting en el entrenamiento de datos en partícular. Overfitting.- Es estadística, overfitting es montar un modelo estadístico que tenga muchos parámetros. Un modelo absurdo y falso, puede embonar perfectamente si el modelo cuenta con suficiente complejidad en comparación con la cantidad de datos disponibles Estas tres propiedades son generalmente referidas como el bias sesgo de la búsqueda y es llamado: sesgo lingüistico, búsqueda de sesgo, overfittingavoidance bias

35 Sesgo Lingüistico La pregunta más importante para el sesgo lingüistico es cuando el concepto de descripción del lenguaje es universal o cuando este impone restricciones o que conceptos deben de ser aprendidos. En el ejemplo del clima, Si se hubieran enumerado todos los posibles condiciones del clima, el concepto de play es un subconjunto de las posibles condiciones climáticas. Un lenguaje universal, es aquel que es capaz de casi todos los posibles subconjuntos de ejemplos. Una posible representación de concepto es solamente enumerar los ejemplos: If outlook = overcast and temperature = hot and humidity= high and windy=false then pay =yes If outlook=rainy and temperature=mild and humidity= high and windy=false then play=yes If outlook=rainy and temperature=cool and humidity=normal and windy=false then play=yes If outlook=overcast and temperature=cool and humidity=normal and windy=true then play= yes.. If none of the above the play=no

36 Búsqueda de Sesgo En problemas realísticos de data mining, hay muchas alternativas de descripción de conceptos que se ajustan a los datos, y el problema es encontrar el mejor de acuerdo a ciertos criterios usualmente simplista. Es frecuentemente infactible buscar en la totalidad del espacio y garantizar que la descripción encontrada es realmente la mejor. El procedimiento de búsqueda es heurístico y no garantiza la optimización al final del resultado. Minería de Datos y Ética El uso de datos- particularmente datos de personas para data mining tiene serios implicaciones éticas y los practicantes de técnicas de data mining, tienen que actuar de manera responsable haciendolos conscientes de si mismos de los aspectos éticos que rodena la aplicación en especifica.

37 The point is that data mining is just a tool in the whole process: it is people who take the results, along with other knowledge, and decide what action to apply.