Modelos matemáticos para la Minería de Datos

Transcripción

1 Modelos matemáticos para la Minería de Datos Emilio Carrizosa Facultad de Matemáticas, Universidad de Sevilla SCTM, Marzo de 2005

2 en colaboración con... Rafael Blanquero, Universidad de Sevilla Eduardo Conde, Universidad de Sevilla Belén Martín-Barragán, Universidad de Sevilla Frank Plastria, Vrije Universiteit Brussel Dolores Romero-Morales, University of Oxford

3 Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software Según Google, algo importante... 03/04 02/05 Data Mining Data Mining Jobs Minería de Datos Minería de Datos Empleo Incendio Windsor: Aquí no hay quien viva :

4 Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software Según Google, algo importante... 03/04 02/05 Data Mining Data Mining Jobs Minería de Datos Minería de Datos Empleo Incendio Windsor: Aquí no hay quien viva :

5 Introducción Campos de aplicación + Info y Software

6 El siglo de los datos? Introducción Campos de aplicación + Info y Software Las nuevas tecnologías generan (a veces como subproducto) cantidades ingentes de datos Wal-Mart: tiendas, con 100 millones de clientes; información en 460 Tb France Telecom maneja una base de datos de 30 Tb; AT&T, sólo de 26 Tb Internet Archive ( 300 Tb en (1Tb = 2 40 bytes)

9 El siglo de los datos? Introducción Campos de aplicación + Info y Software Necesaria tecnología capaz de sacar provecho de esta información

11 Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software Data Mining: Knowledge Discovery in Databases Berthold y Hand, 2003: Análisis inteligente de datos Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, 1996: Proceso no trivial de identificación de patrones válidos, novedosos, potencialmente útiles y comprensibles a partir de los datos Nihil novum sub sole?

14 Una tarea para mucha gente... Introducción Campos de aplicación + Info y Software De Bases de Datos De Inteligencia Artificial De Estadística (muchas técnicas de MD: versiones modernas de clásicos del Análisis Multivariable) De Investigación Operativa: Modelado Algoritmos Toma de decisiones

18 Quién será Mariam Abacha? Introducción Campos de aplicación + Info y Software Página 1 de emilio Carrizosa De: "Mrs Mariam Abacha." <maryambacha@netscape.net> Para: <ecarrizosa@us.es> Enviado: jueves, 22 de abril de :02 Asunto: DO YOUR POSSIBLE BEST TO HELP ME AND MY CHILDREN OUT OF THIS BONDAGE. From:HAJIA Mariam Abacha, Address: maryambacha@latinmail.com Kano State-Nigeria. God Bless your entire household, Following the sudden death of my husband General Sani Abacha the late former head of state of Nigeria in june 1998, I have been thrown into a state of utter confusion, frustration and hopelessness by the present civilian administration, I have been subjected to physical and psychological torture by the security agents in the country. My son was just released from detention some months ago by the Nigerian Government for an offence he did not commit. As a widow that is so traumatized, I have lost confidence with anybody within the country. You must have heard over the media reports and the internet on the recovery of various huge sums of money deposited by my husband in different security firms abroad, some companies willingly give up their secrets and disclosed our money confidently lodged there or many outright blackmail. In fact the total sum discovered by the Government so far is in the tune of $700. Million dollars. And they are not relenting to make me poor for life. I got your contacts through my personal research, and out of desperation decided to reach you through this medium. I will give you more information as to this regard as soon as you reply.i repose great confidence in you hence my approach to you due to security network placed on my day to day affairs I cannot afford to visit the embassy so that is why I decided to contact you and I hope you will not betray my confidence in you. I have deposited the sum of $ million dollars with a security firm abroad whose name is witheld for now until we open communication.i shall be grateful if you could receive this fund into your account for safe keeping.

19 Análisis de la cesta de la compra Introducción Campos de aplicación + Info y Software Pañales y cerveza Cerveza, tartas de fresa y huracanes, o What they know about you (NYT, 14/11/04)

20 De cómo ganar en Bolsa Introducción Campos de aplicación + Info y Software

21 Introducción Campos de aplicación + Info y Software Identificación de patologías y diagnóstico médico Title: Wisconsin Breast Cancer Database (January 8, 1991) # Attribute Domain Sample code number id number 2. Clump Thickness Uniformity of Cell Size Uniformity of Cell Shape Marginal Adhesion Single Epithelial Cell Size Bare Nuclei Bland Chromatin Normal Nucleoli Mitoses Class: (2 for benign, 4 for malignant) Missing attribute values: 16 There are 16 instances that contain a single missing (i.e., unavailable) attribute value, now denoted by "?". 9. Class distribution: Benign: 458 (65.5%) Malignant: 241 (34.5%)

22 Filtro colaborador Introducción Campos de aplicación + Info y Software

23 Terrorismo internacional Introducción Campos de aplicación + Info y Software Total Information Awareness

24 Terrorismo internacional Introducción Campos de aplicación + Info y Software Multistate Anti-TeRorism Information exchange

25 Introducción Campos de aplicación + Info y Software Análisis de riesgo en créditos bancarios

26 Introducción Campos de aplicación + Info y Software Análisis de secuencias de genes y proteínas

27 Introducción Campos de aplicación + Info y Software Detección de uso fraudulento de tarjetas de crédito Evaluación de campañas publicitarias Segmentación de clientes Fuga de clientes...

32 Minería de Datos recreativa ;-) Introducción Campos de aplicación + Info y Software

34 Introducción Campos de aplicación + Info y Software C. Apte, The big (data) dig, OR/MS Today, Febrero M. Berthold, D.J. Hand, Intelligent Data Analysis: An introduction, Springer, P.S. Bradley, U.M. Fayyad, O.L. Mangasarian, Mathematical Programming for Data Mining: Formulations and challenges, INFORMS Journal on Computing 11 (1999) L. Breiman, J.H. Friedman, R.A. Olshen, C. J. Stone, Classification and Regression Trees, Wadsworth & Brooks/Cole, C. Burges, A tutorial on Support Vector Machines, Knowledge Discovery and Data Mining 2 (1998)

35 Introducción Campos de aplicación + Info y Software N. Cristianini, J. Shaw-Taylor, An introduction to Support Vector Machines, Cambridge University Press, R. Giráldez, J.C. Riquelme y J.S. Aguilar-Ruiz, Tendencias de la Minería de Datos en España. Red Española de Minería de Datos, T. Hastie, R. Tibshirani, J. Friedman, The elements of Statistical Learning, Springer, J. Hernández Orallo, M.J. Ramírez Quintana, C. Ferri Ramírez, Introducción a la Minería de Datos, Pearson Prentice Hall, W. Klösgen, Żytkow, Handbook of data mining and knowledge discovery, Oxford University Press, 2002.

36 Asociaciones Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software EURO Working Group on Continuous Optimization ACM Special Interest Group on Knowledge Discovery in Data and Data Mining, INFORMS Section on Data Mining,

37 Introducción Campos de aplicación + Info y Software XLMiner. Minería de Datos en Excel

38 Matlab. Stats toolbox Introducción Campos de aplicación + Info y Software

39 SPSS Clementine Introducción Campos de aplicación + Info y Software

40 WEKA Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software

41 SAS Enterprise Miner Introducción Campos de aplicación + Info y Software

42 CART Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software

43 A medida... Qué es la Minería de Datos? Introducción Campos de aplicación + Info y Software

44 Fases y ejemplos Reglas de asociación Análisis de conglomerados Extracción de conocimiento. Fases del proceso 1 Recopilación e integración de datos. Data Warehousing 2 Depuración de la base de datos (detección /eliminación de datos erróneos, tratamiento de datos perdidos,... ) 3 Minería de Datos 4 Evaluación de resultados 5 Toma de decisiones

49 Tareas de la Minería de Datos Fases y ejemplos Reglas de asociación Análisis de conglomerados Reglas de asociación Clasificación Regresión Predicción y detección de incidencias...

53 Las más usadas... Fases y ejemplos Reglas de asociación Análisis de conglomerados... solas o en compañía

54 Ordenando sitios web... Fases y ejemplos Reglas de asociación Análisis de conglomerados Dada una serie de sitios web, ordenarlos según su importancia. Sitio: importante{ si aparece enlazado desde sitios importantes. 1, si i enlaza a j Definimos n ij = 0, si no Buscamos x j : importancia del sitio j. Imponemos j x j = 1 j n ij : enlaces desde el sitio i. i n ij : número de enlaces al sitio j f ij = n ij Pk n : fracción de enlaces de i a j de entre los enlaces ik de i. i f ijx i : enlaces al sitio j, ponderados por su importancia x j = i f ij x i j

64 Fases y ejemplos Reglas de asociación Análisis de conglomerados x j = i x j = 1 j f ij x i j

65 Fases y ejemplos Reglas de asociación Análisis de conglomerados x = xf e x = 1

66 Esto es el PageRank de Google Fases y ejemplos Reglas de asociación Análisis de conglomerados Larry Page Sergey Brin

67 Fases y ejemplos Reglas de asociación Análisis de conglomerados

68 Elección del Caballo del Vino... Fases y ejemplos Reglas de asociación Análisis de conglomerados Cada peña presenta un caballo, y puntúa a todos los caballos. Cada peña: un voto? Las peñas que presentan un caballo bueno: más peso Definimos v ij : puntuación que la peña i da al caballo de la peña j. v ij Pk v ik f ij = van al caballo de la peña j. Buscamos x j : puntuación del caballo de la peña j. peso en la votación de j. Imponemos j x j = 1 : fracción de de puntos de los otorgados por i que x j = i f ij x i j

75 Fases y ejemplos Reglas de asociación Análisis de conglomerados Sábado 10de00VieImede 2001 La verdad C Caravaca de la Cruz JUAN F. ROBLES. CARAVACA DE LA CRUZ La amenaza de nieve y frío no asustan a los caballistas de Caravaca. Aún no ha llegado el mes de mayo, ni tampoco las Fiestas de la c -qruz, pero esta tarde,a partir de las 15.30, El-nuevo marcador electrónico esuna novedad importante que los caballistas esperaban desde hace tiempo, ya que, como en cualquier carrera de velocidad, las diferencias en la subida a la cuesta del castillo suelen ser habitualmente mínimas, y una milésima de segundo puede dar el, triunfo a un caballo o a otro. Hasta el año pasado el sistema incluía el disparo automático en la salida,, ahora se quiere incorporar el dis- ", " paro automático también en la :-.. negada. ~~ El Bando de los Caballos del!s:c Vmo no ha emitido Emilio ninguna Carrizosa, infor- ecarrizosa@us.es horas, un grupo de caballistasrealizará una carrera de 108 Caballos del Vmo especial para comprobar el funcionamiento del nuevo sistema de cronometraje de esta competición que tiene lugar todos los años en la mañana del día 2 de mayo. Paralelamente a este sistema de medir los tiempos, profesores de Matemáticas de las Universidades de Murcia y Sevilla preparan un nuevo sistema de votación para el concurso de EJIjaezamiento. J t i i f C c M d s y

76 Fases y ejemplos Reglas de asociación Análisis de conglomerados Predicción de encaje de efectivo en oficinas bancarias

77 Fases y ejemplos Reglas de asociación Análisis de conglomerados Predicción de encaje de efectivo en oficinas bancarias

78 Fases y ejemplos Reglas de asociación Análisis de conglomerados Predicción Detección de incidencias?

79 Fases y ejemplos Reglas de asociación Análisis de conglomerados Predicción Detección de incidencias?

80 Fases y ejemplos Reglas de asociación Análisis de conglomerados Reglas de asociación

81 Reglas de asociación Fases y ejemplos Reglas de asociación Análisis de conglomerados Asocian automáticamente una conclusión particular D (e.g. la adquisición de un determinado producto) con un conjunto C de condiciones (e.g. la adquisición de otros productos). Reglas interesantes : de alta cobertura (las condiciones se dan con mucha frecuencia) de alta confianza (condicionando al suceso de que se dan las condiciones, la conclusión se da con mucha frecuencia)

82 Reglas de asociación Fases y ejemplos Reglas de asociación Análisis de conglomerados Asocian automáticamente una conclusión particular D (e.g. la adquisición de un determinado producto) con un conjunto C de condiciones (e.g. la adquisición de otros productos). Reglas interesantes : de alta cobertura (las condiciones se dan con mucha frecuencia) de alta confianza (condicionando al suceso de que se dan las condiciones, la conclusión se da con mucha frecuencia)

83 Fases y ejemplos Reglas de asociación Análisis de conglomerados Condiciones: C C C ω(c) : fracción de registros en base de datos que cumplen todas las condiciones de C { ω(c) (cobertura) C D : Hallar C, D, con ω(c) : grande : grande ω(c D) ω(c) ω(c D) ω(c) max ω(c) α ω(c D) (confianza) Algoritmo Apriori

88 Clasificación Qué es la Minería de Datos? Fases y ejemplos Reglas de asociación Análisis de conglomerados 1 Página 1 de 1 clasificación. 1. f. f. Acción y efecto de clasificar. 2. f. f. Relación de los clasificados en una determinada prueba. ~ biológica. 1. f. f. taxonomía (ciencia). ~ periódica. 1. f. f. sistema periódico. Real Academia Española Todos los derechos reservados Clasificación no supervisada (análisis de conglomerados) (análisis discriminante)

91 Fases y ejemplos Reglas de asociación Análisis de conglomerados Análisis de conglomerados

92 Análisis de conglomerados Fases y ejemplos Reglas de asociación Análisis de conglomerados Dados N individuos, agruparlos, de modo que individuos similares queden en la misma clase.

93 Midiendo el parecido... Fases y ejemplos Reglas de asociación Análisis de conglomerados... entre puntos x, y R N : Distancia eucĺıdea (ponderada), N d(x, y) = i=1 ω i(x i y i ) 2 = (x y) (x y) ( N ) 1/p Distancia l p (ponderada), d(x, y) = i=1 ω i x i y i p Distancia de Mahalanobis, d(x, y) = (x y) Σ 1 (x y), con Σ : matriz de covarianzas.... Cuando estamos en R N, pero hay valores perdidos... ( P j D(u) D(v) u j v 2 1/2 j, d(u, v) = +, ω j D(u) D(v) D(u) : variables conocidas de u. si D(u) D(v) c.c.

94 Midiendo el parecido... Fases y ejemplos Reglas de asociación Análisis de conglomerados Disimilaridad distancia eucĺıdea (ponderada), o l p distancia de Mahalanobis Cuando hay valores perdidos, ( P j D(u) D(v) u j v 2 1/2 j, d(u, v) = +, ω j D(u) D(v) si D(u) D(v) c.c. D(u) : variables conocidas de u. distancias para distribuciones de frecuencias (e.g. chi cuadrado) distancias para series temporales (e.g. basadas en coeficiente de correlación lineal) Para conjuntos: d(u, v) = u v u v u v...

100 Que es la Minerı a de Datos? El proceso de extraccio n de conocimiento Clasificacio n supervisada Fases y ejemplos Reglas de asociacio n Ana lisis de conglomerados

101 Que es la Minerı a de Datos? El proceso de extraccio n de conocimiento Clasificacio n supervisada Fases y ejemplos Reglas de asociacio n Ana lisis de conglomerados

102 Fases y ejemplos Reglas de asociación Análisis de conglomerados Regresión

103 Regresión Qué es la Minería de Datos? Fases y ejemplos Reglas de asociación Análisis de conglomerados Lo de siempre, aunque Difícil de admitir las hipótesis clásicas de linealidad normalidad Difícil de proponer hipótesis alternativas Estrategias de resolución Regresión no paramétrica (estimadores núcleo,... ) Redes de neuronas artificiales Árboles de regresión...

107 Fases y ejemplos Reglas de asociación Análisis de conglomerados Midiendo la capacidad de generalización A partir de los datos disponibles Construimos un modelo Medimos el ajuste sobre los datos Garantiza un buen ajuste sobre los datos actuales un buen ajuste sobre datos venideros? Puedo saber tu número de tarjeta VISA a partir del número de tu móvil?

110 Sobreajuste: la palabra maldita Fases y ejemplos Reglas de asociación Análisis de conglomerados Pluralitas non est ponenda sine neccesitate (Guillermo de Occam, )

111 Fases y ejemplos Reglas de asociación Análisis de conglomerados Validación 1 Separamos aleatoriamente los datos en dos grupos: muestra de aprendizaje y muestra de validación 2 Diseñamos y ajustamos el modelo sobre la muestra de aprendizaje, y evaluamos el error sobre la de validación Validación cruzada con k pliegues 1 Tomar k (k = 10) 2 Dividir aleatoriamente la muestra en k grupos aproximadamente del mismo tamaño 3 Para cada grupo, tomar éste como muestra de validación, y los restantes como muestra de aprendizaje 4 Tomar como error el promedio de los k errores así obtenidos El bootstrap

114 Datos de prueba Fases y ejemplos Reglas de asociación Análisis de conglomerados

115 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión

116 Planteamiento Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ingredientes C = {c 1,..., c N } : Conjunto de clases (etiquetas) Ω : individuos para clasificar. u : identificado por (x u, c u ) x u X : características asociadas a u c u C : clase a la que pertenece u. Objetivo: Dado u Ω... Conociendo sólo x u, determinar c u.

122 Ejemplo. Lirios de Fisher (1936) Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión

123 Clasificación y tablas de decisión Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Elementos: Estados de la naturaleza: {ω 1,..., ω N }, ω j = en verdad es c u = c j Conjunto de acciones: {a 1,..., a N }, a i = asignar u a la clase c i, i.e., asumir c u = c i. Conjunto de acciones (variante): {a 0, a 1,..., a N }, a 0 = no la clasifico, pues no sé

126 Matriz de costes Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión R = r 11 r 12 r 1N r 21 r 22 r 2N r N1 r N2 r NN r ij = coste por etiquetar como c i un u con c u = c j Caso particular: coste 0 1 : { 1, si i j r ij = 0, en caso contrario

129 La tabla de decisión Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión ω 1 ω 2 ω N a 1 r 11 r 12 r 1N a 2 r 21 r 22 r 2N a N r N1 r N2 r NN Criterio usual: Minimización del coste esperado, a i N r ij P(c j x u ) j=1 Caso binario: probabilidad de clasificación incorrecta si clasificamos en clase c i.

132 Minimización del coste esperado Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión FIN... si conociéramos para cada par (i, j), el coste r ij para cada c C, la probabilidad P(c x u ) de que x u pertenezca a la clase c. En su lugar, Disponemos de un conjunto de objetos I Ω, (muestra de aprendizaje) tal que (x u, c u ) es conocido podemos usar esta información para calcular las probabilidades

135 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Dado x X, suponemos conocida (!!!)... π j : probabilidad a priori de que u c j, j = 1,..., N. Por información externa al problema. Principio de Laplace: π j = 1 N, j = 1, 2,..., N. Conocemos mecanismo aleatorio de generación de I, y estimamos, e.g. π j = {u I : cu = c j } I

139 En c j, x... Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión x : normal multivariante, con media µ j, matriz de covarianzas Σ j (o Σ, común a todas las clases) modelo logístico: f (x c j ) e α j +β j x : cadena de Markov oculta... x Nos sabemos Bayes: P(c i x) = f (x c i)π i j f (x c j)π j

143 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Y no es esto mucho suponer?

144 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Proyecto Elvira,

145 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Vecino más cercano

146 El vecino más cercano. Prototipos Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetos parecidos pertenecen a la misma clase elegimos prototipos de cada clase regla de clasificación: asignamos un objeto a la clase del prototipo más parecido

147 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetos parecidos pertenecen a la misma clase

148 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetos parecidos pertenecen a la misma clase

149 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetos parecidos pertenecen a la misma clase o?

150 Cómo elegir prototipos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión A partir de la muestra de aprendizaje... El conjunto de mínimo cardinal que clasifica correctamente el 100% de muestra de aprendizaje El conjunto de k prototipos que minimiza el coste total de clasificación incorrecta en muestra de aprendizaje (k fijo)...

154 Selección de k prototipos Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión R : Conjunto de candidatos a prototipos (e.g. los de la muestra de aprendizaje) { 1, si s es seleccionado como prototipo x s = s R 0, c.c. { 1, si s : prototipo más cercano a i y is = i I, s R 0, c.c.

155 Formulación como un IP Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión min s. a i I s R r c s c i y is s R c x s 1 s R x s = k s R y is = 1 x s y is t R is x t y is x s x s {0, 1} c C i I (i, s) I R (i, s) I R s R y is [0, 1] (i, s) I R.

156 Caso particular: coste binario Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión { 1, si i queda bien clasificado z i = 0, c.c. max sujeto a: i I r c i z i s R c x s 1 s S x s = k z i (1 x t ) + s R ci R it x s x s {0, 1} c C i I, t / R ci s R z i [0, 1] i I.

157 Caso particular: coste binario Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión { 1, si i queda bien clasificado z i = 0, c.c. max sujeto a: i I r c i z i s R c x s 1 s S x s = k z i (1 x t ) + s R ci R it x s x s {0, 1} c C i I, t / R ci s R z i [0, 1] i I.

158 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Resultados en yeastme (8 variables, 3 clases) k training (%) testing (%) time (sec.) Fisher Fisher

159 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Resultados en wine (13 variables, 3 clases) k training (%) testing (%) time (sec.) Fisher Fisher

160 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Resultados en glasswindows (9 variables, 3 clases) k training (%) testing (%) time (sec.) * MAXT * MAXT * MAXT Fisher Fisher

161 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Resultados en glass (9 variables, 6 clases) k training (%) testing (%) time (sec.) Fisher Fisher

162 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Heurístico VNS en yeastme (8 variables, 3 clases) k training (%) testing (%) time (sec.) Fisher Fisher

163 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Heurístico VNS en glasswindows (9 variables, 3 clases) k training (%) testing (%) time (sec.) Fisher Fisher

164 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Heurístico VNS en wine (13 variables, 3 clases) k training (%) testing (%) time (sec.) Fisher Fisher

165 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Heurístico VNS en glass (9 variables, 6 clases) k training (%) testing (%) time (sec.) Fisher Fisher

166 Otros aspectos Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Valores perdidos El k-nn

167 Otros aspectos Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Valores perdidos El k-nn

168 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Máquinas de Vector de Apoyo

169 Regla de clasificación Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Hipótesis C = { 1, 1} X R p Función de valoración f (x) = ω x + β Asignación Si f (x u ) > 0, entonces asignar u a la clase 1 Si f (x u ) < 0, entonces asignar u a la clase 1

173 Hiperplanos de separación Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Podemos hacerlo bien, i.e., clasificar bien el 100% al menos sobre la muestra de aprendizaje? El caso separable: ({x u : c u = 1}, {x u : c u = 1}) : separables si (ω, β) R p R : c u ( ω x u + β ) > 0 u Son equivalentes: 1 ({x u : c u = 1}, {x u : c u = 1}) : separables 2 conv({x u : c u = 1}) conv({x u : c u = 1}) =

174 Hiperplanos de separación Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Podemos hacerlo bien, i.e., clasificar bien el 100% al menos sobre la muestra de aprendizaje? El caso separable: ({x u : c u = 1}, {x u : c u = 1}) : separables si (ω, β) R p R : c u ( ω x u + β ) > 0 u Son equivalentes: 1 ({x u : c u = 1}, {x u : c u = 1}) : separables 2 conv({x u : c u = 1}) conv({x u : c u = 1}) =

175 Qué ω, β elegimos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión?

178 Maximización del margen Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetivo Hiperplano de máximo margen: max min y u (ω x u + β) ω,β u I ω

179 Tiene esto sentido? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Objetivo: se busca clasificador f que minimice coste esperado de clasificación incorrecta (probabilidad de error) R(f ) para futuros individuos sin hipótesis distribucionales No se puede evaluar R(f ) Vapnik: para un clasificador lineal f, Remp(f ) : coste empírico ε : decreciente en el margen R(f ) Remp(f ) + ε(f ) En vez de minimizar R(f ), minimizamos su cota superior, maximizando el margen

183 Formulación Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Cuando norma Eucĺıdea Formulación min ω 2 s.t.: y u ( ω x u + β ) 1 I ω R p, β R. Formulación dual max u I λu 1 2 u,v I λu λ v y u y v x u x v s.t.: u I y u λ u = 0 λ u 0 u I.

186 Otras opciones... Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión l 1 min t s.t. y ( u ω x u + β ) 1 u t ω k t k l min e ω + + e ω s.t. y u ( ω + x u ω x u + β ) 1 u ω +, ω 0

187 Otras opciones... Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión l 1 min t s.t. y ( u ω x u + β ) 1 u t ω k t k l min e ω + + e ω s.t. y u ( ω + x u ω x u + β ) 1 u ω +, ω 0

188 Caso no separable I Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Inmersión en un espacio de mayor dimensión φ : X 1 X 2... X p R N,

191 Caso no separable I Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Formulación max u I λu 1 2 u,v I λu λ v y u y v k(x u, x v ) s.t.: u I y u λ u = 0 λ u 0 u I. función núcleo (kernel) k(x, y) = φ(x) φ(y)

194 Caso no separable II: Soft-margin Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Formulación del caso separable Formulación caso no separable min ω 2 s.t.: y u ( ω x u + β ) 1 I min ω 2 + C( ξ p ) p st: y u ( ω x u + β ) + ξ u 1 u I

198 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Árboles de clasificación (y regresión)

199 CART Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión CART: metodología unificada de predicción de variables categóricas (luego apta para el caso de la clasificación) variables numéricas (y, por tanto, también utilizable en los problemas de regresión) L. Breiman, J.H. Friedman, R.A. Olshen, C. J. Stone, Classification and Regression Trees, nuevos problemas de clasificación y regresión, surgidos en el campo de la Minería de Datos, los que han popularizado la técnica.

200 Esquema del algoritmo Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Construcción secuencial de árbol binario mediante preguntas con respuestas sí-no En cada etapa, estudiar, para cada variable, el efecto que produciría ramificar de acuerdo a dicha variable seleccionar la variable que produzca la mayor ganancia en pureza repetir recursivamente En cada nodo terminal n del árbol, establecemos una regla de clasificación: todos los individuos que pertenezcan al nodo n serán asignados a una misma clase, ϕ(n). Lo que distinguirá a unas variantes de otras es el método utilizado para seleccionar en cada etapa la pregunta por la que ramificar el árbol (medida de pureza).

201 Un ejemplo Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Sea una población P de individuos, de dos grupos, G 1, G 2. En cada individuo, dos variables binarias x 1, x 2. Antes de ramificar: G 1 G 2 x 1 x 2 n x 1 x 2 n Mejor por x 1, no?

202 Un ejemplo Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Sea una población P de individuos, de dos grupos, G 1, G 2. En cada individuo, dos variables binarias x 1, x 2. Antes de ramificar: G 1 G 2 x 1 x 2 n x 1 x 2 n Ramificando por x 1 G 1 G 2 x 1 = 1 96, 6% 3, 4% x 1 = 0 2, 5% 97, 5% Mejor por x 1, no?

203 Un ejemplo Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Sea una población P de individuos, de dos grupos, G 1, G 2. En cada individuo, dos variables binarias x 1, x 2. Antes de ramificar: G 1 G 2 x 1 x 2 n x 1 x 2 n Ramificando por x 2 G 1 G 2 x 2 = 1 49, 6% 50, 4% x 2 = 0 48, 7% 51, 3% Mejor por x 1, no?

204 Un ejemplo Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Sea una población P de individuos, de dos grupos, G 1, G 2. En cada individuo, dos variables binarias x 1, x 2. Antes de ramificar: G 1 G 2 x 1 x 2 n x 1 x 2 n Mejor por x 1, no?

205 Índices de diversidad Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Si población está dividida en m clases, con frecuencias f 1,..., f m, definimos Entropía: Gini: DKM: m j=1 f 1/2 j... m f j log f j j=1 1 m j=1 cuanto menores sean, tanto mayor la pureza de la población f 2 j

206 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Para determinar la variable x i de ramificación a usar podemos agregar los índices I (x i = j) en un único índice I (x i ) Esto se hace tomando una media ponderada de los I (x i = j) correspondientes: I (x i ) = j N j k N I (x i = j), k donde N j es el número de individuos con x i = j.

207 En el ejemplo... Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Ramificando por x 1 G 1 G 2 x 1 = 1 96, 6% 3, 4% x 1 = 0 2, 5% 97, 5% Ramificando por x 2 G 1 G 2 x 2 = 1 49, 6% 50, 4% x 2 = 0 48, 7% 51, 3% Índice de entropía I (x i = j) asociado a cada una de las dos subpoblaciones obtenidas al ramificar por x i I (x 1 = 1) = 0, I (x 1 = 0) = 0, I (x 2 = 1) = 0, I (x 2 = 0) = 0, Índice de entropía agregado I (x 1 ) = 0, I (x 2 ) = 0,

210 Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión En la práctica Emilio Carrizosa, estasecarrizosa@us.es probabilidades no se pueden calcular, por Asociamos a cada árbol t su coste esperado c(t), definido como c(t) = n π(n t)c(n t), donde n es el conjunto de nodos terminales del árbol π(n t) es la probabilidad de que, en el árbol t, un individuo pertenezca al nodo final n. c(n t) es el coste esperado de clasificación incorrecta de un individuo del nodo n. Como todos los individuos del nodo n son asignados a un mismo grupo, ϕ(n), tenemos que m c(n t) = c iϕ(n) π i (n t), i=1 donde π i (n t) es la probabilidad de que un individuo del nodo n pertenezca al grupo i.

211 Poda del árbol Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Pluralitas non est ponenda sine neccesitate (Guillermo de Occam, ) Desarrollar el árbol hasta el final puede producir sobreajuste Se plantea podar ramas del árbol Criterios: e.g. minimizar impureza + C número de nodos terminales

212 Spam Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión SPAM DATABASE ATTRIBUTES (in.names format) 48 continuous real [0,100] attributes of type word_freq_word = percentage of words in the that match WORD, i.e. 100 * (number of times the WORD appears in the ) / total number of words in . A "word" in this case is any string of alphanumeric characters bounded by non-alphanumeric characters or end-of-string. 6 continuous real [0,100] attributes of type char_freq_char = percentage of characters in the that match CHAR, i.e. 100 * (number of CHAR occurences) / total characters in 1 continuous real [1,...] attribute of type capital_run_length_average = average length of uninterrupted sequences of capital letters 1 continuous integer [1,...] attribute of type capital_run_length_longest = length of longest uninterrupted sequence of capital letters 1 continuous integer [1,...] attribute of type capital_run_length_total = sum of length of uninterrupted sequences of capital letters = total number of capital letters in the 1 nominal {0,1} class attribute of type spam = denotes whether the was considered spam (1) or not (0), i.e. unsolicited commercial . For more information, see file 'spambase.documentation' at the UCI Machine Learning Repository: ~mlearn/mlrepository.html 1, 0. spam, non-spam classes

213 Spam Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión x53 < x7 < spam no spam spam

214 Spam Qué es la Minería de Datos? Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Muestra de aprendizaje spam no spam es spam no es spam

215 Cambiando las a priori Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Supongamos que la probabilidad a priori de correo spam no es, como en la muestra de aprendizaje, del 39.4% sino del 50%. x53 < x52 < x7 < spam x7 < spam no spam spam no spam spam

216 Cambiando las a priori Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Supongamos que la probabilidad a priori de correo spam no es, como en la muestra de aprendizaje, del 39.4% sino del 50%. Muestra de aprendizaje spam no spam es spam no es spam Muestra de aprendizaje spam no spam es spam no es spam

217 Cambiando los costes Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Supongamos que el coste de clasificar como spam uno que no lo es 10 veces el de clasificar como no spam uno que sí lo es. x53 < x7 < 0.01 x7 < spam no spam x27 < 0.08 no spam spam spam no spam

218 Cambiando los costes Vecino más cercano Máquinas de vector soporte Árboles de clasificación y regresión Supongamos que el coste de clasificar como spam uno que no lo es 10 veces el de clasificar como no spam uno que sí lo es. Muestra de aprendizaje spam no spam es spam no es spam Muestra de aprendizaje spam no spam es spam no es spam

219 Que es la Minerı a de Datos? El proceso de extraccio n de conocimiento Clasificacio n supervisada Vecino ma s cercano Ma quinas de vector soporte A rboles de clasificacio n y regresio n Y esto es todo... En resumen... Muchı simas gracias por su atencio n Preguntas? (no muy difı ciles) ecarrizosa@us.es

220 Que es la Minerı a de Datos? El proceso de extraccio n de conocimiento Clasificacio n supervisada Vecino ma s cercano Ma quinas de vector soporte A rboles de clasificacio n y regresio n Y esto es todo... En resumen... Muchı simas gracias por su atencio n Preguntas? (no muy difı ciles) ecarrizosa@us.es