Métodos no supervisados: Agrupamiento

Transcripción

1 Métodos no supervisados: Agrupamiento Agrupamiento clustering- Carlos J. Alonso González Departamento de Informática Universidad de Valladolid

2 Contenido 1. Introducción. Basados en particiones 3. Métodos jerárquicos 4. Métodos basados en modelos Agrupamiento

3 1 Introducción Formación de conceptos Dado Instancias de un concepto, posiblemente desconocido Obtener Caracterización del concepto Dos aproximaciones principales Agrupamiento Descubrimiento Agrupamiento 3

4 Descubrimiento de conceptos Amplia clase de sistemas Los más sencillos: descubrimiento empírico, leyes generales que describen observaciones BACON Descubrimiento de leyes cuantitativas Proust, Gases Ideales, Kepler, Ohm... Los más complejos: formación de teorías, manipulando conocimiento base junto a observaciones ABACUS Leyes cuantitativas y precondiciones para su uso Agrupamiento 4

5 Agrupamiento cluster analysis- Objetivo: encontrar grupos que reflejen la estructura del espacio de entrada Cluster: conjunto de instancias Similares en el mismo cluster Distintos entre clusters diferentes Clustering: agrupar datos de entrada en clusters Usos principales Herramienta de análisis de datos Etapa de preprocesado para otros algoritmos Agrupamiento 5

6 Aparentemente simple Agrupamiento 6

7 En la práctica, complejo Agrupamiento 7

8 Calidad del agrupamiento Clusters con Alta similitud intra clase Baja similitud inter clase Dificultad de evaluación Depende a la medida de similitud Subjetivo Dependiente de la aplicación Capacidad para encontrar patrones ocultos Agrupamiento 8

9 Principales aproximaciones Basados en particiones Crean particiones sucesivas del conjunto de datos Jerárquicos Descomposición jerárquica del conjunto de objetos Basados en densidades Funciones densidad y conectividad Basados en rejillas Estructuras de diversa granularidad Basados en modelos Se supone un modelo del cluster y se ajustan sus parámetros Combinaciones de los anteriores! Agrupamiento 9

10 . Basados en particiones Dividen el conjunto de entrenamiento, D, en k particiones Objetivo: dado k, dividir D en k grupos que optimice el criterio de partición -similitud- Óptimo global: requiere búsqueda exhaustiva de todas las particiones Métodos heurísticos: Óptimo local K-medias K-medianas Agrupamiento 10

11 K-medias (centros móviles) Método clásico (67) Seleccionar aleatoriamente k centros iniciales Repetir Asignar instancias a cluster con centro más próximo Calcular los nuevos centroides de los clusters Hasta criterio de convergencia Agrupamiento 11

12 K-medias: ejemplo I

13 K-medias: ejemplo II Agrupamiento 13

14 K-medias: ejemplo II (continuación) Agrupamiento 14

15 Discusión El algoritmo minimiza el error cuadrático de la distancia a los centros de los clusters Convergencia si distancia euclídea Mínimo local Simple y relativamente eficiente, O(tkn) t iteraciones, k particiones, n= D Usualmente t, k << n Limitaciones Hay que fijar k Solo aplicable si está definida la media Sólo clusters convexos Poco robusto al ruido Outliers Diferencias significativas con selección inicial de centros Agrupamiento 15

16 Influencia selección inicial Agrupamiento 16

17 Influencia selección inicial Agrupamiento 17

18 K-medianas Usar como centros las medianas y no las medias Mediana de un cluster: la instancia más centrada No se ve afectada por outliers Más robusto al ruido Estrategia de substitución de medianas más sofisticada Agrupamiento 18

19 Estrategia de substitución de medianas Para determinar si instancia m h es un buen substituto de m i centroide i-ésimo -, se examinan 4 posibilidades para cada instancia no centroide, j 1. j en centroide m i ; si al reemplazar m i por m h j está más próximo a m t, i t, asignar j a m t. j en centroide m i ; si al reemplazar m i por m h j está más próximo a m h, asignar j a m h 3. j en centroide m t ; si al reemplazar m i por m h j sigue más próximo a m t, i t, no modificar asignación 4. j en centroide m t ; si al reemplazar m i por m h j está más próximo a m h, i t, asignar j a m h Agrupamiento 19

20 Ejemplo substitución medianas j i h t C jih = t i h j C jih = d(j, h) - d(j, i) h i t j C jih = d(j, t) - d(j, i) t i h j C jih = d(j, h) - d(j, t)

21 Coste del intercambio Cada vez que se produce un intercambio, se puede modificar el error cuadrático Para cada punto no centroide, se calcula la diferencia del error cuatrático del nuevo al antiguo centroide: C jih j no centroide, i centroide anterior, h nuevo centroide El coste total es la suma extendida a todos los no centroides CT ih = j C jih Si CT ih <0 se produce el cambio Agrupamiento 1

22 Ejemplo costes intercambios j i h t C jih = t i h j C jih = d(j, h) - d(j, i) h i t j C jih = d(j, t) - d(j, i) t i h j C jih = d(j, h) - d(j, t)

23 PAM: Partition around medoids Uno de los primeros algoritmos k-medianas (87) Seleccionar aleatoriamente k centros iniciales Asignar instancias a cluster con centro más próximo Repetir Para cada centro i seleccionar aleatoriamente una instancia no central, x h Calcular el coste total de intercambiar i e h: CT ih Si CT ih <0, reemplazar i por h y reasignar instancias no centroides Hasta criterio de convergencia Agrupamiento 3

24 PAM: discusión Efectivo para conjuntos de datos pequeños No es adecuado para conjuntos de datos grandes Alternativas CLARA CLARANS Agrupamiento 4

25 CLARA (Clustering Large Applications, 1990) CLARA Extrae múltiples muestras del conjunto de entrenamiento Aplica PAM a cada muestra Devuelve partición con menor error cuadrático Ventaja: permite trabajar con conjuntos de datos más grandes Inconvenientes La eficiencia depende del tamaño de la muestra Si la muestra está sesgada, un buen clustering de la muestra no será un buen clustering del conjunto de datos Agrupamiento 5

26 CLARANS (Clustering Large Applications based upon RANdomize Search, 1994) CLARANS Búsqueda en grafo de particiones: cada nodo, posible solución (conjunto de k-medoides) Extrae, dinámica y aleatoriamente, nuevas muestras vecinas de instancias ya consideradas Genera nodos al modificar centros, mientras disminuya error cuadrático Si mínimo local, selecciona aleatoriamente otro nodo Más eficiente y escalable que PAM y CLARA Agrupamiento 6

27 3 Métodos jerárquicos Agrupan las instancias en un árbol de clusters: Dendograma Dos aproximaciones Métodos aglomerativos o botton-up Inicialmente asignan un cluster a cada instancia Fusionan los clusters según criterio de similitud Más frecuente Métodos divisorios o top-down Inicialmente único cluster con todas las instancias Didive los clusters Agrupamiento 7

28 Ejemplo Step 0 Step 1 Step Step 3 Step 4 a a b b a b c d e c c d e d d e e Step 4 Step 3 Step Step 1 Step 0 agglomerative (AGNES) divisive (DIANA) Agrupamiento 8

29 Dendograma Descompone datos en particiones anidas (árbol de clusters) Una partición se obtiene cortando el dendograma al nivel deseado: cada componente conectado es un cluster Agrupamiento 9

30 Características Utilizan matriz de distancias m i,j =d(x i,x j ) No es preciso conocer k Condición de terminación (salvo único cluster o todas las instancias) Agrupamiento 30

31 Criterios de unión Distancias habituales entre clases Mínima: puntos más cercanos del cluster (simple linkage) Máxima: puntos más alejados del cluster (complete linkage) Medias: ente las medias de los dos clusters Promedio: entre los puntos de los dos clusters Método de Ward: se fusionan los dos clusters cuya unión genera el mínimo incremento del error cuadrático (tb. basado en distancias) Complete y Ward crean clusters más compactos: Generalmente, Ward mejor comportamiento, Ward mayor coste computacional (aunque método efectivo si distancia euclídea) Agrupamiento 31

32 AGNES AGlomerative NESting Introducido 90 Inicialmente, un cluster por instancia En cada paso se agrupan clusters más cercanos Hasta condición de terminación o un único cluster Agrupamiento 3

33 Ejemplo: 5 instancias y distancia mínima Tree Diagram for 5 Variables Single Linkage Dissimilarities from matrix VAR1 VAR3 VAR VAR4 VAR Linkage Distance Agrupamiento 33

34 DIANA: DIvisive ANAlysis 90 Inicialmente, un único cluster con todas las instancias En cada paso, generar clusters más separados Hasta condición de terminación o cada cluster una instancia Agrupamiento 34

35 Métodos Jerárquicos: Discusión Método simple No precisa conocer k: cortar el dendográma al nivel deseado Determinista Clusters no esféricos Dificultades Selección puntos de fusión o división Irrevocable Si errónea, malos resultados Costosa Coste 0(n ) Posibilidades Combinar clustering jerárquico con otras técnicas: BIRCH, CURE, etc Agrupamiento 35

36 BIRCH (96) Balanced Iterative Reducing and Clustering using Hierarchies Construcción incremental del árbol CF (Clustering Feature: información cada cluster) Fase 1: escanear base de datos para construir, dinámicamente, el árbol Fase : Utilizar un algoritmo arbitrario de clustering para agrupar nodos hojas Escalable (lineal), cluster de calidad con único escán Sólo datos numéricos Agrupamiento 36

37 Inconvenientes métodos basados en error cuadrático Un representante por clase Clusters esféricos Precisan buena estimación de K Agrupamiento 37

38 CURE: Clustering Using Representatives (98) Usa varios centroides para representar un cluster Adaptación a geometría no esférica Extraer muestra aleatoria Particiona instancias en p grupos Clustering de cada partición (jerárquico) Eliminar outliers muestreando Agrupa cluster parciales Agrupamiento 38

39 Ejemplo p= y y y x y y x x x x Agrupamiento 39

40 CURE: agrupación y y x x Agrupamiento 40

41 4 Métodos basados en modelos Asumen la existencia de un modelo matemático Intentan optimizar el ajuste ente el modelo y los datos Habitualmente, asumen que el espacio de instancias esta gobernado por una mezcla de distribuciones de probabilidades Dos aproximaciones principales Probabilísticos: Clustering conceptual, algoritmo EM Redes de neuronas: competitivos, mapas autoorganizados Agrupamiento 41

42 Limitaciones del clustering basado en similitud Define los cluster por extensión No proporciona ninguna descripción del concepto No utilizan conocimiento Incapaces, por ejemplo, de encontrar el concepto galaxia a partir de imágenes del cielo No tienen en cuenta el objetivo final Por qué clasificar la ballena como mamífero y no como pez? Agrupamiento 4

43 Clustering Conceptual Introducido por Michalski, 80 Agrupa las instancias en clases, según los valores de los atributos, intentando crear un concepto que las explique Obtiene una descripción del concepto Incluyen conocimiento: probabilidades, bias, etc. Objetivo: obtener conceptos que no se basen sólo en la similitud de los datos Agrupamiento 43

44 COBWEB, Fischer, 87 Agrupamiento conceptual incremental Crea un cluster jerárquico en forma de árbol de clasificación Cada nodo corresponde a un concepto Descrito en términos probabilísticos, P(C k ), p(a i =v ij /C k ) Hijos de un nodo: partición Utiliza medida de utilidad para guiar la construcción Añade instancias una a una, realizando operaciones sobre el árbol que maximizan utilidad Agrupamiento 44

45 Árbol de clasificación Agrupamiento 45

46 Utilidad de la categoría K I J P( C ) P k [ P( A = i V ijc k) ( k = 1 i= 1 j= 1 K A i = V ij ) ] Sólo tiene sentido introducir una clases si p(a i =v ij /C k ) >p(a i =v j ) Favorece: Similitud en las clases (intraclass), previsibilidad P( A i = V ij C k ) Disimilitud entre las clases, (interclass), predictibilidad P( C A i V k = ij ) Agrupamiento 46

47 Factor 1/k? Penalizar la creación de clusters para evitar sobreajuste Valor máximo de la utilidad sin factor 1/k: un cluster por instancia p(a i =v ij /C k )=1 para el valor actual de la única instancia de la clases, 0 restantes valores numerador: I J n P( = i V i= 1 j= 1 A ) ij n: número de atributos Agrupamiento 47

48 Insertar instancia Clasificar la instancia Crear una nueva clase 1. Utilidad de instancia en mejor clase. Utilidad de instancia en nueva clase 3. Crear si alguna de las opciones de es mejor que 1 Agrupamiento 48

49 Operaciones sobre el árbol Añadir una nueva categoría para una sola instancia Combinar dos categorías existentes y añadir la instancia a la categoría resultante Dividir una categoría existente y colocar la instancia en la mejor categoría del nuevo árbol Agrupamiento 49

50 Combinación P P Combinación A B N A B Agrupamiento 50

51 Separación P P Separación N A B A B Agrupamiento 51

52 Discusión Capaz de obtener descripciones de conceptos en base al conocimiento previo (probabilidades) Limitaciones Solo atributos discretos CLASSIT, extensión atributos continuos Asume atributos independientes No hay garantía de mínimo local Sensible al orden de presentación de los ejemplos 1/k? Agrupamiento 5

53 Algoritmo EM (Expectation Maximization) La división de un conjunto de datos en grupos disjuntos puede no ser la mejor solución Especialmente si los datos son heterogéneos, en el sentido de que los datos pueden reflejar fenómenos de diferente naturaleza Necesitaríamos Permitir que una instancia pueda pertenecer a más de un grupo, en distinto grado Solución estadística clásica: Mixture Models La población se describe como una combinación lineal de distribuciones Agrupamiento 53

54 Ejemplo: combinación de dos distribuciones normales Varianza idéntica y conocida Cada instancia se genera Eligiendo una de las dos Normales aleatoriamente (por ejemplo, distribución uniforme) Generando la instancia de acuerdo a la distribución elegida Agrupamiento 54

55 Estimación de las k medias La tarea de aprendizaje se plantea Asumir instancias responden a una combinación de k Normales Medias desconocidas <µ 1, µ,... µ k > No sabemos que instancia x i fue generada por que normal µ j Determinar Estimación máxima verosimilitud de <µ 1, µ,... µ k > Agrupamiento 55

56 Variables ocultas Plantear el problema en términos de variables no observables Describir cada instancia como y i =<x i, z i1, z i > z ij =1 si generada por j-ésima normal x i observable z ij no observable Agrupamiento 56

57 EM para la estimación de medias normales, σ conocida Hipótesis inicial aleatoria, h=<µ 1, µ > Paso 1, E Calcular el valor esperado E[z ij ] de cada variable oculta z ij, asumiendo hipótesis actual h=<µ 1, µ > Paso, M Calcular nueva hipótesis h =<µ 1, µ > de máxima verosimilitud, asumiendo que el valor de cada variable oculta z ij, es el valor esperado calculado en Paso 1, E[z ij ]. Reemplazar h por h. Agrupamiento 57

58 Agrupamiento 58 EM para la estimación de medias normales Paso 1 Paso = = = = = = = = 1 / ) ( / ) ( 1 ) / ( ) / ( ] [ n x x n i n j i j i n i j i e e x x p x x p z E σ µ σ µ µ µ µ µ = = m i i j i j x z E m 1 ] [ 1 µ'

59 Agrupamiento 59 Extensión a k medias normales Inmediata Paso 1 Paso = = k n x x j i n n i j j i e e z E 1 / ) ( / ) ( ] [ σ µ σ µ = = m i i j i j x z E m 1 ] [ 1 µ' 1 ) )( ( 1 ' j i m i j i j x z E m σ µ = =

60 Discusión Converge a máximos locales y proporciona estimas de las variable ocultas Máximo local de E[ln p(y/h)] Y=X U Z Extensión a varios atributos (x) Simple si se asume independencia (como Naïve Bayes) Distribuciones conjuntas, introduce matriz de covarianza simétrica, n*(n+1)/: aumenta el riesgo de sobreajuste por exceso de parámetros Atributos discretos, simple si independientes Estimación de k Agrupamiento 60

61 Bibliografía Chirstopher M. Bishop. Pattern Recognition and Machine Learning. Springer, 006 Jiawei Hand and Micheline Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, nd edition, nto.pdf