Técnicas de análisis multivariante para agrupación

Transcripción

1 TEMA 2: TÉCNICAS DE ANÁLISIS MULTIVARIANTE PARA AGRUPACIÓN Métodos cluster Técnicas de segmentación Clasificación no supervisada Ana Justel 1

2 Técnicas de análisis multivariante para agrupación Motivación Métodos para construir clusters Clasificación con el algoritmo de k-medias Clasificación con métodos jerárquicos Dendrograma Distancias/disimilitud entre individuos Criterios de proximidad entre grupos Determinación del número de grupos 2

3 El problema de clasificación/asignación/agrupación Se trata de clasificar en dos o más grupos a individuos en los que hemos observado varias variables. CLASIFICACIÓN NO SUPERVISADA: Identificar grupos de individuos con características comunes a partir de la observación de varias variables en cada uno de ellos Utilizaremos Métodos basados en particiones Métodos jerárquicos Todos son métodos exploratorios de datos, Para cada conjunto de datos podemos tener diferentes agrupaciones, dependiendo del método. Lo importante es identificar una solución que nos enseñe cosas relevantes de los datos. CLASIFICACIÓN SUPERVISADA: identificar grupos de individuos con características comunes a partir de la observación de varias variables en cada uno de ellos y con la información de una muestra de entrenamiento 3

4 Ejemplo: Sostenibilidad municipal Disponemos de datos de consumo per cápita en 103 municipios de la Comunidad de Madrid durante 20 años Nos interesa identificar si hay grupos de municipios con una tendencia similar en el consumo de agua para identificar buenas prácticas para la sostenibilidad y zonas problemáticas por alto consumo 4

5 Ejemplo: Mamíferos Queremos agrupar 25 especies de mamíferos en clusters, en los que las especies tengan en común una cierta homogeneidad en las características de su leche 5

6 Las técnicas de análisis cluster han sido tradicionalmente utilizadas en muchas disciplinas, por ejemplo Astronomía. Cluster = galaxias, super galaxias, etc. Marketing. Segmentación de mercados. Biología. Taxonomía. Microarrays. Ciencias Ambientales. Clasificación de ríos para establecer tipologías según la calidad de las aguas (directiva marco europea) 6

7 QUÉ es un CLUSTER? Un CLUSTER es un grupo de individuos que, cuando la dimensión lo permite, el ojo humano identifica como homogéneos entre sí y separados de los individuos de los otros clusters. 7

8 QUÉ es un CLUSTER? Incluso en dos dimensionesi no siempre está claro cuántos cluster hay y cómo se agrupan los individuos. 8

9 Ejemplo: Lirios (iris.txt) En un estudio del estadístico y genetista Sir Ronald A. Fisher se utilizaron cuatro características de los sépalos y pétalos para identificar 150 lirios de las especies iris setosa, iris versicolor e iris virginica. 9

10 Técnicas de análisis multivariante para agrupación Motivación Métodos para construir clusters 10

11 Técnicas para encontrar clusters Cuando conocemos cuántos grupos hay: CLUSTER POR PARTICIONES. Producen una partición de los objetos en un número especificado de grupos siguiendo un criterio de optimización Cuando no conocemos cuántos grupos hay: CLUSTER JERÁRQUICO. Producen una secuencia de particiones, juntando o separando clusters. En cada paso se juntan o separan dos clusters siguiendo algún criterio especificado 11

12 Ejemplo: Agrupación jerárquica y por particiones de un conjunto de datos Jerárquica No jerárquica 12

13 Técnicas para encontrar clusters En general, se busca HOMOGENEIDAD dentro de los grupos y HETEROGENEIDAD entre grupos Los criterios para identificar los clusters se basan siempre en MEDIDAS de SIMILITUD odediscrepancia entre todos los pares de datos. Algunos procedimientos cluster se pueden ejecutar conociendo sólo la MATRIZ de DISCREPANCIAS 13

14 Decisiones que hay que tomar para hacer un cluster 1. Elegir el método cluster que se va a emplear 2. Decidir sobre si trabajar con los datos según se miden o estandarizados 3. Seleccionar la forma de medir la DISTANCIA/DISIMILITUD ENTRE INDIVIDUOS, dependiendo de si los datos son cuantitativos o cualitativos 4. Clusters por particiones: Elegir un criterio de OPTIMALIDAD Clusters jerárquicos: Elegir un criterio para unir grupos, DISTANCIA ENTRE GRUPOS 5. Decidir el número de clusters 14

15 Estandarización de los datos La mayoría de los métodos cluster son muy sensibles al hecho de que las variables no estén todas medidas en las mismas unidades y que la variabilidad sea muy diferente. SOLUCIÓN: Si queremos que todas las variables tengan la misma importancia en el análisis, podemos estandarizar los datos variable por variable de varias maneras: - Puntuaciones Z: restar la media y dividir por la desviación típica. - Rango -1 a 1: dividir por el rango. - Rango 0 a 1: restar el mínimo y dividir por el rango. - Magnitud máxima de 1: dividir por el máximo valor. - Media de 1: dividir por la media. - Desviación típica 1: dividir por la desviación típica. 15

16 Estandarización de los datos Permite comparar las variables que vienen expresadas en distintas unidades o tienen diferentes magnitudes. Las puntuaciones Z son las estandarizaciones habituales de los datos univariantes z ij x ij s j x j La transformación se aplica a cada elemento de la matriz de datos, restando la media y dividiendo por la desviación típica, por variables (columnas) Propiedades: El vector de medias de los datos estandarizados es un vector de ceros. La matriz de covarianzas de los datos estandarizados d es la matriz de correlaciones de los datos. 16

17 Estandarización de los datos Ejemplo de puntuaciones Z: Datos: x Puntuaciones Z: y 17

18 Técnicas de análisis multivariante para agrupación Motivación Métodos para construir clusters Clasificación con el algoritmo de k-medias 18

19 Clusters por particiones Existen distintos métodos que difieren en alguna característica K-MEDIAS. Es el que se usa más habitualmente. Fácil de programar y da resultados razonables Decisiones i que hay que tomar para hacer un cluster 1. Elegir el método cluster que se va a emplear 2. Decidir sobre si trabajar con los datos según se miden o estandarizados 3. Seleccionar la forma de medir la DISTANCIA/DISIMILITUD ENTRE INDIVIDUOS, dependiendo de si los datos son cuantitativos o cualitativos 4. Clusters por particiones: Elegir un criterio de OPTIMALIDAD 5. Decidir el número de clusters 19

20 Algoritmo de k-medias (KMEDIAS KMEANS) KMEDIAS tiene por objetivo separar las observaciones en k clusters, de manera que cada dato pertenezca aungrupoy sólo a uno El algoritmo de K-MEDIAS busca con un método iterativo: - Los centroides (medias, medianas, ) de los k clusters. -Asignar cada individuo a un cluster. C1 C2 El objetivo de OPTIMALIDAD quesepersiguees maximizar la homogeneidad dentro de los grupos C3 C4 20

21 Algoritmo de k-medias (KMEDIAS KMEANS) Una forma de cuantificar el criterio i de optimalidad d es: - Minimizar la media ponderada (por el tamaño del grupo) de las varianzas dentro de cada grupo para todas las variables SSW K p 2 n k s j, k k 1 j 1 Od dicho con otras palabras - Minimizar la suma de los cuadrados de las diferencias entre cada dato y la media de su grupo SSW K n k k k 2 xi x k 1 i 1 21

22 Pasos del Algoritmo de k-medias Partiendo de un conjunto inicial de k centroides, m 1 (1),,m k (1), que se pueden elegir al azar para evitar sesgos o por cualquier otro procedimiento, el algoritmo va alternando los dos siguientes pasos: PASO DE ASIGNACIÓN. Cada observación se asigna al cluster con el centroide más próximo (siguiendo el criterio de optimalidad), con la distancia euclidea. PASO DE CENTRALIZACIÓN. Para los clusters modificados se calculan los nuevos centroides. El algoritmo se considera que ha alcanzado la convergencia cuando en una iteración no se produce ningún cambio, o se cumple un criterio de parada. 22

23 Pasos del Algoritmo de k-medias 23

24 Ejemplo: Proceso iterativo partiendo de centroides arbitrarios. 3 Iteration 1 3 Iteration 2 3 Iteration y y y x x x 3 Iteration 4 3 Iteration 5 3 Iteration y y y x Tan, Steinbach, Kumar. Introduction to Data Mining x x 24

25 Pasos del Algoritmo de k-medias Reglas de parada del SPSS: Cit Criterio i de convergencia: El algoritmo se detendrá d si en una iteración completa ninguno de los centros se desplaza una distancia superior a un porcentaje previamente especificado de la distancia más corta entre cualquiera de los centros iniciales. Máximo numero de iteraciones: Para evitar que el algoritmo entre en un bucle infinito, se detendrá después de un número de iteraciones pre-determinado determinado, aunque el criterio de convergencia no se cumpla. 25

26 Ejemplo: Tortugas Buscamos con KMEANS dos clusters (machos y hembras) en cuatro tortugas pintadas (trachemys scripta). En cada tortuga se midió la longitud, el ancho y la altura del caparazón. Id. Longitud Ancho Alto m m f f Inicialmente, asignamos al azar la mitad de los datos a cada grupo y calculamos los dos centroides con las medias de los datos que hay en cada grupo. En este caso ha salido m1 y f1 en el primer grupo y m2 y f2 en el segundo 26

27 Ejemplo: Tortugas Revisamos la asignación de cada dato y recalculamos las medias de cada cluster cuando hay cambios Id. Grupo inicial Dist. a media g1 Dist. a Media g2 Grupo final Nueva media g1 Nueva media g2 m1 1 26,8 25,7 2 [ ,0 63] [131, ,0] m ,4 2 [ ,0 63] [131, ,0] f ,8 1 [ ,0 63] [131, ,0] f ,3 1 [ ,5 63] [119, ,5] Repetimos hasta que no hay ningún cambio Id. Grupo Dist. a Dist. a Grupo Nueva media iniciali i media g1 Media g2 final g1 Nueva media g2 m1 2 51,5 2,1 2 [ ,5 63] [119, ,5] m2 2 49,8 2,1 2 [ ,5 63] [119, ,5] f1 1 2,5 52,9 1 [ ,5 63] [119, ,5] f2 1 2,5 48,4 1 [ ,5 63] [119, ,5] 27

28 Ejemplo: Contaminación atmosférica en ciudades de USA Los datos incluyen una variable de contaminación atmosférica, cuatro variables climáticas y dos indicadores de ecología humana en 41 ciudades de Estados Unidos. SO2 contenido de SO2 en aire, en mg/m 3 TEMP Temperatura media anual, en F MANUF Número de empresas manufactureras con 20 empleados o más POP Tamaño de la población, en miles WIND Velocidad media del viento, en millas por hora PRECI Precipitación media anual, en pulgadas DAYS Número medio de días con precipitación al año 28

29 Ejemplo: Contaminación atmosférica en ciudades de USA El objetivo del análisis cluster es agrupar optimamente las ciudades en cuatro cluster en función de las variables climáticas y ecológicas. Se emplea el algoritmo de Localización espacial de los clusters k-medias, con k igual a cuatro. Como las variables se miden en distintas unidades, los datos se estandarizan previamente para que tengan desviación típica 1. 29

30 Ejemplo: Contaminación atmosférica en ciudades de USA G1 (Sureste de USA) Clima Localización espacial de los clusters Medias de cada variable en cada grupo húmedo: Abundante precipitación y altas temperaturas. G2 (Nordeste de USA) Clima húmedo, frio y ventoso: Alto número de días con precipitación, baja temperatura a y vientos fuertes. G3 (Oeste de USA) Clima seco: Baja precipitación. G4 Densidad alta de población: Valores altos de los indicadores de ecología humana (Chicago, Filadelfia, etc.) SO2 no se usa para hacer el cluster pero se incluye para validar el interés de las agrupaciones Los clusters están relacionados con los niveles de SO2. Por tanto, las variables de ecología humana y clima son buenos predictores de la calidad d del aire. 30

31 Comentarios sobre el algoritmo de k-medias Una limitación de KMEDIAS es que se espera que los grupos sean separables, con forma esférica y de tamaño similar. Ejemplo: Lirios i KMEANS falla a menudo cuando trata de separar las tres especies. Con k = 2, se identifican los dos clusters visibles (uno conteniendo dos especies), mientras que con k = 3 uno de los dos clusters se divide en dos partes iguales. 31

32 Comentarios sobre el algoritmo de k-medias Una limitación de KMEDIAS es que se espera que los grupos sean separables, con forma esférica y de tamaño similar. No está garantizado que KMEDIAS llegue siempre a la solución óptima debido a que el resultado final va a depender de los centroides iniciales. 32

33 Ejemplo: Proceso iterativo partiendo de centroides arbitrarios. 3 Iteration 1 3 Iteration y y x x y 3 Iteration 3 3 Iteration 4 3 Iteration y y x x x Tan, Steinbach, Kumar. Introduction to Data Mining 33

34 Comentarios sobre el algoritmo de k-medias Una limitación de KMEDIAS es que se espera que los grupos sean separables, con forma esférica y de tamaño similar. No está garantizado que KMEDIAS llegue siempre a la solución óptima debido a que el resultado final va a depender de los centroides iniciales. Como el algoritmo suele ser muy rápido, se suele ejecutar varias veces con distintos centroides iniciales. El número k de clusters es un input, por tanto, una elección inapropiada de k puede conducir a un mal resultado. Cuando usamos KMEDIAS es importante chequear distintas opciones para determinar el número de posibles clusters que hay en el conjunto de datos. 34

35 Decidir el número de clusters 1. Una regla empirica para seleccionar el número de clusters es introducir un nuevo cluster (pasar de K a K+1) cuando F SSW ( K) SSW ( K SSW ( K 1) n K 1) Chequear con herramientas como el ANOVA si los grupos son significativamente distintos ( cómo de validos son los grupos?) 35

36 Técnicas de análisis multivariante para agrupación Motivación Métodos para construir clusters Clasificación con el algoritmo de k-medias Clasificación con métodos jerárquicos Dendrograma Distancias/disimilitud entre individuos Criterios de proximidad entre grupos 36

37 Clusters jerárquicos Los divisivos requieren muchos cálculos, casi no se usan MÉTODOS DIVISIVOS. Parten de un único cluster con todos los datos que se va dividiendo paso a paso, hasta obtener tantos clusters como datos. MÉTODOS AGLOMERATIVOS. Parten de tantos clusters como datos tiene la muestra y en cada paso se van juntando dos clusters siguiendo algún criterio especificado hasta obtener un único cluster con todos los datos. Cada método se diferencia por la estrategia de fusión en cada etapa. Y todos tienen en común que la primera unión es entre los individuos más similares. La elección de la estrategia de fusión dependerá de los objetivos de la investigación. 37

38 Decisiones que hay que tomar para hacer un cluster 1. Elegir el método cluster que se va a emplear 2. Decidir sobre si trabajar con los datos según se miden o estandarizados 3. Seleccionar la forma de medir la DISTANCIA/DISIMILITUD ENTRE INDIVIDUOS,, dependiendo de si los datos son cuantitativos o cualitativos MÉTODOS AGLOMERATIVOS. Parten de tantos clusters como datos tiene la muestra y en cada paso se van juntando dos cluster. 4. Clusters jerárquicos: Elegir un criterio para unir grupos, DISTANCIA ENTRE GRUPOS 38

39 Técnicas de análisis multivariante para agrupación Motivación Métodos para construir clusters Clasificación con el algoritmo de k-medias Clasificación con métodos jerárquicos Dendrograma 39

40 DENDROGRAMA Es una representación gráfica en forma de árbol. Los clusters están representados mediante trazos horizontales (verticales) y las etapas de fusión mediante trazos verticales (horizontales). La separación entre las etapas de fusión es proporcional a la distancia i a la que están los grupos que se funden en esa etapa. 40

41 DENDROGRAMA 103 municipios de la Comunidad de Madrid Genetic diversity of viruses in an Antarctic lake A. López-Bueno et al., Science 326, (2009) A. Justel, et al. (2004) Published by AAAS

42 DENDROGRAMA El SPSS representa las distancias entre grupos rescaladas, por tanto son difíciles de interpretar, nos fijaremos sólo en la forma. Para más información nos fijamos en el Historial de conglomeración. Cuando se combinan dos clusters, el SPSS asigna al nuevo cluster la etiqueta menor entre las que tienen los cluster que se combinan. Los coeficientes son una medida de distancia/similitud entre clusters. 42

43 Técnicas de análisis multivariante para agrupación Motivación Métodos para construir clusters Clasificación con el algoritmo de k-medias Clasificación con métodos jerárquicos Dendrograma Distancias/disimilitud entre individuos 43

44 Distancias entre datos continuos (en SPSS) Distancia euclídea. Raíz cuadrada de la suma de cuadrados de las diferencias entre los valores. Es la medida por defecto para datos de intervalo Distancia euclídea al cuadrado. Suma de cuadrados de las diferencias entre los valores Correlación de Pearson. Correlación producto-momento entre dos vectores de valores Coseno. Coseno del ángulo entre dos vectores de valores Chebychev. Diferencia absoluta máxima entre los valores Bloque. Suma de las diferencias absolutas entre los valores. También se conoce como distancia de Manhattan Minkowski. Raíz p-ésima de la suma de las diferencias absolutas elevada a la potencia p-ésima entre los valores Personalizada. Raíz r-ésima de la suma de las diferencias absolutas elevada a la potencia p-ésima entre los valores de los elementos Mahalanobis distance. 44

45 Distancias entre datos continuos Distancia Euclídea Distancia Euclídea estandarizada, o Euclídea entre datos estandarizados Distancia de Mahalanobis 45

46 Similitudes entre datos cualitativos binarios Para calcular la similitud entre dos individuos para los que se observan p variables binarias tipo presencia/ausencia se calculan todas las situaciones posibles Individuo x 1 x 2 x 3 x p i j a: Número de veces en las p variables que ambas observaciones son 1. b: Número de veces en las p variables que una observación es 1 y la otra 0. c: Número de veces en las p variables que una observación es 0 y la otra 1. d: Número de veces en las p variables que ambas observaciones son 0. 46

47 Similitudes entre datos cualitativos binarios Individuo x 1 x 2 x 3 x p i j Individ duo j Individuo i 1 0 Total 1 a b a+b 0 c d c+d Total a+c b+d p=a+b+c+d Concordancia simple Coeficiente de Jaccard Coeficientes menos usados: Sokal y Sneath: Czekanowski y Sorensen: 47

48 Ejemplo: Presencia/ausencia de tres especies Presencia (1) o ausencia (0) de tres especies (A, B, C) en 15 parcelas. Coeficiente de concordancia simple Coeficiente de Jaccard La ausencia no sabemos si es porque no existe la especie o porque no la hemos observado 48

49 Ejemplo: Presencia/ausencia de tres especies Utilizando el coeficiente de concordancia simple, Briza media es más parecida a Cynosurus cristatus que a Agrostis tenuis Caso Coeficiente de concordancia simple : Agrostis tenuis 1,000,600,333 2: Bi Briza media,600 1,000,733 3: Cynosurus cristatus,333,733 1,000 Utilizando el coeficiente de Jaccard, Agrostis tenuis es más parecida a Briza media que a Cynosurus cristatus. Caso Coeficiente i de Jaccard : Agrostis tenuis 1,000,500,167 2: Briza media,500 1,000,333 3: Cynosurus cristatus,167,333 1,000 49

50 Similitudes entre datos categóricos Para variables cualitativas con más de dos categorías la medida de similitud más utilizada es una generalización del coeficiente de concordancia simple a 1 : es el número de veces que ambas observaciones son 1. a 2 : es el número de veces que ambas observaciones son 2. a k : es el número de veces que ambas observaciones son k. d: es el número de veces que ambas observaciones son 0. 50

51 Ejemplo: Presencia/ausencia de cinco especies Presencia (1) o ausencia (0) de cinco especies en 15 parcelas Caso Coeficiente de Jaccard : Agrostis tenuis 1,000,500,167,600,857 2: Briza media,500 1,000,333,500,429 3: Cynosurus cristatus,167,333 1,000,167, Dactylis glomerata,600,500,167 1,000, Festuca rubra,857,429,143,733 1,000 51

52 Ejemplo: Presencia/ausencia de cinco especies 1. Empezamos con 5 clusters (cada individuo en uno) y buscamos los dos más similares en la matriz: Caso Coeficiente de Jaccard : Agrostis tenuis 1,000,500,167,600,857 2: Briza media,500 1,000,333,500,429 3: Cynosurus cristatus,167,333 1,000,167, Dactylis glomerata,600,500,167 1,000, Festuca rubra,857,429,143,733 1, Creamos el nuevo cluster y actualizamos la matriz de similaridad. Caso Coeficiente de Jaccard ,000????????? 2: Briza media??? 1,000,333,500 3: Cynosurus cristatus???,333 1,000, Dactylis glomerata???,500,167 1,000 52

53 Decisiones que hay que tomar para hacer un cluster 1. Elegir el método cluster que se va a emplear 2. Decidir sobre si trabajar con los datos según se miden o estandarizados 3. Seleccionar la forma de medir la DISTANCIA/DISIMILITUD ENTRE INDIVIDUOS,, dependiendo de si los datos son cuantitativos o cualitativos MÉTODOS AGLOMERATIVOS. Parten de tantos clusters como datos tiene la muestra y en cada paso se van juntando dos cluster. 4. Clusters jerárquicos: Elegir un criterio para unir grupos, DISTANCIA ENTRE GRUPOS 53

54 Técnicas de análisis multivariante para agrupación Motivación Métodos para construir clusters Clasificación con el algoritmo de k-medias Clasificación con métodos jerárquicos Dendrograma Distancias/disimilitud entre individuos Criterios de proximidad entre grupos 54

55 Criterios para unir grupos en métodos jerárquicos Los métodos de enlace (linkage) utilizan la proximidad entre pares de individuos para unir grupos de individuos. 1. Enlace sencillo (SINGLE LINKAGE): utiliza la mínima distancia/disimilitud entre dos individuos de cada grupo (útil para identificar atípicos) 2. Enlace completo (COMPLETE LINKAGE): utiliza la máxima distancia/disimilitud entre dos individuos de cada grupo. 3. Enlace promedio (AVERAGE LINKAGE): utiliza la media (mediana) de las distancias/disimilitud entre todos los individuos de los dos grupos. 4. Enlace de centroides (CENTROID LINKAGE): utiliza la distancia/disimilitud entre los centros de los grupos. 5. Método de Ward (WARD LINKAGE): utiliza la suma de las distancias al cuadrado a los centros de los grupos. 55

56 Criterios para unir grupos en métodos jerárquicos Enlace sencillo Enlace completo Enlace medio Enlace centroide Centroide para datos cuantitativos: la media para cada variable de todos los individuos del grupo Medioide para datos categóricos: el individuo con la menor disimilitud media con el resto de los miembros del grupo 56

57 Ejemplo: Presencia/ausencia de cinco especies Enlace simple: La similitud entre dos clusters es igual a la máxima similitud entre dos individuos de cada cluster (individuos más cercanos) Caso Coeficiente de Jaccard : Agrostis tenuis 1,000,500,167,600,857 2: Briza media,500 1,000,333,500,429 3: Cynosurus cristatus,167,333 1,000,167, Dactylis glomerata,600,500,167 1,000, Festuca rubra,857,429,143,733 1,000 La nueva matriz de similitudes es: 57

58 Ejemplo: Presencia/ausencia de cinco especies 3. Repetir los pasos 1 y 2 Caso Coeficiente de Jaccard ,000,500,167,733 2: Briza media,500 1,000,333,500 3: Cynosurus cristatus,167,333 1,000, Dactylis glomerata,733,500,167 1,000 Coeficiente de Jaccard Caso ,000?????? 2: Briza media??? 1,000,333 3: Cynosurus cristatus???,333 1,000 58

59 Ejemplo: Presencia/ausencia de cinco especies Repetir los pasos 1 y 2 Coeficiente de Jaccard Caso ,000,500,167 2: Briza media,500 1,000,333 3: Cynosurus cristatus,167,333 1,000 Caso Coeficiente de Jaccard ,000??? 3: Cynosurus cristatus??? 1,000 Coeficiente de Jaccard Caso ,000,333 3: Cynosurus cristatus,333 1,000 59

60 Ejemplo: Presencia/ausencia de cinco especies Diferentes criterios dan lugar a diferentes agrupaciones Enlace sencillo Enlace centroide 60

61 Comentarios sobre el cluster jerárquico Hacer las jerarquías en conjuntos de datos grandes es problemático ya que un árbol con más de 50 individuos es difícil de representar e interpretar. Una desventaja general es la imposibilidad de reasignar los individuos a los clusters en los casos en que la clasificación haya sido dudosa en las primeras etapas del análisis. Debido a que el análisis cluster implica la elección entre e diferentes entes medidas y procedimientos, con frecuencia es difícil juzgar la veracidad de los resultados. A veces, hacer cluster se considera más un arte que una ciencia. Cuidado con los "abusos! Se recomienda comparar los resultados con diferentes métodos de hacer el cluster. Soluciones similares generalmente indican la existencia de una estructura en los datos. Soluciones muy diferentes probablemente indican una estructura pobre. En ultimo caso, la validez de los clusters se juzga mediante una interpretación cualitativa que puede ser subjetiva. 61

62 Técnicas de análisis multivariante para agrupación Motivación Métodos para construir clusters Clasificación con el algoritmo de k-medias Clasificación con métodos jerárquicos Dendrograma Distancias/disimilitud entre individuos Criterios de proximidad entre grupos Determinación del número de grupos 62

63 El número de cluster en un método jerárquico depende de por dónde cortemos el dendrograma Cuántos cluster hay? Test formales Conocimiento del problema (intuición) Es conveniente elegir un número de clusters que sepamos interpretar. Para interpretar los cluster podemos utilizar: ANOVA ANÁLISIS FACTORIAL ANÁLISIS DISCRIMINANTE SENTIDO COMÚN 63

64 Ejemplo: Mamíferos Queremos agrupar 25 especies de mamíferos en clusters, en los que las especies tengan en común una cierta homogeneidad en las características de su leche 64

65 Ejemplo: Mamíferos G1 - Alto contenido en agua y lactosa G2 Niveles intermedios entre G1 y G3 G3 - Similar al G4, menos grasa y más ceniza G4 - Alto contenido en grasas Ficha Técnica: Variables estandarizadas desviación típica 1. Distancia euclídea. Enlace promedio 65

66 Ejemplo: Sostenibilidad municipal Datos de consumo per cápita en 103 municipios de la Comunidad de Madrid en 20 años Ficha Técnica: Variables originales. Distancia euclídea. Enlace simple Fuente: A. Justel,

67 Ejemplo: Sostenibilidad municipal 67

68 Ejemplo: Sostenibilidad municipal Para interpretar los clusters, se utiliza una variable auxiliar que no se ha empleado en la construcción de los clusters: Porcentaje de segundas viviendas. (Los habitantes consumen recursos pero no están empadronados y su consume se asigna a los residentes) Volumen medio Existen diferencias significativas entre los porcentajes de segunda vivienda (ANOVA p-valor<0,0001). 0001) En particular, las comparaciones múltiples muestran diferencias entre el cluster de mayor porcentaje de segundas viviendas, Actividad económica rural y el resto, excepto el cluster Próximos a las principales i vías de comunicación ió (tamaño medio) 69

69 Ejemplo: Sostenibilidad municipal Densidad de población 70

70 Ejemplo: Gastos de las familias por provincias 71

71 Ejemplo: Gastos de las familias por provincias Ficha Técnica: Variables originales. Distancia euclídea. Enlace con Método de Ward 72

72 Ejemplo: Gastos de las familias por provincias Ficha Técnica: Variables originales. Distancia euclídea. Enlace con Método de Ward G2 G3 G1 73

73 Ejemplo: Gastos de las familias por provincias Clusters con k-medias G1 G2 * G3 G2 G1 * * * * * G3 Enlace con Método de Ward 74