1. Análisis de Conglomerados

Tamaño: px

Comenzar la demostración a partir de la página:

Download "1. Análisis de Conglomerados"

Felisa Venegas Cárdenas
hace 5 años
Vistas:

1 1. Análisis de Conglomerados El objetivo de este análisis es formar grupos de observaciones, de manera que todas las unidades en un grupo sean similares entre ellas pero que sean diferentes a aquellas de otros grupos. Generalmente no se sabe el número de grupos (denotado por k), ni sus tamaños (denotado por n k ). La parte interesante es definir qué es similar. Si por ejemplo el rango de las disimilitudes corre de 0 a C, podríamos definir que dos unidades son consideradas similares si su disimilitud es menor a 1C. 2 Existen métodos jerárquicos y no- jerárquicos. Dentro de los jerárquicos están los aglomerativos y los divisivos Métodos Jerárquicos Los métodos jerárquicos aglomerativos dan origen a un gráfico llamado dendograma. Estos método son iterativos y en cada paso debe recalcularse la matriz de distancias, en los casos en que se tienen muchas observaciones esto puede llevar mucho tiempo de cómputo. A continuación se presentan varios de estos métodos: Liga sencilla o del vecino más cercano: Al redefinir la distancia entre dos conglomerados, se toma la mínima de todas las posibles distancias entre objetos que pertenecen a distintos conglomerados. Se unen los dos conglomerados más cercanos. Este método tiende a tener un buen desempeño cuando hay grupos de forma elongada, conocidos como tipo cadena. d AB = mín i A,j B (d ij) Liga completa o del vecino más lejano: Al redefinir la distancia entre dos conglomerados, se toma la máxima de todas las posibles distancias entre objetos que pertenecen a distintos conglomerados. Se unen 1

2 los dos conglomerados más cercanos. Se desempeña bien cuando los conglomerados son de forma circular. d AB = máx i A,j B (d ij) Liga promedio: Al redefinir la distancia entre dos conglomerados, se toma el promedio de todas las posibles distancias entre objetos que pertenecen a distintos conglomerados. Se unen los dos conglomerados más cercanos. Funciona bien para conglomerados tanto tipo cadena como circulares. d AB = 1/(n A n B ) i A (d ij ) Liga centroide: Al redefinir la distancia entre dos conglomerados se toma la diferencia entre las medias (centroide) de cada conglomerado. j B Se unen los dos conglomerados más cercanos. Liga mediana: Al redefinir la distancia entre dos conglomerados se toma la diferencia ponderada entre las medias (centroide) de cada conglomerado, la ponderación está dada por el tamaño (número de unidades del conglomerado) de los conglomerados. Se unen los dos conglomerados más cercanos. Se espera un mejor rendimiento que el del centroide cuando los grupos varían mucho en tamaño. Método de Ward: Establece que la distancia entre dos clusters A, B es el incremento a la suma de los cuadrados de las distancias al nuevo centro d AB = i A B x i x A B 2 i A x i x A 2 i B x i x B 2 = n A n B (n A + n B ) x A x B 2 donde x j es el centro del cluster j y n j es el número de elementos en él. d AB se conoce como el costo por unir los clusters A y B. 2

3 Se comienza con una suma de cuadrados igual a cero, porque cada punto es un cluster, y luego crece con cada unión. Murtagh y Legendre en Journal of Classification (2014) muestran que la suma de distancias al cuadrado de los objetos al centro puede ser expresada a través de los datos originales yo como función de las distancias entre las observaciones. Dados dos pares de clusters cuyos centros están igual de apartados, este método tiende a unir primero los que tiene menos elementos. La suma de cuadrados de distancias final depende del orden en que va haciendo las uniones, esto puede significar que para una k dada, la suma de los cuadrados de las distancias por el método de Ward sea mayor que el mínimo para esa k. Conviene para mejorarlo usar este agrupamiento como punto inicial en un k-means. Sólo las dos primeras ligas son invariantes ante transformaciones monótonas de las disimilitudes d ij. Cabe hacer notar que en algunos casos se puede trabajar con sólo la matriz de disimilitudes, y en otros se requiere de los datos originales. Se construye el dendograma y se hace un corte a la altura de la disimilitud ( máxima) que se fije para considerar a dos sujetos como similares. En R la función hclust lo hace. Pros y contras Tiene la ventaja de que su cómputo es rápido para muestras de tamaño pequeño. Otra ventaja es que el dendrograma da una visión de como se arman los grupos, para distintas opciones de C. La mayor desventaja es que una vez que dos conglomerados se unen ya no pueden separarse más adelante en el algoritmo. 3

4 Son ineficientes para muestras de tamaño grande Métodos No-Jerárquicos De Partición Se fija la k y se busca la mejor partición posible para esa k. No se busca sobre todas las particiones posibles. Es un método iterativo, por lo que requiere de una agrupación inicial, Se va optimizando una función objetivo. Estos métodos analizan más particiones que los métodos jerárquicos. Se recomienda correr el algoritmo para varias opciones de k k-medias (k means) Este es el método de partición más conocido. En cada paso se reasignan los elementos del conglomerado de manera tal que la suma de distancias al cuadrado, de los puntos al centro de su conglomerado sea mínima. La distancia del punto a su centro se define como: d(x, x c ) 2 = (x x c ) (x x c ) con x = (x 1, x 2,..., x p ) y x c es el centroide del conglomerado c El objetivo es entonces minimizar W SS = k d(x i, m c ) 2 c=1 i c No se puede asegurar que se alcance el mínimo global, sino un mínimo local, así que se recomienda correr el algortimo con distintas particiones iniciales. En R la función kmeans lo hace. 4

5 k-medoides Este método es muy semejante al de k-medias, pero como para poder correr aquel algoritmo se necesitan la matriz X, y en ocasiones solo se tiene la matriz de distancias, este método en vez de usar el centroide usa un elemento representante al que llama medoide. Y ahora se busca minimizar Crit, Crit = k d(x i, x c ) 2 c=1 i c donde m c es el medoide, el elemnto más representativo del conglomerado c. En R la función pam del paquete cluster lo hace Método basado en modelo de mezcla de normales Los métodos jerárquicos y los de partición no suponen ninguna distribución. El método de conglomerados basado en modelos supone la existencia de k subpoblaciones que corresponden a los conglomerados que se buscan. Propuestos originalmente por Scott and Symons (1971) y recientemente desarrolados por Banfield and Raftery (1993) and Fraley and Raftery (2002). Sea γ = [γ 1, γ 2,..., γ n ] el vector de etiquetas de pertenencia, γ i significa que x i pertenece a la población j. = j Las densidades de las subpoblaciones son denotadas por f j (x; θ j ), y θ j representa a los parámetros desconocidos. la verosimilitud está dada por: L(θ 1,..., θ k, γ) = n f γi (x i ; θ γj ) i=1 5

6 El modelo consiste en elegir θ 1,..., θ k, γ de manera que esa verosimilitud se maximize. γ es el vector que define los conglomerados. Generalmente se supone normalidad multivariada. En la función de logverosimilitud se sustituye las medias µ j por x j. Para cada conglomerado se supone una estructura de covarianza Σ j. La más sencilla es Σ j tamaño parecido. = σ 2 I que tiende a formar grupos esféricos de La estructura Σ j dirección. = Σ produce conglomerados elípticos con la misma La estructura Σ j = Σ j a cada conglomerados le da una estructura diferente. El paquete mclust tiene la función Mclust que hace este tipo de conglomerados basados en modelos, permite opciones de elegir los grupos de tamaños y formas diferentes. Se trabaja con varias estructuras de covarianza y se elige aquella que arroje el menor BIC Algoritmos de dos pasos en SPSS : se recomienda cuando se tienen muchos datos. 1. Formación de Preconglomerados. La idea es reducir el tamaño de la matriz de distancias entre todos los posibles elementos. Los preconglomerados son conglomerados hechos con algunos de los datos originales, con los que se arman grupos usando un método jerárquico. Después, se lee 6

7 un caso, el algoritmo decide si se une a los conglomerados ya existentes, o forma un nuevo conglomerado. Una vez acabado el proceso de preaconglomeramiento, cada conglomerado es tratado como un solo elemento, la nueva matriz de distancias se reduce al número de preconglomerados. 2. Agrupación de preconglomerados. Se usa un método jerárquico estándar usando como elementos a los preconglomerados. En general cada método puede llevar a una agrupación diferente. Se recomienda usar varios métodos para identificar los individuos que brincan de un grupo a otro según el método usado, tambien para definir los tamaños de los grupos. 7

Documentos relacionados

ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS)

ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS) AGRUPAMIENTOS Cuál agrupamiento es mejor? MÉTODOS DE AGRUPACIÓN Métodos jerárquicos: Los objetos se agrupan (dividen) i por partes hasta clasificar todos los