ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS)

AGRUPAMIENTOS

Cuál agrupamiento es mejor?

MÉTODOS DE AGRUPACIÓN Métodos jerárquicos: Los objetos se agrupan (dividen) i por partes hasta clasificar todos los objetos. No requiere fijar un número de clústeres o grupos (menos supervisado). Métodos de capa única: Se tiene un número de grupos predefinidos y cada objeto se ubica en un grupo hasta alcanzar estabilidad en los valores de los centroides. Requiere, generalmente, fijar a priori un número de clústeres.

MÉTODOS JERÁRQUICOS V i niveles Varios i l d de agrupamiento i t D d Dendograma

Métodos aglomerativos Esquema general algoritmo: 1. Cada objeto corresponde a un grupo. 2. En cada iteración se juntan los dos grupos más cercanos bajo algún criterio de cercanía entre grupos. 3. Los dos grupos recién unidos forman un único grupo. 4. Iterar hasta formar un único grupo. El método jerárquico aglomerativo más utilizado es el de Ward, por el nombre de su autor.

Método de Ward Este procedimiento trata de identificar grupos de casos, tratando de minimizar la varianza dentro de los grupos. Se minimiza la distancia euclideana cuadrada a las medias del conglomerado o grupo.

Dendogramas Un dendograma es un árbol en el que el largo delas ramas está asociado inversamente a la fortaleza de la relación.

Métodos divisivos Esquema general algoritmo: 1. Todos los objetos corresponde a un grupo. 2. Cada grupo se separa bajo algún maximización de varianza entre grupos. criterio i de 3. Dividir cada uno de los grupos hasta que: Todos los grupos sean tan homogéneos que no vale la pena seguir dividiendo. Los grupos son tan pequeños que no vale la pena seguir dividiendo.

Métodos de una sola capa o particionales Algoritmos iterativos: en cada iteración ubican a los objetos en el grupo más cercano a él, de acuerdo con los valores de los centroides.

[idx,ctrs] = kmeans(x,2,... 'Distance','city ); La función kmeans trata a cada observación como un objeto localizado en el espacio. Se pueden escoger cinco medidas de distancia. Cada clúster es definido por sus miembros y por su centroide. El centroide es aquel que minimiza la suma de las desviaciones desde cualquier punto del grupo a ese punto central. La función kmeans minimiza una función diferente dependiendo de la medida de distancia que se utilice. Se pueden controlar los detalles de la minimización como incluir los valores iniciales de los centroides o el máximo número de iteraciones.

MEDIDAS DE DISTANCIA EN MATLAB ENTRE OBJETOS (PDIST(X))

Ejemplos usando Rattle y Matlab Tiempo_fac Gasto Horas ocio 36 min $20.500 22 horas Tamaños de clústeres: [1] "4 10 12 Suma de cuadrados en clúster: [1] 116752251 251603917 221327040 Medida de distancia: Euclidiana Clúster Tiempo Gasto Horas ocio 1 60 41.750 23.5 2 36.5 24.200 26.3 3 28 10.380 18.4 Medida de distancia: City block Clúster Tiempo Gasto Horas ocio 1 45 30000 24 2 30 18000 18 3 20 10000 17

Ejemplo usando Rattle

Ejemplos creando dos grupos Tiempo_fac Gasto Horas ocio 36 min $20.500 22 horas Medida de distancia: Euclidiana Clúster Tiempo_fac Gasto Horas.ocio 1 45 35875 23 2 32 13698 22 Tamaños de clústers: [1] "8 18 Suma de cuadrados en clúster: [1] 392880110 644939334

Ejemplo usando Weka

Agrupamiento probabilista bili Función gmdistribution en Matlab: funciones normales

Comparación de agrupamientos con los lirios, usando una interfaz de Matlab Clustering sustractivo Fuzzy C-means findcluster('iris.dat')

Interpretar y elaborar un perfil de cada grupo Debe buscarse una semántica que diferencie a los objetos de cada grupo. Enfoques complementarios: Análisis y comparación de los centroides de cada grupo. Análisis gráfico para determinar la variables que marcan diferencias significativas.

EVALUACIÓN VISUAL DE AGRUPAMIENTOS Datos originales K-medias Probabilístico EM