Análisis de Conglomerados

Documentos relacionados
Máster en Ordenación y Gestión del Desarrollo Territorial y Local. Módulo I MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL

CLASIFICACIÓN PROBLEMA SOLUCIÓN

INTRODUCCION AL ANALISIS DE CLUSTER

ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS)

Escalado Multidimensional. (Análisis de Coordenadas Principales) Aurea Grané. Departamento de Estadística Universidad Carlos III de Madrid

Definición de grupos: clasificación. Capítulos 10 y 11 de McCune y Grace 2002

Tema 11. Clustering. X 1... X i... X n O 1 x x 1 i... x 1 n... O j x j 1... x j i... x j n... O N x N 1... x N i... x N n

ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA

Tema 3: Análisis multivariante para la agrupación. Objetivo: Encontrar los grupos naturales en los que se divide la población.

Clasificación Clasific NO SUPERV SUPER ISAD IS A AD AGRUPAMIENTO

ANALISIS DE PROXIMIDADES

Nota técnica Estratificación multivariada

Curso de Postgrado en Herramientas Estadísticas Avanzadas: AGROPECUARIOS. Prof. Dr. José Perea Dpto. Producción Animal

3.2. El método del «vecino más cercano»

TEMA 2: DISTRIBUCIONES BIDIMENSIONALES

Clasificación Jerárquica Ascendente Presentación #1. [ U n a i n t r o d u c c i ó n ]

Primero se inicializan dos puntos (tantos como clusters queremos) al azar. Estos puntos se denominan centroides del cluster.

Introducción Ordenación Clasificación Ord. + Clas. Geobotánica. Tema 12 Ordenación y clasificación

Programación lineal: Algoritmo del simplex

84 Tema 3. Dualidad. todas las restricciones son del tipo, todas las variables son no negativas.

Clasificación Jerárquica Ascendente Presentación #1. [ U n a i n t r o d u c c i ó n ]

2008 Pablo Vinuesa, 1

Reducción de la Dimensionalidad en Análisis de Datos. Análisis de Componentes Principales.

Tema 2 Datos multivariantes

1, 2, 2, 3, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 2, 1, 1, 4, 1

INFORME TAREA N 4 CLUSTERING

FACTORIAL DE CORRESPONDENCIAS SIMPLES Y MÚLTIPLES CRIVISQ

Capítulo 8. Análisis Discriminante

Sistemas Inteligentes. Tema B2T4: Aprendizaje no supervisado: algoritmo k-medias.

Ejemplos de análisis cluster

Análisis de Clúster con SPSS. Método de las K-Medias

RESUMEN ANÁLISIS CLUSTER

Redes de Neuronas de Base Radial

Análisis de Correspondencias

Algunos Tipos de matrices. Matrices. Algunos Tipos de matrices. Algunos Tipos de matrices

La práctica del análisis de correspondencias

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

Tema 5: Muestreo sistemático

Sistemas de Ecuaciones Lineales y Matrices

Tema 7: Problemas clásicos de Programación Lineal

Tema 3. Relación entre dos variables cuantitativas

Práctica 3. Para comenzar esta práctica abrimos el programa SPSS.

GUIA DE ESTUDIO FUNCIONES CUADRÁTICAS. Se llama FUNCION POLINOMICA DE SEGUNDO GRADO o FUNCION CUADRÁTICA a la función:

Teoría de grafos y optimización en redes

La práctica del análisis de correspondencias

DOCENTE: JESÚS E. BARRIOS P.

Tema 1. Espacios Vectoriales. Sistemas de ecuaciones.

CORRELACIÓN Y REGRESIÓN. Raúl David Katz

Tema 5: SEGMENTACIÓN (II) I N G E N I E R Í A I N F O R M Á T I C A

Análisis de datos cualitavos con análisis de correspondencias

DTW. Alineamiento Temporal Dinámico (DTW)

Matrices y Determinantes.

TEMA 4 CUESTIONARIO DE AUTOEVALUACIÓN

1. Matrices. Operaciones con matrices

Análisis de Correspondencias Simple

1. Estadística. 2. Seleccionar el número de clases k, para agrupar los datos. Como sugerencia para elegir el k

Tema 1. Espacios Vectoriales. Sistemas de ecuaciones.

INTERVALOS Y SEMIRRECTAS.

Matrices y determinantes. Sistemas de ecuaciones lineales

TÉCNICAS DE AGRUPAMIENTO

El análisis de correspondencias. Ana María López Jiménez Dept. Psicología Experimental (USE)

Matrices, determinantes y sistemas de ecuaciones lineales

Clase 7 Herramientas de Álgebra Lineal

Tema 2. Fundamentos Teóricos de la. programación dinámica Teorema de Optimalidad de Mitten

Componentes principales (II)

Tema 2: Estadística Descriptiva Bivariante.

Matrices. Álgebra de matrices.

Análisis de Conglomerados

Lección 8. Matrices y Sistemas de Ecuaciones Lineales

Ecuaciones e inecuaciones. Sistemas de ecuaciones e inecuaciones

Sesión 3: Análisis Exploratorio de Datos Espaciales (AEDE): Técnicas básicas

La práctica del análisis de correspondencias

Ecuaciones e inecuaciones. Sistemas de ecuaciones e inecuaciones

Clustering. Departamento de Ingeniería Informática y de Sistemas Universidad de La Laguna

3. Clasificación no supervisada

ELEMENTOS DE GEOMETRÍA. Eduardo P. Serrano

MODELACION EN VARIABLES DE ESTADO

PROGRAMACIÓN DE AULA WEB TALLER DE MATEMÁTICAS 1º ESO

Algebra lineal y conjuntos convexos

SOLUCIÓN A LOS EJERCICIOS DEL SPSS Bivariante

Análisis Cluster. Metodología de las CC del Comp-Universitat de València. Abril Pedro Valero

CORRELACION Y REGRESIÓN LINEAL

Medidas de centralización

Optimización y Programación Lineal

Sistemas de Ecuaciones Lineales. Matrices y determinantes.

Análisis de la relación precio marginal y demanda de electricidad mediante conglomerados

1. Utilizar el método de Gauss para clasificar y resolver cuando sea posible los siguientes sistemas: x 3y + 7z = 10 5x y + z = 8 x + 4y 10z = 11

1. Método de bisección

Sistemas de Ecuaciones. Lineales III

Construcción de Gráficas en forma manual y con programados

Métodos para la segmentación de datos longitudinales. Aplicación a datos de rendimientos de cultivos en Argentina.

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

COMPONENTES PRINCIPALES

Análisis de Datos. Validación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores

Tema 3: Análisis de datos bivariantes

REPRESENTACION GRÁFICA DE FUNCIONES

Estadística Descriptiva y Probabilidad FORMULARIO

CONTENIDOS Y CRITERIOS DE EVALUACIÓN MATEMÁTICAS 5º ED. PRIMARIA

Dualidad 1. 1 Formas simétricas. 2 Relación primal-dual. 3 Dualidad: el caso general. 4 Teoremas de dualidad. 5 Condiciones de holgura complementaria.

Transcripción:

Diplomatura en Estadística 1 Diplomatura en Estadística 2 Análisis de Conglomerados (Cluster analysis) Aurea Grané Departamento de Estadística Universidad Carlos III de Madrid Antecedente histórico Las representaciones que se estudian en este tema tienen su antecedente histórico en el sistema taxonómico de los seres vivos debido al naturalista Carl von Linné. También conocido como Carlos Linneo o Carolus Linnaeus, es llamado con frecuencia el Padre de la Taxonomía. Todavía se usa (aunque con muchos cambios) su sistema para nombrar, ordenar y clasificar los organismos vivos. Sus ideas sobre la clasificación han influenciado a generaciones de biólogos mientras vivía y mucho después de su muerte, aún a aquellos que se oponían a los fundamentos filosóficos y teológicos de su trabajo. Diplomatura en Estadística 3 Diplomatura en Estadística 4 Ejemplo ilustrativo Algunas frutas comunes (ciruela, cereza, melocotón, albaricoque, pera, manzana, níspero) pertenecen a la familia de las Rosáceas, género Prunus (P. domestica = ciruela, P. avium = cereza, P. persica = melocotón, P. ameniaca = albaricoque), género Pyrus (P. communis = pera, P. malus = manzana) yalgénero Mespilus (M. germanica = níspero). Los botánicos, siguiendo criterios naturalistas, clasifican estas frutas de la forma siguiente: Familia Género Especie P.domestica(ciruela) P.avium(cereza) Prunus P.persica(melocotón) Rosáceas P.ameniaca(albaricoque) P.communis(pera) Pyrus P.malus(manzana) Mespilus {M.germanica(níspero)

Diplomatura en Estadística 5 Diplomatura en Estadística 6 Objetivo Sea E un conjunto de n objetos o individuos sobre los que se ha calculado alguna medida de distancia. Sea D =(δ ij ) 1 i,j n la matriz de distancias entre estos n individuos. El objetivo del análisis de conglomerados (o cluster analysis) es la clasificación (no supervisada) de los elementos de E, es decir, su agrupación en clases disjuntas, que se denominan conglomerados (o clusters). Si estas clases se agrupan sucesivamente en clases de un nivel superior, el resultado es una estructura jerárquica de conglomerados, que puede representarse gráficamente mediante un árbol, llamado dendrograma. Ultramétricas Se dice que una matriz de distancias D es ultramétrica si para todos los elementos del conjunto E se verifica que: δ ij = δ ji, para todo i, j, disimilaridad o casi-métrica δ ii =0, para todo i, yademás verifican la desigualdad ultramétrica: δ ij max{δ ik,δ kj }, para todo i, j, k. Puede demostrarse que a cada dendrograma le corresponde una matriz de distancias ultramétrica y viceversa. Diplomatura en Estadística 7 Diplomatura en Estadística 8 Matriz de datos X medida de distancia entre individuos Matriz de distancias D algoritmo de clasificación Dendrograma Matriz de distancias ultramétrica U Clasificación jerárquica Algoritmos de tipo divisivo: Se parte de un único conglomerado, formado por el conjunto de todos los objectos a clasificar, y se subdivide en particiones cada vez más finas. Algortimos de tipo aglomerativo: Se parte de n conglomerados, de un solo objeto cada uno, y se van agrupando en conjuntos sucesivamente mayores.

Diplomatura en Estadística 9 Diplomatura en Estadística 10 Algoritmos de tipo aglomerativo Se dispone de un conjunto E de n elementos u objetos y de una matriz de distancias D =(δ ij ) 1 i,j n entre ellos. Idea: se juntan los elementos o conglomerados más próximos, y se procura obtener distancias ultramétricas. 1. Se empieza con la partición: E = {1} + {2} +...+ {n}. 2. Sean i, j los dos elementos más próximos, es decir, δ ij =minδ kl. Éstos se unen dando lugar a un nuevo conglomerado: {i} {j} = {i, j} y se define la distancia del conglomerado {i, j} al resto de elementos del conjunto E: δ k,(ij) = f(δ ik,δ jk ), k i, j, 3. Se considera la nueva partición: E = {1} +...+ {i, j} +...+ {n} y se repiten los pasos 2 y 3, hasta que todos los elementos estén contenidos en un único conglomerado. La función f (paso 2) se define adecuadamente de manera que se cumpla la propiedad ultramétrica. Los distintos métodos de clasificación jerárquica dependen de la elección de la función f: método del mínimo (o single linkage). Se toma f igualalmínimo: δ k,(ij) =min(δ ik,δ jk ), k i, j, método del máximo (o complete linkage). Se toma f igual al máximo: δ k,(ij) = max(δ ik,δ jk ), k i, j, donde f es una función adecuada. Diplomatura en Estadística 11 Diplomatura en Estadística 12 método de la media. δ k,(ij) = 1 2 (δ ik + δ jk ), k i, j, UPGMA (Unweighted Pair Group Method using arithmetic Averages), que utiliza medias ponderadas según el número de elementos que hay en cada conglomerado. Si E i,e j,e k son conglomerados de n i,n j,n k elementos, respectivamente y E i,e j son los conglomerados más próximos, entonces δ (E k,e i E j )= n i δ(e i,e k )+ n j δ(e j,e k ) n i + n j n i + n j Si la matriz de distancias original D no cumple la propiedad ultramétrica, los distintos métodos de clasificación darán lugar a matrices ultramétricas distintas y, por tanto, a representaciones jerárquicas distintas. Ejemplo 1: Problema 6.2 Distancias por carretera (en km) entre ciudades. Barcelona Madrid San Sebastián Sevilla Valencia Barcelona 0 639 606 1181 364 Madrid 639 0 474 542 355 San Sebastián 606 474 0 908 597 Sevilla 1181 542 908 0 679 Valencia 364 355 597 679 0 Etapa cero: C 0 = {B} + {M} + {SS} + {S} + {V } Etapa uno: C 1 = {B} + {M,V } + {SS} + {S} y se recalculan las distancias (por ejemplo, mediante el método del mínimo) del conglomerado {M,V} al resto.

Diplomatura en Estadística 13 Diplomatura en Estadística 14 δ (MV ),B =min{δ M,B,δ V,B } =min{639, 364} = 364, δ (MV ),SS =min{δ M,SS,δ V,SS } =min{474, 597} = 474, δ (MV ),S =min{δ M,S,δ V,S } =min{542, 679} = 542, de manera que la matriz de distancias ha quedado: Paso 0 B M SS S V B 0 639 606 1181 364 M 0 474 542 355 SS 0 908 597 S 0 679 V 0 Paso 1 B (M,V ) SS S B 0 364 606 1181 (M,V ) 0 474 542 SS 0 908 S 0 Etapa dos: C 2 = {B,M,V } + {SS} + {S} y se recalculan las distancias del conglomerado {B,M,V} al resto de individuos. δ (BMV ),SS =min{δ B,SS,δ (MV ),SS } =min{606, 474} = 474, δ (BMV ),S =min{δ B,S,δ (MV ),S } =min{1181, 542} = 542, y la matriz de distancias ha quedado: Paso 2 (B,MV ) SS S (B,MV ) 0 474 542 SS 0 908 S 0 Paso 3 (BMV,SS) S (BMV,SS) 0 542 S 0 Etapa tres: C 3 = {B,M,V,SS} + {S} y se recalculan las distancias del conglomerado {B,M,V,SS} al resto de individuos. δ (BMV SS),S =min{δ (BMV ),S,δ SS,S } =min{542, 908} = 542, Etapa cuatro: C 4 = {B,M,V,SS,S} Diplomatura en Estadística 15 Diplomatura en Estadística 16 Resumen del algoritmo de clasificación Etapa distancias clasificación / conglomerados 0 - C 0 = {B} + {M} + {SS} + {S} + {V } 1 δ M,V = 355 C 1 = {B} + {M,V } + {SS} + {S} 2 δ B,MV = 364 C 2 = {B,M,V } + {SS} + {S} 3 δ BMV,SS = 474 C 3 = {B,M,V,SS} + {S} 4 δ BMV SS,S = 542 C 4 = {B,M,V,SS,S} Utilizando las distancias a las que se forman los conglomerados se reconstruye la matriz de distancias ultramétrica: Dendrograma (método del mínimo) de las ciudades. 542 474 1. Barcelona 2. Madrid 3. San Sebastián 4. Sevilla 5. Valencia Barcelona Madrid San Sebastián Sevilla Valencia Barcelona 0 364 474 542 364 Madrid 0 474 542 355 San Sebastián 0 542 474 Sevilla 0 542 Valencia 0 364 355 2 5 1 3 4 ciudades

Diplomatura en Estadística 17 Diplomatura en Estadística 18 Correlación cofenética Como ocurría en el caso euclídeo, en general, una matriz de distancias D, obtenida a partir de una matriz de datos multivariantes X, no cumple la propiedad ultramétrica. Esto da lugar al problema de aproximar la matriz de distancias D =(δ ij ) con una matriz ultramétrica U =(u ij )según algún criterio de proximidad adecuado. La medida de proximidad que se utiliza es la correlación cofenética, que es el coeficiente de correlación lineal (de Pearson) entre los n (n 1)/2 pares de distancias (δ ij,u ij ), para 1 i<j n. Este coeficiente vale 1 cuando ambas matrices son proporcionales (iguales). Esto equivale a decir que la matriz D ya cumple la propiedad ultramétrica y, por tanto, la clasificación es exacta. Ejemplo 2: Problema 6.3 Sea D (2) la matriz de distancias de Bhattacharyya obtenida para los datos siguientes: Población grupo A grupo AB grupo B grupo O 1. francesa 1 0.06 0.06 0.67 2. checa 5 0.04 0.14 0.57 3. germánica 2 0.06 0.08 0.64 4. vasca 0.19 0.04 0.02 0.75 5. china 0.18 0.00 0.15 0.67 6. ainu 3 0.00 8 9 7. esquimal 0 0.00 0.06 0.64 8. negra USA 0.10 0.06 0.13 0.71 9. española 7 0.04 0.06 0.63 10. egipcia 1 0.05 0 0.54 a) Es D ultramétrica? Diplomatura en Estadística 19 Diplomatura en Estadística 20 b) Clasificación jerárquica con los métodos del mínimo, del máximo y UPGMA Calculamos préviamente la matriz de distancias D: 5 0.7 D=[ 0 959 086 530 0.5351 0.6298 0.5121 301 828 695 959 0 400 0.5162 733 0.5104 976 575 693 995 086 400 0 074 0.5211 0.6030 0.5107 206 789 227 530 0.5162 074 0 0.5675 0.6879 0.5106 0.5055 895 0.5796 0.5351 733 0.5211 0.5675 0 397 354 0.5206 0.5151 991 0.6298 0.5104 0.6030 0.6879 397 0 0.5569 0.6084 0.6035 921 0.5121 976 0.5107 0.5106 354 0.5569 0 0.6007 499 0.5680 301 575 206 0.5055 0.5206 0.6084 0.6007 0 938 469 828 693 789 895 0.5151 0.6035 499 938 0 702 695 995 227 0.5796 991 921 0.5680 469 702 0 ]; No es ultramétrica puesto que, por ejemplo, δ 1,6 =0.6298 > max{δ 1,3,δ 3,6 } =max{086, 0.6030}. 0.65 0.6 0.55 0.5 5 5 5 5 5 1 3 9 2 10 4 8 5 7 6 1 3 9 4 2 10 8 5 7 6 mínimo máximo El método del mínimo tiende a contraer el espacio (observad los valores del índice de la jerarquía, que se encuentran representados en el eje vertical del gráfico), mientras que el método de máximo tiende a dilatar el espacio.

Diplomatura en Estadística 21 Diplomatura en Estadística 22 0.7 0.65 0.6 0.55 0.5 5 0.55 0.5 5 5 c) Calcular la correlación cofenética en cada caso. La correlación cofenética es el coeficiente de correlación lineal de Pearson entre los elementos de la matriz de distancias original y los elementos de la matriz de distancias ultramétrica. 5 5 1 3 9 4 2 10 8 5 7 6 máximo 5 1 3 9 4 2 10 8 5 7 6 UPGMA Las clasificaciones que se obtienen mediante los métodos del máximo y UPGMA son muy parecidas. En este caso, obtenemos: c_min=0.7910, c_max=0.8132 y c_upgma=0.8413, indicando que el método UPGMA es el que menos distorsiona (de los tres que hemos visto) la matriz de distancias original. Diplomatura en Estadística 23 Diplomatura en Estadística 24 d) Comparar los dendrogramas con la representación en coordenadas principales. Clasificación no jerárquica 0.1 0 0.1 4 1 3 9 8 2 10 5 6 Una clasificación no jerárquica de n objetos en relación a una matriz de datos X, consiste en obtener g grupos homogéneos y excluyentes (conglomerados). Si tenemos g conglomerados, estamos en la misma situación del Tema 5 (MANOVA), y podemos considerar la descomposición de la variabilidad total T = B + W. 0.1 0 0.1 {1,3,9,4}: poblaciones europeas {francesa, germánica, española, vasca} {2,8,10}: poblaciones {checa, negra USA, egipcia} {5,6,7}: poblaciones {china, ainu, esquimal}. Los dendrogramas obtenidos con el método del máximo y con el método UPGMA son los que mejor reflejan estas agrupaciones. 7 Una partición en g conglomerados que maximice B o minimice W, en relación a algún criterio, dará una solución al problema, puesto que tendremos máxima dispersión entre conglomerados. Algunos criterios, justificados por el MANOVA son: a) minimizar tr(w), c) minimizar Λ = W / T, b) minimizar W, d) maximizar tr(w 1 B).

Diplomatura en Estadística 25 Diplomatura en Estadística 26 La cantidad de maneras diferentes de agrupar n objetos en g grupos es del orden de g n /g!, número muy grande incluso para valores moderados de n y g. Por ejemplo, si n =50yg =3,seformarían más de 10 23 conglomerados!!! Es necesario seguir algún algoritmo de agrupación. Algoritmo de k-medias (k-means): 1. Seleccionar g puntos del espacio R p como centros (centroides) de los grupos iniciales: a) asignando aleatoriamente los elementos a los grupos y calculando así los centroides, b) tomando como centroides los g puntos más alejados entre sí, c) construyendo unos grupos iniciales con información a priori y calculando sus centroides, o bien seleccionando los centroides a priori. 2. Calcular las distancias euclídeas (δ E ) de cada elemento a los g centroides, y asignar cada elemento al grupo más próximo. La asignación se realiza secuencialmente y al introducir un nuevo elemento en un grupo se recalculan las cordenadas del nuevo centroide. 3. Repetir el paso 2, calculando cada vez la cantidad W, oel criterio de optimización escogido. 4. Parar cuando W ya no disminuye, o el criterio de optimización escogido ya no mejora. Se demuestra que la suma de cuadrados de las distancias euclídeas de los elementos de cada grupo al centroide disminuye a cada paso: g n k δe(x 2 ki, x k ). k=1 i=1