Máster en Ordenación y Gestión del Desarrollo Territorial y Local. Módulo I MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL

ANÁLISIS CLUSTERS C U R S O TÉCNICAS MULTIVARIANTES Prof. Dr. Ángel Luís LUCENDO MONEDERO 1 http://www.geografia.us.es/

Tema 2. INTRODUCCIÓN N AL ANÁLISIS CLUSTER 2.1 Consideraciones generales. Clasificación n general de las técnicas t estadísticas: sticas: ESTADÍSTICA STICA DESCRIPTIVA ESTADÍSTICA STICA AVANZADA 2 Medidas Tendencia Central Medidas de Dispersión Medidas de Distribución Análisis de Correspondencias Análisis Factorial ANÁLISIS CLUSTER (Tema 2)

2.1 Consideraciones generales. Se basa en el concepto de clasificación: En general, es el proceso o acto de asignar un nuevo caso u observación en su lugar correspondiente dentro de un conjunto de categorías establecido. En estadística, es un conjunto de técnicas que se utilizan para clasificar los objetos o casos en grupos relativamente homogéneos llamados clusters. 3 En matemática, dado un conjunto d m objetos individuales cada uno de los cuales viene descrito por un conjunto de n características o variables, trata de deducir una división útil en un número de clases que deben ser determinadas a priori.

Una herramienta muy útil: el análisis cluster se puede utilizar para: En la taxonomía, para agrupar especies naturales (animales o plantas). En marketing, facilita la clasificación de consumidores tipo dentro del conjunto de la población. En medicina, permite clasificar seres vivos con los mismos síntomas y características patológicas. Se emplea en técnicas de reconocimiento de patrones o perfiles (clientes de bancos, de seguros, poblaciones de riesgo, enfermedades, etc.). 4 Para formar grupos de pixels de imágenes digitalizadas enviadas por un satélite con el fin de identificar las características de los terrenos.

2.2 Análisis cluster, análisis multivariante. Es un tipo de técnicas estadísticas de análisis multivariante Permite un mejor entendimiento del fenómeno objeto de estudio OBJETIVOS del análisis multivariante: Proporcionar métodosm que otras técnicas estadísticas son incapazes de conseguir. 5 Ayudar al analista o investigador a tomar decisiones óptimas.

2.3 Análisis Cluster: definiciones. a) AC es el nombre genérico de una amplia variedad de procedimientos que pueden ser usados para crear una clasificación. b) AC es un procedimiento estadístico multivariante que comienza con un conjunto de datos conteniendo información (variables) sobre una población (o una muestra) e intenta reorganizarlos en grupos o conglomerados relativamente homogéneos a los que se denomina clusters. 6 c) Es una técnica de clasificación de datos, cuyo principal objetivo es formar e identificar un número pequeño y óptimo de grupos de individuos homogéneos respecto a un conjunto de características (variables) que pueden ser cuantitativas o cualitativas.

2.4 Selección de la medida de Similitud o Distancia. La similitud (símilaridad) es una medida de semejanza entre los casos que van a ser agrupados. El procedimiento del AC = medir la similitud en términos de distancias. Los individuos más parecidos = características similares = más cercanos = un mismo grupo/cluster. Métodos usados en la medición de la similitud: 2.4.1 Medidas de correlación (variables) (datos cuantitativos) 2.4.2 Medidas de distancia (casos) 2.4.3 Medidas de asociación (casos) (datos cualitativos) 7

FUNDAMENTAL!!!! El resultado final del AC depende radicalmente de la medida de ASOCIACIÓN/SIMILITUD/DISTANCIA utilizada. PORQUÉ? La medidas de distancia son sensibles a las diferencias de escalas entre las variables No todas las variables tienen el mismo peso en el resultado final. 8 Especialmente las variables con una gran dispersión (valores grandes de sus desviaciones típicas) tienen más impacto.

Transformación o Estandarización de datos. Eliminar los perjuicios de las diferencias en las escalas de los distintos atributos (variables). Puede afectar al resultado del análisis Puntuaciones Z: Es la forma más común. Consiste es la conversión de cada variable en puntuaciones típicas. Factorización: Puede resultar interesante realizar el AC con factores en lugar de con variables. 9

2.4.1 Medidas de Correlación Para clasificar variables. a) Coeficiente de congruencia (CRS): Es conveniente utilizarlo con variables tipo razón. No se ve afectado por cambios de escala. Es el coseno del ángulo que forman los vectores entre los casos. b) Coeficiente de correlación (RRS): No se ve afectado por cambios de escala. Si los objetos r y s son variables, mide el grado de asociación lineal existente entre ambas (r 2 ). 10

2.4.2 Medidas de distancia. a) Medidas para variables cuantitativas No son invariantes a cambios de escala => estandarizar los datos. No tienen en cuenta las relaciones existentes entre las variables. 1) Distancia euclídea y distancia euclídea al cuadrado 2) Distancia métrica de Chebychev t 3) Distancia de Manhattan (en SPSS, City-Block) dij = ( Xik X k = 1 4) Distancia de Mahalanobis b) Medidas para datos binarios jk ) 2 11 1)Distancia euclídea al cuadrado

2.5 Clasificación de la técnicas clusters o Procedimientos de Agrupación. 1. CONGLOMERADOS JERÁRQUICOS (ESTRUCTURA PROGRESIVA EN ARBOL) JERÁRQUICOS AGLOMERATIVOS Distancia mínima (single linkage) Distancia máxima (complete linkage) Distancia entre centros (centroide) Distancia mediana (median) Distancia promedio Método de Ward JERÁRQUICOS DIVISIVOS 12 2. CONGLOMERADOS NO JERÁRQUICOS (K-MEDIAS) OPTIMIZACIÓN

2.5.1 Procedimientos Jerárquicos. Conceptos Objetivo = permitir tomar una decisión sobre cuál es el número idóneo de conglomerados Estructura jerárquica en forma de árbol. Cada caso forma parte de un cluster u otro en función de las distancias que existen entre ellos. Variables brutas (originales) o transformaciones de estandarización. 14

2.5.1 Procedimientos Jerárquicos. Métodos Los Métodos Jerárquicos pueden ser de dos tipos: i. Aglomerativos. Los métodos aglomerativos comienzan con n clusters de un caso cada uno. En cada paso del algoritmo se recalculan las distancias entre los grupos existentes y se unen los 2 casos o grupos más similares (más próximo). El algoritmo acaba con 1 cluster conteniendo todos los elementos. ii. Divisivos. 15 Los métodos divisivos comienzan con 1 cluster que engloba a todos los elementos. En cada paso del algoritmo se divide el caso o grupo más heterogéneo (más lejano). El algoritmo acaba con n clusters de un elemento cada uno.

2.5.1 Procedimientos Jerárquicos. Métodos Método jerárquico aglomerativo: Elemento 1 Elemento 2 Elemento 3 Elemento 4 Elemento 5 Método jerárquico divisivo: Elemento 1 Elemento 2 Elemento 3 Elemento 4 16 Elemento 5

2.5.1 Procedimientos Jerárquicos. Métodos El método de enlace sencillo (single linkage) Distancia mínima o la regla del vecino más próximo. Se identifica la distancia más próxima entre dos casos, un caso y un conglomerado o dos conglomerados. Los clusters se unen considerando la menor de las distancias existentes entre los miembros más cercanos de distintos grupos. 17 El método de enlace completo (complete linkage) Distancia máxima o la regla del vecino más lejano. Se identifica la distancia más lejana entre dos casos, un caso y un conglomerado o dos conglomerados. Los grupos se unen considerando la menor de las distancias existentes entre los miembros más lejanos de distintos grupos.

2.5.1 Procedimientos Jerárquicos. Métodos El método de Ward Se basa en la varianza intragrupos de la estructura formada. El procedimiento: 1. En cada grupo se calculan las medias de todas las variables. 2. Se calcula la distancia euclidiana al cuadrado de cada caso con respecto a las medias anteriores. 3. Se suman todas esas distancias para cada caso. 4. En cada etapa se combinarán los dos conglomerados con el menor incremento en la suma total de los cuadrados de las distancias dentro de los conglomerados. 18

2.5.1 Procedimientos Jerárquicos. Métodos El método del Centroide Distancia media entre los centroides de dos grupos. Dos cluster próximos tienen centroides semejantes. Cada vez que se agrupan los objetos, se calcula un centroide nuevo. 19 DE LOS MÉTODOS JERÁRQUICOS, LOS DE ENLACE (linkaje) Y EL DE WARD HAN DEMOSTRADO UN MEJOR DESEMPEÑO QUE LOS OTROS.

2.5.2 Procedimientos No Jerárquicos. Conceptos Se conoce como de K Medias. Es un procedimiento de optimizante o partitivo. Consiste en formar un número (K) prefijado de grupos homogéneos, excluyentes x las distancias existentes entre casos y/o variables. Técnica de agregación alrededor de centros de gravedad móviles: los casos se agrupan en cada etapa cambiando el centro de gravedad 1 de los grupos. 1) Punto de un cluster en el que la suma de las distancias euclídeas al cuadrado de cada individuo con dicho centro es mínima. 20

2.5.2 Procedimientos No Jerárquicos. Conceptos Es necesario fijar de antemano el número de grupos (K): Seleccionando a priori el número de centros (K). Cuando no se tiene ninguna idea del número de grupos, escogiendo un número aleatorio de centros. En este caso, esta técnica puede usarse con carácter exploratorio. 21

22 2.5.2 Procedimientos No Jerárquicos. Métodos El método del Umbral Secuencial Se selecciona un centro de grupo y a partir de él se agrupan todos los casos dentro de un umbral (valor de distancia que se especifica previamente). El método del Umbral Paralelo Similar al anterior excepto en que se seleccionan varios centros de grupo simultáneamente y se agrupan los casos dentro el umbral del centro más próximo. El método de división para la Optimización Difiere de los otros dos procedimientos en que los casos pueden reasignarse a otros grupos en posteriores etapas de análisis.

2.7 Procedimiento del AC con SPSS. 23 2.7.1 Formulación del Problema. 2.7.2 Análisis de Conglomerados Jerárquicos. 2.7.3 Análisis de k Medias (No Jerárquico).

Procedimiento del Análisis de Conglomerados 24

2.7.1 Formulación del Problema y Diseño de la Investigación. i. Selección de la población ii. Selección de variables (1) No incluir ni elegir variables indiscriminadamente (1) iii. Transformación Atención!! Si las variables no tienen las mismas unidades de medida. 25

2.7.2 Análisis de Conglomerados Jerárquicos (SPSS). a) Escoger la medida de la distancia. Establecer una medida de similaridad entre cada par de casos según el tipo de datos que sean (2) (intervalo, frecuencia, binario) (3) : CASOS: medidas de distancia (datos cuantitativos) (3) (2) Medidas de asociación (datos cualitativos) VARIABLES: Medidas de proximidad (4) 26 Si fuera necesario, se procede a la transformación de los datos (4).

b) Escoger el método de agrupamiento. No existe un criterio estadístico Cada AC variará su solución según el método escogido. Dependerá de la propia estructura de los datos. Los métodos de agrupamientos recomendados son: Vecino más lejano. 27 Método de Ward.

c) Conocer el Historial de Aglomeración: Este gráfico muestra información sobre: a) las etapas en las que se van uniendo los casos (5) b) el par de casos que se unen en cada etapa y a la distancia que se ha unido (6); c) las etapas previas y posteriores en la que aparecen los casos implicados (7). (5) (6) (7) 28

d) Conocer las distancias entre pares de individuos: Matriz de Distancias (4): muestra la distancias que hay entre cada par de casos. El tipo de matriz obtenida de distancias dependerá de la medida y del método seleccionados. (4) 29 Matriz de distancias distancia euclídea al cuadrado Caso 1 2 3 4 5 1 1,0933 1,0147 2,6317 1,1164 2 1,0933 0,4825 4,0386 1,9940 3 1,0147 0,4825 1,8699 2,7496 4 2,6317 4,0386 1,8699 6,3494 5 1,1164 1,9940 2,7496 6,3494 6 2,7736 1,2262 3,1072 9,2487 1,6891 7 0,8044 2,5238 3,2590 6,0174 0,4242

30 Máster en Ordenación y Gestión del Desarrollo Territorial y Local e) Determinar el número óptimo de grupos o clusters (I): No existen criterios determinar el número óptimo de grupos, Dendograma Es un gráfico que muestra las etapas de fusión y las distancias de unión. Los conglomerados se representan mediante trazos horizontales (9) y las etapas de fusión o clusters mediante trazos verticales (10). DENDOGRAMA A medida que se van formando grupos, éstos son menos homogéneos (8). (10) (9) (8)

EJEMPLO: dos opciones: Con La primera opción se pueden identificar dos grupos considerando la distancia 1000 (en la variable Height) (línea naranja). En la segunda opción se consideraría cuatro clusters partiendo del corte en una distancia 250 (en la variable Height) (línea negra). 31

e) Determinar el número óptimo de grupos o clusters (II): Para determinar el número óptimo de grupos: TABLA DEL CONGLOMERADO DE PERTENENCIA. 32 Listado de todos los casos analizados indicando el conglomerado al que han sido asignados (11) Permiten observar el cluster en el que estaría cada caso (luego de haber establecido una distancia y un método de agrupamiento) escogiendo el número de grupos previamente (una única solución o un rango de ellas) (11).

2.7.3 Análisis de k Medias (No Jerárquico) (SPSS). Elegir una partición inicial de grupos y después intercambiar los miembros de esos clusters para obtener una partición mejor. RECOMENDACIONES: a) Los datos deben ser cuantitativos. b) Seleccione las variables estandarizadas. c) Escoja el método Iterar y clasificar para obtener la máxima eficacia. 33

d) Elegir el número de conglomerados finales: Si no se conocen el número (k) de grupos realizar diferentes diagramas de dispersión 34

e) Resultados = Tabla de centros de conglomerados. Determina las principales características grupo (11). de cada Centros iniciales de los conglomerados REGR factor score 1 for analysis 3 REGR factor score 2 for analysis 3 REGR factor score 3 for analysis 3 Conglomerado 1 2 3 4,00238 2,03132 -,94096 -,24790-1,25993,54797 1,29312 -,85493 -,19647,51473,84916-2,18482 35 REGR factor score 1 for analysis 3 REGR factor score 2 for analysis 3 REGR factor score 3 for analysis 3 Centros de los conglomerados finales (11) Conglomerado 1 2 3 4 -,29025 1,53397 -,79825 -,24790-1,09801,44972,97445 -,85493,41929,02320,10951-2,18482

f) Resultados = Número de casos que tienen cada cluster. La tabla que nos informa sobre el número de casos asignados a cada cluster o grupo (12). Es habitual que algunos grupos contengan pocos casos e incluso un solo individuo (casos atípicos). 36 Número de de casos en en cada conglomerado (12) Conglomerado 1 4,000 2 3,000 3 4,000 4 1,000 Válidos 12,000 Perdidos 3,000

g) Guardar la información del conglomerado de pertenencia: Se almacena como nuevas variables en el fichero de datos (*.sav). Dichas variables son: El Conglomerado de pertenencia. Esta nueva variable indica el conglomerado final. La Distancia desde centro del conglomerado. Esta nueva variable indica la distancia euclídea 1 entre cada caso y su centro de clasificación. 37 1) El procedimiento de ANÁLISIS DE K MEDIAS siempre mide la distancia euclídea entre los casos.

Una herramienta muy útil: en Geografía Regional: 38 DEFINICIÓN N DE UNA TIPOLOGÍA A DE REGIONES EUROPEAS OBJETIVO: Elaborar una clasificación n y caracterizar el espacio socioeconómico europeo en base unos indicadores. Valorar la intensidad de las problemas regionales (la mayoría a de los estudios son realizados bajo una visión unidimensional de los indicadores). Los indicadores considerados son: tasa de actividad total (TACTO), tasa de actividad de las mujeres (TMU), relación n entre activos e inactivos (GRD), tasa de desempleo total (TDT), MUCHAS tasa de desempleo para las mujeres (TDM) y VARIABLES!! para los hombres (TDV), ocupación n en agricultura (OAGR), ocupación n en industria (OIND), ocupación n en servicios (OSER), y PIB por habitante (PIB/H P).

UNA TIPOLOGÍA A DE REGIONES EUROPEAS... METODOLOGÍA: El método m más m adecuado para detectar proximidades y diferencias en bienestar entre regiones europeas: analizar simultáneamente un conjunto de indicadores demográficos, de mercado de trabajo y PIB por habitante. Mediate el Análisis Cluster: : se parte del conjunto de datos con información relevante de esos indicadores regionales e intentan reorganizarlos en grupos homogéneos. 39 Las variables finalmente incorporadas en el modelo,, ordenadas de mayor a menor contribución n a la discriminación n entre los seis grupos: 1. Tasa de desempleo de las mujeres. 2. PIB/habitante en paridad de poder de compra. 3. Ocupación n agraria. 4. Grado de dependencia. 5. Ocupación n industrial.

UNA TIPOLOGÍA A DE REGIONES EUROPEAS... CONCLUSIONES FACTORES EXPLICATIVOS. Alto poder diferenciador de las variables tasa de desempleo de la mujer y de capacidad adquisitiva (PIB/habitante) en la valoración n (aportación) ) de las desigualdades regionales (factor 1º). 1 INTERPRETACIÓN: N: este indicador presenta una alta capacidad discriminatoria entre espacios (regiones) comunitarios lo que parece poner de relieve. Las variables estructura de la producción grado de dependencia (tasa de actividad) las que mejor explican las diferencias regionales en la Unión n Europea (factor2ª). 40 IDENTIFICACIÓN N DE GRUPOS. Tales diferencias dan lugar a seis grupos de regiones,, cuyas características más m s relevantes son: Grupo 1: regiones de desarrollo medio, con importantes problemas en el mercado de trabajo. Son las regiones más m s desarrolladas de... Grupo 2:...