Análisis Cluster en SPSS

Documentos relacionados
Curso de Postgrado en Herramientas Estadísticas Avanzadas: AGROPECUARIOS. Prof. Dr. José Perea Dpto. Producción Animal

ÍNDICE INTRODUCCIÓN... 21

Ruth Vilà, María-José Rubio, Vanesa Berlanga, Mercedes Torrado. Cómo aplicar un cluster jerárquico en SPSS.

Selección de fuentes de datos y calidad de datos

Tema: ESTADÍSTICA DESCRIPTIVA BÁSICA CON SPSS 8.0

ESTADÍSTICA DESCRIPTIVA

FACTORIAL DE CORRESPONDENCIAS SIMPLES Y MÚLTIPLES CRIVISQ

Análisis multivariable

El Análisis de Correspondencias tiene dos objetivos básicos:

Estadística Inferencial. Estadística Descriptiva

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

Este programa estadístico está organizado en dos bloques: el editor de datos y el visor de resultados.

ESTADÍSTICA DESCRIPTIVA PARA EL TURISMO

ANÁLISIS DISCRIMINANTE

Tipo de punta (factor) (bloques)

Tema 1.- Correlación Lineal

PROBLEMAS ESTADÍSTICA I

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

Tema 2 Datos multivariantes

2.- Tablas de frecuencias

Santiago de la Fuente Fernández. Análisis Conglomerados

MEDIDAS ESTADÍSTICAS Medidas de Tendencia Central y de Variabilidad

El Análisis de la Regresión a través de SPSS

ESTADÍSTICA CON EXCEL

Fase 2. Estudio de mercado: ESTADÍSTICA

ANÁLISIS DE DATOS UNIDIMENSIONALES

13. Utilizar la fórmula del término general y de la suma de n términos consecutivos

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

c). Conceptos. Son los grupos o conceptos que se enlistan en las filas de la izquierda de la tabla

Pregunta 1. Pregunta 2. Pregunta 3. Pregunta 4. Pregunta 5. Pregunta 6. Pregunta 7. Comenzado el lunes, 25 de marzo de 2013, 17:24

Ejemplos de análisis cluster

ESTADÍSTICA SEMANA 3

2.1. Introducción Análisis exploratorio Análisis exploratorio para variables con muchas modalidades

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

INTRODUCCION AL MARKETING

CAPÍTULO 1 IDENTIFICACIÓN DEL PROBLEMA

PROGRAMA DE ESTUDIOS. - Nombre de la asignatura : Taller de herramientas Estadísticas. - Pre requisitos : LCP 219 Estadística

A. Menéndez Taller CES 15_ Confiabilidad. 15. Confiabilidad

Análisis Factorial: Análisis de componentes principales

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

Contenidos mínimos 1º ES0. 1. Contenidos. Bloque I: Aritmética y álgebra.

CAPITULO XII PUENTES DE CORRIENTE ALTERNA

Histogramas. Para crear un histograma. Para crear un histograma podemos utilizar el procedimiento Generador de gráficos en el Menú: o Gráficos:

1º CURSO BIOESTADÍSTICA

MEDIDAS DE TENDENCIA CENTRAL

U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo

Teorema Central del Límite (1)

Multicolinealidad. Universidad de Granada. RSG Incumplimiento de las hipótesis básicas en el modelo lineal uniecuacional múltiple 1 / 17

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Índice de contenidos. Primera parte Introducción al SPSS. 1. Estructura del SPSS

CONTENIDOS MÍNIMOS BLOQUE 2. NÚMEROS

Medidas de centralización

Estadística. Análisis de datos.

EL ANÁLISIS DE LOS DATOS EN EL SISTEMA DE INFORMACIÓN GEOGRÁFICA DE CUBA

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

DIPLOMADO EN ESTADÍSTICA APLICADA

INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO ANÁLISIS CLUSTER IDEA CONCEPTUAL BÁSICA: DEFINICIÓN:

UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO

Tema 8. Análisis de dos variables Ejercicios resueltos 1

M ÉTODO DE MUESTREO DE GEOSINTÉTICOS PARA ENSAYOS I.N.V. E

Nota técnica Estratificación multivariada

ESTADÍSTICA. Tema 4 Regresión lineal simple

UNIDAD 6. Estadística

25906 Metodología de la Investigación I Prof. Angel Barrasa Curso CONTENIDOS

Regresión con variables independientes cualitativas

Facultad de Ciencias Económicas Universidad Nacional de Córdoba Carrera de Doctorado

Medidas de dispersión

Estadística descriptiva y métodos diagnósticos

Tema 3: El Método Simplex. Algoritmo de las Dos Fases.

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

Técnicas de análisis multivariante para agrupación

UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro)

Tema 2. Descripción Conjunta de Varias Variables

Tema: Fuente de Alimentación de Rayos X

Universidad de Sonora Departamento de Matemáticas Área Económico Administrativa

VALORACIÓN ECONÓMICA DE LUCRO CESANTE

EVALUACIÓN DEL CUESTIONARIO. Screening del deterioro cognitivo en Psiquiatría SCIP-S

PROGRAMACIÓN DE LOS CONTENIDOS DE MATEMÁTICAS EN LA PREPARACIÓN DE LA PARTE COMÚN DE LA PRUEBA DE ACCESO A LOS C.F.G.S. (Opción C)

UNIVERSIDADES PÚBLICAS DE LA COMUNIDAD DE MADRID PRUEBA DE ACCESO A LAS ENSEÑANZAS UNIVERSITARIAS OFICIALES DE GRADO MATERIA: DIBUJO TÉCNICO II

FÍSICA Y QUÍMICA 3º ESO. OBJETIVOS, CONTENIDOS Y CRITERIOS DE EVALUACIÓN 1ª Evaluación: Unidad 1. La medida y el método científico.

REGRESIÓN LINEAL CON SPSS

PROPIEDADES DE LOS CAMPOS. Cada campo de una tabla dispone de una serie de características que proporcionan un control

Universidad Tec Milenio: Profesional HG04002 Análisis de Decisiones I

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

Ing. Eduardo Cruz Romero w w w. tics-tlapa. c o m

DISTRIBUCIONES BIDIMENSIONALES

Pruebas de Hipótesis-ANOVA. Curso de Seminario de Tesis Profesor QF Jose Avila Parco Año 2016

Capítulo 23. Análisis discriminante: El procedimiento Discriminante. Introducción

2. Recolección de información - Medidas de posición: moda, media aritmética, mínimo, máximo - Frecuencia absoluta, relativa y porcentual

Análisis de datos cualitativos

Este documento enumera los diferentes tipos de Diagramas Matriciales y su proceso de construcción.

SESIÓN PRÁCTICA 7: REGRESION LINEAL SIMPLE PROBABILIDAD Y ESTADÍSTICA. PROF. Esther González Sánchez. Departamento de Informática y Sistemas

Algebra lineal y conjuntos convexos

GUÍA DOCENTE DE LA ASIGNATURA ESTADÍSTICA APLICADA

Temas de Estadística Práctica

PROBLEMA DE PROGRAMACIÓN LINEAL RESUELTO POR MÉTODO SIMPLEX

Práctica de Óptica Geométrica

Transcripción:

Análisis Cluster en SPSS M. D olores M artínez M iranda Profesora del D pto. E stadística e I.O. U niversidad de G ranada Referencias bibliográficas 1. Hair, J.F., Anderson, R.E., Tatham, R.L. y Black, W.C. (1999) Análisis Multivariante (5ª edición). Ed. Prentice Hall.. Pérez, C. (001) Técnicas estadísticas con SPSS. Ed. Prentice Hall. 1

Motivación: Necesidad de diseñar una estrategia que permita definir grupos de objetos homogéneos. Tarea de clasificación. Aplicabilidad: Psicología, biología, sociología, economía, ingeniería, investigación de mercados, etc. Análisis Cluster: Técnica multivariante cuyo principal propósito es agrupar objetos formando conglomerados (clusters) de objetos con un alto grado de homogeneidad interna y heterogeneidad externa. Similitud con el Análisis Factorial: Mientras que el análisis cluster agrupa objetos, el análisis factorial se centra en la agrupación de variables. Inconvenientes de Análisis Cluster: Descriptivo, ateórico y no inferencial, se utiliza habitualmente como una técnica exploratoria. No ofrece soluciones únicas, a pesar de que existiera una estructura de clasificación verdadera en los datos, las soluciones dependen de las variables consideradas y del método de análisis cluster empleado.

Funcionamiento del Análisis Cluster: Un ejemplo ilustrativo Planteamiento Determinar los segmentos de mercado en una comunidad reducida basándose en pautas de lealtad a marcas y tiendas. Datos Se selecciona una muestra de 7 encuestados sobre los que se miden dos variables: V 1 (lealtad a la tienda) Escala de 0 a 10 V (lealtad a la marca) Escala de 0 a 10 8 7 6 5 D C B E F Encuestado Variable V 1 V A B 5 C 7 D 7 E 6 6 F 7 7 G 6 Lealtad a la marcan (V) A 1 1 Lealtad a la tienda (V1) 5 G 6 Objetivo: Definir la estructura de los datos colocando las observaciones más parecidas en grupos 7 8 1. Cómo medimos la similitud?. Cómo formamos los conglomerados?. Cuántos formamos?

1. Medición de la similitud Distancia euclídea para cada par de observaciones Matriz de distancias Caso A B C D E F G distancia euclídea A B C D E F G,000,16 5,099 5,099 5,000 6,0,606,16,000,000,88,6,606,6 5,099,000,000,000,6,000,606 5,099,88,000,000,1 5,000 5,000 5,000,6,6,1,000 1,1,000 6,0,606,000 5,000 1,1,000,16,606,6,606 5,000,000,16,000. Formación de los conglomerados Procedimiento jerárquico (método aglomerativo, vecino más próximo) Historial de conglomeración Etapa 1 5 6 Etapa en la que el conglomerado Conglomerado que se combina aparece por primera vez Próxima Conglomerado 1 Conglomerado Coeficientes Conglomerado 1 Conglomerado etapa E F 1,1 0 0 E-F G,000 1 0 5 C D,000 0 0 B C-D,000 0 5 B-C-D E-F-G,6 6 A B-C-D-E-F-G,16 0 5 0 Dendrogram Dendograma Distancia A B C D E F G

. Determinación del número de conglomerados en la solución final Etapa 1 5 6 Historial de conglomeración Etap Conglomerado que se combina Conglomerado 1 Conglomerado Coeficientes Conglo E F 1,1 E-F G,000 C D,000 B C-D,000 B-C-D E-F-G,6 A B-C-D-E-F-G,16 Medida de similitud intraconglomerado (Promedio) E-F (1,1) 1,1,19,1,,896,0 Distancias euclídeas E-G (,000) F-G (,16) La solución más apropiada parece la que ofrece el paso Aumento mayor Distance 1,6 1, 0,8 0, 0 A B C D E F G 5

Proceso de decisión en el Análisis Cluster PASO 1. Objetivos del análisis PASO. Diseño de investigación mediante análisis cluster PASO. Supuestos del análisis cluster PASO. Obtención de conglomerados y valoración del ajuste conjunto PASO 5. Interpretación de los conglomerados PASO 6. Validación y perfil de los grupos 6

PASO 1. Objetivos del análisis 1. Descripción de una taxonomía (una clasificación de objetos realizada empíricamente). Uso exploratorio o confirmatorio.. Simplificación de los datos. La estructura resultante permite simplificar el conjunto de observaciones.. Identificación de la relación entre las observaciones (relaciones que a priori están ocultas). Un problema a resolver: Selección de variables del análisis cluster La clasificación dependerá de las variables elegidas Introducir variables irrelevantes aumenta la posibilidad de errores. Criterio de selección: Sólo aquellas variables que caracterizan los objetos que se van agrupando, y referentes a los objetivos del análisis cluster que se va a realizar Se puede realizar un ACP previamente y resumir el conjunto de variables. 7

PASO. Diseño de la investigación mediante Análisis Cluster 1. Detección de atípicos y posible exclusión. El análisis cluster es muy sensible a la presencia de objetos muy diferentes del resto (atípicos). Métodos gráficos (caso univariante o bivariante): Diagramas de perfil. Distancia de Mahalanobis.. Medidas de similitud entre objetos. La similitud entre objetos es una medida de correspondencia, o parecido, entre objetos que van a ser agrupados. Medidas de correlación Medidas de distancia Medidas de asociación Datos métricos (Datos no métricos). Tipificación de los datos. El orden de las similitudes puede cambiar profundamente con sólo un cambio en la escala de una de las variables. Sólo se tipificará cuando resulte necesario. 8

Distancias y Similaridades en SPSS Dependiendo de tipo de datos se elegirá la distancia o similaridad adecuada: Datos de intervalo: Distancia euclídea, Distancia euclídea al cuadrado, Coseno, Correlación de Pearson, Chebychev, Bloque, Minkowski y Personalizada. Datos de frecuencias: Medida de chi-cuadrado y Medida de phicuadrado. Datos binarios: Distancia euclídea, Distancia euclídea al cuadrado, Diferencia de tamaño, Diferencia de configuración, Varianza, Dispersión, Forma, Concordancia simple, Correlación phi de puntos, Lambda, D de Anderberg, Dice, Hamann, Jaccard, Kulczynski 1, Kulczynski, Lance y Williams, Ochiai, Rogers y Tanimoto, Russel y Rao, Sokal y Sneath 1, Sokal y Sneath, Sokal y Sneath, Sokal y Sneath, Sokal y Sneath 5, Y de Yule y Q de Yule. 9

PASO. Supuestos del Análisis Cluster Representatividad de la muestra. La bondad de los resultados depende directamente de la calidad (representatividad) de los datos considerados. Multicolinealidad. Las variables que son multicolineales están implícitamente ponderadas con más fuerza. PASO. Obtención de los cluster y valoración del ajuste conjunto 1. Algoritmo para la obtención de los cluster. Procedimientos jerárquicos Procedimientos no jerárquicos Variación dentro del cluster Variación entre clusters. Número de cluster: Regla de parada.. Adecuación del modelo. (Comprobar que el modelo no ha definido cluster con un solo objeto, o de tamaños muy desiguales, etc.) Objetivo: Maximizar las diferencias entre los cluster relativa a la variación 10 dentro de los mismos.

Métodos jerárquicos en SPSS (aglomerativos) Vinculación intergrupos Vinculación intragrupos Vecino más próximo (Encadenamiento simple) Vecino más lejano (Encadenamiento completo) Agrupación de centroides Vinculación de medianas Método de Ward Nivel de jerarquía Distancia Dendrogram A B C D E F G Objetos Idea común: Construir una estructura en forma de árbol Vecino más próximo Vecino más lejano Agrupan objetos separados por la distancia mínima 11

Métodos no jerárquicos en SPSS: Método de las K medias Características: No implican la construcción de una estructura en árbol. Los objetos se asignan a los clusters una vez que se ha decidido cuántos se van a formar. Procedimiento general: Primero se selecciona una semilla para cada conglomerado a formar (el primer individuo que constituirá cada conglomerado) y se van asignando nuevos objetos según el criterio de distancia considerado, buscando que la variabilidad dentro de los conglomerados sea lo menor posible, y la variabilidad entre grupos lo mayor posible (la minimización de una función objetivo). Nota: Es común utilizar una combinación de los métodos no jerárquicos con los jerárquicos (constituirían el paso previo) 1

PASO 5. Interpretación de los conglomerados Asignar una etiqueta precisa que describa la naturaleza de los cluster formados. Herramientas: 1. Examen de los centroides (sobre datos no tipificados, y sólo si no provienen de una reducción mediante ACP).. Si el objetivo del análisis era confirmatorio, contrastar la clasificación con los datos preconcebidos. PASO 6. Validación y perfil de los grupos Confirmar que la solución es representativa de la población general. Herramientas: 1. Correlación cofenética (correlación entre las distancias iniciales y las finales). Estabilidad de la solución desde distintos procedimientos dentro del análisis cluster. 1

Un ejemplo ilustrativo: Análisis Cluster en SPSS Fichero de datos: jovenes.sav PROCESO DE DECISIÓN Paso 1. Objetivos del análisis cluster: Se trata de clasificar al conjunto de los 1 jóvenes encuestados por el número de veces que van anualmente al fútbol (futbol), la paga semanal que reciben (paga) y el número de horas semanales que ven la televisión (tv). Paso. Diseño de investigación del análisis cluster: Elegir la medida de distancia o similitud: Distancia euclídea al cuadrado (se trata de datos métricos en escala de intervalo) Se deberán tipificar los datos dado que las variables se miden en distinta escala (tipificación de cada variable, puntuaciones z). Puede ser de utilidad representar gráficamente los datos para ver si se percibe alguna forma de clasificación (Diagrama de dispersión tridimensional de las variables identificando los individuos con la variable id) 1

Diagrama -D Eje Y: futbol Eje X: tv Eje Z: paga A S I S T E N C I A 10 8 6 HB F A IC D A N U A L K A L F U T B O L 0 M E L N G J Opciones: Mostrar el gráfico con las etiquetas de caso 0 0 PAGA SEMANAL EN PTAS/100 10 10 0 0 HORAS SEMANALES TV 15

Paso. Supuestos del análisis cluster: La muestra se considera representativa? Es muy pequeña (n=1), tan sólo nos servirá como ilustración. Estudio de atípicos y valores aislados (medidas de influencia y distancia de Mahalanobis). Paso. Obtención de los clusters y valoración del ajuste conjunto: A. Análisis cluster jerárquico: i. Encadenamiento completo ii. Método de Ward iii. Vinculación de medianas Verificar la estabilidad de las tres soluciones cluster obtenidas B. Análisis cluster no jerárquico: Fijaremos previamente el número de cluster a formar 16

(A.i.) Análisis cluster jerárquico mediante encadenamiento completo Variables: Introducimos las variables en las que se basará la clasificación (futbol, paga, tv) Etiquetar los casos mediante: Si tenemos alguna variable de cadena que permita la identificación de los casos (id) Conglomerar: Casos (clasificar individuos) Variables (clasificar variables, similitud con análisis factorial) Mostrar: Estadísticos (resultados de texto) y/o Gráficos 17

Historial de conglomeración: Niveles de fusión Matriz de distancias No mostrar ninguna solución (al principio las exploramos todas) Dendograma Témpanos de todos los conglomerados Orientación: Vertical Método: Vecino más lejano Al principio no guardamos ninguna solución. Medida: Intervalo- Distancia euclídea al cuadrado Transformar valores: Estandarizar las variables 18 (puntuaciones Z)

La matriz de las distancias (euclídeas al cuadrado) entre cada dos individuos del fichero de datos antes de comenzar la clasificación. Caso 1: A : B : C : D 5: E 6: F 7: G 8: H 9: I 10: J 11: K 1: L 1: M 1: N Matriz de distancias 1: A : B : C : D 5: E 6: F 7: G 8: H 9: I 10: J 11: K 1: L 1: M 1: N,000 6,79,005 5,6 10,06 1,065 8,705 6,79,005 9,89 7,755,5 7,6 6,69 6,79,000,98 5,58,16 10,67 6,559,000,98 6,780,805 8,09 1,988 5,80,005,98,000 1,065 9,661 5,6 5,17,98,000 6,1 7,19 7,970 9,01 5,501 5,6 5,58 1,065,000 9,65 11,11,06 5,58 1,065,186 7,755 10,809 10,5,81 10,06,16 9,661 9,65,000 15,05 5,8,16 9,661,65,79 6,18,71,71 1,065 10,67 5,6 11,11 15,05,000 15,9 10,67 5,6 16,788 1,0 6,089 10,89 1,085 8,705 6,559 5,17,06 5,8 15,9,000 6,559 5,17,10 5,71 6,77 7,9,71 6,79,000,98 5,58,16 10,67 6,559,000,98 6,780,805 8,09 1,988 5,80,005,98,000 1,065 9,661 5,6 5,17,98,000 6,1 7,19 7,970 9,01 5,501 9,89 6,780 6,1,186,65 16,788,10 6,780 6,1,000 5,6 6,6 6,9,67 7,755,805 7,19 7,755,79 1,0 5,71,805 7,19 5,6,000 5,95,8,171,5 8,09 7,970 10,809 6,18 6,089 6,77 8,09 7,970 6,6 5,95,000,87,17 7,6 1,988 9,01 10,5,71 10,89 7,9 1,988 9,01 6,9,8,87,000,79 6,69 5,80 5,501,81,71 1,085,71 5,80 5,501,67,171,17,79,000 Esta es una matriz de disimilaridades distancia euclídea al cuadrado Los individuos que guardan menor distancia son el tercero y el noveno (0.000), serán los primeros que se unan en un mismo cluster. Los siguentes serán el segundo y el noveno (guardan aproximadamente la misma distancia, 0.000) 19

El historial de conglomeración muestra los niveles de fusión (coeficientes) al que se van uniendo los individuos en los conglomerados. Historial de conglomeración Etapa 1 5 6 7 8 9 10 11 1 1 Conglomerado que se combina Etapa en la que el conglomerado aparece por primera vez Conglom Conglom Conglom Conglom Próxima erado 1 erado Coeficientes erado 1 erado etapa 9,000 0 0 7 8,000 0 0 9 7 10,10 0 0 6 5 11,79 0 0 5 5 1,71 0 9 7 1,71 0 11 1,065 1 0 11 1 6 1,065 0 0 10 5,16 5 1 1 1 6,089 8 0 1 7 6,1 7 6 1 10,5 9 11 1 1 16,788 10 1 0 En la primera etapa se combinan los individuos tercero y noveno que eran los menos distantes (coeficiente=distancia=0.000). El cluster formado por estos dos individuos se modifica (se añaden individuos) en la séptima etapa) Los coeficientes (niveles de fusión) se calculan mediante el método del vecino más lejano y empleando como distancia la euclídea al cuadrado). Podemos observar cómo va aumentando la variabilidad dentro de los conglomerados conforme vamos agradándolos. En la primera etapa habría 1 clúster y en la última etapa un cluster que engloba a los catorce jóvenes. 0

DENDOGRAMA. Rescaled Distance Cluster Combine C A S E 0 5 10 15 0 5 Label Num +---------+---------+---------+---------+---------+ C òûòø I 9 ò ùòòòòòòòòòòòòòòò òòòòòòòòòòòòòòòø D òòò ùòòòòòòòòòòò òòòòòòòòòòòø G 7 òûòø ó ó J 10 ò ùòòòòòòòòòòòòòòò òòòòòòòòòòòòòòò ùòòòòòòòòòòòòòòòòò òòòòòòòòòòòòòòòòòø N 1 òòò ó ó B òûòòòòò òòòòòø ó ó H 8 ò ùòòòòòòòòòòòòòòòòòòòòòòò òòòòòòòòòòòòòòòòòòòòòòò ó E 5 òûòø ó ó K 11 ò ùòòò òòò ó M 1 òòò ó A 1 òòòûòòòòòòòòòòòòòòò òòòòòòòòòòòòòòòø ó F 6 òòò ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòò òòòòòòòòòòòòòòòòòòòòòòòòòòòòò L 1 òòòòòòòòòòòòòòòòòòò Corte en dos cluster Muestra cómo se va formando la clasificación jerárquica de los individuos. Por ejemplo, si se consideraran cluster, la clasificación sería: Cluster 1: N, J, G, D, I, C, M, K, E, H, B Cluster : L, F, A 1

El diagrama de témpanos. Diagrama de témpanos vertical Caso Número de conglomerados 1 5 6 7 8 9 10 11 1 1 1: N 10: J 7: G : D 9: I : C 1: M 11: K 5: E 8: H : B 1: L 6: F 1: A X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X Muestra cómo quedaría la clasificación de individuos dependiendo del número de conglomerados que consideremos (cada fila de la tabla). Por filas, se van pintando X s y se deja un hueco cuando cambiamos de cluster. Por ejemplo, si se consideran cluster, la clasificación sería: Cluster 1: N, J, G, D, I, C Cluster : M, K, E, H, B Cluster : L, F, A

Qué número de cluster vamos a considerar? CRITERIO: Elegir el número de cluster observando los niveles de fusión, y teniendo en cuenta el diagrama de dispersión de los individuos Historial de conglomeración Etapa 1 5 6 7 8 9 10 11 1 1 Conglomerado que se combina Etapa en la que el conglomerado aparece por primera vez Conglom Conglom Conglom Conglom Próxima erado 1 erado Coeficientes erado 1 erado etapa 9,000 0 0 7 8,000 0 0 9 7 10,10 0 0 6 5 11,79 0 0 5 5 1,71 0 9 7 1,71 0 11 1,065 1 0 11 1 6 1,065 0 0 10 5,16 5 1 1 1 6,089 8 0 1 7 6,1 7 6 1 10,5 9 11 1 1 16,788 10 1 0 Rango de soluciones: o cluster

Guardamos un rango de soluciones de a grupos Conglomerado de pertenencia Caso 1: A : B : C : D 5: E 6: F 7: G 8: H 9: I 10: J 11: K 1: L 1: M 1: N conglome conglome rados rados 1 1 1 1 1 1 Aparece la clasificación de los 1 individuos para los dos casos y cluster elegidos Se añaden dos variables al fichero de datos: clu_1: define grupos clu_1: define grupos

(A.ii.) Análisis cluster jerárquico mediante el método de WARD Se sigue el mismo proceso anterior, tan sólo habría que elegir como método de conglomeración: Método de Ward 5

Etapa 1 5 6 7 8 9 10 11 1 1 Conglomerado que se combina Historial de conglomeración Etapa en la que el conglomerado aparece por primera vez Conglom Conglom Conglom Conglom Próxima erado 1 erado Coeficientes erado 1 erado etapa 9,000 0 0 8 8,000 0 0 9 7 10,05 0 0 6 5 11, 0 0 5 5 1,56 0 9 7 1,997 0 11 1 6 1,59 0 0 10,9 1 0 11 5,00 5 1 1 1 7,6 7 0 1 7 1,71 8 6 1 1 5,10 10 11 1 1 9,000 1 9 0 Rango de soluciones: o cluster Conglomerado de pertenencia Caso 1: A : B : C : D 5: E 6: F 7: G 8: H 9: I 10: J 11: K 1: L 1: M 1: N conglome rados conglome rados 1 1 1 1 1 1 Se añaden dos variables al fichero de datos: clu_: define grupos clu_: define grupos (ahora mediante el método de Ward) 6

(A.iii.) Análisis cluster jerárquico mediante el método de la mediana Se sigue el mismo proceso anterior, tan sólo habría que elegir como método de conglomeración: Método de medianas Historial de conglomeración Conglomerado de pertenencia Etapa 1 5 6 7 8 9 10 11 1 1 Conglomerado que se combina Etapa en la que el conglomerado aparece por primera vez Conglom Conglom Conglom Conglom Próxima erado 1 erado Coeficientes erado 1 erado etapa 9,000 0 0 7 8,000 0 0 9 7 10,10 0 0 6 5 11,79 0 0 5 5 1,80 0 9 7 1,65 0 10 1,065 1 0 10 1 6 1,065 0 0 1 5 1,559 5 11 7,91 7 6 11,66 9 10 1 1,887 11 0 1 1,56 8 1 0 Caso 1: A : B : C : D 5: E 6: F 7: G 8: H 9: I 10: J 11: K 1: L 1: M 1: N conglome conglome rados rados 1 1 1 1 Rango de soluciones: o cluster Se añaden dos variables al fichero de datos: clu_: define grupos clu_: define grupos (ahora mediante el método de viculación de medianas) 7

Vecino más lejano Caso de cluster: Cluster 1: A, F, L Cluster : B, E, H, K, M Cluster : C, D, G, I, J, N Caso de cluster: Cluster 1: A, F, L Cluster : B, E, H, K, M Cluster : C, D, I Cluster : G, J, N Método de WARD Caso de cluster: Cluster 1: A, F, L Cluster : B, E, H, K, M Cluster : C, D, G, I, J, N Caso de cluster: Cluster 1: A, F, L Cluster : B, E, H, K, M Cluster : C, D, I Cluster : G, J, N Vinculación medianas Caso de cluster: Cluster 1: A, F Cluster : B, C, D, E, G, H, Cluster : L I, J, K, M, N Caso de cluster: Cluster 1: A, F Cluster : B, E, H, K, M Cluster : C, D, G, I, J, N Cluster : L Resumen de los resultados mediante el análisis cluster jerárquico: Los dos primeros métodos proporcionan resultados idénticos, el método de la mediana parece representar peor los datos observados. Nos quedamos con la solución de tres cluster y pasamos a realizar un análisis no jerárquico para compara la clasificación. 8

(B) Análisis cluster no jerárquico: Método de las K medias Advertencia: SPSS no permite especificar la tipificación de las variables dentro del cuadro de diálogo, por tanto pasamos las varariables tipificadas (zpaga, zfutbol, ztv) Elegimos una clasificación en conglomerados Centros>> Se podrían elegir los primeros individuos que formarán los conglomerados Iterar Solicitamos que vaya actualizando cada vez las medias 9 de los cluster

Centros iniciales de los conglomerados Pertenencia a los conglomerados Puntua: PAGA SEMANAL EN PTAS Puntua: ASISTENCIA ANUAL AL FUTBOL Puntua: HORAS SEMANALES TV Historial de iteraciones a Conglomerado 1 -,7685 1,9097 -,7685 1,98 -,79156,9581 -,19 -,5656 1,1607 Medias de los cluster iniciales (un individuo cada uno). Por defecto se selecciona entre los datos un número de casos debidamente espaciados igual al número de conglomerados. Número de caso 1 5 6 7 8 9 10 11 1 1 1 IDENTIFICA CIÓN Conglom PERSONAL erado Distancia A 1,706 B,77 C 1,81 D,990 E,78 F 1 1,058 G,990 H,77 I 1,81 J 1,58 K,175 L 1 1,7 M,755 N 1,16 Iteración 1 5 6 7 8 9 10 Cambio en los centros de los conglomerados 1,79,69,89,198,105,11,961E-0 1,78E-0 1,7E-0 1,0E-0,91E-0,75E-0,101E-0,856E-0,56E-0 7,75E-0 8,09E-05 5,051E-05 1,98E-0 1,9E-05 7,16E-06,85E-05,8E-06 1,01E-06 1,11E-05,77E-07 1,7E-07,08E-06 6,5E-08,10E-08 a. Las iteraciones se han detenido porque se ha llevado a cabo el número máximo de iteraciones. Las iteraciones no han convergido. La distancia máxima en la que han cambiado los centros es,50e-06. La iteración actual es 10. La distancia mínima entre los centros iniciales es,. Pertenencia a los conglomerados: Muestra la solución final de la clasificación en grupos. Además se crean dos variables en el editor de datos: qcl_1 codificación que indica la pertenencia a cada cluster qcl_ distancia euclídea entre cada caso y el centro del cluster utilizado para clasificar ese caso. Historial de iteraciones: Muestra las medias (centros) de los cluster en cada paso. El método para en 10 pasos sin alcanzar el criterio de convergencia. 0

Resultados para valorar la solución de cluster obtenida (No tiene mucho sentido sobre los datos tipificados) Distancias entre los centros de los conglomerados finales Conglomerado 1 Centros de los conglomerados finales Puntua: PAGA SEMANAL EN PTAS Puntua: ASISTENCIA ANUAL AL FUTBOL Puntua: HORAS SEMANALES TV 1 -,7171 1,9097 -,7171,795 -,96,08-1,555,088,7515 1,65,8,65,17,8,17 Conglomerado Centros de los conglomerados finales: Valorar si difieren las medias de cada cluster en cada variable. Distancias entre los centros de los conglomerados finales: Valorar si distan entre sí los cluster formados lo suficiente. Número de casos en cada conglomerado: Valorar si hay muchos cluster con pocas observaciones, o si difieren mucho en tamaño ANOVA: Para cada variable se contrasta la igualdad de medias de los cluster. No obstante los niveles de significacion no se deben interpretar salvo a nivel descriptivo ya que no aparecen corregidos. ANOVA Puntua: PAGA SEMANAL EN PTAS Puntua: ASISTENCIA ANUAL AL FUTBOL Puntua: HORAS SEMANALES TV Conglomerado Media cuadrática gl Media cuadrática Error 6,81,00 11 1901,9,000,96 1,09 11,5,66 5,7,11 11 5,9,000 Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles críticos no son corregidos, por lo que no pueden interpretarse como pruebas de la hipótesis de que los centros de los conglomerados son iguales. gl F Sig. Número de casos en cada conglomerado Conglomerado Válidos Perdidos 1,000 5,000 6,000 1,000,000 1

Resumen de los resultados del análisis cluster no jerárquico Cluster no jerárquico Caso de cluster: Cluster 1: A, F, L Cluster : B, E, H, K, M Cluster : C, D, G, I, J, N Solución equivalente a la que ofrecía el método del vecino más lejano Pasos 5 y 6: Interpretaremos la solución (Nos quedamos con esta última que parece la más estable) y se discutirá la validez de los resultados.

Dependientes: Las variables sin tipificar (paga, futbol, tv) Independientes: Variable qcl1 (clasificacion en los cluster). Número inicial de casos 1 Total Media N Desv. típ. Media N Desv. típ. Media N Desv. típ. Media N Desv. típ. Informe PAGA ASISTENCIA HORAS SEMANAL EN ANUAL AL SEMANALES PTAS/100 FUTBOL TV 10, 5,00 8,00,577,59,66 5,00,60 16,00 5 5 5,000,0 1,7 10,,00 19,67 6 6 6,516,050,58 15,57,71 15,86 1 1 1 7,0,9 5,051 Interpretación de los cluster Observando las medias en cada variable, de los tres grupos..asignarle una etiqueta a cada grupo de jóvenes.