PRESENTACIÓN DE LOS MÉTODOS DE CLASIFICACIÓN Eduardo CRIVISQUI
ADVERTENCIA SÓLO EL CONOCIMIENTO DE LAS PROPIEDADES LÓGICAS DE LOS MÉTODOS ESTADÍSTICOS PERMITE EVITAR EL EMPLEO «A CIEGAS» DE LOS MISMOS. Esto es válido para todos los métodos estadísticos, pero es particularmente importante tomar en cuenta esa advertencia en el caso de los métodos de clasificación... El empleo «a ciegas» de un método estadístico se desarrolla en cuatro fases: PRIMERA FASE : SEGUNDA FASE : TERCERA FASE : CUARTA FASE : se emplea una tabla construida de cualquier manera. a esa tabla se le aplica cualquier método estadístico. obtiene así un «resultado» [si la computadora funciona... la aplicación de un algoritmo de cálculo a una tabla de números... da siempre un resultado!!!] por último, el analista... se queda perplejo... emite dudas sobre la utilidad del análisis de los datos. o bien, pasa por encima de todo y con gran audacia (poca seriedad y poco profesionalismo) redacta un comentario absurdo sobre «resultados» sin sentido.
PRESENTACIÓN DE LOS MÉTODOS DE CLASIFICACIÓN ÍNDICE I. PRIMERA PARTE Introducción a los métodos de clasificación 1. Qué significa clasificar un conjunto de unidades de observación? 2. Clases, clases «empíricas» y clasificabilidad de un conjunto de unidades de observación 2.1. Las «clases» de individuos semejantes 2.2. Clasificabilidad de los elementos de una tabla observada
II. SEGUNDA PARTE Presentación de algunos métodos de clasificación y de partición de un conjunto de objetos Clasificación de los objetos en línea de una tabla T(n, p), con p variables cuantitativas 1. Etapas de aplicación de un método de clasificación 2. Semejanza entre «individuos» de una tabla T(n, p) 2.1. Índices de similaridad 2.2. Índices de disimilaridad 2.3. Distancias 2.4. Distancia ultramétrica 2.5. Selección de una distancia entre los objetos a clasificar
3. Algunos métodos de clasificación jerárquica ascendente 3.1. Introducción a) Objetivo b) Resumen gráfico c) Componente analógica del resultado de una clasificación jerárquica ascendente d) Ejemplo : resultados de una clasificación jerárquica ascendente e) Definiciones : a partir del ejemplo precedente f) Verificación : el índice utilizado en el ejemplo anterior satisface las propiedades de una distancia ultramétrica g) Equivalencia entre ultramétricas y jerarquías indiciadas h) Qué significa clasificar un grupo de objetos...? i) Cómo «transformar» la distancia empleada en una distancia ultramétrica? j) La «transformación» se hace utilizando los algoritmos de agregación de clases de objetos
3.2. El método del «vecino más cercano» 3.3. El método del «vecino más cercano» : un ejemplo numérico a) Tabla de datos y representación gráfica en R 2 b) Primera agregación c) Segunda agregación d) Tercera agregación e) Cuarta agregación f) Quinta agregación g) Resultados de la clasificación 3.4..El método de los «centroides» o de la «distancia media» 3.5..El método de los «centroides» o de la «distancia media» : un ejemplo numérico 3.6..Comparación de los resultados de esas dos estrategias de agregación aplicadas al mismo ejemplo numérico
3.7..Métodos de agregación basados en la varianza a) Principio de funcionamiento del método de agregación b) Notación c) Desarrollo del algoritmo de agregación d) Ventajas de los métodos de agregación basados en la varianza e) Desventajas de esos métodos de agregación 3.8. El método de Ward a) Principio de funcionamiento del método de Ward b) El método de Ward : un ejemplo numérico 3.9. Cómo seleccionar una partición a partir de una jerarquía? a) Selección de una «buena» partición b) Ejemplo de selección de corte de un dendrograma
4. Algunos procedimientos de partición 4.1. Funcionamiento de los procedimientos de agregación en torno a «centros móviles» 4.2. Decrecimiento de la varianza intraclases en cada iteración del procedimiento de agregación en torno a «centros móviles» 4.3. Algunas variantes de los procedimientos de partición por agregación en torno a «centros móviles» a) Método de K-means b) Método de las «nubes dinámicas» c) Método «Isodata» d) Método de los «individuos típicos» 4.4. Ventajas e inconvenientes de los procedimientos de agregación en torno a «centros móviles»
5. Estrategia de análisis de tablas T(n, p) de grandes dimensiones 5.1. Por qué se debe combinar el ACP con las técnicas de clasificación...? a) El análisis factorial es necesario b) El análisis factorial es insuficiente 1. Dificultades de interpretación ; reducción excesiva de dimensiones ; deformaciones 2. Carencia de robustez 3. Representaciones gráficas intrincadas 5.2. Cómo combinar el ACP con las técnicas de clasificación...? 6. Ejemplo de aplicación complementaria del ACP y de los métodos de clasificación 6.1. Presentación del problema 6.2. Tabla de Datos 6.3. Estrategia de análisis de datos, combinando el ACP y los métodos de clasificación
6.3.1. 1 Etapa : Análisis de Componentes Principales de T(22, 3) a) Resultados * Estadísticas de las variables continuas * Matriz de correlaciones * Descomposición ortogonal de la inercia * Coordenadas, contribuciones y cosenos cuadrados de los individuos * Coordenadas de las variables activas * Primer Plano Principal : Nube de puntos individuos * Primer Plano Principal : variables activas b) Conclusiones de la 1era Etapa 6.3.2. 2 Etapa : Clasificación Jerárquica Ascendente de los animales a partir de la «tabla de factores» F(22, 2) a) Resultados * Descripción de los nodos de la jerarquía * Dendrograma b) Conclusiones
6.3.3. 3 Etapa :Aplicación del método de agregación en torno a «centros móviles». Creación de la partición P4 a partir de la «tabla de factores» F(22, 2) a) Resultados * Corte del árbol en 4 clases * Consolidación de la partición en torno a los 4 Centros de Clases * Descomposición de la inercia * Coordenadas y valores-test de los Centros de Clases * Parangones de las 4 clases * Puntos de contribución máxima en las 4 clases b) Conclusiones 6.3.4. 4 Etapa :Caracterización de la partición P 4 de los n individuos de la tabla T(22, 3) * Resultados y conclusiones * Caracterización de las clases por las variables continuas
6.3.5. 5 Etapa : Ubicación de las clases de las particiones en el primer plano factorial a) Resultados * Primer Plano Principal : variables y centros de clases de la partición P 4 * Primer Plano Principal : puntos-animales agrupados según las clases de la partición P 4. Se indican los parangones de cada clase b) Conclusiones 7. Métodos mixtos de clasificación 7.1. Introducción 7.2. Funcionamiento de las clasificaciones mixtas
III. TERCERA PARTE Presentación de algunos métodos de clasificación y de partición de un conjunto de objetos Clasificación de los objetos en línea de una tabla T(n, p), con p variables cualitativas 1. Disimilaridades y distancias entre los «objetos» a clasificar en una tabla T(n,p) 1.1. T(n, 2) es una Tabla de Códigos Condensados 1.2. T(n, p) es una Tabla de Códigos Condensados Índices de similaridad más usuales 2. Método de agregación basado en el crecimiento mínimo de la inercia en las clases de las particiones encajadas 2.1. Clasificación jerárquica de las líneas de una Tabla TC (J,K) a) Matriz de distancia entre perfiles-línea b) Desarrollo del algoritmo de agregación
2.2. Ventajas del método de agregación 2.3. Desventajas del método de agregación 3. Ejemplo numérico de clasificación de las líneas de una TC(J,K) a) Primera agregación b) Segunda agregación c) Tercera agregación d) Cuarta agregación e) Quinta agregación f) Sexta agregación g) Séptima agregación 4. Estrategia de análisis de tablas TC(J,K) de grandes dimensiones 4.1. Por qué se debe combinar el AFCS con las técnicas de clasificación...? a) El análisis factorial es necesario b) El análisis factorial es insuficiente... 1. Dificultades de interpretación ; reducción excesiva de dimensiones ; deformaciones 2. Carencia de robustez 3. Representaciones gráficas intrincadas
4.2. Cómo combinar el AFCS con las técnicas de clasificación...? 5. Ejemplo de aplicación complementaria del AFC y de los métodos de clasificación a) Presentación del problema b) Tabla de datos 5.1. Primera etapa : Análisis Factorial de Correspondencias Simples de la tabla TC(J, K) * Coordenadas, Contribuciones y Cosenos Cuadrados de los puntosperfiles colores * Primer Plano Principal : Nube de puntosperfiles colores * Coordenadas, Contribuciones y Cosenos Cuadrados de los puntosperfiles adjetivos * Primer Plano Principal : Nube de puntosperfiles adjetivos * Conclusiones del análisis factorial
5.2. Segunda etapa : Construcción de una tipología de los adjetivos según sus asociaciones con los colores a) Clasificación Jerárquica de los perfiles-adjetivos * Descripción de los nodos * Dendrograma b) Partición de los perfiles-adjetivos * Descripción elemental de las clases * Consolidación de la partición en torno a 10 Centros de Clases * Descomposición de la inercia calculada sobre 10 ejes * Coordenadas de los Centros de Clases * Elementos parangones de las 10 clases * Elementos más contributivos a la inercia de cada clase c) Caracterización de las clases de perfiles-adjetivos * Caracterización de las clases de adjetivos con los colores * Caracterización de las 10 clases * Conclusiones de la partición
5.3. Tercera etapa : Conclusiones sobre la asociación entre los adjetivos y los colores * Primer Plano Principal : Centros de clases (partición en 10 clases) y elementos parangones 6. Estrategia de análisis de tablas lógicas TL(n, K) de grandes dimensiones 6.1. Por qué se debe combinar el AFCM con las técnicas de clasificación...? a) El análisis factorial es necesario b) El análisis factorial es insuficiente... 1. Dificultades de interpretación ; reducción excesiva de dimensiones ; deformaciones 2. Carencia de robustez 3. Representaciones gráficas intrincadas 6.2. Cómo combinar el AFCM con las técnicas de clasificación...? 7. Ejemplo de aplicación complementaria del AFCM y de los métodos de clasificación 7.1. Presentación del problema
7.2. Base de datos 7.3. Estrategia de análisis de los datos 7.3.1. 1 Etapa : Construcción de una tipología sociodescriptiva a) Análisis Factorial de Correspondencias Múltiples de la tabla TCC(2163, 7) * Tabla de datos * Distribución de frecuencias de las variables activas * Tabla de Burt (perfiles en línea) * Descomposición de la inercia * Primer Plano Principal : Características sociodescriptivas Nube de puntos-individuos * Representación de la nube de puntosindividuos en 3 dimensiones * Primer Plano Principal : Características sociodescriptivas Nube de puntos-perfiles modalidades activas * Coordenadas, Contribuciones y Cosenos Cuadrados de las modalidades activas * Coordenadas y Valores-test de las modalidades * Comentarios sobre el AFCM de las características sociodescriptivas
b) Clasificación Jerárquica de los individuos * Descripción de los nodos de la jerarquía * Dendrograma c) Partición de los individuos * Descripción elemental * Coordenadas y Valores-test de las 5 clases * Consolidación de la partición en torno a 5 Centros de Clases * Descomposición de la inercia calculada sobre 4 ejes * Individuos parangones de las clases * Individuos de máxima contribución a la inercia en cada clase d) Caracterización de la partición de los individuos * Caracterización de las clases por las variables * Caracterización de las clases por las modalidades
e) Visualización de las clases * Primer Plano Principal : Nube de puntos individuos y Centros de Clases de la partición en cinco clases f) Retorno a los datos brutos : cruce de la partición en cinco clases con las variables activas e ilustrativas g) Conservación de la tipología construida 7.3.2. 2 Etapa : Construcción de una tipología de la experiencia de participación a) Análisis Factorial de Correspondencias Múltiples de la tabla TCC(2163, 28) * Tabla de datos * Distribución de frecuencias de las variables activas * Tabla de Burt (perfiles en línea) * Descomposición de la inercia * Primer Plano Principal : Nube de puntos-individuos * Representación de la nube de puntosindividuos en 3 dimensiones * Coordenadas, Contribuciones y Cosenos Cuadrados de las modalidades activas
* Primer Plano Principal : Nube de puntos-perfiles modalidades activas * Coordenadas y Valores-test de las modalidades * Primer Plano Principal : Nube de puntos-perfiles modalidades activas e ilustrativas * Comentarios sobre el AFCM de las características de experiencias de participación b) Clasificación Jerárquica de los individuos * Descripción de los nodos de la jerarquía * Dendrograma c) Partición de los individuos * Descripción elemental * Coordenadas y Valores-test de las 7 clases * Consolidación de la partición en torno a 7 Centros de Clases * Descomposición de la inercia calculada sobre 5 ejes * Individuos parangones de las clases
d) Caracterización de la partición de los individuos * Caracterización de las clases por las variables * Caracterización de las clases por las modalidades e) Visualización de las clases * Primer Plano Principal : Nube de puntos individuos y Centros de Clases de la partición en siete clases * Primer Plano Principal : Nube de puntos modalidades activas y Centros de Clases de la partición en siete clases f) Retorno a los datos brutos : cruce de la partición en siete clases con las variables activas e ilustrativas 7.3.2. 3 Etapa : Análisis de la relación entre las dos tipologías construídas