PRESENTACIÓN DE LOS MÉTODOS DE CLASIFICACIÓN. Eduardo CRIVISQUI



Documentos relacionados
Etapa : Caracterización de la partición P 4 de los n individuos de la tabla T(22, 3)

CLASIFICACIÓN NO SUPERVISADA

4. MÉTODOS DE CLASIFICACIÓN

FACTORIAL DE CORRESPONDENCIAS SIMPLES Y MÚLTIPLES CRIVISQ

Análisis Estadístico de Datos Climáticos

1.1. Introducción y conceptos básicos

8.1. Introducción Dependencia/independencia estadística Representación gráfica: diagrama de dispersión Regresión...

Covarianza y coeficiente de correlación

Análisis de componentes principales

Métodos de la Minería de Datos

UNIDAD 4: MEDIDAS DE TENDENCIA CENTRAL

ANÁLISIS DE CORRELACIÓN EMPLEANDO EXCEL Y GRAPH

Benchmarking de Compensaciones DIRECTOR EJECUTIVO CONFIDENCIAL:

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Anexo 1: Demostraciones

Desarrollo de una Plataforma de Gestión de Conocimiento para la Innovación en Tecnología Educativa

Análisis Exploratorio: ACP interpretación de resultados

Parte 7: Análisis de los datos

Este documento enumera los diferentes tipos de Diagramas Matriciales y su proceso de construcción.

ANÁLISIS DE CARGOS. 1. Nombre del cargo 2. Posición del cargo en el organigrama. 3. Contenido del cargo. 1. Requisitos intelectuales

Minería de Datos Web. 1 er Cuatrimestre Página Web. Prof. Dra. Daniela Godoy.

Realizar una Revisión de la Metodología Utilizada por el Sistema de Cuentas Nacionales de la ONU para la asignación del CIIIU y adaptarla al Sistema

TEMA 4: Introducción al Control Estadístico de Procesos

TEMA 5 VALIDEZ DE LA INVESTIGACIÓN (II): Validez de conclusión estadística

MATEMÁTICAS CONTENIDOS MÍNIMOS DE 1º E.S.O.

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Report de recerca Nº 12. Jorge Cerda Troncoso. Diciembre 2010

Capítulo 10. Gráficos y diagramas

2.1 INFORMACION BASICA Y PRINCIPALES DEFINICIONES.

Un ejemplo de ACP paso a paso

WBS:Work Breakdown Structure. WBS - Work Breakdown Structure. WBS - Work Breakdown Structure. WBS:Work Breakdown Structure...

La base de datos Panel de Innovación Tecnológica (PITEC) Mayo 2011

Clase 2: Estadística

Tema 9: Estadística Descriptiva. Distribuciones estadísticas. Representaciones

Tema 7. Introducción al reconocimiento de objetos

HERRAMIENTAS DE LA CALIDAD

ESTADISTICA PARA RELACIONES LABORALES

SPSS: ANOVA de un Factor

Parte II DISEÑO METODOLÓGICO DE LA INVESTIGACIÓN. Tema 5 TÉCNICAS CUANTITATIVAS DE RECOGIDA DE INFORMACIÓN

CREACIÓN DE UNA TIPOLOGÍA DE GENES MEDIANTE TÉCNICAS DE DATA MINING PARA Drosophila

MINERIA DE DATOS Y Descubrimiento del Conocimiento

Tema 3. Medidas de tendencia central Introducción. Contenido

Introducción a la Teoría del Procesamiento Digital de Señales de Audio

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos

ANALISIS MULTIVARIANTE

TEMA 39: OPERACIONES LOCALES EN EL MODELO RASTER

VII. Estructuras Algebraicas

CURSO: ANALISIS DE RIESGOS EN ADMINISTRACION DE PROYECTOS

DATA MINING EN LA BASE DE DATOS DE LA OMS KNOWLEDGE DETECTION (DETECCIÓN DEL CONOCIMIENTO) Q.F.B. JUANA LETICIA RODRÍGUEZ Y BETANCOURT

Clase 2: Estadística

Medidas de tendencia central o de posición: situación de los valores alrededor

UNIVERSIDAD DEL SALVADOR PROGRAMA. UNIDAD ACADÉMICA: Campus San Roque González de Santa Cruz. CARRERA: Veterinaria. DIVISIÓN / COMISIÓN: Primer Año

Tema 10. Estimación Puntual.

Revista Colombiana de Estadística Volumen 23 (2000) No. 1, páginas 1 13

Creación de tarifas para seguros en Colombia

1. Topología de BUS / Linear Bus. 2. Topología de Estrella / Star. 3. Topología de Estrella Cableada / Star Wired Ring. 4. Topología de Árbol / Tree

Valor agregado del producto

Deivi Fernando Ladino

PRÁCTICAS Y TRABAJO FIN DE MÁSTER

Portafolio de Servicios y Productos

Empresa o Entidad C.A Electricidad de Valencia. Autores del Trabajo Nombre País Jimmy Martínez Venezuela jmartinez@eleval.

MERCADOS FINANCIEROS: LOS FONDOS DE INVERSIÓN II

Facultad de Ciencias Económicas Universidad Nacional de Córdoba Carrera de Doctorado

Detección de bordes: metodos lineales de cálculo de gradientesk, etc. Detección de bordes. Métodos basados en operadores lineales de gradiente

PENDIENTES DE MATEMÁTICAS DE 2º ESO (CURSO )

Principios de Psicología. Prof. Eddie Marrero, Ph. D. UPR-RUM Departamento de Ciencias Sociales

UNIDADES FUNCIONALES DEL ORDENADOR TEMA 3

Anexo N 4 Metodología para el cálculo de indicadores de las empresas con ventas netas hasta 300 UIT

La lógica que ha primado en la construcción del sistema hace que tenga ciertas características propias.

Data Mining Técnicas y herramientas

ANÁLISIS DESCRIPTIVO CON SPSS

Cómo vibran las estructuras? problemas dinámicos estructurales

Un Modelo de Diseño Instruccional para la Elaboración de Cursos en Línea José E. Díaz Camacho y Thalía Ramírez Velázquez Universidad Veracruzana

Capítulo 12: Indexación y asociación

Tema 1. VECTORES (EN EL PLANO Y EN EL ESPACIO)

7.1 Arquitectura de clases

Capacidades y criterios de evaluación:

I.E.S.MEDITERRÁNEO CURSO DPTO DE MATEMÁTICAS PROGRAMA DE RECUPERACIÓN DE LOS APRENDIZAJES NO ADQUIRIDOS EN MATEMÁTICAS DE 3º DE E.S.O.

PREGUNTAS DE RESPUESTA CORTA SELECTIVIDAD TEMA 4:

HOY EN DÍA EN VARIAS EMPRESAS...

Enfoque del Marco Lógico (EML)

JORNADAS LA CASUISTICA DE LOS PLANES DE GESTIÓN DEL PATRIMONIO MUNDIAL EN EL GRUPO CIUDADES PATRIMONIO DE LA HUMANIDAD DE ESPAÑA

ESTUDIO ADMINISTRATIVO

TEORIA GENERAL DE SISTEMAS. Análisis de Sistemas 2011 Licenciatura en Ciencias de la computación UNR

MODELO ESTACIONAL DE LLUVIAS EN BASE A PROCESOS DE POISSON NO HOMOGÉNEOS.

Capítulo 10. Análisis descriptivo: Los procedimientos Frecuencias y Descriptivos

Proceso de desarrollo del software modelo en cascada

K2BIM Plan de Investigación - Comparación de herramientas para la parametrización asistida de ERP Versión 1.2

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Etapas de Sinube CRM

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007

4.3. UN NUEVO MODELO PARA LA CADENA DE VALOR

OBJETIVOS DE EVALUACIÓN

MODELOS DE RECUPERACION

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA N. QUEIPO, S. PINTOS COPYRIGHT 2005 FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES

Pontificia Universidad Católica de Chile Escuela de Ingeniería Departamento de Ingeniería Industrial y de Sistemas. Datamining Técnicas

PROCESO GESTION ADMINISTRATIVA PROCEDIMIENTO VERIFICACION, REGISTRO Y DISTRIBUCIÓN Y CLASIFICACION DE DOCUMENTOS DIGITALES

Fundamentos del diseño 3ª edición (2002)

Transcripción:

PRESENTACIÓN DE LOS MÉTODOS DE CLASIFICACIÓN Eduardo CRIVISQUI

ADVERTENCIA SÓLO EL CONOCIMIENTO DE LAS PROPIEDADES LÓGICAS DE LOS MÉTODOS ESTADÍSTICOS PERMITE EVITAR EL EMPLEO «A CIEGAS» DE LOS MISMOS. Esto es válido para todos los métodos estadísticos, pero es particularmente importante tomar en cuenta esa advertencia en el caso de los métodos de clasificación... El empleo «a ciegas» de un método estadístico se desarrolla en cuatro fases: PRIMERA FASE : SEGUNDA FASE : TERCERA FASE : CUARTA FASE : se emplea una tabla construida de cualquier manera. a esa tabla se le aplica cualquier método estadístico. obtiene así un «resultado» [si la computadora funciona... la aplicación de un algoritmo de cálculo a una tabla de números... da siempre un resultado!!!] por último, el analista... se queda perplejo... emite dudas sobre la utilidad del análisis de los datos. o bien, pasa por encima de todo y con gran audacia (poca seriedad y poco profesionalismo) redacta un comentario absurdo sobre «resultados» sin sentido.

PRESENTACIÓN DE LOS MÉTODOS DE CLASIFICACIÓN ÍNDICE I. PRIMERA PARTE Introducción a los métodos de clasificación 1. Qué significa clasificar un conjunto de unidades de observación? 2. Clases, clases «empíricas» y clasificabilidad de un conjunto de unidades de observación 2.1. Las «clases» de individuos semejantes 2.2. Clasificabilidad de los elementos de una tabla observada

II. SEGUNDA PARTE Presentación de algunos métodos de clasificación y de partición de un conjunto de objetos Clasificación de los objetos en línea de una tabla T(n, p), con p variables cuantitativas 1. Etapas de aplicación de un método de clasificación 2. Semejanza entre «individuos» de una tabla T(n, p) 2.1. Índices de similaridad 2.2. Índices de disimilaridad 2.3. Distancias 2.4. Distancia ultramétrica 2.5. Selección de una distancia entre los objetos a clasificar

3. Algunos métodos de clasificación jerárquica ascendente 3.1. Introducción a) Objetivo b) Resumen gráfico c) Componente analógica del resultado de una clasificación jerárquica ascendente d) Ejemplo : resultados de una clasificación jerárquica ascendente e) Definiciones : a partir del ejemplo precedente f) Verificación : el índice utilizado en el ejemplo anterior satisface las propiedades de una distancia ultramétrica g) Equivalencia entre ultramétricas y jerarquías indiciadas h) Qué significa clasificar un grupo de objetos...? i) Cómo «transformar» la distancia empleada en una distancia ultramétrica? j) La «transformación» se hace utilizando los algoritmos de agregación de clases de objetos

3.2. El método del «vecino más cercano» 3.3. El método del «vecino más cercano» : un ejemplo numérico a) Tabla de datos y representación gráfica en R 2 b) Primera agregación c) Segunda agregación d) Tercera agregación e) Cuarta agregación f) Quinta agregación g) Resultados de la clasificación 3.4..El método de los «centroides» o de la «distancia media» 3.5..El método de los «centroides» o de la «distancia media» : un ejemplo numérico 3.6..Comparación de los resultados de esas dos estrategias de agregación aplicadas al mismo ejemplo numérico

3.7..Métodos de agregación basados en la varianza a) Principio de funcionamiento del método de agregación b) Notación c) Desarrollo del algoritmo de agregación d) Ventajas de los métodos de agregación basados en la varianza e) Desventajas de esos métodos de agregación 3.8. El método de Ward a) Principio de funcionamiento del método de Ward b) El método de Ward : un ejemplo numérico 3.9. Cómo seleccionar una partición a partir de una jerarquía? a) Selección de una «buena» partición b) Ejemplo de selección de corte de un dendrograma

4. Algunos procedimientos de partición 4.1. Funcionamiento de los procedimientos de agregación en torno a «centros móviles» 4.2. Decrecimiento de la varianza intraclases en cada iteración del procedimiento de agregación en torno a «centros móviles» 4.3. Algunas variantes de los procedimientos de partición por agregación en torno a «centros móviles» a) Método de K-means b) Método de las «nubes dinámicas» c) Método «Isodata» d) Método de los «individuos típicos» 4.4. Ventajas e inconvenientes de los procedimientos de agregación en torno a «centros móviles»

5. Estrategia de análisis de tablas T(n, p) de grandes dimensiones 5.1. Por qué se debe combinar el ACP con las técnicas de clasificación...? a) El análisis factorial es necesario b) El análisis factorial es insuficiente 1. Dificultades de interpretación ; reducción excesiva de dimensiones ; deformaciones 2. Carencia de robustez 3. Representaciones gráficas intrincadas 5.2. Cómo combinar el ACP con las técnicas de clasificación...? 6. Ejemplo de aplicación complementaria del ACP y de los métodos de clasificación 6.1. Presentación del problema 6.2. Tabla de Datos 6.3. Estrategia de análisis de datos, combinando el ACP y los métodos de clasificación

6.3.1. 1 Etapa : Análisis de Componentes Principales de T(22, 3) a) Resultados * Estadísticas de las variables continuas * Matriz de correlaciones * Descomposición ortogonal de la inercia * Coordenadas, contribuciones y cosenos cuadrados de los individuos * Coordenadas de las variables activas * Primer Plano Principal : Nube de puntos individuos * Primer Plano Principal : variables activas b) Conclusiones de la 1era Etapa 6.3.2. 2 Etapa : Clasificación Jerárquica Ascendente de los animales a partir de la «tabla de factores» F(22, 2) a) Resultados * Descripción de los nodos de la jerarquía * Dendrograma b) Conclusiones

6.3.3. 3 Etapa :Aplicación del método de agregación en torno a «centros móviles». Creación de la partición P4 a partir de la «tabla de factores» F(22, 2) a) Resultados * Corte del árbol en 4 clases * Consolidación de la partición en torno a los 4 Centros de Clases * Descomposición de la inercia * Coordenadas y valores-test de los Centros de Clases * Parangones de las 4 clases * Puntos de contribución máxima en las 4 clases b) Conclusiones 6.3.4. 4 Etapa :Caracterización de la partición P 4 de los n individuos de la tabla T(22, 3) * Resultados y conclusiones * Caracterización de las clases por las variables continuas

6.3.5. 5 Etapa : Ubicación de las clases de las particiones en el primer plano factorial a) Resultados * Primer Plano Principal : variables y centros de clases de la partición P 4 * Primer Plano Principal : puntos-animales agrupados según las clases de la partición P 4. Se indican los parangones de cada clase b) Conclusiones 7. Métodos mixtos de clasificación 7.1. Introducción 7.2. Funcionamiento de las clasificaciones mixtas

III. TERCERA PARTE Presentación de algunos métodos de clasificación y de partición de un conjunto de objetos Clasificación de los objetos en línea de una tabla T(n, p), con p variables cualitativas 1. Disimilaridades y distancias entre los «objetos» a clasificar en una tabla T(n,p) 1.1. T(n, 2) es una Tabla de Códigos Condensados 1.2. T(n, p) es una Tabla de Códigos Condensados Índices de similaridad más usuales 2. Método de agregación basado en el crecimiento mínimo de la inercia en las clases de las particiones encajadas 2.1. Clasificación jerárquica de las líneas de una Tabla TC (J,K) a) Matriz de distancia entre perfiles-línea b) Desarrollo del algoritmo de agregación

2.2. Ventajas del método de agregación 2.3. Desventajas del método de agregación 3. Ejemplo numérico de clasificación de las líneas de una TC(J,K) a) Primera agregación b) Segunda agregación c) Tercera agregación d) Cuarta agregación e) Quinta agregación f) Sexta agregación g) Séptima agregación 4. Estrategia de análisis de tablas TC(J,K) de grandes dimensiones 4.1. Por qué se debe combinar el AFCS con las técnicas de clasificación...? a) El análisis factorial es necesario b) El análisis factorial es insuficiente... 1. Dificultades de interpretación ; reducción excesiva de dimensiones ; deformaciones 2. Carencia de robustez 3. Representaciones gráficas intrincadas

4.2. Cómo combinar el AFCS con las técnicas de clasificación...? 5. Ejemplo de aplicación complementaria del AFC y de los métodos de clasificación a) Presentación del problema b) Tabla de datos 5.1. Primera etapa : Análisis Factorial de Correspondencias Simples de la tabla TC(J, K) * Coordenadas, Contribuciones y Cosenos Cuadrados de los puntosperfiles colores * Primer Plano Principal : Nube de puntosperfiles colores * Coordenadas, Contribuciones y Cosenos Cuadrados de los puntosperfiles adjetivos * Primer Plano Principal : Nube de puntosperfiles adjetivos * Conclusiones del análisis factorial

5.2. Segunda etapa : Construcción de una tipología de los adjetivos según sus asociaciones con los colores a) Clasificación Jerárquica de los perfiles-adjetivos * Descripción de los nodos * Dendrograma b) Partición de los perfiles-adjetivos * Descripción elemental de las clases * Consolidación de la partición en torno a 10 Centros de Clases * Descomposición de la inercia calculada sobre 10 ejes * Coordenadas de los Centros de Clases * Elementos parangones de las 10 clases * Elementos más contributivos a la inercia de cada clase c) Caracterización de las clases de perfiles-adjetivos * Caracterización de las clases de adjetivos con los colores * Caracterización de las 10 clases * Conclusiones de la partición

5.3. Tercera etapa : Conclusiones sobre la asociación entre los adjetivos y los colores * Primer Plano Principal : Centros de clases (partición en 10 clases) y elementos parangones 6. Estrategia de análisis de tablas lógicas TL(n, K) de grandes dimensiones 6.1. Por qué se debe combinar el AFCM con las técnicas de clasificación...? a) El análisis factorial es necesario b) El análisis factorial es insuficiente... 1. Dificultades de interpretación ; reducción excesiva de dimensiones ; deformaciones 2. Carencia de robustez 3. Representaciones gráficas intrincadas 6.2. Cómo combinar el AFCM con las técnicas de clasificación...? 7. Ejemplo de aplicación complementaria del AFCM y de los métodos de clasificación 7.1. Presentación del problema

7.2. Base de datos 7.3. Estrategia de análisis de los datos 7.3.1. 1 Etapa : Construcción de una tipología sociodescriptiva a) Análisis Factorial de Correspondencias Múltiples de la tabla TCC(2163, 7) * Tabla de datos * Distribución de frecuencias de las variables activas * Tabla de Burt (perfiles en línea) * Descomposición de la inercia * Primer Plano Principal : Características sociodescriptivas Nube de puntos-individuos * Representación de la nube de puntosindividuos en 3 dimensiones * Primer Plano Principal : Características sociodescriptivas Nube de puntos-perfiles modalidades activas * Coordenadas, Contribuciones y Cosenos Cuadrados de las modalidades activas * Coordenadas y Valores-test de las modalidades * Comentarios sobre el AFCM de las características sociodescriptivas

b) Clasificación Jerárquica de los individuos * Descripción de los nodos de la jerarquía * Dendrograma c) Partición de los individuos * Descripción elemental * Coordenadas y Valores-test de las 5 clases * Consolidación de la partición en torno a 5 Centros de Clases * Descomposición de la inercia calculada sobre 4 ejes * Individuos parangones de las clases * Individuos de máxima contribución a la inercia en cada clase d) Caracterización de la partición de los individuos * Caracterización de las clases por las variables * Caracterización de las clases por las modalidades

e) Visualización de las clases * Primer Plano Principal : Nube de puntos individuos y Centros de Clases de la partición en cinco clases f) Retorno a los datos brutos : cruce de la partición en cinco clases con las variables activas e ilustrativas g) Conservación de la tipología construida 7.3.2. 2 Etapa : Construcción de una tipología de la experiencia de participación a) Análisis Factorial de Correspondencias Múltiples de la tabla TCC(2163, 28) * Tabla de datos * Distribución de frecuencias de las variables activas * Tabla de Burt (perfiles en línea) * Descomposición de la inercia * Primer Plano Principal : Nube de puntos-individuos * Representación de la nube de puntosindividuos en 3 dimensiones * Coordenadas, Contribuciones y Cosenos Cuadrados de las modalidades activas

* Primer Plano Principal : Nube de puntos-perfiles modalidades activas * Coordenadas y Valores-test de las modalidades * Primer Plano Principal : Nube de puntos-perfiles modalidades activas e ilustrativas * Comentarios sobre el AFCM de las características de experiencias de participación b) Clasificación Jerárquica de los individuos * Descripción de los nodos de la jerarquía * Dendrograma c) Partición de los individuos * Descripción elemental * Coordenadas y Valores-test de las 7 clases * Consolidación de la partición en torno a 7 Centros de Clases * Descomposición de la inercia calculada sobre 5 ejes * Individuos parangones de las clases

d) Caracterización de la partición de los individuos * Caracterización de las clases por las variables * Caracterización de las clases por las modalidades e) Visualización de las clases * Primer Plano Principal : Nube de puntos individuos y Centros de Clases de la partición en siete clases * Primer Plano Principal : Nube de puntos modalidades activas y Centros de Clases de la partición en siete clases f) Retorno a los datos brutos : cruce de la partición en siete clases con las variables activas e ilustrativas 7.3.2. 3 Etapa : Análisis de la relación entre las dos tipologías construídas