ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS)

Documentos relacionados
Sistemas Inteligentes. Tema B2T4: Aprendizaje no supervisado: algoritmo k-medias.

Máster en Ordenación y Gestión del Desarrollo Territorial y Local. Módulo I MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL

Tema 3: Análisis multivariante para la agrupación. Objetivo: Encontrar los grupos naturales en los que se divide la población.

Clasificación Jerárquica Ascendente Presentación #1. [ U n a i n t r o d u c c i ó n ]

Análisis de Conglomerados

Clustering. Departamento de Ingeniería Informática y de Sistemas Universidad de La Laguna

Clasificación Jerárquica Ascendente Presentación #1. [ U n a i n t r o d u c c i ó n ]

Curso de Postgrado en Herramientas Estadísticas Avanzadas: AGROPECUARIOS. Prof. Dr. José Perea Dpto. Producción Animal

INTRODUCCION AL ANALISIS DE CLUSTER

Tema 11. Clustering. X 1... X i... X n O 1 x x 1 i... x 1 n... O j x j 1... x j i... x j n... O N x N 1... x N i... x N n

Primero se inicializan dos puntos (tantos como clusters queremos) al azar. Estos puntos se denominan centroides del cluster.

Redes de Neuronas de Base Radial

RESUMEN ANÁLISIS CLUSTER

CLASIFICACIÓN PROBLEMA SOLUCIÓN

ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA

Análisis de Conglomerados

Introducción a Aprendizaje no Supervisado

Aprendizaje no supervisado

Introducción a las técnicas estadísticas de

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Nota técnica Estratificación multivariada

FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES DEPARTAMENTO DE CIENCIAS BÁSICAS ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA

TÉCNICAS DE AGRUPAMIENTO

Análisis Estadístico de Datos Climáticos

Clasificación Clasific NO SUPERV SUPER ISAD IS A AD AGRUPAMIENTO

INFORME TAREA N 4 CLUSTERING

Ejemplos de análisis cluster

Análisis Cluster. Metodología de las CC del Comp-Universitat de València. Abril Pedro Valero

UNIVERSIDAD TÉCNICA FEDERICO SANTA MARÍA DEPARTAMENTO DE INFORMÁTICA SANTIAGO - CHILE

Análisis de datos cualitavos con análisis de correspondencias

Aplicación de técnicas de aprendizaje no supervisado para la clusterización temática de la red TOR

Técnicas para exploración de bases de datos

Interfaz gráfica de usuario para la visualización de diseños de territorios

PROBABILIDAD. Unidad I Ordenamiento de la Información

Análisis de imágenes digitales

Jesús García Herrero TÉCNICAS DE AGRUPAMIENTO

CONTENIDO MODELOS PARA LA LOCALIZACION DE PLANTA

Análisis de la relación precio marginal y demanda de electricidad mediante conglomerados

Análisis de clasificación

Aprendizaje automático: métodos y aplicaciones

Métodos de teoría de Grafos en aprendizaje no supervisado y cl

Reconocimiento de Patrones

Capítulo 21. Análisis de conglomerados (I): El procedimiento Conglomerados de K medias. Introducción

ANÁLISIS DE CONGLOMERADOS

Definición de grupos: clasificación. Capítulos 10 y 11 de McCune y Grace 2002

Técnicas de clusterización

Análisis de Clúster con SPSS. Método de las K-Medias

Minería de Datos Web. 1 er Cuatrimestre Página Web. Prof. Dra. Daniela Godoy.

Dr. Richard Mercado Rivera 18 de agosto de 2012 Matemática Elemental

UNIVERSIDAD DISTRITAL FRANCISCO JOSÉ CALDAS FACULTAD DE INGENIERÍA

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

Particionamiento Numérico CIMPA-UCR. usando Metaheurísticas de Optimización

CLASIFICACIÓN NO SUPERVISADA CLASIFICACIÓN NO SUPERVISADA N. QUEIPO, S. PINTOS COPYRIGHT 2005 FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES

ANÁLISIS DE LA SEPARABILIDAD LINEAL DE UNA BASE DE DATOS Data base linear separability analysis

MINERIA DE TEXTOS EN R: VIA UN MODELO DE ESPACIO VECTORIAL Y ANÁLISIS CLUSTER. Resumen

Método k-medias. [ U n a i n t r o d u c c i ó n ]

Práctica 3. Para comenzar esta práctica abrimos el programa SPSS.

INTELIGENCIA ARTIFICAL COMO HERRAMIENTA EN LA TOMA DE DECISIONES. Tecnología i3b

3. Clasificación no supervisada

Object Recognition as Machine Translation: Learning a Lexicon for a Fixed Image Vocabulary

Inteligencia en Redes de Comunicaciones

+ f 2. + f 3. p i. =h i 100. F i. = f i. H i. = h i. P i. = p i

Aprendizaje Automático para el Análisis de Datos GRADO EN ESTADÍSTICA Y EMPRESA. Ricardo Aler Mur

Curso de Estadística Básica

ESTRUCTURAS REPETITIVAS EN PHP

EL ANÁLISIS DE LOS DATOS EN EL SISTEMA DE INFORMACIÓN GEOGRÁFICA DE CUBA

Frey Miguel León Lozano

Enfoque Conceptual Borroso en Recuperación de Información

Introducción a la minería de datos. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

MASTER EN CIENCIAS ACTUARIALES Y FINANCIERAS PLAN Módulo: ANÁLISIS DEL RIESGO ACTUARIAL Y FINANCIERO

ESTRATEGIAS DE COMPORTAMIENTO Y VALORACIÓN DE LA FORMACIÓN DE LOS ESTUDIANTES: UN ANÁLISIS APLICADO 1

Inteligencia en Redes de Comunicaciones - 06 Aprendizaje

Técnicas de Preprocesado

Cómo hacer Valoración de Cargos

Repaso del algoritmo SIMPLEX

1. Identifica y abre el programa STATA. La pantalla de inicio se muestra a continuación:

RELACIÒN ENTRE LOS PROMEDIOS

I. Introducción.9. Estado del arte de los algoritmos de agrupamiento 16

CREACIÓN DE UNA TIPOLOGÍA DE GENES MEDIANTE TÉCNICAS DE DATA MINING PARA Drosophila

NOMBRE CÓDIGO - CATEGORIZACIÓN

En ciencias e ingeniería (experimentales) es imprescindible realizar mediciones, que consisten en obtener

TEMA II DISTRIBUCION DE FRECUENCIA

UNIVERSIDAD TECNOLÓGICA DE LA MIXTECA PARA OBTENER EL TÍTULO DE INGENIERO EN COMPUTACIÓN PRESENTA: FELIX EMILIO LUIS PÉREZ

Trabajo Fin de Grado ALGORITMOS PARA LA ESTIMACIÓN DE MODELOS DE MEZCLAS GAUSSIANAS (ALGORITHMS FOR GAUSSIAN MIXTURE MODEL (GMM) ESTIMATION)

Unidad 3. Separacion de costos fijos y costos variables. Objetivos especificos de aprendizaje

RECOPILACIÓN DE LA INFORMACIÓN

Análisis Cluster en SPSS

Tema 5: SEGMENTACIÓN (II) I N G E N I E R Í A I N F O R M Á T I C A

Estudio del análisis de componentes principales en bases de datos de calidad del aire

Ideas básicas del diseño experimental

Darío Álvarez Néstor Lemo

Apuntes de Estadística

BKS: Business Knowledge Series.

Universidad Tec Milenio: Profesional HG04002 Análisis de Decisiones I

Protección de Datos Categóricos que siguen Patrones Secuenciales

Aplicación de técnicas de aprendizaje automático para la identificación de patrones de interacción en una experiencia virtual de aprendizaje.

Examen de Septiembre de TACCIII y TAI (Modelo 2)

Medidas de tendencia central

Programación Estructurada

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

Transcripción:

ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS)

AGRUPAMIENTOS

Cuál agrupamiento es mejor?

MÉTODOS DE AGRUPACIÓN Métodos jerárquicos: Los objetos se agrupan (dividen) i por partes hasta clasificar todos los objetos. No requiere fijar un número de clústeres o grupos (menos supervisado). Métodos de capa única: Se tiene un número de grupos predefinidos y cada objeto se ubica en un grupo hasta alcanzar estabilidad en los valores de los centroides. Requiere, generalmente, fijar a priori un número de clústeres.

MÉTODOS JERÁRQUICOS V i niveles Varios i l d de agrupamiento i t D d Dendograma

Métodos aglomerativos Esquema general algoritmo: 1. Cada objeto corresponde a un grupo. 2. En cada iteración se juntan los dos grupos más cercanos bajo algún criterio de cercanía entre grupos. 3. Los dos grupos recién unidos forman un único grupo. 4. Iterar hasta formar un único grupo. El método jerárquico aglomerativo más utilizado es el de Ward, por el nombre de su autor.

Método de Ward Este procedimiento trata de identificar grupos de casos, tratando de minimizar la varianza dentro de los grupos. Se minimiza la distancia euclideana cuadrada a las medias del conglomerado o grupo.

Dendogramas Un dendograma es un árbol en el que el largo delas ramas está asociado inversamente a la fortaleza de la relación.

Métodos divisivos Esquema general algoritmo: 1. Todos los objetos corresponde a un grupo. 2. Cada grupo se separa bajo algún maximización de varianza entre grupos. criterio i de 3. Dividir cada uno de los grupos hasta que: Todos los grupos sean tan homogéneos que no vale la pena seguir dividiendo. Los grupos son tan pequeños que no vale la pena seguir dividiendo.

Métodos de una sola capa o particionales Algoritmos iterativos: en cada iteración ubican a los objetos en el grupo más cercano a él, de acuerdo con los valores de los centroides.

[idx,ctrs] = kmeans(x,2,... 'Distance','city ); La función kmeans trata a cada observación como un objeto localizado en el espacio. Se pueden escoger cinco medidas de distancia. Cada clúster es definido por sus miembros y por su centroide. El centroide es aquel que minimiza la suma de las desviaciones desde cualquier punto del grupo a ese punto central. La función kmeans minimiza una función diferente dependiendo de la medida de distancia que se utilice. Se pueden controlar los detalles de la minimización como incluir los valores iniciales de los centroides o el máximo número de iteraciones.

MEDIDAS DE DISTANCIA EN MATLAB ENTRE OBJETOS (PDIST(X))

Ejemplos usando Rattle y Matlab Tiempo_fac Gasto Horas ocio 36 min $20.500 22 horas Tamaños de clústeres: [1] "4 10 12 Suma de cuadrados en clúster: [1] 116752251 251603917 221327040 Medida de distancia: Euclidiana Clúster Tiempo Gasto Horas ocio 1 60 41.750 23.5 2 36.5 24.200 26.3 3 28 10.380 18.4 Medida de distancia: City block Clúster Tiempo Gasto Horas ocio 1 45 30000 24 2 30 18000 18 3 20 10000 17

Ejemplo usando Rattle

Ejemplos creando dos grupos Tiempo_fac Gasto Horas ocio 36 min $20.500 22 horas Medida de distancia: Euclidiana Clúster Tiempo_fac Gasto Horas.ocio 1 45 35875 23 2 32 13698 22 Tamaños de clústers: [1] "8 18 Suma de cuadrados en clúster: [1] 392880110 644939334

Ejemplo usando Weka

Agrupamiento probabilista bili Función gmdistribution en Matlab: funciones normales

Comparación de agrupamientos con los lirios, usando una interfaz de Matlab Clustering sustractivo Fuzzy C-means findcluster('iris.dat')

Interpretar y elaborar un perfil de cada grupo Debe buscarse una semántica que diferencie a los objetos de cada grupo. Enfoques complementarios: Análisis y comparación de los centroides de cada grupo. Análisis gráfico para determinar la variables que marcan diferencias significativas.

EVALUACIÓN VISUAL DE AGRUPAMIENTOS Datos originales K-medias Probabilístico EM