Técnicas de Clustering

Documentos relacionados
ANÁLISIS DE CONGLOMERADOS (CLUSTER ANALYSIS)

CLASIFICACIÓN PROBLEMA SOLUCIÓN

TÉCNICAS DE AGRUPAMIENTO

Análisis de Clúster con SPSS. Método de las K-Medias

Clustering. Departamento de Ingeniería Informática y de Sistemas Universidad de La Laguna

ANALISIS DE CLUSTER CON SPSS: INMACULADA BARRERA

Primero se inicializan dos puntos (tantos como clusters queremos) al azar. Estos puntos se denominan centroides del cluster.

Aprendizaje no supervisado

CLUSTERING. Eduardo Morales y Jesús González

Máster en Ordenación y Gestión del Desarrollo Territorial y Local. Módulo I MÉTODO Y TÉCNICAS ESTADÍSTICAS PARA EL DESARROLLO TERRITORIAL Y LOCAL

Teoría de grafos y optimización en redes

Introducción a Minería de Texto. Fabián Latorre

Redes de Neuronas de Base Radial

INFORME TAREA N 4 CLUSTERING

Capítulo 4. Medidas de Proximidad. Proximidades Similaridades: s(a, B) Similitudes: s(a, B) 4.1. VARIABLES CUANTITATIVAS

RESUMEN ANÁLISIS CLUSTER

INTRODUCCION AL ANALISIS DE CLUSTER

Introducción a las técnicas estadísticas de

Tema 3: Análisis multivariante para la agrupación. Objetivo: Encontrar los grupos naturales en los que se divide la población.

Tema 11. Clustering. X 1... X i... X n O 1 x x 1 i... x 1 n... O j x j 1... x j i... x j n... O N x N 1... x N i... x N n

Formulación del problema de la ruta más corta en programación lineal

VQ. Algorítmica de reconocimiento de voz VQ.1. Reconocimiento de patrones

A MEMETIC ALGORITHM FOR. Zhipeng Lü, Jin-Kao Hao

Técnicas de aprendizaje sobre series temporales

OPTIMIZACIÓN VECTORIAL

Clustering basado en particiones Fernando Berzal,

Curso de Postgrado en Herramientas Estadísticas Avanzadas: AGROPECUARIOS. Prof. Dr. José Perea Dpto. Producción Animal

Figura 1: Esquema de las tablas simplex de inicio y general.

Técnicas de Minería de Datos

Nota: se pueden usar funciones de Matlab para filtrado de imágenes. Se dará importancia al tiempo de cómputo de los métodos.

Dimensionamiento y Planificación de Redes

MÉTODOS DE APRENDIZAJE INDUCTIVO (continuación)

Formulando con modelos lineales enteros

Métricas para la validación de Clustering

Tema 3 Optimización lineal. Algoritmo del simplex

Complejidad - Problemas NP-Completos. Algoritmos y Estructuras de Datos III

CAPÍTULO 2. MINERÍA DE DATOS ESPACIALES

Por: BONILLA Londoño Héctor Fabio.

ANALISIS DE PROXIMIDADES

CREACIÓN DE UNA TIPOLOGÍA DE GENES MEDIANTE TÉCNICAS DE DATA MINING PARA Drosophila

Laura de la Fuente Crespo. Análisis Cluster

Clasificación Jerárquica Ascendente Presentación #1. [ U n a i n t r o d u c c i ó n ]

APLICACIONES DE MINERA DE DATOS EN ADUANA DE PERU. Luis Azaña Bocanegra

Análisis de agrupamiento (Cluster nmds)

Predicción de potencia en el parque eólico de Villonaco, Loja, Ecuador. Alberto Reyes y Tania Guerrero INER Ecuador

Capítulo 6. Relaciones. Continuar

Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO

Programación Estructurada

Análisis de componentes principales. a.k.a.: PCA Principal components analysis

XS-41100: INTRODUCCION AL ANALISIS MULTIVARIADO PROGRAMA II SEMESTRE 2018

Qué es DataMining? Ing. Gustavo Markel. Lic. Cecilia Ruz

Minería Multimedia Minería de datos NO estructurados (Textos, Imágenes, Audios y Videos)

Introducción al Análisis del Coste de Algoritmos

El método simplex 1. 1 Forma estándar y cambios en el modelo. 2 Definiciones. 3 Puntos extremos y soluciones factibles básicas. 4 El método simplex.

Repaso del algoritmo SIMPLEX

El problema del agente viajero

Fundamentos de Programación Entera

Self Organizing Maps. Self Organizing Maps. SOM/KOHONEN Network Mapas Auto-organizativos. Estructura de la Red. Estructura de la Red

FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES DEPARTAMENTO DE CIENCIAS BÁSICAS ESPECIALIZACIÓN EN ESTADÍSTICA APLICADA

IAAE - Inteligencia Artificial Aplicada a la Ingeniería

Ejemplos de análisis cluster

Unidad 4. Arreglos y Cadenas

CAPÍTULO 3 ESTRUCTURAS DE DATOS ESTÁTICAS

x, y = x 0 y 0 + x 1 y 1 + x 2 y 2 + x 3 y 3. Es fácil ver que verifica 1. Es simétrica. x, y = y, x para todo x, y R 4.

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina

Inteligencia Artificial. Aprendizaje neuronal. Ing. Sup. en Informática, 4º. Curso académico: 2011/2012 Profesores: Ramón Hermoso y Matteo Vasirani

Cadenas de Markov Tiempo Discreto. Modelado y Análisis de Redes de Telecomunicaciones

Grafos y Redes. 3. Resolución: Dibujar el camino sin levantar el lápiz y pasando sólo una vez por cada arco o arista.

INVESTIGACION DE OPERACIONES:

Se nos plantean las siguientes alternativas:

Sesión 8: Campos de Markov

Análisis Cluster. Metodología de las CC del Comp-Universitat de València. Abril Pedro Valero

DEFINICIONES BÁSICAS DE LAS ESTRUCTURAS DE DATOS

Capitulo 1: Introducción al reconocimiento de patrones (Secciones )

4 Teoría de clasificadores

Cinemática del sólido rígido

clustering: Clasificación no Supervisada

Transcripción:

Técnicas de Clustering

Programa Introducción Métodos Divisivos Métodos Jerárquicos Algunos otros métodos Cuantos clusters? estabilidad

Introducción Definiciones previas: Cluster: Agrupamiento de objetos. Idea de grupo: Objetos que son similares entre sí pero diferentes del resto. Métrica: medida de similitud entre objetos

Idea intuitiva Dados un conjunto de objetos (datos) una medida de similitud entre ellos (métrica) Encontrar una partición de los mismos / Mismo grupo Similares Distinto grupo Distintos Que tenga sentido, que sea interesante

Objetivos Descubrir información Encontrar grupos naturales en un conjunto de datos del que no se conocen clases. Encontrar jerarquías de similaridad en los datos (taonomías) Resumir los datos Encontrar prototipos que sean representativos de un conjunto grande de ejemplos Otros

Clustering no es clasificación Clustering es aprendizaje no-supervizado Se conocen los datos, no los grupos en que están organizados. El objetivo es encontrar la organización. Y Y W Clasificación X Clustering X

Ejemplo: Epresión de genes

Ejemplo: Segmentación de imágenes

Ejemplo: Identificación de estilos de escritura.

Ejemplo: Distancia genética entre animales

Dos clases de algoritmos Divisivos Jerárquicos

Dos clases de algoritmos Divisivos Clustering plano : Clustering como una partición del espacio. Queremos la partición más significativa en un número fijo de partes. Jerárquico El objetivo es construir una anidación de particiones, de la que se puede etraer luego una cantidad dada de partes.

Desarrollo histórico Cluster analysis: En nombre aparece en el título de un artículo de análisis de datos antropológicos (JSTOR, 1954). Hierarchical Clustering: Sneath (1957), Sorensen (1957) K-Means: Descubierto independientemente por Steinhaus (1956), Lloyd (1957), Co (1957), Ball & Hall (1967), McQueen (1967) Miture models (Wolfe, 1970) Métodos de teoría de grafos (Zahn, 1971) K Nearest neighbors (Jarvis & Patrick, 1973) Fuzzy clustering (Bezdek, 1973) Self Organizing Map (Kohonen, 1982) Vector Quantization (Gersho and Gray, 1992)

Datos para clustering Datos vectoriales Dos modos: filas y columnas 11... i1... n1............... 1f... if... nf............... 1p... ip... np Matriz de distancias Un modo R usa los dos 0 d(2,1) d(3,1) : d( n,1) 0 d(3,2) : d( n,2) 0 :...... 0

Métricas Para datos vectoriales: Minkowski: p=1 Manhattan p=2 Euclidea p p jd id j i d ), (... ), ( 2 2 1 1 q q j i j i j i j i d )... ( ), ( 2 2 2 2 2 1 1 q q j i j i j i j i d

Métricas (2) Para datos vectoriales (otras): Información mutua Correlación Coseno Para datos binarios, ordinales o categóricos se definen medidas particulares Se pueden definir métricas para tipos especiales Videos, imágenes, teto, etc

Pesado de las variables 16 animales 13 booleanos Describen caracteristicas y comportamiento Al cambiar el peso de un grupo de variables a otro cambia totalmente el clustering

Algoritmo general Usar una métrica dada para calcular todas las distancias entre los datos Definir una medida de bondad del clustering Por ejemplo, suma de las distancias entre los puntos Minimizar la medida de bondad (normalmente con alguna heurística)

Métodos divisivos

K-means Objetivo: Encontrar una partición de los datos en k grupos, tal que la distancia media dentro de los puntos de cada grupo sea mínima Grupos apretados, clusters compactos Al minimizar la distancia total dentro de los grupos estamos maimizando la distancia entre los grupos.

K-means: Planteo Queremos encontrar una particion tal que: Se puede ver que es igual a: m k es la media del cluster k

K-means: Planteo Queremos el mínimo del costo J: J es función de los z y los Si los están fijos y varían los z, J es mínimo si: Si los varían, J es mínimo si: Donde los z son las etiquetas de cluster de cada punto.

K-means: Planteo Para minimizar J puedo iterar los dos procesos alternativamente. Se puede mostrar que J desciende siempre. Esto se llama minimización alternada Si desciende siempre, que garantía tengo??? Voy a encontrar un mínimo LOCAL de J en tiempo finito

K-means: algoritmo base Empezar con k centros al azar Iterar: Asignar cada punto al centro más cercano Asignar cada centro como la media de sus puntos Próimas slides: animación del método

K-means eample, step 1 Y k 1 Pick 3 initial cluster centers (randomly) k 2 k 3 X

K-means eample, step 2 Y k 1 Assign each point to the closest cluster center k 2 k 3 X

K-means eample, step 3 Y k 1 k 1 Move each cluster center to the mean of each cluster k 2 k 2 k 3 k 3 X

K-means eample, step 4 Reassign points Y closest to a different new cluster center Q: Which points are reassigned? k 1 k 2 k 3 X

K-means eample, step 4 A: three points with animation Y k 1 k 3 k 2 X

K-means eample, step 4b Y re-compute cluster means k 1 k 3 k 2 X

K-means eample, step 5 k 1 Y move cluster centers to cluster means k 2 k 3 X

Fortalezas de k-means Eficiente: O(tkn), donde n es # objetos k es # clusters t es # iteraciones Normalmente, k, t << n Garantía de convergencia (a mínimo local)

Problemas de k-means 4 puntos en 1 dimensión, 3 clusters Solución óptima: J=c 2 /2 Solución local: J=a 2 /2 Cambiando la relación entre a y c puede ser tan mala como quiera

Solución Para aumentar la chance de encontrar el mínimo global se usan varias corridas desde distintos valores iniciales, y se compara el J final Les suena de algún lado?

Problemas de k-means (2) K-means depende fuertemente de los outliers Media de 1, 3, 5, 7, 9 es Media de 1, 3, 5, 7, 1009 es Mediana de 1, 3, 5, 7, 1009 es Ventaja de la Mediana: no la afectan los valores etremos K-means solo vale en espacios vectoriales 5 205 5 35

Solución (2) K-medoids Representar cada cluster por su medoid (es el punto del cluster situado más centralmente) Aplicar la misma iteración que en k-means Soluciona los outliers y vale para espacios arbitrarios PAM (Partitioning Around Medoids, 1987) Mucho más caro computacionalmente O(k(n-k) 2 )

Práctica en R Ver archivo de códigos, tiene ejemplos en datos artificiales y reales