Minería de Datos Web. 1 er Cuatrimestre Página Web. Prof. Dra. Daniela Godoy.

Tamaño: px

Comenzar la demostración a partir de la página:

Download "Minería de Datos Web. 1 er Cuatrimestre 2015. Página Web. Prof. Dra. Daniela Godoy. http://www.exa.unicen.edu.ar/catedras/ageinweb/"

Alfredo Márquez Núñez
hace 8 años
Vistas:

1 Minería de Datos Web 1 er Cuatrimestre 2015 Página Web Prof. Dra. Daniela Godoy ISISTAN Research Institute UNICEN University Tandil, Bs. As., Argentina dgodoy@exa.unicen.edu.ar

2 Clustering de Documentos Clasificación de Documentos Es un método supervisado para dividir documentos en base a categorías predefinidas Los ejemplos tienen que ser etiquetados (con clases asignadas) Clustering de Documentos Es un método no supervisado para dividir ejemplos en grupos cuando no existen categorías predefinidas El aprendizaje no supervisado es un método descriptivo para interpretar un conjunto de datos

3 Clustering de Documentos Es el proceso de buscar un agrupamiento natural en un conjunto de datos en base a su similitud Objetivo Dividir un conjunto de ejemplos (documentos) pertenecientes a clases desconocidas en subconjuntos disjuntos de clusters tal que: Los ejemplos que estén en un mismo cluster sean lo más similares posible entre sí Los ejemplos que estén en clusters diferentes sean lo más disímiles posible entre sí

4 Clustering de Documentos Espacio de características (términos) Los documentos se representan como vectores de frecuencia en un espacio de términos La similitud de dos documentos está dada por el coseno de ambos vectores

5 Clustering de Documentos Espacio de características (términos)

6 Clustering de Documentos Espacio de características (términos) Deportes Política Música

7 Clustering de Documentos El aprendizaje no supervisado es un método descriptivo para interpretar un conjunto de datos, algunas aplicaciones posibles: Clustering de los documentos recuperados para una consulta: se presentan los resultados de una búsqueda en forma más organizada y clara para el usuario (por ej. Vivísimo) Clustering de documentos en una colección: hipótesis de clustering, documentos similares tienden a ser relevantes a la misma consulta durante la recuperación de documentos, se agregan los documentos que pertenecen a un mismo cluster que los recuperados inicialmente para mejorar el recall Clustering para generación automática de taxonomías: para facilitar la exploración de documentos (por ej. Yahoo!)

8 Clustering de Documentos Hipótesis Documentos similares tienden a ser relevantes a la misma consulta Un buen método de clustering debería identificar clusters que sean tanto compactos como separados entre sí. Es decir, que tengan: Alta similitud intra-cluster Baja similitud inter-cluster

9 Scatter/Gather Técnica de navegación de resultados basada en clustering: Agrupa documentos en temas generales Muestra el contenido por términos típicos El usuario puede seleccionar clusters interesantes Se aplica nuevamente cluster para identificar clusters más específicos Con cada iteración los clusters son menores y más detallados Clustering y re-clustering es automático

10 Scatter/Gather

11 Vivísimo

12 Clustering de Documentos Algoritmos basados en particionamiento: Particionan el conjunto de datos D de n objetos en un conjunto de k clusters Dado un k, intentan encontrar una partición de k clusters que optimiza el criterio de particionamiento k-means: cada cluster es representado por su centro del cluster

13 Clustering basado en Particionamiento Objetivo Particionar un conjunto de documentos D, conteniendo n documentos, en k clusters Dado un valor de k, encontrar una partición en k clusters que optimice un criterio de particionamiento: k-means: cada cluster es representado por el centroide del cluster

14 K-Means Las instancias son vectores de valores reales Los clusters se basan en centroides o centros de gravedad, que son a media de las instancias en el cluster c: μ c = 1 c x c x Las instancias se reasignan a los clusters en base a su distancia a los centroides

15 K-Means k-means 1. Seleccionar aleatoriamente k ejemplos (semillas) para ser centroides de los clusters 2. Asignar cada ejemplo al centroide con el que tenga mayor similitud 3. Recalcular los centroides de acuerdo a los ejemplos asignados a cada cluster 4. Si no se satisface el criterio de terminación establecido volver a 2

16 K-Means Algoritmo: Sea sim la medida de distancia entre documentos Seleccionar k documentos aleatoriamente {s 1, s 2, s k } como semillas Hasta que se satisface un criterio de terminación Para cada documento x i : Asignar x i a el cluster c j talque sim(x i, s j ) sea la mínima (Actualizar las semillas de cada cluster) Para cada cluster c j s j = (c j )

17 K-Means k-means

18 K-Means Seleccionar k=2 semillas en forma aleatoria

19 K-Means Asignar cada ejemplo al centroide con el que tenga mayor similitud

20 K-Means Asignar cada ejemplo al centroide con el que tenga mayor similitud

21 K-Means Recalcular los centroides de acuerdo a los ejemplos asignados a cada cluster c c

22 K-Means Asignar cada ejemplo al centroide con el que tenga mayor similitud c c

23 K-Means Asignar cada ejemplo al centroide con el que tenga mayor similitud c c

24 K-Means Recalcular los centroides de acuerdo a los ejemplos asignados a cada cluster c c

25 K-Means Recalcular los centroides de acuerdo a los ejemplos asignados a cada cluster c c

26 K-Means Asignar cada ejemplo al centroide con el que tenga mayor similitud c c

27 K-Means Recalcular los centroides de acuerdo a los ejemplos asignados a cada cluster c c

28 K-Means Los ejemplos no cambian de cluster, se satisface el criterio de terminación c c

29 K-Means Ventajas: Entre los algoritmos de particionamiento es eficiente Implementación sencilla Desventajas: Necesito conocer k de antemano Sensible a outliers, puede caer en mínimos locales Sensitivo a la elección de las semillas iniciales algunas semillas pueden resultar en una taza de convergencia menor la selección de semillas se puede basar en heurísticas o resultados obtenidos por otros métodos Es aplicable cuando es posible calcular el centroide, como en el caso de los documentos, pero es de difícil aplicación en atributos categóricos

30 Clustering Jerárquico Los algoritmos jerárquicos construyen un árbol binario o dendograma a partir de un conjunto de ejemplos Un dendograma muestra como se combinan los clusters La raíz es un cluster que contiene todos los ejemplos y las hojas contienen cada una un ejemplo Cortando en diferentes niveles se consiguen diferentes clusters

31 Clustering Jerárquico Métodos de clustering: Aglomerativo (bottom-up) Métodos que comienzan con cada ejemplo en un cluster diferente y combinan iterativamente los clusters para formar clusters mayores Divisivo (top-down) Métodos que comienzan con todos los ejemplos en un mismo cluster y los separan sucesivamente en clusters de menor tamaño

32 Clustering Jerárquico Clustering Jerárquico Aglomerativo: Asume que existe una función de similitud que determina la similitud de dos instancias: Por ejemplo, similitud del coseno en caso de documentos Asume que existe una función de similitud que determina la similitud de dos clusters conteniendo múltiples instancias: Single link Complete link Group average

33 Clustering Jerárquico Single Link La similitud de los clusters es la de los dos ejemplos más similares entre ambos clusters

34 Clustering Jerárquico Single Link La similitud de los clusters es la de los dos ejemplos más similares entre ambos clusters Complete Link La similitud de los clusters es la de los dos ejemplos menos similares entre ambos clusters

35 Clustering Jerárquico Single Link La similitud de los clusters es la de los dos ejemplos más similares entre ambos clusters Complete Link La similitud de los clusters es la de los dos ejemplos menos similares entre ambos clusters Group Average Promedio de similitudes entre los ejemplos de ambos clusters

36 Clustering Jerárquico Clustering Aglomerativo Jerárquico: 1. Asignar cada ejemplo a un cluster diferente (n ejemplos, n clusters) 2. Encontrar el par de clusters más similares y combinarlos en un único cluster 3. Recalcular las similitud o distancias entre el nuevo cluster y los clusters restantes 4. Hasta que solo quede un cluster de tamaño n, volver a 2

37 Clustering Jerárquico Algoritmo: Comienza con todos los ejemplos en su propio cluster Hasta que quede un único cluster: Entre todos los cluster existentes determinar los dos clusters c i y c j que son más similares Reemplazar c i y c j por un único cluster c i c j

38 Clustering Jerárquico Asignar cada ejemplo a un cluster diferente d 1 d 2 d 3 d 4 d d d 3 10 d 1 d 2 d 3 d 4 d 4

39 Clustering Jerárquico Encontrar el par de clusters más similares y combinarlos en un único cluster d 1 d 2 d 3 d 4 d d d 3 10 d 1 d 2 d 3 d 4 d 4

40 Clustering Jerárquico Encontrar el par de clusters más similares y combinarlos en un único cluster d 1 d 2 d 3 d 4 d d d 3 10 d 1 d 4 d 2 d 3 d 4 c 1

41 Clustering Jerárquico Recalcular las similitud o distancias entre el nuevo cluster y los clusters restantes c 1 d 2 d 3 c d 2 15 d 3 d 1 d 4 d 2 d 3 c 1

42 Clustering Jerárquico Encontrar el par de clusters más similares y combinarlos en un único cluster c 1 d 2 d 3 c d 2 15 d 3 d 1 d 4 d 2 d 3 c 2

43 Clustering Jerárquico Recalcular las similitud o distancias entre el nuevo cluster y los clusters restantes c 2 d 3 c 2 20 d 2 d 3 d 1 d 4 d 2 d 3 c 2

44 Clustering Jerárquico Encontrar el par de clusters más similares y combinarlos en un único cluster c 2 d 3 c d 2 d 3 d 1 d 4 d 2 d 3

45 Clustering Jerárquico Únicamente queda un cluster de tamaño n c 3 c 3 d 1 d 4 d 2 d 3 c 3

46 Clustering Jerárquico Ventajas: No es necesario establecer un número de clusters Se puede explorar el dendograma en diferentes niveles, más rico para el análisis de los datos que el particionamiento Desventajas: No se recupera de decisiones incorrectas Computacionalmente costoso

Documentos relacionados

Minería de Datos Web. Cursada 2018

Minería de Datos Web. Cursada 2018 Minería de Datos Web Cursada 2018 Proceso de Minería de Texto Clustering de Documentos Clasificación de Documentos Es un método supervisado para dividir documentos en base a categorías predefinidas Los