Similaridad y Clustering 1
web results
motivación Problema 1: ambigüedad de consultas Problema 2: construcción manual de jerarquías de tópicos y taxonomías Problema 3: acelerar búsqueda por similaridad (clusters más representativos) adaptado de Soumen Chakrabarti
Agrupamiento de elementos en subconjuntos de tal manera que los elementos asignados a un mismo conjunto tengan alguna característica en común--- generalmente los elementos dentro de un mismo cluster son más similares entre sí que con elementos fuera del cluster. adaptado de Soumen Chakrabarti
Hipótesis de Cluster: si el usuario se interesa en un elemento (documento/término) probablemente también se interese en elementos similares.
propiedades deseables escalabilidad en tiempo y espacio habilidad para manipular distintos tipos de datos mínimos requerimientos de conocimiento sobre el dominio para determinar el valor de los parámetros capaz de manejar ruido y outliers estable
subjetividad
subjetividad adaptado Eamonn Keogh
subjetividad adaptado Eamonn Keogh
subjetividad adaptado Eamonn Keogh
sobre documentos Medidas de similaridad Representación de documentos como vectores TFIDF Distancia Coseno del ángulo Cuestiones Número total de clusters Gran número de dimensiones ruidosas La noción de ruido depende del dominio Hard vs soft. adaptado de Soumen Chakrabarti
hard vs soft Hard Clustering cada objeto pertenece a un único cluster Soft Clustering cada objeto se asigna probabilísticamente a un cluster
Aprendizaje no supervisado no existen ejemplos demostrando como los datos deberían ser agrupados Método de exploración de datos una manera de observar patrones de interés en los datos
método aglomerativo
dendograma adaptado de Soumen Chakrabarti
k-means
k-means
k-means
k-means
k-means elección del valor para k convergencia no-determinismo adaptado de Soumen Chakrabarti
co- co- agrupa palabras y documentos simultáneamente palabras documentos cluster de palabras clusters de documentos
reducción de dimensionalidad documento vector de palabras 1 palabra#1 palabra#k m documento vector de palabras 1 cluster#1 cluster#k m
latent semantic indexing Documentos Términos k car Documentos D V d Términos A t SVD U auto d r k-dim vector adaptado de Soumen Chakrabarti
latent semantic indexing Documentos Términos k Documentos D V d Términos A t SVD jaguar U d r k-dim vector adaptado de Soumen Chakrabarti
sistemas de recomendación Personas=registros, películas=características Las personas y las películas puedes ser agrupadas retro-alimentación mutua de similaridad Necesidad de modelos avanzados Lyle Ellen Jason Fred Dean Karen Batman Rambo Andre Hiver Whispers StarWars From Clustering methods in collaborative filtering, by Ungar and Foster adaptado de Soumen Chakrabarti
y búsqueda en la Web Motivaciones direccionamiento de consultas facilitar la navegación de documentos acceder a documentos similares mostrar diversidad Modos previo a la recuperación de información realizado de antemano sobre toda la colección posterior a la recuperación de información buscador browser meta-buscador
direccionamiento de consultas documentos distribuidos en varios servidores documentos similares en un mismo servidor o servidores próximos generación de descriptores para identificar clusters durante la recuperación de información identificación de clusters relevantes direccionamiento de las consultas a los servidores correspondientes integración de resultados
direccionamiento de consultas consulta: document Library Science Computer Science Zoology Geology
browsing basado en Scatter/Gather (Cutting, et. al., SIGIR 92) Agrupar documentos en grupos temáticos Presentar resúmenes descriptivos a los usuarios Los usuarios pueden navegar y determinar posibles jerarquías de clusters Agrupar documentos en los clusters seleccionados y generar de resúmenes Recuperar documentos Library Science Computer Science Zoology Geology Information Retrieval Library Automation
de resultados consultas cortas (poco especificas) resultados relevantes e irrelevantes realizar sobre resultados ayuda a que los usuarios determinen su necesidades reales consulta: Multimedia Video Hypermedia Virtual Reality
de resultados requisitos coherentes posible solapamiento buenas descripciones para el usuario velocidad (snippet tolerance)
Grouper
Grouper
expansión de resultados documentos relevantes podrían no coincidir con consultas (vocabulario) recuperar un núcleo (core) de documentos que coincida con la consulta expandir resultados con documentos que no coincidan con la consulta pero que se agrupen con el núcleo consulta núcleo resultados expandidos
refinamiento de consultas documentos relevantes podrían no coincidir con consultas (vocabulario) computar dinámicamente términos que tengan el potencial de mejorar precision/recall y sugerirlos al usuario sugerencia de términos agrupar documentos en clusters por tema el usuario puede usar las frases que caracterizan al cluster para reformular consultas
Grouper
páginas web vs. texto simple Diferencia en la distribución léxica Páginas Web enriquecidas con recursos mulitmediales Estructura de enlaces/topología Uso de tags en páginas Web
tags en páginas HTML Tags para resaltar palabras importantes Bold <b>, Italic <i>, Underline <u>, Font <font> Tags para estructura de documento Title <title> Header <head> Headline <h1>, <h2>, <h3> List Items, <li> Tags para definir enlaces Anchor <a>
análisis de conectividad un enlace entre dos páginas establece una relación entre esas páginas La similaridad entre dos páginas podría estimarse mediante longitud del camino más corto entre las páginas suma de longitudes de caminos más cortos entre ancestro común y páginas suma de longitudes de caminos más cortos entre páginas y descendiente común B E F G A C H I D J
bibliografía Mining the Web: Discovering Knowledge from Hypertext Data, Soumen Chakrabarti, Morgan Kaufmann, 2002.