Similaridad y Clustering



Documentos relacionados
Similaridad y Clustering

Minería de Datos Web. 1 er Cuatrimestre Página Web. Prof. Dra. Daniela Godoy.

Análisis de Redes Sociales

Algoritmos y Estructuras de Datos 2. Web Mining Esteban Meneses

Base de datos II Facultad de Ingeniería. Escuela de computación.

Diseño de Redes LAN Introducción a Redes. Derman Zepeda Vega dzepeda@unan.edu.ni

Sistemas de Recuperación de Información

CLUSTERING MAPAS AUTOORGANIZATIVOS (KOHONEN) (RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN)

Clasificación Bayesiana de textos y páginas web

MÓDULO IV INTERNET: ESTRATEGIAS DE BÚSQUEDA DE INFORMACIÓN ACADÉMICA PROGRAMA DE EDUCACIÓN EN INFORMACIÓN

GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII

CLASIFICACIÓN NO SUPERVISADA

Introducción al Data Mining Clases 5. Cluster Analysis. Ricardo Fraiman Centro de Matemática, Udelar y Universidad de San Andrés, Argentina

Introducción. Minería de datos (data mining): Minería de la Web (Web mining): Técnicas de Crawling

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 12 -

Procesamiento de Texto y Modelo Vectorial

CONSIDERACIONES GENERALES DEL WEB MINING

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Tarea H.2 Llenar cada uno de los campos en la tabla de la pagina HTML

DESCRIPCIÓN DE LOS COMPONENTES DEL FORMATO DE PLANIFICACIÓN DIDÁCTICA PEI 1

UNIDAD 3. Herramientas de Internet

Seminario Accesibilidad Web

PROPUESTA METODOLOGICA PARA LA EDUCCIÓN DE REQUISITOS EN PROYECTOS DE EXPLOTACIÓN DE INFORMACIÓN

Bibliografía Anotada

Criterios de revisión de un curso que utiliza PBL ING. y CB.

Los servicios más comunes son como por ejemplo; el correo electrónico, la conexión remota, la transferencia de ficheros, noticias, etc.

Reflexión. Inicio. Contenido

Community Manager. Objetivos conceptuales. a. Comprender qué es el social media y la web 2.0.

Qué es una página web?, qué conoces al respecto?, sabes crear una página

Gerenciamiento de Proyectos. Estándar PMI. Cambio Organizacional UDELAR

Web mining y obtención de información para la generación de

CAPÍTULO 3 Servidor de Modelo de Usuario

COMO FUNCIONA INTERNET

GuÍa rápida de uso. westlaw chile

Social Media de comunicación y colaboración. Principales plataformas. Objetivos conceptuales. a. Comprender qué es el social media y la web 2.0.

Host. En este texto, entenderemos por host toda máquina - léase computadora. Cuenta. Una cuenta, en general, es un espacio de memoria y de disco que

Capacitación SEO. William Yon - Analista de Digital Analytics - Agosto 2014

Data Mining Técnicas y herramientas

Manual de Usuario Sitio Dinámico e-ducativa Versión

SCT Software para la calibración de transductores de fuerza. Versión 3.5. Microtest S.A.

SISTEMA DE GESTIÓN ACADÉMICA.

Gracias a ese IP único que tiene cada ordenador conectado a la red de internet se pueden identificar y comunicar los ordenadores.

Introducción a las redes de computadores

Resumen de la Tesina. Autor: Adrià Batet López. Tutor: Víctor Pascual Ayats

Apunte. Estrategias de Búsqueda de Recursos en Internet 3

Objetivo: Se especifican las habilidades y competencias que se pretenden desarrollar en el estudiante. Se promueve interés y motivación.

MINERIA DE DATOS Y Descubrimiento del Conocimiento

Práctica de laboratorio: Selección del hardware de switching

Univ. de Concepción del Uruguay Facultad de Ciencias Agrarias Ingeniería Agrónoma

CAPITULO V: Contribución Teórica y Práctica

El texto extenso Taller de Búsqueda de Recuperación de Información en Bases de Datos en la Red Capital de Bibliotecas Públicas

CURSO DE FORMACIÓN EN COMPETENCIAS PARA EL TRABAJO: EMPRESA E INICIATIVA EMPRENDEDORA.

Capítulo 1. 10I 1.0 Introducción 1.1 Diseño de LAN 1.2 El entorno conmutado. Presentation_ID 2

Manual del Descubridor

Sistema de Consultas en Línea

ADAPTAEMPLEO INFORME ACCESIBILIDAD. octubre Versión 1.0

Determinación del nivel de influencia

NOMBRE DEL TALLER: Eje temático: Comunicación. Autor: Marisol Hernández Corona. Institución de procedencia. Escuela de Técnicos Laboratoristas

Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información

Introducción a selección de. Blanca A. Vargas Govea blanca.vargas@cenidet.edu.mx Reconocimiento de patrones cenidet Octubre 1, 2012

Minería de Datos. Vallejos, Sofia

Qué necesito saber para tener mi sitio web en Internet?

Unidad 1. Fundamentos en Gestión de Riesgos

Modulo I. Introducción a la Programación Web. 1.1 Servidor Web.

Informe final de evaluación del seguimiento de la implantación de títulos oficiales MÁSTER UNIVERSITARIO EN DERECHO INTERNACIONAL. Facultad de Derecho

Introducción a la Recuperación de Información. UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Examen 2.0 Versión 1

Maqueta Sitio Web para el 2º Nivel

Arquitectura de la Información

GESTION DE PROYECTOS INFORMATICOS Facultad de Ingeniería Universidad Nacional de Jujuy Analista Programador Universitario Ciclo Jorge R.

Programación páginas web con ASP.NET 3.5 (C#)

Recuperación de Información en el Contexto de la Ciencia de la Computación

MANUAL DE USO DE LAS ESTADÍSTICAS GENERADAS POR WEBALIZER

SIC 32 Activos Intangibles Costos de Sitios Web

Internet - Web. Internet - Web. Internet. Internet. Diseño de Sitios Web Desarrollo de Paginas Web. Qué es la Internet? - Qué es la Web?

GERENCIA DE PROYECTOS DE MANTENIMIENTO CON ÉNFASIS EN PARADAS DE PLANTA

1. Pack Ingeniería Web

PROGRAMACIÓN DIDÁCTICA DE MARKETING DIGITAL

FORMACIÓN DOCENTES UNIVERSIDAD TECNOLÓGICA DE PEREIRA

XPERTO EN DISEÑO DE PÁGINAS WEB

Capítulo 1. Introducción

CAPÍTULO I INTRODUCCIÓN

Sistemas Expertos. Caso de Estudio: Selección de un microcontrolador

EL ANÁLISIS DE CONGLOMERADOS EN LOS ESTUDIOS DE MERCADO

STATMEDIA: UN CURSO MULTIMEDIA DE ESTADÍSTICA

MANUAL DE USUARIO SIMTO TÉCNICO MUESTREO

ÁLAMO SOFTWARE PARA GESTIÓN INMOBILIARIA

VS-Tv. Manual de usuario. Matriz virtual de vídeo ESPAÑOL

Uso y manejo de la base de datos Ebsco Host

Introducción a la plataforma Moodle Aníbal de la Torre Plataforma Moodle. Accediendo a los contenidos

Plataforma e-ducativa Aragonesa. Manual de Usuario. Sitio Web

Transcripción:

Similaridad y Clustering 1

web results

motivación Problema 1: ambigüedad de consultas Problema 2: construcción manual de jerarquías de tópicos y taxonomías Problema 3: acelerar búsqueda por similaridad (clusters más representativos) adaptado de Soumen Chakrabarti

Agrupamiento de elementos en subconjuntos de tal manera que los elementos asignados a un mismo conjunto tengan alguna característica en común--- generalmente los elementos dentro de un mismo cluster son más similares entre sí que con elementos fuera del cluster. adaptado de Soumen Chakrabarti

Hipótesis de Cluster: si el usuario se interesa en un elemento (documento/término) probablemente también se interese en elementos similares.

propiedades deseables escalabilidad en tiempo y espacio habilidad para manipular distintos tipos de datos mínimos requerimientos de conocimiento sobre el dominio para determinar el valor de los parámetros capaz de manejar ruido y outliers estable

subjetividad

subjetividad adaptado Eamonn Keogh

subjetividad adaptado Eamonn Keogh

subjetividad adaptado Eamonn Keogh

sobre documentos Medidas de similaridad Representación de documentos como vectores TFIDF Distancia Coseno del ángulo Cuestiones Número total de clusters Gran número de dimensiones ruidosas La noción de ruido depende del dominio Hard vs soft. adaptado de Soumen Chakrabarti

hard vs soft Hard Clustering cada objeto pertenece a un único cluster Soft Clustering cada objeto se asigna probabilísticamente a un cluster

Aprendizaje no supervisado no existen ejemplos demostrando como los datos deberían ser agrupados Método de exploración de datos una manera de observar patrones de interés en los datos

método aglomerativo

dendograma adaptado de Soumen Chakrabarti

k-means

k-means

k-means

k-means

k-means elección del valor para k convergencia no-determinismo adaptado de Soumen Chakrabarti

co- co- agrupa palabras y documentos simultáneamente palabras documentos cluster de palabras clusters de documentos

reducción de dimensionalidad documento vector de palabras 1 palabra#1 palabra#k m documento vector de palabras 1 cluster#1 cluster#k m

latent semantic indexing Documentos Términos k car Documentos D V d Términos A t SVD U auto d r k-dim vector adaptado de Soumen Chakrabarti

latent semantic indexing Documentos Términos k Documentos D V d Términos A t SVD jaguar U d r k-dim vector adaptado de Soumen Chakrabarti

sistemas de recomendación Personas=registros, películas=características Las personas y las películas puedes ser agrupadas retro-alimentación mutua de similaridad Necesidad de modelos avanzados Lyle Ellen Jason Fred Dean Karen Batman Rambo Andre Hiver Whispers StarWars From Clustering methods in collaborative filtering, by Ungar and Foster adaptado de Soumen Chakrabarti

y búsqueda en la Web Motivaciones direccionamiento de consultas facilitar la navegación de documentos acceder a documentos similares mostrar diversidad Modos previo a la recuperación de información realizado de antemano sobre toda la colección posterior a la recuperación de información buscador browser meta-buscador

direccionamiento de consultas documentos distribuidos en varios servidores documentos similares en un mismo servidor o servidores próximos generación de descriptores para identificar clusters durante la recuperación de información identificación de clusters relevantes direccionamiento de las consultas a los servidores correspondientes integración de resultados

direccionamiento de consultas consulta: document Library Science Computer Science Zoology Geology

browsing basado en Scatter/Gather (Cutting, et. al., SIGIR 92) Agrupar documentos en grupos temáticos Presentar resúmenes descriptivos a los usuarios Los usuarios pueden navegar y determinar posibles jerarquías de clusters Agrupar documentos en los clusters seleccionados y generar de resúmenes Recuperar documentos Library Science Computer Science Zoology Geology Information Retrieval Library Automation

de resultados consultas cortas (poco especificas) resultados relevantes e irrelevantes realizar sobre resultados ayuda a que los usuarios determinen su necesidades reales consulta: Multimedia Video Hypermedia Virtual Reality

de resultados requisitos coherentes posible solapamiento buenas descripciones para el usuario velocidad (snippet tolerance)

Grouper

Grouper

expansión de resultados documentos relevantes podrían no coincidir con consultas (vocabulario) recuperar un núcleo (core) de documentos que coincida con la consulta expandir resultados con documentos que no coincidan con la consulta pero que se agrupen con el núcleo consulta núcleo resultados expandidos

refinamiento de consultas documentos relevantes podrían no coincidir con consultas (vocabulario) computar dinámicamente términos que tengan el potencial de mejorar precision/recall y sugerirlos al usuario sugerencia de términos agrupar documentos en clusters por tema el usuario puede usar las frases que caracterizan al cluster para reformular consultas

Grouper

páginas web vs. texto simple Diferencia en la distribución léxica Páginas Web enriquecidas con recursos mulitmediales Estructura de enlaces/topología Uso de tags en páginas Web

tags en páginas HTML Tags para resaltar palabras importantes Bold <b>, Italic <i>, Underline <u>, Font <font> Tags para estructura de documento Title <title> Header <head> Headline <h1>, <h2>, <h3> List Items, <li> Tags para definir enlaces Anchor <a>

análisis de conectividad un enlace entre dos páginas establece una relación entre esas páginas La similaridad entre dos páginas podría estimarse mediante longitud del camino más corto entre las páginas suma de longitudes de caminos más cortos entre ancestro común y páginas suma de longitudes de caminos más cortos entre páginas y descendiente común B E F G A C H I D J

bibliografía Mining the Web: Discovering Knowledge from Hypertext Data, Soumen Chakrabarti, Morgan Kaufmann, 2002.