Algoritmos y Estructuras de Datos 2 Web Mining Esteban Meneses 2005
Motivación La Web contiene miles de millones de documentos con información sobre casi cualquier tópico. Es la Biblioteca de Alejandría de nuestro tiempo. Muchos de los datos necesitan ser analizados para ser recuperados. Esteban Meneses 2
Contenido Introducción. Análisis de la Web. Un caso de estudio. Arquitectura de análisis. Page Rank. Clasificación de las páginas web. Proyecto Klá. Conclusiones. Esteban Meneses 3
Introducción La World Wide Web es el repositorio más grande y mejor conocido de información en el mundo. Contiene millones de documentos distribuidos alrededor del planeta sin una edición común. Los datos están semi-estructurados (HTML). Más de un millón de páginas son agregadas diariamente. Esteban Meneses 4
Buscadores Esteban Meneses 5
Web Mining Es el análisis de los datos presentes en la Web, tratando de descubrir patrones para superar la falta de estructura. Número de páginas: 8 058 044 651 (tomado de www.google.com el 08/04/2005) Tiene sentido analizar un subconjunto de la Web, por ejemplo, La Web Costarricense. Esteban Meneses 6
Web Mining Web Mining Análisis Contenido Web Análisis Estructura Web Análisis Uso Web Esteban Meneses 7
Análisis de la Estructura Análisis de la topología de la Web. Usado en Google para hacer ranking. La Web es un grafo dirigido: los sitios son los nodos y los links son los enlaces. Componente principal: componente fuertemente conexa más grande que existe en la Web. Esteban Meneses 8
Grafo de la Web IN MAIN OUT ISLANDS Esteban Meneses 9
Análisis del Contenido Descubrir la temática de las páginas. bioinformática......... bioinformática... Definir interrelaciones entre las páginas. bioinformática bioinformática www.inbio.ac.cr www.catedra.cic.itcr.ac.cr Esteban Meneses 10
Mejorar búsquedas BUSCAR bioinformática www.inbio.ac.cr www.catedra.cic.itcr.ac.cr www.bioinfo.com Esteban Meneses 11
Análisis de Uso Análizar el patrón de uso de la web. Palabras más buscadas. Sitios más visitados. Tiempo promedio de visita en un sitio. Número de links utilizados. Mejoras en el diseño web. Esteban Meneses 12
Web chilena Universidad de Chile, Centro para la Investigación de la Web (2002). Evolución de la Web chilena: Año 2000 2001 2002 Páginas 730673 794218 2214253 Sitios 10352 21207 39320 Dominios 9102 19389 35520 Esteban Meneses 13
Web chilena Palabras más buscadas: gratis, fotos, chile, sexo, historia, argentina, mp3, mexico, juegos, musica, manual, download, videos, software, ley. El 54% de los sitios contiene 1 sola página. El promedio de una página es de 11 Kb. El 49% de las páginas dinámicas está hecho en PHP, el 40% en ASP. Esteban Meneses 14
Arquitectura Programas: Spiders. Recolectores. Analizadores. Resultados: Estadísticas globales. Rankings. Esteban Meneses 15
Implementaciones Ejemplos: Biblioteca w3c-libwww Biblioteca WIRE. Crawler Mercator. Lenguajes: C/C++ Java. Esteban Meneses 16
Page Rank Medida de la autoridad de una página. Parecido a la autoridad en las referencias bibliográficas. Basado en las referencias a las páginas. Utilizado para hacer ranking de páginas. Esteban Meneses 17
Page Rank A C B D E Esteban Meneses 18
Clasificación Web Clustering de páginas o sitios. Problema: definir una medida de similaridad. Elementos: Tokens textuales. Etiquetas marcadas. URLs. Direcciones IP. Esteban Meneses 19
Clasificación Web Visualización de resultados. Aplicados en diseño de taxonomías y búsquedas por similaridad. Hipótesis de cluster: dado un clustering adecuado de una colección, si el usuario está interesado en el documento d, probablemente estará interesado en otros miembros del cluster de d. Esteban Meneses 20
Clasificación Web Estrategias: Clustering aglomerativo. k-means. Self Organizing Maps. Multidimensional Scaling. Latent Semantic Indexing. Probabilistic Indexing. Summarization. Esteban Meneses 21
Directorio Yahoo Tomado Esteban de Meneses www.yahoo.com 22
Mooter Tomado Esteban de Meneses www.mooter.com 23
Proyecto Klá En desarrollo en el CIC-ITCR. Uso de herramientas open-source. Construcción de crawlers en.net. Esteban Meneses 24
Proyecto Klá Análisis de la Web costarricense. Evolución de la Web costarricense. Mejora en la recuperación de la información presente en la Web de Costa Rica. Información útil para diseñadores de páginas web. Información para establecer estrategias de negocios de las PYMES en la web. Esteban Meneses 25
Buscador Klá Esteban Meneses 26
Web costarricense Composición Todos los sitios bajo el dominio.cr Todos los sitios cuyo IP esté en Costa Rica. Documentos: Archivos.html,.doc.,.ppt,.pdf,.txt Multimedia: sonido, video, imágenes. Páginas dinámicas. Esteban Meneses 27
Web costarricense Tomado Esteban de Meneses www.nic.cr (08/04/2005) 28
Conclusiones La Web es el repositorio de información más grande y más cambiante en el mundo ( infinito?). Sí se pueden aplicar técnicas de análisis de datos para extraer mucha información valiosa. La clasificación de las páginas web es un problema todavía abierto a nuevas posibilidades. Esteban Meneses 29
Gracias Esteban Meneses 30