Recuperación y Acceso a la Información Tema 2. Recuperación en Internet
Contenidos Qué son los buscadores Web Tipología: motores, directorios y metabuscadores Problemas de los buscadores: Internet invisible Otros tipos de buscadores Tendencias en Internet: hacia la Web Semántica? Recuperación y Acceso a la Información 2
Qué es un Buscador? Un buscador es un software que busca en una base de datos o repositorio documental, conforme a algunos criterios específicos. Objetivos Indizar la red constantemente para permitir la consulta de sus índices Encontrar los documentos que contengan las palabras clave introducidas por el usuario Problemas técnicos de los buscadores sobre Internet Cantidad contenidos y necesidad actualización constante Diferentes formatos documentales (web, pdf, doc, jpg ) Diferentes tipos de información (noticias, blogs, ) Cantidad consultas por segundo Pueden generar una sobrecarga y saturación en los servidores Web Sobrecarga en la infraestructura de la red de comunicaciones. Tipos Motores de búsqueda Directorios o índices Meta-buscadores Recuperación y Acceso a la Información 3
Motores de búsqueda Qué son? Software con un sistema de recolección de URLs e indización automatizadas Características Muy exhaustivos Muy actualizados Problemas con la calidad de los resultados De qué depende que una página esté indizada? Y de que aparezca en 1ª posición? Dificultad para realizar ciertas consultas Con palabras ambiguas-> necesidad de aportar contexto Con flexibilidad en los términos o frases de búsqueda Con frases negativas-> necesidad de reformular Ej. +no*suspenso -> aprobado Dependientes del momento. Ej. va a llover mañana? Ejemplos Google Teoma (Ask.com) Bing Yahoo Search (ahora sustituido por Bing) Recuperación y Acceso a la Información 4
Directorios o índices Qué son? Sitio Web que gestiona una BD de recursos (propios o ajenos) Las URL están clasificadas en categorías, generalmente temáticas. Permiten búsqueda por navegación, aunque puedan disponer también de motor de búsqueda Características Clasificación de recursos en base a meta-información, no directamente contenido A veces seleccionados y clasificados manualmente Otras veces en base a etiquetas asignadas manualmente Suelen ser temáticos Si clasificados a mano: Datos poco actualizados y poco exhaustivos Resultados relevantes y páginas de calidad Ejemplos de directorios elaborados manualmente DMOZ ipl2 (fusión de Internet Public Library (IPL) y the Librarians' Internet Index (LII)) Directorio Yahoo! Recuperación y Acceso a la Información 5
Metabuscadores Qué son? Software que agrega los resultados de varios buscadores Características Sin base de datos propia Algoritmo para combinación de resultados Diferenciar de: Multibuscadores: lanzan la misma consulta en varios motores, pero no agregan los resultados. Ej. Mibusqueda Agentes de búsqueda: software con cierta autonomía y capacidad para adaptación al usuario. Algunos son para la búsqueda y recuperación de información. Ej. Copernic (metabuscador) Recuperación y Acceso a la Información 6
Ejemplos de metabuscadores MetaCrawler Dogpile Vivisimo www.metacrawler.com Elimina los duplicados www.dogpile.com motores distintos según categoría www.vivisimo.com/ con clusters y posición en cada buscador SurfWax http://www.surfwax.com/ en la opción focus con expansión de consultas en inglés mediante tesauro Ixquick Beaucoup un directorio http://www.ixquick.com/ con refinamiento de búsqueda http://www.beaucoup.com/ combina un metabuscador con Recuperación y Acceso a la Información 7
Ventajas de los metabuscadores Según un informe titulado Diferent Engines, Diferent Results llevado a cabo por Dogpile.com en 2007 [http://www.infospaceinc.com/onlineprod/overlap-differentenginesdifferentresults.pdf] Porcentaje de resultados exclusivos de un motor 88.3% Porcentaje de resultados compartidos entre motores Dos motores Tres motores Cuatro motores 8.9% 2.2% 0.6% Número de páginas no compartidas en primera posición Google Yahoo! MSN Live Ask Jeeves 72.7% 69.2% 69.9% 73% Recuperación y Acceso a la Información 8
Los 10 buscadores más utilizados Top 10 Search Providers for August 2009, Ranked by Searches (U.S.) Search Provider Searches (000) Month-on-Month Growth (%) Share of Searches (%) Total 10,812,734 2.9 100 Google 6,986,580 2.6 64.6 Yahoo 1,726,060-4.2 16 MSN/WindowsLive/Bing 1,156,415 22.1 10.7 AOL 333,231 1.8 3.1 Ask.com 186,270 2.9 1.7 My Web 128,432 0.5 1.2 Comcast 50,328-21.6 0.5 Yellow Pages 37,923 2.7 0.4 NexTag 31,830 0.4 0.3 Local.com 16,314 2.9 0.2 Source: Nielsen MegaView Search Recuperación y Acceso a la Información 9
Bases de datos de los buscadores Influye en la elección del buscador el tamaño de su base de datos? Tamaño de la base de datos en billones de páginas (2005) Google Yahoo! Ask Jeeves MSN Live 8.1 4.2 (estimado) 2.5 5 Fuente: Gulli and A. Signorini. Building an open source metasearch engine. In 14th WWW, 2005. Curiosidad: no todos los buscadores tienen su propia base de datos; algunos la comparten. Las principales bases de datos de buscadores: Google Yahoo/MSN Teoma Gigablast Exalead /Quaero Recuperación y Acceso a la Información 10
Problemas de los buscadores: Internet Invisible Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado Sector de sitios y de páginas Web que no pueden indizar los motores de búsqueda de uso público Motivos: Acceso mediante clave Sitos excluídos expresamente Información contenida en bases de datos, consultable dinámicamente (ej. catálogos de las bibliotecas) Formatos no soportados Tipos de documentos no textuales: imágenes, vídeos, música, etc. Aproximadamente tiene un 50% más de tráfico que el visible Hay buscadores específicos para este tipo de información: - Turbo10 http://turbo10.com - Internet Invisible http://www.internetinvisible.com - Invisible Web http://www.invisible-web.net/ - Complete Planet http://www.completeplanet.com - Librarian's Index to the Internet http://www.lii.org - Infomine http://infomine.ucr.edu/ - Look Smart http://search.looksmart.com/ - Easy searcher http://www.easysearcher.com sin buscador, sólo con directorio - Research Index http://citeseer.ist.psu.edu/ los primeros en crear un directorio de pdfs Recuperación y Acceso a la Información 11
Recuperación de imágenes Tradicionalmente con metadatos, texto asociado a la imagen por nombre del fichero, texto de la página, descripción, metadatos asociados Google Images Flickr http://www.flickr.com/ Para asociar descriptores a las imágenes y mejorar la calidad de su buscador de imágenes, Google utiliza el Google Image Labeler, donde a modo de concurso los usuarios van etiquetando las imágenes: http://images.google.com/imagelabeler/ Actualmente ya es posible buscar directamente imágenes similares a una dada: Retriev (http://labs.systemone.at/retrievr/) permite realizar búsquedas directamente por imágenes, ya sea creando una muy simple o introduciendo una imagen. Buscan en las imágenes de Flickr y lo hace mediante transformada wavelet Similar Images de Google Labs http://similar-images.googlelabs.com/ Otros buscadores de este tipo: Riya: ya desaparecido, proporcionaba reconocimiento de caras, tal y como hoy lo hace Google Picasa Tiltomo: utiliza la base de datos de flickr y permite dos tipos de búsqueda, por materia, color y textura, o sólo por color y textura http://www.tiltomo.com/ Recuperación y Acceso a la Información 12
Recuperación de música Área muy nueva en Recuperación de Información (10+ años) Empezó usando técnicas de recuperación de texto Audio (wav, mp3 ) o Simbólica (midi, musicxml ) Tiene varios problemas particulares de la música Especificar las consultas Mostrar los resultados Tradicionalmente con metadatos (autor, título, álbum ) Tiene muchas aplicaciones: Identificación Detección de plagio, de versiones, de influencia entre autores Recomendación por gusto musical o similitud Generación de pentagramas a partir de audio Hay sistemas a escala industrial, pero la mayoría sigue siendo experimental sobre colecciones pequeñas Shazam http://www.shazam.com C-Brahms http://www.cs.helsinki.fi/group/cbrahms/demoengine Musipedia http://www.musipedia.org Liveplasma http://www.liveplasma.com R.Typke et.al., "A Survey of Music Information Retrieval Systems", ISMIR, 2005 Recuperación y Acceso a la Información 13
Otros tipos de buscadores: Sistemas pregunta respuesta Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado Buscadores Pregunta-Respuesta: Powerset: http://www.powerset.com/ Answers.com http://www.answers.com/ Start http://start.csail.mit.edu/ Natural Finder http://demos.bitext.com/live Asistentes virtuales A.L.I.C.E Jabberwacky Ella Chomsky IKEA Recuperación y Acceso a la Información 15
Web Semántica Tecnologías: RDF, XML, OWL, SPARQL, Principal organismo regulador: W3C Herramientas: Buscador de esquemas semánticos (ej. Swoogle, Watson, Sindice, Falcons) Editores de esquemas (ej. Protegé) Api s para gestión de estándares (más en unos lenguajes que en otros) Razonadores (ej. Pellet) Etiquetadores semánticos (ej. Open Calais) Grandes beneficios para los buscadores: aporta semántica consensuada, permite inferencia, consultas más complejas Recuperación y Acceso a la Información 16
Buscadores de la Web semántica http://iws.seu.edu.cn/services/falcons/ http://dbpedia.org/page/george_washington Recuperación y Acceso a la Información 17
Web 2.0 Entornos cooperativos: wiki, bittorrent, youtube, tagging (flickr, del.icio.us), bifri.net Notar que se prefiere lenguaje libre, por lo que la recuperación es más a manera de cluster que de taxonomía (no se confia en un organismo regulador como W3C o Ontologías y metadatos centralizados de forma poco usable y accesible) Las aplicaciones y estándares tienen o código abierto o son libres: XML, Dublin Core, entornos linux, JAVA, javascript, php, apache, mysql... Se tiene más en cuenta la opinión del usuario: tagging, pagerank, reseñas amazon, wikipedia. El web pasa a tener medios estandarizados para publicar en la web: blogs, myspace, wikipedia (además se pueden personalizar los contenidos y no se necesita mucho conocimiento por parte del usuario). Se mejora la accesibilidad: SEO, Adsense, sindicación (sobre todo ATOM) Los servicios Web tienden a preferirse a bajarse una aplicación:servicios seo, analytics, apis de google... Fuentes: http://en.wikipedia.org/wiki/web_2 http://www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html Recuperación y Acceso a la Información 18
Web 2.0 vs. Web Semántica Web 2.0 Web Semántica Origen Constatación de la evolución natural de la Web Implantación Muy alta Escasa Propuesta de Tim Berners para evolucionar la Web Coordinación No existe Centralizada, sobre todo por el W3C Foco Personas Aplicaciones informáticas Creación 2003, 1ª conferencia 2004 1999 (Berners-Lee, 1999) Expresión Algunas características Lenguaje libre, expresado mediante folksonomías, palabras clave denominadas etiquetas (tags), con problemas de sinonimia y polisemia Descripción de los recursos para mejorar su distribución gratuita, se comparte conocimiento y desarrollos Arquitectura de colaboración Usabilidad alta Recurso más útil cuanto más uso tenga Lenguaje controlado, mediante lenguajes para expresión de ontologías, KOS y vocabularios de metadatos Utilización de un lenguaje estandarizado con sintaxis uniforme y semántica no ambigua Interoperabilidad: Intercambio de información entre cualquier repositorio Usabilidad escasa Recuperación y Acceso a la Información 19
Web 2.0 vs. Web Semántica (II) Tratan diferentes dimensiones del Web La Web Semántica, crea ontologías con semántica muy formalizada y consensuada dirigida a aplicaciones software. La Web Social crea mecanismos locales de colaboración con gran usabilidad y dirigidos al usuario. Entran en confrontación por: Las ontologías son poco legibles (cuello de botella por RDF y OWL) por personas y costosas de crear. Las folksonomías son difíciles de interpretar por aplicaciones (polisemia y ambigüedad) pero su creación tiene bajo coste y esfuerzo No hay herramientas de la Web Semántica amigables para los usuarios. Los recursos de la Web Social no son amigables para las aplicaciones Técnicas automáticas de creación de ontologías inmaduras Duplicidades de vocabularios de metadatos (p.e. SKOS-Core, los PSI, Zthes y MADS) Recuperación y Acceso a la Información 20
Web 2.0 vs. Web Semántica (III) Fuente: Flink: Semantic Web technology for the extraction and analysis of social networks. Peter Mika, 2005 Recuperación y Acceso a la Información 21
Posibilidades evolución Web Evolución? Web 2.0 Web Semántica Web 2.0 Convergencia? Web 3.0 Web Semántica Convivencia? Web 2.0 Web Semántica La evolución no se hará de forma natural pues parten de diferentes dimensiones La convivencia tiene sentido como mecanismos de bajo coste para representar recursos de la Web Invisible con escaso valor La convergencia implica tomar medidas para que la evolución sea posible Recuperación y Acceso a la Información 22