Recuperación y Acceso a la Información

Documentos relacionados
Buscadores basados en agentes inteligentes

Computing, nuevos horizontes para

PROGRAMA FORMATIVO INTERNET: BLOGS Y POSICIONAMIENTO WEB

EVALUACIÓN DE BUSCADORES WEB Y RECUPERACIÓN DE INFORMACIÓN

ESTRATEGIAS RECOMENDADAS PARA BUSCAR INFORMACION EN INTERNET

Máster en Lenguajes y Sistemas Informáticos: Tecnologías del Lenguaje en la Web Universidad de Educación a Distancia Marzo 2013

Buscadores y sus características.

Panorama actual de las fuentes de información digital

Jornadas de INCLUSION DIGITAL. a través de las TIC ORGANIZAN: CAPACITA: CLAEH

BUSCADORES Y DIRECTORIOS

Los servicios más comunes son como por ejemplo; el correo electrónico, la conexión remota, la transferencia de ficheros, noticias, etc.


Informe de. posicionamiento online

Qué es una página web?, qué conoces al respecto?, sabes crear una página

O jeto de apre r ndizaje

DISEÑO DEL PLAN DOCENTE EN EL EEES. 3. Herramientas para gestión y colaboración entre profesores y alumnos

Objetos digitales, Wikis, Escritorios virtuales personalizados

Gestor de Contenidos CMS. Prof: Ing. Henrry Servitá

Búsqueda y gestión de las fuentes de información digital Seminario-Taller Sergio Llano

Conceptos y Herramientas POSICIONAMIENTO WEB. 1

Buscadores en Internet. capítulo 05

Introducción. Metadatos

4º Jornada sobre la Biblioteca Digital Universitaria. La Web y las bibliotecas digitales en el ámbito académico: acceso, interacción, visibilidad

La Web Semántica como herramienta para e-learning

Trabaja desde cualquier ubicación con conexión a Internet. Los puestos clientes sólo precisan de un navegador web.

ÍNDICE. Qué es OAISTORE? Qué es OAI-PMH? Qué significa OAIstore? Qué servicios ofrece OAIstore? Por qué publicar documentos en OAIstore?

TENDENCIAS EN LA PRESTACIÓN DE SERVICIOS EN BIBLIOTECAS VIRTUALES. Lic. Maria Isabel Vargas Billon

Técnicas de marketing online y evolución de los medios

USO DE LA TECNOLOGIA COMO RECURSO PARA LA ENSEÑANZA. Sistema de búsqueda en Internet. Mtro. Julio Márquez Rodríguez

MODULO 2. WIKIS. 1. Wikis: concepto y características. Curso IAAP Alfabetización en Bibliotecas

CRECE EN INTERNET. Llegar a buen puerto: buscando información

COMUNICACIONES TECNIMAP 2007

Posicionamiento en buscadores. Curso Blogger Profesional Plan Nacional de Formación Junio 2013,

ASÍ CONSIGUES QUE TU WEB FUNCIONE EN BUSCADORES:

PROPUESTA DE DESARROLLO DE SITIO WEB AVANZADO


Mi Negocio en Línea. DESCRIPCIÓN y CONCEPTO DEL PRODUCTO

Qué necesito saber para tener mi sitio web en Internet?

XII Congreso Nacional de Informática de la Salud

SIETE COSAS QUE USTED DEBERÍA SABER SOBRE MARCADORES COLECTIVOS*


Herramientas colaborativas en el aula: Web 2.0

Usabilidad y comercio electrónico

ADT CONSULTING S.L. PROYECTO DE DIFUSIÓN DE BUENAS PRÁCTICAS

GeoPortal de Integración de Infraestructuras Hoteleras

Servicios y aplicaciones clave de la web 2.0

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012

Sector MEDIA VERBIO TECHNOLOGIES. THINKING SPEECH TECHNOLOGIES OUT OF THE BOX

ikimap. Comparte cartografía.

Cómo posicionar su sitio web a través de buscadores de Internet

SEO PARA PRINCIPIANTES

Capacitación SEO. William Yon - Analista de Digital Analytics - Agosto 2014

METADATOS Y SITIOS WEB

Contenidos. 1. Requisitos del proyecto... 2

Posicionamiento en buscadores y Diseño de páginas Web PRODUCTOS Y SERVICIOS.

Herramientas gratis que le brinda Google para generar ventas exitosas. Jornada de Tecnología 2009 Centro de Desarrollo Empresarial - Latinpyme

Capítulo 1. Introducción

Informes de Reputación Online. Conozca la presencia en Internet y Redes Sociales sobre cualquier marca, concepto o empresa española.

Fuentes de información y derechos de autor

Integración de Magento & Dynamics NAV

electrónicas en la difusión de contenidos microbiológicos Joseba Bikandi

La información biomédica en los motores de búsqueda: Recuperación y evaluación

Computing, nuevos horizontes para

Optimización para buscadores en Plataforma Domestika

TECNOLOGÍAS DE LA INFORMACIÓN Y LA COMUNICACIÓN. Marketing tradicional y marketing 2.0.

ASESORÍA GASA SL Sra. Yolanda Casadevall C. Castanyer 25 bajos Barcelona Sant Cugat del Valles, 16 de octubre de 2012

Google Site Search Búsqueda de sitios web de Google para tu organización

SEO para los sitios web de la Universidad Nebrija

Análisis de tu sitio web: posicionamiento y marketing online

Sistemas de Recuperación de Información

Gestores de contenidos

Cuando Internet empezó a crecer y la cantidad de información disponible aumentó desmesuradamente,

Gestores de contenidos

También comparten un segmento importante, los motores de búsqueda proveídos por estos, a diferentes sitios Web.

EVALUACION DE EXPLORIT EN FUNCION DE LAS CONSULTAS A METABUSCADOR

Al ser autoadministrable no tienes limitaciones de contenido ni artículos, dado que usted puede agregar y quitar información cuando lo desee.

Posicionamiento de Páginas Web: Análisis y Evaluación

Drupal 7 Web Semántica al alcance de todos. Juan Antonio Pastor Sánchez (pastor@um.es) Universidad de Murcia

UNIVERSIDAD TECNOLÓGICA DE PEREIRA

Introducción CAPÍTULO 1

Community Management y SEO

Resumen de la Tesina. Autor: Adrià Batet López. Tutor: Víctor Pascual Ayats

Soluciones de software para RI

Seminario Las Redes Sociales y la nueva empresa en el proceso de lanzamiento y plan comercial.

Posicionamiento WEB POSICIONAMIENTO WEB GARANTIZADO

TECNOLOGÍAS LINGÜÍSTICAS Y ACCESO A LA INFORMACIÓN: LA EXPERIENCIA DE BITEXT EN LA ADMINISTRACIÓN PÚBLICA

Los requisitos de accesibilidad en un proyecto software. Implicaciones de usuarios discapacitados en el proceso software

[15/2/2013] PROMOCIÓN Y DIFUSIÓN

Técnicas para mejorar nuestro Posicionamiento

Centro de Interoperabilidad Semántica y Sistema de Gestión de Mensajes de Intercambio

POSICIONAR LA WEB INTERNACIONAL, TÉCNICAS DE POSICIONAMIENTO SEO SEM

NETVIBES : PLATAFORMA COLABORATIVA EN BIBLIOTECAS MEDICAS 2.0 OPEN MEDICAL LIBRARY PROJECT

Buscadores Web. Referencias: Curso: Recuperación de Información 2002/1.

FORMACIÓN PRÁCTICA: Al propio ritmo de aprendizaje, sin condicionantes de grupo y atendido personalmente por un profesorado especializado.

Instituto Politécnico Nacional. Escuela Superior de Turismo

POSICIONAMIENTO EN LA WEB (SEM Y SEO)

Son sitios web periódicamente actualizados que recopilan cronológicamente artículos (que pueden contener texto, vídeo, fotos y enlaces a otras

Marketing en Internet Posicionamiento en Buscadores. Alicia Pac SatiPyme Zaragoza

Guía básica de Google AdWords

MÓDULO IV INTERNET: ESTRATEGIAS DE BÚSQUEDA DE INFORMACIÓN ACADÉMICA PROGRAMA DE EDUCACIÓN EN INFORMACIÓN

Transcripción:

Recuperación y Acceso a la Información Tema 2. Recuperación en Internet

Contenidos Qué son los buscadores Web Tipología: motores, directorios y metabuscadores Problemas de los buscadores: Internet invisible Otros tipos de buscadores Tendencias en Internet: hacia la Web Semántica? Recuperación y Acceso a la Información 2

Qué es un Buscador? Un buscador es un software que busca en una base de datos o repositorio documental, conforme a algunos criterios específicos. Objetivos Indizar la red constantemente para permitir la consulta de sus índices Encontrar los documentos que contengan las palabras clave introducidas por el usuario Problemas técnicos de los buscadores sobre Internet Cantidad contenidos y necesidad actualización constante Diferentes formatos documentales (web, pdf, doc, jpg ) Diferentes tipos de información (noticias, blogs, ) Cantidad consultas por segundo Pueden generar una sobrecarga y saturación en los servidores Web Sobrecarga en la infraestructura de la red de comunicaciones. Tipos Motores de búsqueda Directorios o índices Meta-buscadores Recuperación y Acceso a la Información 3

Motores de búsqueda Qué son? Software con un sistema de recolección de URLs e indización automatizadas Características Muy exhaustivos Muy actualizados Problemas con la calidad de los resultados De qué depende que una página esté indizada? Y de que aparezca en 1ª posición? Dificultad para realizar ciertas consultas Con palabras ambiguas-> necesidad de aportar contexto Con flexibilidad en los términos o frases de búsqueda Con frases negativas-> necesidad de reformular Ej. +no*suspenso -> aprobado Dependientes del momento. Ej. va a llover mañana? Ejemplos Google Teoma (Ask.com) Bing Yahoo Search (ahora sustituido por Bing) Recuperación y Acceso a la Información 4

Directorios o índices Qué son? Sitio Web que gestiona una BD de recursos (propios o ajenos) Las URL están clasificadas en categorías, generalmente temáticas. Permiten búsqueda por navegación, aunque puedan disponer también de motor de búsqueda Características Clasificación de recursos en base a meta-información, no directamente contenido A veces seleccionados y clasificados manualmente Otras veces en base a etiquetas asignadas manualmente Suelen ser temáticos Si clasificados a mano: Datos poco actualizados y poco exhaustivos Resultados relevantes y páginas de calidad Ejemplos de directorios elaborados manualmente DMOZ ipl2 (fusión de Internet Public Library (IPL) y the Librarians' Internet Index (LII)) Directorio Yahoo! Recuperación y Acceso a la Información 5

Metabuscadores Qué son? Software que agrega los resultados de varios buscadores Características Sin base de datos propia Algoritmo para combinación de resultados Diferenciar de: Multibuscadores: lanzan la misma consulta en varios motores, pero no agregan los resultados. Ej. Mibusqueda Agentes de búsqueda: software con cierta autonomía y capacidad para adaptación al usuario. Algunos son para la búsqueda y recuperación de información. Ej. Copernic (metabuscador) Recuperación y Acceso a la Información 6

Ejemplos de metabuscadores MetaCrawler Dogpile Vivisimo www.metacrawler.com Elimina los duplicados www.dogpile.com motores distintos según categoría www.vivisimo.com/ con clusters y posición en cada buscador SurfWax http://www.surfwax.com/ en la opción focus con expansión de consultas en inglés mediante tesauro Ixquick Beaucoup un directorio http://www.ixquick.com/ con refinamiento de búsqueda http://www.beaucoup.com/ combina un metabuscador con Recuperación y Acceso a la Información 7

Ventajas de los metabuscadores Según un informe titulado Diferent Engines, Diferent Results llevado a cabo por Dogpile.com en 2007 [http://www.infospaceinc.com/onlineprod/overlap-differentenginesdifferentresults.pdf] Porcentaje de resultados exclusivos de un motor 88.3% Porcentaje de resultados compartidos entre motores Dos motores Tres motores Cuatro motores 8.9% 2.2% 0.6% Número de páginas no compartidas en primera posición Google Yahoo! MSN Live Ask Jeeves 72.7% 69.2% 69.9% 73% Recuperación y Acceso a la Información 8

Los 10 buscadores más utilizados Top 10 Search Providers for August 2009, Ranked by Searches (U.S.) Search Provider Searches (000) Month-on-Month Growth (%) Share of Searches (%) Total 10,812,734 2.9 100 Google 6,986,580 2.6 64.6 Yahoo 1,726,060-4.2 16 MSN/WindowsLive/Bing 1,156,415 22.1 10.7 AOL 333,231 1.8 3.1 Ask.com 186,270 2.9 1.7 My Web 128,432 0.5 1.2 Comcast 50,328-21.6 0.5 Yellow Pages 37,923 2.7 0.4 NexTag 31,830 0.4 0.3 Local.com 16,314 2.9 0.2 Source: Nielsen MegaView Search Recuperación y Acceso a la Información 9

Bases de datos de los buscadores Influye en la elección del buscador el tamaño de su base de datos? Tamaño de la base de datos en billones de páginas (2005) Google Yahoo! Ask Jeeves MSN Live 8.1 4.2 (estimado) 2.5 5 Fuente: Gulli and A. Signorini. Building an open source metasearch engine. In 14th WWW, 2005. Curiosidad: no todos los buscadores tienen su propia base de datos; algunos la comparten. Las principales bases de datos de buscadores: Google Yahoo/MSN Teoma Gigablast Exalead /Quaero Recuperación y Acceso a la Información 10

Problemas de los buscadores: Internet Invisible Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado Sector de sitios y de páginas Web que no pueden indizar los motores de búsqueda de uso público Motivos: Acceso mediante clave Sitos excluídos expresamente Información contenida en bases de datos, consultable dinámicamente (ej. catálogos de las bibliotecas) Formatos no soportados Tipos de documentos no textuales: imágenes, vídeos, música, etc. Aproximadamente tiene un 50% más de tráfico que el visible Hay buscadores específicos para este tipo de información: - Turbo10 http://turbo10.com - Internet Invisible http://www.internetinvisible.com - Invisible Web http://www.invisible-web.net/ - Complete Planet http://www.completeplanet.com - Librarian's Index to the Internet http://www.lii.org - Infomine http://infomine.ucr.edu/ - Look Smart http://search.looksmart.com/ - Easy searcher http://www.easysearcher.com sin buscador, sólo con directorio - Research Index http://citeseer.ist.psu.edu/ los primeros en crear un directorio de pdfs Recuperación y Acceso a la Información 11

Recuperación de imágenes Tradicionalmente con metadatos, texto asociado a la imagen por nombre del fichero, texto de la página, descripción, metadatos asociados Google Images Flickr http://www.flickr.com/ Para asociar descriptores a las imágenes y mejorar la calidad de su buscador de imágenes, Google utiliza el Google Image Labeler, donde a modo de concurso los usuarios van etiquetando las imágenes: http://images.google.com/imagelabeler/ Actualmente ya es posible buscar directamente imágenes similares a una dada: Retriev (http://labs.systemone.at/retrievr/) permite realizar búsquedas directamente por imágenes, ya sea creando una muy simple o introduciendo una imagen. Buscan en las imágenes de Flickr y lo hace mediante transformada wavelet Similar Images de Google Labs http://similar-images.googlelabs.com/ Otros buscadores de este tipo: Riya: ya desaparecido, proporcionaba reconocimiento de caras, tal y como hoy lo hace Google Picasa Tiltomo: utiliza la base de datos de flickr y permite dos tipos de búsqueda, por materia, color y textura, o sólo por color y textura http://www.tiltomo.com/ Recuperación y Acceso a la Información 12

Recuperación de música Área muy nueva en Recuperación de Información (10+ años) Empezó usando técnicas de recuperación de texto Audio (wav, mp3 ) o Simbólica (midi, musicxml ) Tiene varios problemas particulares de la música Especificar las consultas Mostrar los resultados Tradicionalmente con metadatos (autor, título, álbum ) Tiene muchas aplicaciones: Identificación Detección de plagio, de versiones, de influencia entre autores Recomendación por gusto musical o similitud Generación de pentagramas a partir de audio Hay sistemas a escala industrial, pero la mayoría sigue siendo experimental sobre colecciones pequeñas Shazam http://www.shazam.com C-Brahms http://www.cs.helsinki.fi/group/cbrahms/demoengine Musipedia http://www.musipedia.org Liveplasma http://www.liveplasma.com R.Typke et.al., "A Survey of Music Information Retrieval Systems", ISMIR, 2005 Recuperación y Acceso a la Información 13

Otros tipos de buscadores: Sistemas pregunta respuesta Julián Urbano, Jorge Morato, Mónica Marrero, Sonia Sánchez-Cuadrado Buscadores Pregunta-Respuesta: Powerset: http://www.powerset.com/ Answers.com http://www.answers.com/ Start http://start.csail.mit.edu/ Natural Finder http://demos.bitext.com/live Asistentes virtuales A.L.I.C.E Jabberwacky Ella Chomsky IKEA Recuperación y Acceso a la Información 15

Web Semántica Tecnologías: RDF, XML, OWL, SPARQL, Principal organismo regulador: W3C Herramientas: Buscador de esquemas semánticos (ej. Swoogle, Watson, Sindice, Falcons) Editores de esquemas (ej. Protegé) Api s para gestión de estándares (más en unos lenguajes que en otros) Razonadores (ej. Pellet) Etiquetadores semánticos (ej. Open Calais) Grandes beneficios para los buscadores: aporta semántica consensuada, permite inferencia, consultas más complejas Recuperación y Acceso a la Información 16

Buscadores de la Web semántica http://iws.seu.edu.cn/services/falcons/ http://dbpedia.org/page/george_washington Recuperación y Acceso a la Información 17

Web 2.0 Entornos cooperativos: wiki, bittorrent, youtube, tagging (flickr, del.icio.us), bifri.net Notar que se prefiere lenguaje libre, por lo que la recuperación es más a manera de cluster que de taxonomía (no se confia en un organismo regulador como W3C o Ontologías y metadatos centralizados de forma poco usable y accesible) Las aplicaciones y estándares tienen o código abierto o son libres: XML, Dublin Core, entornos linux, JAVA, javascript, php, apache, mysql... Se tiene más en cuenta la opinión del usuario: tagging, pagerank, reseñas amazon, wikipedia. El web pasa a tener medios estandarizados para publicar en la web: blogs, myspace, wikipedia (además se pueden personalizar los contenidos y no se necesita mucho conocimiento por parte del usuario). Se mejora la accesibilidad: SEO, Adsense, sindicación (sobre todo ATOM) Los servicios Web tienden a preferirse a bajarse una aplicación:servicios seo, analytics, apis de google... Fuentes: http://en.wikipedia.org/wiki/web_2 http://www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html Recuperación y Acceso a la Información 18

Web 2.0 vs. Web Semántica Web 2.0 Web Semántica Origen Constatación de la evolución natural de la Web Implantación Muy alta Escasa Propuesta de Tim Berners para evolucionar la Web Coordinación No existe Centralizada, sobre todo por el W3C Foco Personas Aplicaciones informáticas Creación 2003, 1ª conferencia 2004 1999 (Berners-Lee, 1999) Expresión Algunas características Lenguaje libre, expresado mediante folksonomías, palabras clave denominadas etiquetas (tags), con problemas de sinonimia y polisemia Descripción de los recursos para mejorar su distribución gratuita, se comparte conocimiento y desarrollos Arquitectura de colaboración Usabilidad alta Recurso más útil cuanto más uso tenga Lenguaje controlado, mediante lenguajes para expresión de ontologías, KOS y vocabularios de metadatos Utilización de un lenguaje estandarizado con sintaxis uniforme y semántica no ambigua Interoperabilidad: Intercambio de información entre cualquier repositorio Usabilidad escasa Recuperación y Acceso a la Información 19

Web 2.0 vs. Web Semántica (II) Tratan diferentes dimensiones del Web La Web Semántica, crea ontologías con semántica muy formalizada y consensuada dirigida a aplicaciones software. La Web Social crea mecanismos locales de colaboración con gran usabilidad y dirigidos al usuario. Entran en confrontación por: Las ontologías son poco legibles (cuello de botella por RDF y OWL) por personas y costosas de crear. Las folksonomías son difíciles de interpretar por aplicaciones (polisemia y ambigüedad) pero su creación tiene bajo coste y esfuerzo No hay herramientas de la Web Semántica amigables para los usuarios. Los recursos de la Web Social no son amigables para las aplicaciones Técnicas automáticas de creación de ontologías inmaduras Duplicidades de vocabularios de metadatos (p.e. SKOS-Core, los PSI, Zthes y MADS) Recuperación y Acceso a la Información 20

Web 2.0 vs. Web Semántica (III) Fuente: Flink: Semantic Web technology for the extraction and analysis of social networks. Peter Mika, 2005 Recuperación y Acceso a la Información 21

Posibilidades evolución Web Evolución? Web 2.0 Web Semántica Web 2.0 Convergencia? Web 3.0 Web Semántica Convivencia? Web 2.0 Web Semántica La evolución no se hará de forma natural pues parten de diferentes dimensiones La convivencia tiene sentido como mecanismos de bajo coste para representar recursos de la Web Invisible con escaso valor La convergencia implica tomar medidas para que la evolución sea posible Recuperación y Acceso a la Información 22