2 Representación y Análisis Semántico. 3 Semántica Léxica. 5 Extracción de Información. 4 Recuperación de Información



Documentos relacionados
1 Tema 1: Internet. 2 Tema 2: La web. 3 Tema 3: Principios de Recuperación de Información. 5 Tema 5: Búsqueda avanzada en la web

Recuperación de Información en Internet Tema 3: Principios de Recuperación de Información

Sistemas de Recuperación de Información

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012

1 Conceptos de PLN: Análisis Morfológico y Etiquetación. 2 Conceptos de PLN: Análisis Sintáctico Superficial. 3 Conceptos de PLN: Semántica Léxica

Procesamiento de Texto y Modelo Vectorial

Introducción a la Recuperación de Información

LENGUAJES NATURALES. TEMA. Extracción y Recuperación de Información

Es necesario conocer otras dos herramientas de búsqueda en Internet: los «metabuscadores» ó «motores de búsqueda» y los «portales».

GENERALIDADES DE BASES DE DATOS

MODELOS DE RECUPERACION

Reseñas. Ángeles Maldonado y Elena Fernández, Cindoc. El profesional de la información, vol. 9, nº 3, marzo de 2000

También comparten un segmento importante, los motores de búsqueda proveídos por estos, a diferentes sitios Web.

Análisis y síntesis El proceso documental Lenguajes documentales El proceso de indización El resumen documental

Evolución de la IR Web e Integración de PLN y Web Semántica en los modelos clásicos de IR

Capítulo 12: Indexación y asociación

Máster en Lenguajes y Sistemas Informáticos: Tecnologías del Lenguaje en la Web Universidad de Educación a Distancia Marzo 2013

USO DE LA TECNOLOGIA COMO RECURSO PARA LA ENSEÑANZA. Sistema de búsqueda en Internet. Mtro. Julio Márquez Rodríguez

MÓDULO IV INTERNET: ESTRATEGIAS DE BÚSQUEDA DE INFORMACIÓN ACADÉMICA PROGRAMA DE EDUCACIÓN EN INFORMACIÓN

Microsoft SQL Server Conceptos.


BASE DE DATOS UNIVERSIDAD DE LOS ANDES FACULTAD DE MEDICINA T.S.U. EN ESTADISTICA DE SALUD CATEDRA DE COMPUTACIÓN II. Comenzar presentación

activuspaper Text Mining and BI Abstract

ESTRATEGIAS RECOMENDADAS PARA BUSCAR INFORMACION EN INTERNET

ASÍ CONSIGUES QUE TU WEB FUNCIONE EN BUSCADORES:

TEMA 4: EMPEZANDO A NAVEGAR ESCUELA UNIVERSITARIA DE INFORMÁTICA. Raúl Martín Martín

Conceptos y Herramientas POSICIONAMIENTO WEB. 1

Motores de Búsqueda Web Tarea Tema 2

Introducción a la Recuperación de información Information Retrieval

UNIDAD I: LÓGICA PROPOSICIONAL

CRECE EN INTERNET. Llegar a buen puerto: buscando información

BÚSQUEDA AVANZADA EN INTERNET

Modelo de BASE DE DATOS EBSCO

Recuperación de Información en el Contexto de la Ciencia de la Computación

Arquitectura de Aplicaciones

Buscadores en Internet. capítulo 05

Los servicios más comunes son como por ejemplo; el correo electrónico, la conexión remota, la transferencia de ficheros, noticias, etc.

Minería de Datos Web. 1 er Cuatrimestre Página Web. Prof. Dra. Daniela Godoy.

WINDOWS. Iniciando Windows. El mouse

Terminological support for exchange students. Creation of a German English Spanish online dictionary

El Libro del posicionamiento en buscadores Por David de Ugarte

Estructuras de Control - Diagrama de Flujo

Facultad de Economía Claudia Montserrat Martínez Stone CAPITULO IV EVALUACIÓN FINANCIERA

GuÍa rápida de uso. westlaw chile

Catoira Fernando Fullana Pablo Rodriguez Federico [MINERIA DE LA WEB] Proyecto Final - Informe Final

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Clasificación Bayesiana de textos y páginas web

Gestor de Contenidos CMS. Prof: Ing. Henrry Servitá

Buscadores basados en agentes inteligentes

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

3. Modelo relacional: Estructura e integridad.

RETO: Buscar información en Internet rápidamente utilizando adecuadamente los motores de búsqueda. Cómo busco información en Internet?

Google Site Search Búsqueda de sitios web de Google para tu organización

Tutorial Internet Explorer 5.5

MOTORES VERSUS DIRECTORIOS: EL DILEMA DE LA BÚSQUEDA

Índices de RI. UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Como buscar información en Internet sin naufragar en el intento

Indicaciones específicas para los análisis estadísticos.

Como Publicar Videos en YouTube. Cómo publicar en YouTube? Selecciona su idioma

Web of Science. Tarjeta de consulta rápida ISI Web of Knowledge SM WEB OF SCIENCE. 1 Búsqueda Rápida. 2 Búsqueda General

BIBLIOTECA CENTRAL. "Prof. Augusto Raúl Cortázar" Guía de Búsquedas. Avanzadas en Internet

Capítulo 1. Introducción

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

CAPITULO 2 - POR QUÉ NECESITAN LAS EMPRESAS UN CUADRO DE MANDO INTEGRAL?

Capítulo 9. Archivos de sintaxis

Jornadas de INCLUSION DIGITAL. a través de las TIC ORGANIZAN: CAPACITA: CLAEH

Maxpho Commerce 11. Gestión CSV. Fecha: 20 Septiembre 2011 Versión : 1.1 Autor: Maxpho Ltd

Servicios y aplicaciones clave de la web 2.0

Informes de Reputación Online. Conozca la presencia en Internet y Redes Sociales sobre cualquier marca, concepto o empresa española.

QuickQualifier POR QUÉ SYMANTEC BACKUP EXEC SYSTEM RECOVERY?...2 ARGUMENTOS DE PESO...2 PERSONAS DE CONTACTO CLAVES...4 PREGUNTAS GENERALES...

Parámetros con la ventana de selección de usuario, reglas, texto y descomposición (IVE)

PRESENTACIÓN DEL PRODUCTO

Mesa de Ayuda Interna

Buscar Información en Internet

XerKa, vigilancia a medida y flexible

WAN y Enrutamiento WAN

UN EJEMPLO DE BÚSQUEDA Tutorial sobre el uso de Google.

Base de datos en Excel

Qué es una página web?, qué conoces al respecto?, sabes crear una página

Sistema Inteligente de Exploración

Estructuras de Control - Diagrama de Flujo

Sistema de SaaS (Software as a Service) para centros educativos

Oferta tecnológica: Procesamiento del lenguaje natural para la extracción y recuperación de información

3.1. Introducción... 1

TECNÓLOGO EN INFORMÁTICA PLAN DE ESTUDIOS

Análisis de aplicación: Scribus

Tema 12: Contrastes Paramétricos

Integración de Magento & Dynamics NAV

Estadísticas de uso en Internet de sistemas operativos y navegadores en junio de 2014

Análisis de Redes Sociales de los Ministerios de Costa Rica setiembre 2012

Guía paso a paso para la cumplimentación del formulario de candidatura

Inteligencia aplicada a la protección de infraestructuras

Análisis de Redes Sociales

En la actualidad ASCII es un código de 8 bits, también conocido como ASCII extendido, que aumenta su capacidad con 128 caracteres adicionales

CONSTRUCCIÓN DEL PROCESO MESA DE AYUDA INTERNA. BizAgi Process Modeler

Ley Orgánica de Protección de Datos

Instituto Tecnológico de Celaya

PRESENTACIÓN PRODUCTO. Más que un software, el método más eficaz de conciliar.

ESCUELA SUPERIOR DE INFORMATICA Prácticas de Estadística UNA SESIÓN EN SPSS

Transcripción:

Índice Recuperación de Información 1 Gramáticas de Unificación 2 Representación y Análisis Semántico 3 Semántica Léxica 4 Recuperación de Información 5 Extracción de Información Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 31 / 116

Introducción Recuperación de Información (RI) A.k.a. Information Retrieval (IR) Def.: área de la ciencia y la tecnología que trata de la representación, almacenamiento, organización y acceso a elementos de información Objetivo: dada una colección de documentos y una necesidad de información del usuario expresada como una consulta (query), devolver un conjunto de documentos relevantes para dicha necesidad de información (i.e., cuyo contenido satisface dicha necesidad) No devuelve la información deseada, sólo indica los documentos donde parece estar P.ej., buscadores web Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 32 / 116

Proceso de RI Recuperación de Información Introducción Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 33 / 116

Terminología Recuperación de Información Introducción Documento: unidad de texto almacenada y disponible para su recuperación; p.ej., páginas web, artículos de prensa, tesis,... Granularidad variable: documento completo, capítulos, párrafos,... Colección: repositorio de documentos en los que buscar Términos: unidades léxicas (palabras) que componen un documento/consulta Consulta (query): representación en forma de términos, de la necesidad de información del usuario Relevancia de un documento: Establecida por el sistema respecto a la consulta Juzgada por el usuario respecto a la necesidad de información en su cabeza (subjetividad) Ordenación (ranking): los documentos suelen devolverse ordenados por relevancia Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 34 / 116

Introducción Bases de Datos vs. Sistemas de RI BD RI Información datos estructurados lenguaje natural (desestructurado) semántica bien definida semántica ambigua Consulta formalizada (álgebra relacional) lenguaje natural Resultados todos los relevantes (completitud) no necesariamente todos son relevantes (ningún error) contiene errores: objetivo maximizar relevantes devueltos minimizar no relevantes devueltos Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 35 / 116

Tareas de RI Recuperación de Información Introducción Recuperación ad hoc: P.ej., buscadores web La colección no varía (estática) o varía poco (semiestática) web Consultas variables (dinámicas), puntuales y específicas Categorización (clasificación de documentos): Asignar un doc. a una/más clases fijadas a priori Los documentos van llegando poco a poco (colección dinámica) Necesidades (perfiles o profiles) complejas, estables en el tiempo (estáticas), y que reflejan varias necesidades a la vez 2 [sub]tareas diferenciadas: Enrutamiento (routing): ordenación por similaridad con el perfil Filtrado (filtering): acepta o rechaza (binario) Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 36 / 116

Tareas de RI (cont.) Recuperación de Información Introducción Clustering: Generar automática. clases (clústers) a partir de un conjunto de docs. Maximizar similaridad intra-clúster Minimizar similaridad inter-clúster De aquí en adelante: recuperación ad hoc Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 37 / 116

Paradigma Bag-of-Terms Modelos de Representación Interna Def.: representación de documentos/consultas como conjunto de términos índice (a.k.a. términos de indexación o palabras clave) Ppo. de composicionalidad de Frege: la semántica de un objeto puede obtenerse a partir de la semántica de sus componentes Si una palabra aparece en un texto, dicho texto trata dicho tema Si una consulta y un documento comparten uno/más términos índice, el documento debería tratar el tema de la consulta Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 38 / 116

Peso de un Término Recuperación de Información Modelos de Representación Interna No todos los términos tendrán la misma importancia/representatividad: peso (weight) w ij de un término t i en un documento d j Factores para cómputo del peso de un término: Frecuencia dentro del documento Distribución dentro de la colección Longitud del documento Forma combinarlos varía según modelo y formúla empleados Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 39 / 116

Modelos de Representación Interna Peso de un Término (cont.): Frecuencia en el Documento Si un término aparece muchas veces en un doc., se puede suponer que el doc. está más relacionado con este tema mayor peso P.ej., si en un documento aparece chocolatina repetidamente, es lógico pensar que dicho documento habla sobre chocolatinas Frecuencia del término t i en el documento d j (tf ij ): número de veces que aparece el término t i en el documento d j Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 40 / 116

Modelos de Representación Interna Peso de un Término (cont.): Distribución en la Colección A mayor número de documentos en los que aparece un término, menor su poder de discriminación menor peso P.ej., si chocolatina aparece en gran parte de los documentos de la colección, poco ayuda a diferenciar unos de otros Frecuencia inversa de documento del término t i (idf i ): idf i = log N n i donde N es el número total de documentos de la colección, y n i el número de dichos documentos en los que aparece el término t i. Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 41 / 116

Modelos de Representación Interna Peso de un Término (cont.): Longitud del Documento A mayor longitud, mayor probabilidad de correspondencias, por lo que, a priori, dichos docs. partirían con ventaja ponderar según longitud No siempre tenido en cuenta Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 42 / 116

Introducción Recuperación de Información Modelos de Recuperación Establece: Cómo representar los documentos Cómo representar las necesidades de información Cómo compararlos Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 43 / 116

Modelo Booleano Recuperación de Información Modelos de Recuperación Base matemática: teoría de conjuntos y álgebra de Boole Consulta: expresión booleana de términos ligados por operadores booleanos (and, or y not) Devuelve aquellos documentos que satisfacen la consulta Binario (sí/no relevante): no hay gradación de la relevancia Ejemplo: modelo and booleano and not vectorial Documentos que contienen la palabra booleano Documentos que contienen la palabra modelo Documentos que contienen la palabra vectorial Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 44 / 116

Modelo Booleano (cont.) Modelos de Recuperación Ventajas: Sencillo Preciso Veloz Desventajas: Formalizar consulta como expresión booleana: Binario: Fácil quedarse corto/largo Pequeñas modificaciones en la consulta pueden provocar grandes variaciones en los resultados. P.ej., and vs. or No permite correspondencias parciales Sin gradación de la relevancia/similaridad: resultados no ordenados + todos los términos valen lo mismo (como si w ij = {0, 1}) Muy popular en el pasado. Hoy relegado a sistemas precisan correspondencias exactas: P.ej., sistemas de información legislativa Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 45 / 116

Modelos de Recuperación Modelo Booleano (cont.): Booleano Extendido Variante del modelo booleano clásico Permite ordenación por relevancia de los docs.: 1 Operar estrictamente a nivel de conjs. booleanos 2 Ordenar el conj. resultante mediante medida de similaridad Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 46 / 116

Modelo Vectorial Recuperación de Información Modelos de Recuperación Base matemática: álgebra vectorial Consultas y documentos representados como vectores en un espacio multidimensional Definido por los términos del vocabulario: 1 dimensión por término P.ej. Vocabulario tamaño T espacio T -dimensional Documento d j: vector d j = ( w 1j, w 2j,..., w tj ) Consulta q: vector q = ( w 1q, w 2q,..., w tq ) siendo w ij 0 y w iq 0 los pesos del término t i en el documento d j y la consulta q, respectivamente. Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 47 / 116

Modelo Vectorial (cont.) Modelos de Recuperación lenguaje d j procesamiento natural q 0- Si los vectores de consulta y documento están próximos, asumimos que documento es similar a la consulta (i.e., posiblemente relevante) Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 48 / 116

Modelo Vectorial (cont.) Modelos de Recuperación Medida proximidad: coseno del ángulo Θ formado por los vectores: t dj w ij w iq q sim(d j, q) = cos (Θ) = i=1 d j = q t t w 2 ij i=1 q es constante para una consulta dada, luego puede simplificarse w 2 iq i=1 Peso de un término: clásico, esquema tf-idf : w ij = tf ij idf i Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 49 / 116

Modelo Vectorial (cont.) Modelos de Recuperación Ventajas: Sencillo Preciso (buenos resultados) Permite correspondencias parciales Permite gradación relevancia/similaridad: ranking de docs. Referencia para comparación de otros sistemas Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 50 / 116

Modelo Probabiĺıstico Modelos de Recuperación Véase Tutorial Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 51 / 116

Proceso Recuperación de Información Normalización e Indexación de Documentos 1 Normalización (conflation): 1 Tokenización 2 Eliminación de stopwords 3 Paso a minúsculas y eliminación de signos ortográficos 4 Stemming 5 Selección de términos índice 2 Indexación Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 52 / 116

Normalización Recuperación de Información Normalización e Indexación de Documentos Proceso de generación de términos índice de docs./consultas mediante transformaciones sucesivas del texto (operaciones de texto) Objetivo: reducción del texto a una forma canónica para facilitar las correspondencias Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 53 / 116

Normalización (cont.): Tokenización Normalización e Indexación de Documentos Identificación de las palabras del texto: Def. palabra: secuencia de caracteres de palabra delimitada por separadores Herramientas sencillas y rápidas Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 54 / 116

Normalización e Indexación de Documentos Normalización (cont.): Eliminación de Stopwords Def. stopwords: palabras de escasa o nula utilidad d.p.d.v. recuperación: Escaso contenido semántico; p.ej.: artículos, preposiciones, etc. Frecuencia excesiva (nula capacidad discriminante); p.ej.: formas verbales de ser o estar Su eliminación permite un considerable ahorro de recursos de almacenamiento: Mínima parte del vocabulario pero gran parte de los términos del texto (Ley de Zipf ) Listas preestablecidas de stopwords En las consultas, eliminar también información de metanivel P.ej., Encuentre los documentos que describan... Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 55 / 116

Normalización e Indexación de Documentos Normalización (cont.): Paso a Minúsculas y Eliminación de Signos Ortográficos P.ej.,... Paso a Minúsculas...... paso a minusculas... Objetivo: facilitar las correspondencias Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 56 / 116

Normalización (cont.): Stemming Normalización e Indexación de Documentos Def.: reducción de una palabra a su stem o raíz supuesta eliminando su terminación según una lista de sufijos Stem o raíz contiene semántica básica reloj relojes relojero reloj- Objetivo: Principal: permitir correspondencias entre variantes Secundario: reducir recursos almacenamiento (reducir vocabulario) Stemmer de Porter Demo: http://maya.cs.depaul.edu/~classes/ds575/porter.html Snowball (descargables): http://snowball.tartarus.org Nivel de normalización Superficial: sólo morfología flexiva simplificada; p.ej., sólo plurales Profundo: flexiva y derivativa (agresivo); p.ej., Porter Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 57 / 116

Normalización (cont.): Stemming Normalización e Indexación de Documentos Def.: reducción de una palabra a su stem o raíz supuesta eliminando su terminación según una lista de sufijos Stem o raíz contiene semántica básica reloj relojes relojero reloj- Objetivo: Principal: permitir correspondencias entre variantes Secundario: reducir recursos almacenamiento (reducir vocabulario) Stemmer de Porter Demo: http://maya.cs.depaul.edu/~classes/ds575/porter.html Snowball (descargables): http://snowball.tartarus.org Nivel de normalización Superficial: sólo morfología flexiva simplificada; p.ej., sólo plurales Profundo: flexiva y derivativa (agresivo); p.ej., Porter Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 57 / 116

Normalización e Indexación de Documentos Normalización (cont.): Selección de Términos Índice Los términos resultantes son tomados como términos índice asociándoseles, si es necesario, el peso correspondiente Representación: A texto completo Selección de términos: manual/automáticamente P.ej., indexación con vocabulario controlado Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 58 / 116

Normalización e Indexación de Documentos Indexación: Componentes Sistema de RI Índice invertido: estructuras auxiliares donde almacenar las representaciones de los docs. Objetivo: acelerar la búsqueda Componentes: Vocabulario/diccionario: lista de términos índice en la colección Postings: lista de docs. en los que aparece cada término Fichero de documentos: lista de documentos del sistema Asociado a cada entrada (término/posting/documento) se almacenan los datos necesarios para el cálculo del peso/relevancia Motor de indexación: componente software encargado del manejo de los índices Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 59 / 116

Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 60 / 116 Recuperación de Información Indexación (cont.): Generación del Índice Normalización e Indexación de Documentos DOC_A... management... derivational... DOC_A... manag-... deriv-... FICHERO DE DOCUMENTOS DOC DID DOC_A 1 DOC_B 2 DOC_C 3 DOC_B DOC_C... derivate... derivational... manages...... management... OPERACIONES DE TEXTO DOC_B DOC_C... deriv-... deriv-... manag-... 3... manag-... INDEXACIÓN DICCIONARIO POSTINGS manag- LONG TERMINO 200......... 1 1 414 70 1 1 deriv-...... DF 2 2 2............ DID TF 1 2 1 3 ejemplo Generacion Indice.pdf

Introducción Recuperación de Información El Proceso de Búsqueda Proceso: 1 El usuario plasma su necesidad de información en una consulta 2 El sistema obtiene la representación interna de la consulta aplicando operaciones de texto (las mismas que durante indexación) 3 El sistema compara la representación interna obtenida con los documentos indexados El sistema parte de la consulta formulada por el usuario. Peligro: Si la consulta está formulada de forma incorrecta o insuficiente Si usuario y autor del documento emplean términos diferentes (variación lingüística) Solución paliativa: expansión de consultas Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 61 / 116

Expansión de Consultas El Proceso de Búsqueda A.k.a. query expansion Def.: procesos automáticos/semiautomáticos para la reformulación/refinamiento de la consulta inicial mediante la adición de nuevos términos Relacionados con los términos iniciales Asociados a los documentos [supuestamente] relevantes Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 62 / 116

El Proceso de Búsqueda Expansión de Consultas (cont.): Mediante Tesauros Def. tesauro (thesaurus): base de datos lexicográfica que almacena una representación jerárquica de un lexicón de acuerdo a las relaciones semánticas existentes entre sus palabras P.ej., WordNet (más utilizado) Proceso: reformular consulta inicial Manualmente: navegando por su estructura eligiendo los términos con los que expandir Automáticamente: p.ej., expandiendo un término con sus sinónimos Por lo general no se logran mejoras en los resultados Introducción de ruido durante la expansión: necesario aplicar técnicas de desambiguación del sentido de las palabras (WSD) Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 63 / 116

El Proceso de Búsqueda Expansión de Consultas (cont.): Mediante Realimentación A.k.a. relevance feedback Proceso: 1 Se lanza consulta inicial contra el sistema 2 Se toman los primeros documentos devueltos por el sistema Manual: usuario los examina y determina cuáles son relevantes Automático: los n primeros documentos se suponen relevantes (expansión ciega o por pseudo-relevancia) 3 Partiendo de los documentos estimados como relevantes: Se añaden nuevos términos que aparezcan en ellos Se modifican los pesos de los términos de la consulta inicial Buen comportamiento general (uso ampliamente extendido) Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 64 / 116

Métricas de Evaluación Evaluación en RI A documentos devueltos documentos relevantes devueltos R U A documentos relevantes R D, conjunto de documentos en la colección R, conjunto de documentos relevantes en la colección R = D R, conjunto de documentos no relevantes en la colección A, conjunto de documentos recuperados por el sistema A R, conjunto de documentos relevantes recuperados por el sistema Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 65 / 116

Métricas de Evaluación (cont.) Evaluación en RI Precisión (precision): porcentaje de documentos recuperados que son relevantes: precision Pr = A R A Capacidad para recuperar sólo documentos relevantes. Cobertura (recall): porcentaje de documentos relevantes que son recuperados: recall Re = A R R Capacidad para recuperar todos los documentos que son relevantes. Medida-F o F 1 (F-measure/balanced F-score): combina ambas Valora Re/Pr por igual. F 1 = 2 Re Pr Re + Pr A nivel de consulta o conjunto de consultas (media) Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 66 / 116

Evaluación en RI Colecciones de Referencia/Evaluación Composición: 3 elementos 1 Documentos 2 Consultas 3 Lista de los documentos relevantes para cada consulta Más importantes (asociadas a instituciones/congresos): TREC CLEF Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 67 / 116

Evaluación en RI Colecciones de Referencia (cont.): TREC Text REtrieval Conference (http://trec.nist.gov/) National Institute of Standards and Technology (NIST) Defense Advanced Research Projects Agency (DARPA) Objetivo: facilitar infraestructura, herramientas y metodologías para la evaluación a gran escala de sistemas de RI (inglés) Diferentes sesiones (tracks): ad hoc, terabyte (web), filtrado, etc. Consultas: 50 por año y track Colecciones: Ad hoc track: L.A. Times 131,896 artículos 475 mb media 527 words Terabyte track: GOV2 25,205,179 webs (.gov) 426 gb media 17.7 kb Evaluación: Técnica pooling: revisan manualmente K top docs. (K =100) Def. relevancia: Si estuviera redactando un informe sobre el tema del topic en cuestión y pudiese usar para dicho informe la información contenida en el documento examinado, entonces dicho documento será considerado relevante Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 68 / 116

Evaluación en RI Colecciones de Referencia (cont.): CLEF Cross-Language Evaluation Forum (http://www.clef-campaign.org/) TREC europeo: Lenguas europeas (y otras): Colecciones: inglés, francés, español, alemán, holandés, italiano, portugués, búlgaro, checo, húngaro, ruso, sueco y finlandés Topics (a mayores): chino, japonés, griego, arameo, hindi, bengaĺı, marathi, oromo, tamil, telugu Tracks mono e interlingües Recuperación de Información InterLingüe (RIIL) Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 69 / 116

Evaluación en RI Colecciones de Referencia (cont.): Ejemplo de Topic <top> <num> C044 </num> <ES-title> Indurain gana el Tour </ES-title> <ES-desc> Reacciones al cuarto Tour de Francia ganado por Miguel Indurain. </ES-desc> <ES-narr> Los documentos relevantes comentan las reacciones a la cuarta victoria consecutiva de Miguel Indurain en el Tour de Francia. Los documentos que discuten la relevancia de Indurain en el ciclismo mundial después de esta victoria también son relevantes. </ES-narr> </top> A partir de los cuales se generan (automática o manualmente) las consultas finales 3 elementos: Título: breve título Descripción: frase de descripción Narrativa: pequeño texto especificando los criterios que utilizarán los revisores para establecer la relevancia de un documento respecto a la consulta Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 70 / 116

Evaluación en RI Colecciones de Referencia (cont.): Ejemplo de Documento <DOC> <DOCNO>EFE19940101-00002</DOCNO> <DOCID>EFE19940101-00002</DOCID> <DATE>19940101</DATE> <TIME>00.34</TIME> <SCATE>VAR</SCATE> <FICHEROS>94F.JPG</FICHEROS> <DESTINO>ICX MUN EXG</DESTINO> <CATEGORY>VARIOS</CATEGORY> <CLAVE>DP2404</CLAVE> <NUM>100</NUM> <PRIORIDAD>U</PRIORIDAD> <TITLE> IBM-WATSON FALLECIO HIJO FUNDADOR EMPRESA DE COMPUTADORAS </TITLE> <TEXT> Nueva York, 31 dic (EFE).- Thomas Watson junior, hijo del fundador de International Business Machines Corp. (IBM), falleció hoy, viernes, en un hospital del estado de Connecticut a los 79 a~nos de edad, informó un portavoz de la empresa. Watson falleció en el hospital Greenwich a consecuencia de complicaciones tras sufrir un ataque cardíaco, a~nadió la fuente. El difunto heredó de su padre una empresa dedicada principalmente a la fabricación de máquinas de escribir y la transformó en una compa~nía líder e innovadora en el mercado de las computadoras. EFE PD/FMR 01/01/00-34/94 </TEXT> </DOC> Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 71 / 116

Evaluación en RI Colecciones de Referencia (cont.): Ejemplo de Qrel <QID> <ITER> <DOCNO> <REL>... 44 0 EFE19940722-13111 0 44 0 EFE19940722-13237 0 44 0 EFE19940722-13274 0 44 0 EFE19940723-13494 1 44 0 EFE19940723-13513 1 44 0 EFE19940723-13688 0 44 0 EFE19940724-13915 0 44 0 EFE19940724-14076 1 44 0 EFE19940724-14077 1 44 0 EFE19940724-14084 1 44 0 EFE19940724-14086 1 44 0 EFE19940724-14093 1 44 0 EFE19940724-14098 1 44 0 EFE19940724-14101 0 44 0 EFE19940724-14104 1 44 0 EFE19940724-14130 1... Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 72 / 116

PLN & IR: Introducción PLN & RI Def. Procesamiento del Lenguaje Natural (PLN): tratamiento computacional del lenguaje humano Objetivo: computadora comprenda el lenguaje humano IR como tarea de NLP: comprender el contenido de los documentos Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 73 / 116

PLN & IR: Introducción (cont.) PLN & RI Principal problema de IR: variación lingüística El mismo concepto puede expresarse de muy diferentes maneras Impide establecer correspondencias Diferentes niveles de variación: Morfológica: modificaciones flexivas y derivativas cantas / cantó cantar / cantante Semántica: polisemia banda (de música) / banda (franja) Léxica: sinonimia rápido / veloz Sintáctica: modificaciones de la estructura sintáctica cambio climático / cambio del clima Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 74 / 116

PLN & IR: Introducción (cont.) PLN & RI El lenguaje no es un mero repositorio de palabras (bag-of-terms) Comunicar conceptos, entidades, y relaciones, de múltiples maneras Las palabras se combinan en unidades lingüísticas de mayor complejidad, cuyo significado no siempre viene dado por el significado de sus palabras componente (ppo. composicionalidad) Solución: técnicas de NLP Principalmente para inglés Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 75 / 116

PLN & RI Tratamiento de la Variación Lingüística En general, dos enfoques diferenciados: Normalización: reducir las diferentes variantes de un término a una forma canónica común Ej. sustituir una palabra por su stem (stemming) o lema (lematización) Expansión: añadir a la consulta variantes de sus términos originales Ej. añadir sinónimos Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 76 / 116

PLN & RI Tratamiento de la Variación Morfológica: Stemming (cont.) Tratado anteriormente Ventajas Simplicidad Normalización: stemming Desventajas: Problemas con idiomas de morfología compleja. Ej. español: Adjetivos/nombres: +20 grupos variación género +10 grupos número Verbos: 3 grupos regulares, ±40 irregulares; 118 formas flexivas cada grupo Pérdida de información de cara a procesamiento futuro Sobre-stemming: palabras no relacionadas dan igual stem } general genergenerous Sobre-stemming: palabras sí relacionadas dan stems diferentes recognize recognrecognition recognit- Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 77 / 116

PLN & RI Tratamiento de la Variación Morfológica (cont.): Otros Expansión de la consulta con variantes: Google: busca simultáneamente el término en singular y plural Lematización: sustituir palabra por su lema Mejora resultados con idiomas de morfología compleja Reduce la pérdida de información Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 78 / 116

PLN & RI Tratamiento de la Variación Léxico-Semántica Técnicas de desambiguación del sentido de las palabras Necesaria alta efectividad: 90% ( 60%?) WordNet/EuroWordNet principalmente Aproximaciones: Indexación por sentidos (synsets) en lugar de palabras Distancias conceptuales Expandir consulta con términos relacionados (sinónimos, etc.) Poco efectivas salvo con consultas cortas o incompletas Google: operador (por ahora sólo inglés) ape {ape, monkey, gorilla, chimpanzee,...} Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 79 / 116

PLN & RI Tratamiento de la Variación Sintáctica: Introducción Problema: bag-of-terms insuficiente: 2 aproximaciones: { Juan pegó a Pepe? Pepe pegó a Juan? 1 Representaciones complejas en base a estructuras sintácticas: árboles y grafos Coste muy alto: inadecuado para uso práctico 2 Frases como términos índice: Hipótesis: frases denotan conceptos/entidades más significativos que las palabras Términos más precisos y descriptivos Uso combinado con palabras Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 80 / 116

PLN & RI Tratamiento de la Variación Sintáctica (cont.): Identificación y Extracción Técnicas estadísticas Secuencias de palabras coocurren frecuentemente Análisis estadístico (frecuencias, coocurrencias, etc.) No base lingüística (a veces resultados extraños) Mayor simplicidad Sintácticas Secuencias de palabras satisfacen relaciones sintácticas Análisis sintáctico (complejidad diversa) Sí base lingüística (teóricamente superiores) Mayor complejidad Aproximar sintaxis mediante distancias Palabras cercanas se suponen relacionadas sintácticamente Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 81 / 116

PLN & RI Tratamiento de la Variación Sintáctica (cont.): Representación y Correspondencias Como conjuntos de palabras Almacenar árbol de análisis Técnicas de comparación de árboles: gran complejidad Almacenar sólo las relaciones sintácticas interesantes Sustantico modificador Sujeto verbo Verbo Objeto... Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 82 / 116

PLN & RI Tratamiento de la Variación Sintáctica (cont.): Buscadores Operador de frase (secuencia exacta) Google/Yahoo: "" Ej. "coche rojo" Operador comodín (palabra completa) Google/Yahoo: * Conjuntamente con operadores de frase. Ej.: "* tomates"={"dos tomates", "varios tomates", etc.} "* * tomates"={"los dos tomates", "quiero varios tomates", etc.} Buscar citas aproximadas Operador de proximidad: Anteriormente expĺıcito (NEAR, ADJ): exige que la otra palabra esté dentro de un radio dado Actualmente impĺıcito: la proximidad entre sí dentro del documento de los términos de la consulta aumenta la relevancia Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 83 / 116

Búsqueda de Información en la Web Búsqueda de Información en la Web: Introducción Tamaño web (febrero 2007): 30,000,000,000 páginas Cómo encontrar algo? Sitios web especializados en buscar otros sitios web (buscadores): Directorios: jerarquizados por temas y categorías Google Directory (http://directory.google.com/) Yahoo! Directory (http://dir.yahoo.com) Motores de búsqueda (o buscadores): búsqueda por palabras clave Google (http://www.google.es) Yahoo! (http://www.yahoo.es) Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 84 / 116

Estructura de la Web Recuperación de Información Búsqueda de Información en la Web Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 85 / 116

Breve Historia de los Buscadores Búsqueda de Información en la Web 1990 Archie Primer buscador de Internet (FTPs) 1992 Dic Veronica Buscador de Gopher (menús jerarquizados) 1993 Jun Wanderer Primer buscador web 1993 Dic RBSE Primero en calcular medida relevancia 1994 Ene Galaxy Primer directorio 1994 Abr Yahoo Directorio revisado manualmente 1994 Abr WebCrawler Salto tecnológico: indexar texto completo 1994 Jul Lycos Índice masivo 1995 Feb Infoseek Netscape. Amigable, servicios adicionales 1995 Jun Metacrawler Primer metabuscador 1995 Dic Altavista Muy veloz. Lenguaje natural y ops. lógicos Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 86 / 116

Búsqueda de Información en la Web Breve Historia de los Buscadores (cont.) 1996 Abr Olé Primer buscador hispano 1996 May HotBot Tecnología de búsqueda de alto rendimiento 1998 MSN Search Buscador de Microsoft 1998 Sep Google Nuevo salto tecnológico: algoritmo pagerank 1999 Baidu Buscador chino 2005 Nov Live Search Nueva plataforma Windows Live de Microsoft 2006 Quaero Buscador europeo http://manuales.ojobuscador.com/historia Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 87 / 116

Directorios Recuperación de Información Búsqueda de Información en la Web Def.: sitio web que contiene un índice o lista de páginas web estructuradas jerárquicamente en base a categorías y subcategorías temáticas Yahoo! Directory (http://dir.yahoo.com) Google Directory (http://directory.google.com/) Estructura navegable Generalmente creado/revisado a mano Categorización automática Han ido perdiendo importancia frente a los motores de búsqueda Actualmente son un complemento a éstos Para búsquedas muy generales Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 88 / 116

Motores de Búsqueda Búsqueda de Información en la Web Def.: sitio web que contiene una base de datos (índice) donde las páginas web han sido indexadas en base a palabras clave y sobre la cual podemos realizar búsquedas (consultas o queries) Similar a recuperación ad hoc Para búsquedas concretas Google (http://www.google.es) Yahoo! (http://www.yahoo.es) Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 89 / 116

Búsqueda de Información en la Web Motores de Búsqueda (cont.): Funcionamiento Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 90 / 116

Búsqueda de Información en la Web Motores de Búsqueda (cont.): Arquitectura Robots: Programas que recorren la red buscando documentos: Analizan su contenido (total o parcial) Devuelven las palabras clave o descriptores que lo describen (a indexar) Base de datos: índice de palabras clave o descriptores asociados a cada documento Actualización periódica (robots) Interfaz de consulta: parte que ve el usuario Introducir consulta Presentar resultados Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 91 / 116

Buscadores Instalables Búsqueda de Información en la Web Permiten indexar y buscar tus propios contenidos Spin-offs de los principales buscadores Sólo contenidos del PC del usuario Google Desktop (http://desktop.google.es) Yahoo! Desktop Search (http://desktop.yahoo.com) Motores de búsqueda independientes Algunos también contenidos web http://en.wikipedia.org/wiki/information_retrieval Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 92 / 116

PageRank: Introducción El Algoritmo PageRank de Google Los modelos tradicionales de RI no tienen en cuenta la estructura de hipertexto de la red Un buen modelo de RI para web debe tene en cuenta: La estructura de las páginas web El texto de los hiperenlaces (que se asocia a la página de destino) La persistencia en el tiempo de una página La popularidad de una página web El algoritmo PageRank de Google permite calcular la popularidad de una página web en base a los enlaces que apuntan a ella Desarrollado en la Univ. de Stanford por Larry Page y Sergei Brin: S. Brin & L. Page. (1998). The Anatomy of a Large-Scale Hypertextual Web Search Engine. In WWW7/Computer Networks 30(1-7):107-117. http://dbpubs.stanford.edu:8090/pub/1998-8. Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 93 / 116

PageRank: Algoritmo El Algoritmo PageRank de Google Algoritmo de análisis de grafos que asigna a cada página web un valor numérico (PageRank) en función de su popularidad Formalmente, el PageRank es una distribución de probabilidades que pretende representar la probabilidad de que un usuario llegue a una página en particular recorriendo enlaces de forma aleatoria. e.g., un PageRank de 0.5 indica que existe un 50% de probabilidades de que una persona alcance dicha página pulsando links al azar Informalmente, enlace de página B a página A = voto de página B a A Una página con muchos votos debería ser muy popular/importante Un voto desde una página muy popular vale más que un voto desde una página poco popular: es un algoritmo retroalimentado que requiere de varias pasadas (iteraciones) Matemáticamente, el pagerank de una página es un valor del autovector principal de la matriz de adyacencia de la web... Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 94 / 116

PageRank: Algoritmo (cont.) El Algoritmo PageRank de Google... lo que se traduce en la fórmula PR(A) = 1 d N + d ( PR(B1 ) L(B 1 ) + PR(B 2) L(B 2 ) +... + PR(B ) m) L(B m ) donde A es la página cuyo pagerank vamos a calcular B i son las páginas que contienen enlaces a A PR(X ) es el pagerank de la página web X L(X ) es el número de enlaces diferentes de la página X d es el probabilidad de que una persona siga los enlaces de cualquier página (alrededor de 0,85), por lo que 1 d es la probabilidad de que salte arbitrariamente a cualquier otra página N es el número total de páginas web La fórmula se recalcula iterativamente hasta converger (los valores se estabilizan) Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 95 / 116

Links sobre PageRank El Algoritmo PageRank de Google Phil Craven. Google s PageRank Explained and how to make the most of it: http://www.webworkshop.net/pagerank.html Ian Rogers. The Google Pagerank Algorithm and How It Works: http://www.ianrogers.net/google-page-rank/ Demo gráfica online: http://www.search-this.com/pagerank-decoder/ Calulcadora: http://www.webworkshop.net/pagerank_calculator.php3 Demo gráfica Matlab: http://www.mathworks.com/matlabcentral/fileexchange/loadfile.do?objectid=14258&objecttype=file Jesús Vilares (Fac. de Informática) Lenguajes Naturales (LN) 96 / 116