BÚSQUEDA DE RESPUESTAS EN LA WEB: EL VALENCIANO EN TAREAS MONO Y TRANSLINGÜES

Transcripción

1 BÚSQUEDA DE RESPUESTAS EN LA WEB: EL VALENCIANO EN TAREAS MONO Y TRANSLINGÜES Para optar a la titulación de Ingeniería Informática Presentado por José Luis Peñarrubia Carrión Dirigido/tutorizado por Paolo Rosso, Dpto. Sistemas Informáticos y Computación, Universidad Politécnica de Valencia, España Manuel Montes, Laboratorio de Tecnologías del Lenguaje, Instituto Nacional de Astrofísica, Óptica y Electrónica, Puebla, México

2

3 Agradecimientos Agradezco al profesor Paolo Rosso, la ayuda prestada en todo momento durante la supervisión del presente trabajo, al igual que a Manuel Montes, ya que a partir de sus investigaciones y posteriores explicaciones pudimos empezar a avanzar en la consecución de este trabajo final de carrera. También quiero agradecer a José Manuel Gómez (Investigador del Departamento de Sistemas Informáticos y de Computación de la UPV) por ayudarme con el sistema de recuperación de pasajes JIRS.

4 INDICE DE CONTENIDOS Introducción... 4 Capítulo 1.Sistemas de recuperación de información Introducción La recuperación de información Evolución de los sistemas RI Modelos para la recuperación de información La extracción de información La búsqueda de respuestas Motores de búsqueda Funcionamiento de un motor de búsqueda Arquitectura de un motor de búsqueda Los índices de los motores Tipos de robots Funcionamiento de los robots Indización de las páginas Alineado de los documentos (ranking) Evaluación de los sistemas de recuperación de información Foros de experimentación Capítulo 2. Sistemas de búsqueda de respuestas Introducción Componentes principales de un sistema de BR Situación actual Clasificación de los sistemas de BR Sistemas que no utilizan técnicas de PLN Sistemas que usan información léxico-sintáctica Sistemas que usan información semántica Sistemas que usan información contextual Conceptos generales Palabras de parada y palabras clave Pesos de términos Obtención de raíces (stemming) Expansión de preguntas Realimentación Capitulo 3. BR monolingüe: El sistema INAOE Introducción Arquitectura del sistema BR INAOE basado en la Web Reformulaciones Reformulación: Bolsa de palabras Reformulación: Manipulación del verbo Reformulación: Componentes Reformulación: Componentes excluyendo la primera palabra Reformulación: Componentes excluyendo las dos primeras palabras Recolección de Snippets

5 3.2.3 Cálculo de la respuesta Método de frecuencias relativas Método de expresiones regulares Método de frecuencia compensada con expresiones regulares Adaptación del sistema INAOE BR a otros idiomas Capítulo 4. Búsqueda de respuestas multilingüe: El problema de la traducción Introducción RI multilingüe Aspectos monolingües Stemming Segmentación de compuestos Segmentación de palabras Enfoques basados en la traducción de la consulta Diccionarios Programas de traducción automática Tesauros Otros enfoques: Traducción bidireccional Arquitectura del sistema INAOE multilingüe Tareas translingües Capitulo 5. Experimentos Multilingües Introducción Corpus del CLEF Tarea monolingüe Castellano-Castellano Discusión sobre los resultados Tarea translingüe Castellano-Valenciano Discusión sobre los resultados Tarea monolingüe Valenciano-Valenciano Discusión sobre los resultados Tarea translingüe Valenciano-Castellano Discusión sobre los resultados Clasificación de resultados atendiendo a la tipología de la pregunta El corpus del CLEF Comparativa con los resultados obtenidos del sistema UPV en CLEF Capítulo 6. El componente de búsqueda de pasajes Introducción El sistema de búsqueda de pasajes JIRS Definición de JIRS Arquitectura del sistema JIRS El sistema de búsqueda de respuestas QUASAR Introducción Arquitectura del sistema Casos de estudio con el idioma valenciano Discusión sobre los resultados Capítulo 7. Conclusiones

6 Bibliografía Anexo I. Artículo "Cross-language Question Answering: The Key Role of Translation" Anexo II. Artículo "Arabic-English Question Answering" Anexo III Preguntas CLEF Anexo IV Preguntas CLEF

7 INDICE DE FIGURAS 1.1 Arquitectura simple de un motor de búsqueda a partir de un filtrado de documentos Ejemplo de la estructura de un fichero inverso Niveles de usuarios según complejidad de la pregunta Módulos de ejecución de la BR a partir de documentos y pasajes relevantes Módulos del Sstema de Búsqueda de Respuestas Ejemplo de sninpets devueltos por el Google Esquema de un sistema de BR translingüe Arquitectura JIRS Arquitectura del sistema QUASAR INDICE DE TABLAS 1.1 Clasificación de los Modelos de Recuperación de Información según Dominich Clasificación de los Modelos de Recuperación de Información según Baeza-Yates Técnicas empleadas para reducir el tamaño de los índices de un motor de búsqueda Resumen de las características de la indización y motores que las implementan Resumen de las medidas basadas en la Relevancia de los documentos recuperados, empleadas en la evaluación convencional de la recuperación de la información Resumen de las medidas, basadas en la evaluación de los procesos, empleadas en la evaluación convencional de la recuperación de la información Resumen de las medidas, basadas en el resultado obtenido, empleadas en la evaluación convencional de la recuperación de la información Algoritmo Reformulación Bolsa de palabras Algoritmo Reformulación Movimiento del verbo Algoritmo Reformulación componentes Algoritmo extracción frecuencias relativas Algoritmo extracción expresiones regulares Agoritmo de extracción frecuencia compensada con expresiones regulares Evolución de la utilización de idiomas en Internet Clasificación de los 10 lenguajes más utilizados en Internet año

8 5.1 Resultados del sistema de BR INAOE para el caso Castellano-Castellano con preguntas del CLEF Resultados del sistema de BR INAOE para el caso Castellano-Valenciano con preguntas del CLEF Resultados del sistema de BR INAOE para el caso Valenciano-Valenciano con preguntas del CLEF Resultados del sistema de BR INAOE para el Valenciano-Castellano con preguntas del CLEF Porcentaje de resultados según tipos de preguntas del CLEF Resultados del sistema de BR INAOE Castellano con preguntas del CLEF Comparación con los resultados de la UPV con la 1ª-5ª respuesta Comparación con los resultados de la UPV con la 1ª respuesta Resultados de los sistemas en tarea monolingüe en el CLEF

9

10 Introducción Hoy en día, la Web se ha convertido en nuestro principal repositorio de información. Toda clase de formatos (librerías digitales, periódicos, presentaciones, foros, etc ) en más de 1500 idiomas distintos están disponibles en formato electrónico en la Web. Estos documentos quizás satisfagan las necesidades del usuario, o quizás no. Por lo tanto, son necesarias herramientas que ayuden al usuario a gestionar esta ingente cantidad de información que sin las herramientas adecuadas no es útil. En los sistemas de Recuperación de Información (RI) el usuario está interesado en encontrar los documentos más relevantes que se ajusten parcialmente a la consultan realizada. Por lo tanto, los sistemas de RI resuelven el problema asociado con la recuperación de documentos desde una colección en respuesta a una consulta de usuario, siendo su objetivo buscar en una colección (por ejemplo la Web) para devolver un subconjunto de documentos ordenados por relevancia. Los más populares sistemas de IR son los motores de búsqueda para la Web, por ejemplo Google 1,Yahoo 2 y MSN 3. Recientemente, la combinación del crecimiento y la explosión de la demanda de mejor acceso a la información han motivado el interés en los sistemas de Búsqueda de Respuestas (BR) basados en Web. El propósito de un sistema de búsqueda de respuestas es obtener respuestas precisas a preguntas realizadas por usuarios sin experiencia, permitiendo lanzar consultas en lenguaje natural y obteniendo una respuesta concisa. Por ejemplo, a la pregunta Quién descubrió América?, el sistema debe encontrar la respuesta Colón. Dada la dificultad de la tarea, los últimos desarrollos de sistemas de BR están enfocados principalmente a contestar preguntas sobre hechos, lugares o personas

11 En este Proyecto Final de Carrera, se pretenden realizar pruebas para la búsqueda de respuestas utilizando el motor de búsqueda Google como recurso de información. Se probarán las distintas adaptaciones resaltando el aspecto translingüe de las consultas. Como punto de partida nos basaremos en el trabajo realizado por el INAOE (Instituto Nacional de Astrofísica, Óptica y Electrónica), (Puebla, México) 4. Se pro ponen hacer pruebas en los idiomas valenciano, castellano e inglés (también hemos participado en unos experimentos translingües arabeinglés). Veremos como afecta la redundancia existente en la Web a la respuesta obtenida, y compararemos los resultados entre idiomas en función de su presencia en la Web. Se evaluarán la calidad de las respuestas obtenidas, y se compararán con los resultados obtenidos en el forum anual Cross Language Evaluation Forum (CLEF) 5. La estructura del documento queda de la siguiente manera: El Capítulo 1 está dedicado a introducir conceptos básicos de los sistemas de recuperación de información, evolución, modelos para la recuperación de información y cómo evaluar la calidad de estos sistemas. Se presta especial atención a los motores de búsqueda como herramientas de recuperación de información. El Capítulo 2 se centra en definir los sistemas de búsqueda de respuestas como una especialización de los sistemas de recuperación de información. Se detalla la clasificación de estos sistemas y algunos conceptos generales. En el Capítulo 3 abordaremos de lleno la utilización de un sistema de búsqueda de respuestas, el implementado por el Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) de Puebla (México)

12 El Capítulo 4 presenta el problema de la traducción en la recuperación de información. Además se estudia la recuperación multilingüe mediante la traducción de la consulta y otros enfoques como por ejemplo el uso de la traducción bidireccional. El Capítulo 5 está dedicado exclusivamente a la descripción de los experimentos realizados con los diferentes sistemas (considerando como distintos sistemas las adaptaciones del sistema original al idioma de búsqueda utilizado en cada caso) y el análisis de los resultados obtenidos, que se incluyen en el Anexo III. Estos experimentos se realizaron con las preguntas de prueba del CLEF 2003 y El Capítulo 6 trata sobre la búsqueda de pasajes. Se describe el componente y se hace hincapié en la importancia de este módulo en la tarea de búsqueda de respuestas. Se presenta el sistema JIRS 6 (Java Information Retrieval System), sistema de búsqueda de respuestas basado en la recuperación de pasajes. Además, se explican las características principales del sistema de búsqueda de respuestas Quasar (desarrollado en el laboratorio de Ingeniería del Lenguaje Natural de la UPV) que extrae la respuesta desde los pasajes devueltos por JIRS

13 7

14 Capítulo 1.Sistemas de recuperación de información En este capítulo se define el contexto histórico de la recuperación de información, la recuperación de información en si, la evolución y las técnicas utilizadas. 1.1 Introducción Durante los últimos años hemos asistido al enorme aumento de información en formato digital disponible. Sumado a esto, también se han producido grandes avances en materia de redes de ordenadores y comunicaciones. Esto ha hecho que la información en formato digital que antes mencionábamos, esté disponible para un mayor número de usuarios. La cantidad de información disponible, principalmente de carácter textual, unido al creciente número de usuarios finales que disponen de acceso directo a dicha información a través de ordenadores personales, impulsó la investigación en sistemas de información que facilitasen la localización, acceso y descarga de toda esta enorme cantidad de datos. Generalmente, cuando un usuario emplea un ordenador para buscar una información determinada, lo que realmente está intentando es encontrar respuesta a sus necesidades de información. Para facilitar esta tarea, se necesitará disponer de sistemas que idealmente sean capaces de localizar la información, procesarla, integrarla y generar una respuesta acorde a los requerimientos expresados por el usuario en sus preguntas. Además, estos sistemas deberán ser capaces de comprender preguntas y documentos escritos en lenguaje natural en dominios no restringidos permitiendo una cómoda interacción y adecuada a aquellos usuarios inexpertos en el manejo de computadores. Sin embargo, y aunque las investigaciones avanzan en buena dirección, todavía no existe hoy ningún sistema operacional que cumpla por completo con todos estos requisitos. 8

15 De todas formas, ante la creciente necesidad de aplicaciones que facilitaran al menos en parte el acceso y tratamiento de toda esta información, la comunidad científica concentró sus esfuerzos en la resolución de problemas más especializados y por ello, más fácilmente abordables. Esta circunstancia propició el desarrollo de campos de investigación que afrontaron el problema desde diferentes puntos de vista: la recuperación de información (RI), la extracción de información (EI) y, posteriormente, la búsqueda de respuestas (BR). A continuación, destacaremos aquellos aspectos más relevantes de cada una de estas líneas de investigación. 1.2 La recuperación de información Los sistemas de RI realizan las tareas de seleccionar y recuperar aquellos documentos que son relevantes a necesidades de información arbitrarias formuladas por los usuarios. Como resultado, estos sistemas devuelven una lista de documentos que suele presentarse ordenada en función de valores que intentan reflejar en qué medida cada documento contiene información que responde a las necesidades expresadas por el usuario. Los sistemas de RI más conocidos son aquellos que permiten con mayor o menor éxito localizar información a través de Internet. Como ejemplo algunos de los motores de búsqueda más utilizados actualmente como Google, o Yahoo. Una de las características más importantes de estos sistemas reside en la necesidad de procesar grandes cantidades de texto en un tiempo muy corto (del orden de milisegundos para búsquedas en Internet). Esta limitación impone una severa restricción en cuanto a la complejidad de los modelos y técnicas de análisis y tratamiento de documentos que pueden emplearse. Dentro del ámbito de la RI podemos destacar la aparición de dos líneas de investigación orientadas a mejorar el rendimiento de estos sistemas: la 9

16 Recuperación de Pasajes (RP) y la aplicación de técnicas de Procesamiento del Lenguaje Natural (PLN) al proceso de RI. La RP nace como alternativa a los modelos clásicos de RI. Estos sistemas miden la relevancia de un documento con respecto a una pregunta en función de la relevancia de los fragmentos contiguos de texto (pasajes) que lo conforman. Esta aproximación facilita la detección, dentro de documentos grandes, de aquellos extractos que pueden ser muy relevantes para el usuario y que, debido a estar inmersos en un documento mayor, pueden pasar desapercibidos cuando el sistema considera el documento completo como una unidad de información. Como demuestran diversos estudios, aunque estos sistemas resultan computacionalmente más costosos que los de RI, las mejoras de rendimiento alcanzadas justifican, en la mayoría de los casos, la adopción de este tipo de aproximaciones. En el Capítulo 6 se analiza el sistema de recuperación de pasajes JIRS, desarrollado en la Universidad Politécnica de Valencia. A partir de este sistema, realizaremos búsquedas sobre documentos en idioma valenciano. En cuanto a la aplicación de técnicas de PLN, la comunidad científica consideró a priori que su utilización reportará considerables beneficios a la tarea de RI. Muchos y diversos intentos llevaron a cabo utilizando diversas técnicas y herramientas. Sin embargo, el esfuerzo empleado no fue suficiente para obtener mejoras de rendimiento sustanciales. Uno de los principales foros de investigación en sistemas de RI lo constituye la serie anual de conferencias Text REtrieval Conference (TREC) 7. En estas conferencias se diseñan una serie de tareas con la finalidad de evaluar y comparar el rendimiento de los diferentes sistemas de RI. A través de las actas de estas conferencias se puede observar con detalle la evolución de las investigaciones desarrolladas en este campo

17 1.2.1 Evolución de los sistemas RI En la evolución de los sistemas de RI se encuentran tres fases fundamentales [Baeza,1999]: 1. Desarrollos iniciales. El autor refleja que ya existían métodos de recuperación de información con las antiguas colecciones de papiros. Otro ejemplo típico sería la tabla de contenidos de un libro, sustituida por otras estructuras algo más complejas a medida que ha crecido el volumen de información a gestionar. 2. Recuperación de información en las bibliotecas. Estas instituciones fueron de las primeras en adoptar estos sistemas. Originalmente desarrollados por las propias bibliotecas y posteriormente se ha creado un mercado de aplicaciones informáticas altamente especializadas en este sector 3. La World Wide Web. La evolución lógica de los sistemas de RI ha ido encaminándose hacia recursos de la Web, donde han encontrado gran aplicación práctica y un aumento del número de usuarios, especialmente en el campo de los directorios y motores de búsqueda Modelos para la recuperación de información El diseño de un sistema de RI se realiza bajo un modelo, donde ha de quedar definido como se obtienen las representaciones de los documentos y de la consulta, la estrategia para evaluar la relevancia de un documento respecto a una consulta, los métodos para establecer la importancia de los documentos de salida y los mecanismos que permiten una realimentación por parte del usuario para mejorar la consulta [Villena, 1999]. Existen varia propuestas de clasificación de los modelos de recuperación, una de las más completas la realiza Dominich, quien establece cinco grupos, tal y como se describen en la siguiente tabla [Dominich, 2000]: 11

18 Modelo Modelos clásicos Modelos alternativos Modelos lógicos Descripción Incluye los tres más comúnmente citados: booleano, espacio vectorial y probabilística. Basados en la lógica difusa. Basados en la lógica formal. La recuperación de información se entiende como un proceso inferencial a través del cual se puede estimar la probabilidad de que una necesidad de información de un usuario, expresada como una o más consultas, sea satisfecha ofreciendo un documento como prueba [VIL, 1997]. Modelos basados en la interactividad Incluyen posibilidades de expansión del alcance de la búsqueda y hacen uso de retroalimentación por la relevancia de los documentos recuperados [SAL, 1989]. Bases de conocimiento, redes neuronales, algoritmos genéticos y procesamiento del lenguaje natural. Modelos basados en la inteligencia artificial Tabla 1.1 Clasificación de los Modelos de Recuperación de Información según Dominich. Fuente: Dominich, S. A unified mathematical definition of classical information retrieval. Journal of the American Society for Information Science, 51[7],2000. p Baeza-Yates [Baeza,1999] nos proporciona otra clasificación de estos modelos de recuperación de información, realizada en función de la modalidad de consulta y de la vista lógica de los documentos: Vista lógica de documentos Modalidad Recuperación Navegación Términos índice Clásicos Conjuntos teóricos Algebraicos Probabilísticos Estructura plana Texto completo Clásicos Conjuntos teóricos Algebraicos Probabilísticos Estructura plana Hipertexto Texto completo + estructura Estructurados Estructura guiada Hipertexto Tabla 1.2 Clasificación de los Modelos de Recuperación de Información según Baeza-Yates. Fuente: Baeza-Yates, R. and Ribeiro-Neto, B. Modern information retrieval. New Cork: ACM Press XX. p

19 1.3 La extracción de información Los sistemas de EI realizan la tarea de buscar información muy concreta en colecciones de documentos. Su finalidad consiste en detectar, extraer y presentar dicha información en un formato que sea susceptible de ser tratado posteriormente de forma automática. Estos sistemas se diseñan e implementan específicamente para la realización de una tarea determinada, por lo tanto, se dispondrá de un sistema diferente en función del tipo de información a extraer en cada caso particular. Un ejemplo podría ser un sistema orientado a la extracción del nombre, DNI y las direcciones de las personas contratantes que aparecen en documentos notariales. Este sistema operaría de forma que cada vez que apareciese uno de estos datos, lo extraerá y lo incorporará en el campo correspondiente de una base de datos creada a tal efecto. Como puede deducirse, estos sistemas necesitan aplicar técnicas complejas de PLN debido la gran precisión que se requiere en los procesos de detección y extracción del tipo de información que les es relevante. La investigación en este campo ha sido muy intensa. En particular, la serie de conferencias Message Understanding Conference (MUC) han constituido uno de sus principales foros de promoción. Estas conferencias han permitido la evaluación y comparación de diversos sistemas, realizando la misma función que las conferencias TREC para la recuperación de información. 1.4 La búsqueda de respuestas La investigación en sistemas de RI y EI facilitó el tratamiento de grandes cantidades de información, sin embargo, las características que definieron estas líneas de investigación presentaban serios inconvenientes a la hora de facilitar la obtención de respuestas concretas a preguntas muy precisas formuladas de forma arbitraria por los usuarios. Por una parte, los sistemas de RI se vieron incapaces por si solos de afrontar tareas de este tipo. De hecho, una vez que el usuario recibirá la lista de 13

20 documentos relevantes a su pregunta, todavía le quedaba pendiente una ardua tarea. Necesitaba revisar cada uno de estos documentos para comprobar en primer lugar, si esos documentos estaban realmente relacionados con la información solicitada y en segundo lugar, debía leer cada uno de estos documentos para localizar en su interior la información puntual deseada. Por otra parte, y aunque los sistemas de EI eran mucho más precisos en la tarea de encontrar información concreta en documentos, estos sistemas no permitían el tratamiento de preguntas arbitrarias sino que el tipo de información requerida necesitaba ser definida de forma previa a la implementación del sistema. Todos estos inconvenientes y principalmente, un creciente interés en sistemas que afrontarán con éxito la tarea de localizar respuestas concretas en grandes volúmenes de información, dejaron la puerta abierta a la aparición de un nuevo campo de investigación conocido como Búsqueda de Respuestas (BR) o Question Answering (QA). En el Capítulo 2 profundizaremos en los sistemas de BR. En el Capítulo 3 se presenta un sistema de BR implementado, el cual modificaremos y pondremos en funcionamiento para determinados casos de estudio. 1.5 Motores de búsqueda Los motores de búsqueda son sistemas de evolución paralela al crecimiento de la web y al aumento de usuarios. Constituyen uno de los desarrollos más consolidados de las técnicas de indización automática y, al mismo tiempo, son los sistemas más sensibles a una amplia serie de situaciones peculiares que se pueden presentar en la red: spamming, inaccesibilidad de páginas, etc Independientemente de su método de rastreo y de los posteriores criterios y algoritmos empleados para el alineamiento de los documentos, todos los motores de búsqueda parten de una situación inicial parecida: una lista de direcciones que sirve de punto de partida para el robot (o los robots). Esta similitud de condiciones iniciales propicia, una posterior comparación del 14

21 resultado final, es decir, de la porción de web indexada y de la calidad de esta indexación. Existe cierto ocultismo en cuanto a los métodos seguidos por cada motor en la realización de sus tareas. De cualquier manera, mediante la comparación del resultado obtenido se podrá apreciar cuál de esos sistemas es de uso más recomendable. Se asume que su calidad de un motor de búsqueda depende de lo completa, representativa y actualizada que sea la colección. En cambio, en un directorio, la misma reside en la capacidad de los gestores en la realización de las descripciones y en el número de esos gestores, ambos motivos más relacionados con capacidades presupuestarias que con prestaciones tecnológicas, Los motores representan un claro ejemplo de la aplicación de las técnicas de recuperación de información a la resolución de un reto, tan ambiguo como moderno, en el campo de la información y la documentación: disponer en un índice de las referencias a la mayor cantidad de documentos existentes Funcionamiento de un motor de búsqueda El funcionamiento de un motor debe estudiarse desde dos perspectivas complementarias: la recopilación y la recuperación de información. Un motor compila de forma automática las direcciones de las páginas que van a formar parte de su índice tras realizar sobre su contenido un proceso de indización. Una vez se encuentren estos registros debidamente depositados en la base de datos del motor, los usuarios buscarán en su índice por medio de un una interfaz de consulta, que puede ser más o menos avanzada en función del grado de desarrollo del sistema. Al módulo encargado de la recopilación de las páginas se le conoce comúnmente como robot ( es un programa que rastrea la estructura hipertexto de la web, recogiendo información sobre las páginas que encuentra. Esa información se indexa y se introduce en una base de datos que 15

22 será explorada posteriormente utilizando un motor de búsqueda [Delgado,2001] ) Estos robots pueden recopilar varios millones de páginas por día, y actualizar la información recogida en los índices en periodos de tiempo extremadamente pequeños. Por regla general, se parte de una lista inicial de direcciones de sitios web, que son visitados por el robot, y a partir de ahí cada robot rastrea a su manera la web, de ahí que la información almacenada en cada base de datos de cada motor sea distinta. Baeza-Yates distingue en un robot las funciones de análisis y rastreo ( crawling ) de las de indización o indexación ( indexing ), con lo cual él habla de dos módulos independientes, el crawler o robot y el indexador [Baeza,1999] Arquitectura de un motor de búsqueda La mayoría de los motores de búsqueda emplean una arquitectura de tipo robot-indexador centralizada, que se muestra en la Figura 1.1. A pesar de lo que puede inducir su nombre y de una amplia serie de definiciones incorrectas, el robot no se mueve por la red, ni se ejecuta sobre las máquinas que visita, ya que realmente el robot funciona sobre el sistema local del motor de búsqueda y envía un serie de peticiones a los servidores web remotos (donde se alojan las páginas). El índice también se gestiona localmente. Esta arquitectura clásica es la que implementa, entre otros, el motor Altavista

23 Figura 1.1 Arquitectura simple de un motor de búsqueda a partir de un filtrado de documentos. Fuente:Baeza-Yates,R. and Ribeiro-Nieto,B. Modern Information retrieval. New Cork:ACM Press:Harlow[etc,]:Addisson-Wesley,1999 XX,513p. Este modelo presenta algunos problemas para gestionar adecuadamente en el entorno local la ingente cantidad de datos:! La actualización de los índices es complicada y lenta.! No sigue el ritmo de crecimiento de la web, indexando nuevos documentos en un nivel menor.! El trasiego de páginas por la red consume un gran ancho de banda y produce una sobrecarga de tráfico [Delgado, 2001].! Suelen ignorarse los contenidos dinámicos de la red, creación de páginas de consulta, ficheros en otros formatos, etc Los índices de los motores El índice es el corazón de un motor de búsqueda [Chang, 2001]. Generalmente consiste en una lista de palabras con valor de discriminación asociadas a sus correspondientes documentos, que en este caso son las descripciones de los URL recopiladas. La mayor parte de los motores de búsqueda emplean como estructura de datos un fichero inverso [Chang, 2001; Delgado,2001] basado en una idea general que se muestra en la ilustración siguiente: 17

24 Document Text 1 Pice porrigde hot, pice porridge cold 2 Pice porridge in the past 3 Nine days old 4 Some like it, some like it cold 5 Some like it in the past 6 Nine days old Number Term Text 1 cold 1,4 2 days 3,5 3 hot 1,4 4 in 2,5 (b)file for text of (a) (a) Example text;each line in one document Figura 1.2 Ejemplo de la estructura de un fichero inverso (tabla de la derecha). Fuente:Rijsbergen, C.J. Information Retrieval En la práctica el fichero inverso se convierte en una estructura de datos con serios problemas de gestión. Los distintos motores de búsqueda se sirven de distintos esquemas para definir estas estructuras de datos. El índice emplea un conjunto de punteros que apuntan a una tabla donde se recogen todas las URL en las que aparece una palabra clave. La manera en la que se ordenan estos punteros depende de un mecanismo interno de ordenación basado, generalmente, en criterios de frecuencias o pesos en el documento. El enorme tamaño de la colección de URL recopiladas por los motores obliga a buscar formas de simplificar al máximo el tamaño de estos índices. La siguiente tabla muestra algunos métodos para la reducción del tamaño de los índices: Conversión de texto o minúsculas Stemming Supresión de las palabras vacías Comprensión de textos Se convierten todas las palabras a caracteres en minúscula, reduciendo así el número de entradas para un mismo término. Aislamiento de la base de la palabra(por ejemplo, compresión y comprensivo e reducirán a compren ), reduciendo así el número de entradas en el índice Se suprimen del índice todas aquellas palabras por las que no tiene sentido recuperar información (artículos, preposiciones, adjetivos o interjecciones, por ejemplo) Técnicas de compactación del tamaño del fichero. Tabla 1.3 Técnicas empleadas para reducir el tamaño de los índices de un motor de búsqueda. 18

25 1.5.4 Tipos de robots Junto a los robots de carácter general, existen otras modalidades de estos sistemas [Delgado,2001]:! Knowbots: Programados para localizar referencias hipertexto dirigidas hacia un documento, servidor, etc., en particular. Permiten evaluar el impacto de las distintas aportaciones que aportan las distintas áreas de conocimiento presentes en la red.! Wanderes (vagabundos): Encargados de realizar estadísticas, como por ejemplo de crecimiento de la red, número de servidores conectados, etc.! Worms(gusanos): Encargados de la duplicación de directorios FTP, para incrementar su utilidad a un número mayor de usuarios.! WebAnts(hormigas): Conjunto de robots físicamente alejados que cooperan para la consecución de distintos objetivos, como por ejemplo para llevar a cabo una indización distribuida Funcionamiento de los robots Se ha comentado anteriormente que el robot inicia el rastreo a partir de un conjunto de URL muy populares o enviadas por los administradores de sitios web, y se siguen los enlaces de esa relación inicial de paginas evitando repeticiones. El recorrido puede ser de dos modos:! Breadth-first (cobertura amplia pero no profunda)! Depth-first (cobertura vertical profunda) [Baeza, 1999] La extensión de la web genera problemas par la actualización de la índices de los motores, ya que entre dos análisis transcurre un cierto periodo de tiempo, que varía según el motor. Baeza-Yates estima que entorno al 9% de los 19

26 enlaces almacenados son inválidos. Este criterio será uno de los más significativos para evaluar la calidad de un motor de búsqueda frente a otro Indización de las páginas A medida que los robots recopilan páginas, la información de estas debe ser indexada. Existen dos estrategias para realizar este proceso: usar información que provee el creador del documento o extraerla directamente del mismo. En la práctica los principales motores emplean ambas estrategias para disponer de una completa descripción del contenido de la página analizada. Algunos de los criterios utilizados para esta descripción pueden ser: el título del documento, el número de veces que se repite una palabra en el documento,.. Cada motor utiliza sus propios algoritmos y criterios. Un ejemplo representativo del comportamiento de un motor clásico a la hora de indexar las páginas web es el motor Altavista:! Da prioridad alta a las palabras del título y a las palabras que están localizadas en el comienzo de la página.! Asigna mayor peso a una palabra en un documento según su frecuencia absoluta.! El mejor tamaño para una página está entre 4 y 8k. Considera las páginas largas como valiosas en contenido, cuando no están afectadas de spamming.! Indexa las palabras claves y la descripción de los metadatos. Si no se tienen metadato, indexa las primeras 30 ó 40 palabras dela página y las toma como descripción.! Confiere una mayor prioridad a palabras ubicadas en los metadatos o a las palabras con las cuales se registran las páginas, pero no son tan relevantes como el título y el contenido.! Es sensible a las palabras claves mayúsculas y minúsculas.! Puede indexar un sitio que contiene marcos. Pero se debe asegurar que todas las páginas enlacen a la página principal. 20

27 La siguiente tabla resume algunas de las principales características de la indización y los motores que las implementan. Características de la indización Texto completo NO Todos SI Supresión palabras vacías Meta Descripción Meta palabras clave Texto alternativo FAST, Northen Light Google, Northen Light Excite, FAST,Google, Northen Ligh Excite, FAST, Northen Light Altavista,Excite,Goog le El resto El resto Altavista, Google Tabla 1.4 Resumen de las características de la indización y motores que las implementan Alineado de los documentos (ranking) El alineado, es uno de los procesos críticos a la hora de valorar la efectividad de un motor de búsqueda, ya que se trata del orden en el que el motor presenta los resultados a los usuarios, y como es de suponer el usuario espera encontrar los documentos más relevantes con respecto a sus necesidades en las primeras posiciones de la lista devuelta. El motor debe ordenar el conjunto de documentos en función de la relevancia de estos documentos con el tema de la pregunta realizada. Cuanto mejor sea el alineamiento de los documentos, menor será el tiempo de búsqueda empleado por el usuario en examinar el conjunto de documentos devuelto. Esta será otra característica de gran importancia para valorar la calidad del buscador. 21

28 1.6 Evaluación de los sistemas de recuperación de información Según Baeza-Yates un sistema de RI puede ser evaluado por diversos criterios, incluyendo entre los mismos: la eficacia en la ejecución, el efectivo almacenamiento de los datos, la efectividad en la recuperación de la información y la serie de características que ofrece el sistema al usuario [Baeza, 1999]. Estos criterios no deben confundirse, la eficacia en la ejecución es la medida del tiempo que se toma un sistema de RI para realizar una operación. Este parámetro ha sido siempre la preocupación principal del gestor de un sistema de RI, especialmente desde que muchos de ellos son interactivos, y un largo tiempo de recuperación interfiere con la utilidad del sistema. La eficiencia del almacenamiento es medida por el espacio que se precisa para almacenar los datos. Una medida común de medir esta eficiencia es cuantificar el ratio del tamaño del fichero índice junto con el tamaño de los documentos. Aquí debemos subrayar la importancia de la efectividad de la recuperación, en cuanto a la relevancia de los documentos recuperados. Según algunos autores existen dos tipos de evaluaciones a efectuar, el tiempo de respuesta y el espacio requerido. Baeza-Yates afirma cuando se analiza el tiempo de respuesta y el espacio requerido para la gestión se estudia el rendimiento de las estructuras de datos empleadas en la indexación de los documentos, la interacción con el sistema, los retrasos de las redes de comunicaciones y cualquier otro retardo adicionalmente introducido por el software del sistema. Esta evaluación podría denominarse evaluación del funcionamiento del sistema [Baeza,1999]. En un sistema de RI, los documentos recuperados no van a ser respuestas exactas a esta petición. Los documentos recuperados se clasifican de acuerdo a su relevancia con la pregunta. Los sistemas de RI requieren evaluar cómo de relacionado está el documento recuperado con la query o pregunta pasada al sistema. A esta evaluación se la conoce como evaluación del funcionamiento de la recuperación [Baeza,1999]. 22

29 Medidas tradicionalmente empleadas Dentro de las medidas empleadas, hay unas orientadas a analizar el aspecto físico de los datos y otras que intentan analizar si el contenido es pertinente o no. Meadow sintetiza las medidas empleadas en tres grupos: medidas basadas en la relevancia, medidas del proceso y medidas del resultado [Meadow, 1992]. A continuación se presentan las medidas empleadas y en que tipo de evaluación se basan. Precisión Exhaustividad Promedio de la efectividad E-P MEDIDAS BASADAS EN LA RELEVANCIA Documentos relevantes recuperados divididos entre el total de documentos recuperados Documentos relevantes recuperados dividido entre el total de documentos relevantes Promedios de la efectividad en pares de valores de exhaustividad y precisión Tabla 1.5 Resumen de las medidas basadas en la Relevancia de los documentos recuperados, empleadas en la evaluación convencional de la recuperación de la información. Fuente: Meadow, C. Text information retrieval systems. San Diego: Academic Press Selección Contenido Traducción de una consulta Errores en establecimiento de la consulta Tiempo medio de realización de la búsqueda Dificultad en la realización de la búsqueda Número de comandos precisos para una búsqueda Coste de la búsqueda MEDIDAS BASADAS EN EL PROCESO Mide cuántos documentos hay en la base de datos, el grado de solapamiento con otros relacionados que se espera de la base de datos antes de las búsquedas Tipo de documentos de la base de datos, temática de los documentos, frecuencia de actualización Se verifica si el usuario puede plantear la consulta directamente o precisa de intermediación Media de errores sintácticos en la escritura de la búsqueda que propician la recuperación de conjuntos vacíos y erróneos Tiempo medio de realización de una estrategia de búsqueda A la ratio anterior habrá que añadir los problemas que usuarios inexpertos se pueden encontrar Promedio de instrucciones necesarias para realizar una búsqueda Costes directos e indirectos en su realización 1.6 Nº Docs recuperados Extensión del resultado de una búsqueda Nº de Docs revisados Promedio de los documentos que los usuarios están dispuestos a por el usuario revisar Tabla 1.6 Resumen de las medidas, basadas en la evaluación de los procesos, empleadas en la evaluación convencional de la recuperación de la información. Fuente: Meadow, C. T. Text Information Retrieval Systems, San Diego: Academic Press

30 Precisión Exhaustividad Promedio efectividad E-P MEDIDAS DE RESULTADO --ya definida anteriormente-- --ya definida anteriormente-- --ya definida anteriormente-- Medidas 1.7 promedio de la satisfacción del usuario Medidas que pretenden medir la reacción de los usuarios ante el resultado de una búsqueda Tabla 1.7 Resumen de las medidas, basadas en el resultado obtenido, empleadas en la evaluación convencional de la recuperación de la información. Fuente: Meadow, C. T. Text Information Retrieval Systems. San Diego: Academic Press, De cualquier manera, las medidas más comúnmente empleadas son la precisión y la exhaustividad. 1.7 Foros de experimentación CLEF Cada año, el Cross-Language Evaluation Forum organiza una serie de pruebas de evaluación que prueban distintos aspectos de los sistemas de recuperación de información. Desde el principio, la intención ha sido experimentar con toda clase de lenguajes y acceso a información, para el desarrollo de sistemas monolingües de recuperación de información para muchos lenguajes y de sistemas multilingües de acceso a información. En la página oficial del CLEF 9, el apartado Working Notes contiene descripciones de los experimentos llevados a cabo dentro del CLEF. Los resultados de cada CLEF son presentados y discutidos en los Wokshops programados en cada campaña. Al final, se publican los resultados obtenidos después de la puesta en común con los grupos que se han presentado a la campaña anual del CLEF

31 Recuperación de documentos textual mono-, bi- y multilingüe sobre nuevas colecciones (Ad Hoc) Información mono- y cross-language sobre datos en lenguaje científico (Domain-Specific) Interactivo cross-language retrieval (iclef) Multiples lenguajes de question answering (QA@CLEF) Recuperación cross-language en colecciones de imagenes (ImageCLEF) Recuperación de documentos hablados cross-language (CL-SR) Recuperación multilingüe documentos Web (WebCLEF) Recuperación geográfica cross-language (GeoCLEF) TREC La Conferencia de REcuperación de Texto, co-patrocinado por el Instituto Nacional de Normas y la Tecnología (NIST) y el Departamento de defensa estadounidense, comienza su andadura en Su objetivo es apoyar la investigación en la comunidad de recuperación de documentos proporcionando la infraestructura necesaria para la evaluación a gran escala de metodologías de recuperación de texto. Sus objetivos son: Fomentar la investigación en recuperación de documentos basada en grandes colecciones. Aumentar la comunicación entre industria, academia, y gobierno creando un foro abierto para el intercambio de ideas de investigación. Dinamizar la transferencia de tecnología de laboratorios de investigación en productos comerciales demostrando mejoras sustanciales de metodologías de recuperación. Aumentar la disponibilidad de técnicas de evaluación apropiadas para empleo por parte de la industria y academia, incluyendo desarrollo de técnicas de evaluación nuevas aplicables a sistemas corrientes. Estas conferencias han aportado la evaluación de variadas modalidades de recuperación de información (desde el clásico modelo booleano a la búsqueda 25

32 por cadenas de texto o las búsquedas basadas en diccionarios), y han demostrado hasta qué punto pueden alcanzarse resultados significativos de investigación a través de la cooperación entre investigadores en el ámbito mundial. De hecho, en palabras de Sparck Jones, la comunidad investigadora debe estar muy agradecida a las conferencias TREC, en tanto que han revitalizado la investigación en recuperación de información y también ha demostrado la importancia de este campo de investigación en áreas afines, tales como el procesamiento del lenguaje natural y la inteligencia artificial [Chowdhury, 1999]. Pistas o talleres TREC Un taller TREC consiste en un juego que rastrea áreas de interés para las que se definen tareas de recuperación. Las pistas sirven a varios objetivos. Primero, rastrea áreas de investigación nuevas: la primera fase de una pista a menudo define lo que el problema realmente es, y una pista crea la infraestructura necesaria (colecciones de prueba, la metodología de evaluación, etc.) para apoyar la investigación. Las pistas también demuestran la robustez de tecnología de recuperación principal. Las mismas técnicas son con frecuencia apropiadas para una variedad de tareas. Finalmente, las pistas hacen TREC atractivo a una amplia comunidad investigadora proporcionando tareas que emparejan los intereses de investigación de varios grupos. Para cada pista se implementa una lista de direcciones. El objetivo inicial de esta lista de direcciones es hablar de los detalles de las tareas a realizar en la pista TREC. Sin embargo, una pista de la lista de direcciones también sirve como foro para tratar cuestiones generales metodológicas relacionadas con las tareas de recuperación de la pista. Más allá, algunas pistas enlazan con páginas web específicas que proporcionan la historia y el material de estudio relativo al tema central. Así, estas listas de páginas enlazan a su vez con la información que el TREC rastrea, si realmente la pista es programada para ser controlada en la corriente TREC. El juego de las pistas que serán controladas en un año dado por TREC, es determinado por el comité de programa TREC. Las pistas, o temas de estudio, TREC del año 2005 han sido las siguientes: 26

33 1. Pista de la empresa 2. Pista sobre el genoma 3. Recuperación de exactitud alta de documentos 4. Pista de recuperación robusta 5. Pista de SPAM 6. Pista terabyte Las pistas sobre las que se trabaja actualmente son: 1. Pista sobre recuperación en varias lenguas 2. Pista sobre la necesidad estable de información de un usuario 3. Pista sobre interacción de usuario con sistemas de recuperación de texto 4. Pista de vídeo 5. Pista de web 27

34 28

35 Capítulo 2. Sistemas de búsqueda de respuestas El objetivo de los sistemas tradicionales de recuperación de información ha sido devolver una lista ordenada de documentos en función de su relevancia con la pregunta efectuada. Desde aquí, era tarea del usuario abrir los documentos devueltos y buscar en ellos la respuesta. Como principal medio de búsqueda de información, hoy en día se utiliza Internet. Dado el crecimiento en cuanto a número de páginas (documentos), sería muy útil un sistema capaz de resolver de forma más precisa nuestras necesidades de información. Este problema es esencialmente lo que intentan resolver los sistemas de BR. La finalidad de los sistemas de BR es devolver la respuesta en si, sin necesidad por parte del usuario de perder el tiempo en examinar los documentos devueltos por el sistema de recuperación de información tradicional. El contenido del presente capítulo ha sido extraído principalmente de la publicación Recuperación de Información de Alta Precisión: Los Sistemas de Búsqueda de Repuestas de José Luis Vicedo González [Vicedo, 2002]. 2.1 Introducción Podemos definir la BR como la tarea automática realizada por ordenadores que tiene como finalidad la de encontrar respuestas concretas a necesidades precisas de información formuladas por usuarios eventuales. La principal utilidad de los sistemas de BR en aquellos casos en los que el usuario final desea conocer alguna información muy concreta y se necesita conocer inmediatamente. A modo de ejemplo, algunas aplicaciones prácticas podrían ser las siguientes: Sistemas de ayuda en línea de software. Sistemas de consulta de procedimientos y datos en grandes organizaciones. 29

36 Interfaces de consulta de manuales técnicos. Sistemas búsqueda de respuestas generales de acceso público sobre Internet. etc. La primera discusión acerca de las características de un sistema de BR y la primera aproximación a un sistema funcional (QUALM) fueron introducidos por Wendy Lehnert a finales de los 70 [Lehnert, 1977, 1980]. En estos trabajos se definieron las características ideales de un sistema de BR. Estos sistemas deberían entender la pregunta del usuario, buscar la respuesta en una base de datos de conocimiento y posteriormente componer la respuesta para presentarla al usuario. En consecuencia, estos sistemas deberán integrar técnicas relacionadas con el Entendimiento del Lenguaje Natural, la Búsqueda de Conocimiento (incluyendo posiblemente técnicas de inferencia) y la Generación de Lenguaje Natural. La investigación en sistemas de BR tuvo sus inicios en la comunidad científica relacionada con la inteligencia artificial. Desde esta perspectiva, la investigación desarrollada consideró requisito indispensable que los sistemas de BR tendrán que satisfacer todas y cada una de las características ideales anteriormente citadas. Sin embargo, hasta la fecha únicamente se han podido obtener algunos resultados a costa de restringir mucho los dominios sobre los que se realizan las consultas. Recientemente, la investigación en sistemas de BR también se ha afrontado desde el punto de vista de la comunidad especializada en sistemas de RI. Sin embargo, desde esta perspectiva, el poder desarrollar la tarea sobre dominios no restringidos constituye el requisito básico e innegociable a cumplir. Partiendo de este requerimiento inicial, las investigaciones se han orientado hacia el desarrollo de sistemas que van incorporando progresivamente herramientas más complejas que permiten la evolución de estos sistemas hacia la consecución de las características ideales propuestas por Lehner. Teniendo en cuenta estas orientaciones, se puede realizar una primera clasificación de los sistemas de BR en dos tipos: sistemas de BR en dominios restringidos y sistemas de BR en dominios no restringidos. 30

37 Dominios restringidos El interés en sistemas de BR no es nuevo desde la perspectiva de la IA. Sin embargo, hasta hace unos años la investigación se centró en el desarrollo de sistemas que respondieran a preguntas realizadas sobre una base de conocimiento estructurado. En este trabajo se investigó principalmente la aplicación de herramientas de PLN en combinación con técnicas de IA tales como demostración de teoremas para la extracción de respuestas de la base de conocimientos. El trabajo de Levine muestra con detalle este tipo de aproximaciones [Levine y Fedder, 1989]. Recientemente, las investigaciones han derivado hacia el tratamiento de bases de conocimiento no estructuradas, si bien, sólo se han obtenido resultados más o menos satisfactorios en el caso particular del tratamiento de documentos de dominios muy restringidos. Dominios no restringidos La investigación en sistemas de BR en dominios no restringidos vive actualmente momentos de gran auge. Gran parte del interés en estos sistemas ha sido propiciado por la inclusión de una tarea específica para la evaluación de sistemas de BR dentro de la serie de conferencias TREC patrocinadas por NIST 10, DARPA 11 y ARDA 12. Estas conferencias han dado un gran empuje a esta línea de investigación no sólo como plataforma de evaluación, comparación y difusión de los sistemas existentes (las actas y resultados de las evaluaciones son públicas) sino, principalmente, por su apuesta decidida en relación al fomento de la introducción de mejoras en los sistemas a través de la continua introducción de nuevos retos a afrontar. Por ello, en sólo tres años, estas conferencias se han convertido en el principal foro de discusión y promoción de los sistemas de BR en todo el mundo y prueba de ello reside en el crecimiento continuo del número de participantes convocatoria tras convocatoria. 10 National Institute of Standars and Technology 11 Technology Office of the Defense Advanced Research Projects Agency 12 Advanced Research and Development Activity 31

38 Las conferencias TREC y los sistemas de BR En 1999, en el seno de la conferencia (TREC, 1999), se presentó la primera convocatoria de esta serie: The first Question Answering track". Esta convocatoria nació con el propósito de fomentar la investigación, evaluación y comparación de las posibles aproximaciones existentes orientadas a la construcción de sistemas automáticos que pudiesen proporcionar respuestas a preguntas concretas a partir de una gran colección de documentos no estructurados. En esta primera convocatoria, se evaluó el rendimiento de los sistemas participantes sobre 200 preguntas de test elaboradas por la organización con la seguridad de que la respuesta se encontraba en algún documento de la colección. Para cada pregunta, los sistemas deberían devolver una lista ordenada con un máximo de 5 respuestas posibles. Cada respuesta consistiría en un fragmento de texto extraído de la base documental en el que debería aparecer la respuesta a la pregunta. Se diseñaron dos categorías en función del tamaño máximo permitido del fragmento de texto respuesta (250 y 50 caracteres). Una descripción detallada de la tarea propuesta y del proceso de evaluación puede encontrarse en [Voorhees, 1999] y [Voorhees y Tice, 1999]. Con la finalidad de fomentar la investigación en este campo y potenciar la mejora de los sistemas existentes, en las siguientes convocatorias (TREC9, 2000) y (TREC10, 2001) se introdujeron progresivamente nuevos requerimientos basados, sobre todo, en el incremento del tamaño de la base documental y en la cantidad y complejidad de las preguntas de test realizadas. En particular, el congreso TREC9 fue especialmente fructífero puesto que abordó el análisis del problema de la BR desde una perspectiva a largo plazo. Se definieron los objetivos a conseguir en el futuro y además, se diseñó un plan a cinco años que permitió orientar las investigaciones futuras hacia la consecución de dichos objetivos. La descripción de las tareas a realizar propuestas en la convocatoria TREC10 reflejaron ya las primeras consecuencias de dicho plan. En primer lugar, el tamaño máximo de texto permitido como respuesta se limitó a 50 caracteres exclusivamente. En segundo lugar, no se garantizó la existencia de respuesta a las preguntas en la base de datos documental, fomentando así la investigación 32

39 en herramientas que permitiesen validar la existencia o no de una respuesta correcta en la base de datos. Además, se incrementó la complejidad de las preguntas de test. Se incluyeron preguntas en las que se especificaba un número de instancias a recuperar como respuesta y también se propusieron series de preguntas formuladas sobre un mismo contexto. Estas series estaban formadas por preguntas relacionadas entre sí de forma que la interpretación de cada pregunta dependiera tanto del significado de las preguntas realizadas previamente como de sus respectivas contestaciones. En cuanto al tipo de usuarios de estos sistemas, podemos encontrar un amplio espectro de usuarios que requieren diferentes capacidades del sistema para satisfacer sus necesidades de información. Estas necesidades pueden variar entre las solicitadas por un usuario casual, que interroga al sistema para la obtención de datos puntuales, y las que puede necesitar un analista profesional. Estos tipos representan los extremos de esa amplio espectro de usuarios potenciales de un sistema de BR. De acuerdo a The Q&A Roadmap Committee [Burguer et al., 2003] podemos clasificar los diferentes usuarios de un sistema de BR en cuatro tipos generales en función de la complejidad de sus requerimientos. 1. El usuario casual. Este tipo de usuario necesita información precisa acerca de hechos concretos. (Realiza preguntas cuya respuesta puede encontrarse en un documento expresada, generalmente, de forma simple). Este usuario realizaría preguntas de este estilo: Dónde está Gandía?", En qué año nació el expresidente Aznar?" o Cuántos habitantes tiene Castellón?". La Figura 2.1 muestra gráficamente la relación entre dicha taxonomía de usuarios y los diferentes niveles de complejidad de sus requerimientos. 33

40 Figura 2.1 Niveles de usuarios según complejidad de las preguntas 2. El recopilador de información. A diferencia del anterior, este usuario realiza preguntas cuya respuesta necesita de un proceso de recopilación de varias fuentes de información indicadas en la pregunta. Veamos algunos ejemplos de preguntas de este tipo: Qué países tienen frontera con España?, Qué países visitó el Papa en 1998?", Qué jugadores de fútbol han anotado mas de 4 goles en un partido oficial de fútbol en México?". Como puede observarse, este tipo de preguntas requiere de varias fuentes de Información (probablemente en diferentes documentos) y su posterior combinación como respuesta final. 34

41 3. El periodista. Es el tipo de usuario al que se le encarga la redacción de un artículo relacionado con un evento determinado, por ejemplo un huracán que golpea la costa del Golfo de México. Para ello, el reportero necesitará recabar datos concretos del suceso (intensidad del huracán, lugar del desastre, daños materiales,...), el sistema de BR necesitaría tener en cuenta el contexto de la serie de preguntas que el usuario interpondrá al sistema. Este contexto permitiría al sistema determinar la amplitud de la búsqueda y la necesidad de profundizar en determinados aspectos relacionados. 4. El analista profesional. El perfil de este usuario corresponde con el de un profesional de la información experto en temas concretos. Por ejemplo, analistas financieros, personal de agencias estatales de inteligencia especializadas en política internacional, política económica, o en la investigación de determinados delitos como el terrorismo, tráfico de drogas, etc. Un ejemplo del tipo de preguntas que el sistema de BR debería de responder sería el siguiente. Un analista de la policía intuye que puede haber cierta conexión entre las actividades de un grupo de secuestradores y un grupo de policías e intenta investigar la existencia de dicha conexión. Para ello, el analista podría realizar al sistema las siguientes preguntas: Hay alguna evidencia de conexión, comunicación o contacto entre estos dos grupos?", Hay alguna evidencia de que estos grupos estén planeando alguna acción conjunta?". Un sistema de BR que trabaje a este nivel debe poder aceptar preguntas muy complejas cuyas respuestas pueden basarse en conclusiones y decisiones realizadas por el propio sistema. Estas respuestas necesitarán de la recopilación y síntesis de información obtenida en diferentes fuentes y deberá ser presentada al usuario de una forma adecuada a su forma de trabajo. Como puede deducirse, los niveles de sofisticación de estos diferentes tipos de usuarios estarán íntimamente relacionados con el nivel de complejidad de las preguntas y respuestas que el sistema ha de ser capaz de procesar satisfactoriamente. 35

42 En consecuencia, el análisis del problema de la BR va a depender fundamentalmente del correcto estudio de las dos partes principales del problema: las preguntas y las respuestas. Desde el punto de vista de la problemática de las preguntas, pueden destacarse tres factores principales de los que depende el correcto funcionamiento de un sistema de BR: I. El contexto en el que se realizan las preguntas. Este contexto determinará cómo debe interpretar el sistema la información requerida en cada momento. Por ejemplo, sin un correcto análisis contextual, la pregunta Dónde está el Cesar Palace?" puede tener varias respuestas que serán correctas o incorrectas en función de dicho contexto: (1) Las Vegas, Nevada", Paris, Francia"" (donde está el casino Cesar Palace) o incluso Ciudad Madero, Tamaulipas" (donde se encuentra un hotel con dicho nombre). II. La intención de la pregunta. El análisis de la intención que refleja una pregunta debe conducir el proceso de búsqueda de forma que los elementos de juicio, motivos e intenciones reflejadas en ella puedan ser correctamente abordados y resueltos en el proceso generación de la respuesta. Por ejemplo, el análisis de la pregunta Por qué las relaciones diplomáticas entre México y Cuba se han visto deterioradas?" debe detectar que el usuario requiere una respuesta que justifique las razones de la afirmación expresada en la pregunta. III. El alcance de la pregunta. El proceso de interpretación de la pregunta debe poder determinar en cuál de las fuentes de información disponibles se ha de realizar la búsqueda y también, el nivel de profundidad requerido para generar la respuesta. De forma similar, desde el punto de vista de la complejidad de las respuestas, un sistema de BR necesitaría contemplar los siguientes aspectos: a) Diversidad de las fuentes de datos. Un sistema de BR avanzado ha de permitir la búsqueda de información en un amplio espectro de fuentes de datos diferentes. b) La integración de datos individuales. Se requiere que el sistema sea capaz de integrar, combinar y resumir datos individuales 36

43 extraídos de cualquier fuente de información para generar aquellas estructuras de información compuestas que son relevantes a la pregunta. c) La interpretación de la información. Estos sistemas deben facilitar una interpretación de la información relevante recuperada que se ajuste a la interpretación de la pregunta original. Este proceso permitiría que los motivos, intenciones y elementos de juicio expresados en la pregunta se reflejaran en los procesos de selección de información relevante y de generación de las respuestas. Queda claro que el abordar la detección y análisis de los factores principales que afectan al problema de la BR no resulta una tarea trivial. Sin embargo, este proceso ha permitido definir el problema desde una perspectiva general facilitando así, el acotar el ámbito del problema, aproximar sus objetivos, definir una base que permite situar el estado actual de las investigaciones en este campo y sobre todo, centrar el interés en aquellos aspectos hacia los que se deben orientar las investigaciones futuras. 2.2 Componentes principales de un sistema de BR Tras analizar algunas de las publicaciones actuales más relevantes, tales como [Prager et al., 2000 ; Hovy et al., 2001; Vicedo et al., 2003 ; Perez- Coutiño et al., 2004; de Pablo et al., 2004], se puede establecer una división de componentes de un sistema de BR tal y como sigue: 1. Análisis de la pregunta. 2. Recuperación de documentos. 3. Selección de pasajes relevantes. 4. Extracción de respuestas. 37

44 La Figura 2.2 muestra gráficamente la secuencia de ejecución de estos procesos y cómo se relacionan entre sí. Figura 2.2 Módulos de ejecución en la BR a partir de documentos y sus pasajes relevantes Los componentes mencionados están relacionados entre si procesando información textual disponible en los distintos niveles hasta terminar el proceso de BR mediante la devolución de un resultado. En la primera parte del proceso, las cuestiones formuladas al sistema son procesadas por el módulo Análisis de la pregunta. Este proceso es de vital importancia puesto que de la cantidad y calidad de la información extraída en este análisis dependerá en gran medida el rendimiento de los restantes módulos y por consiguiente, el resultado final del sistema. Una parte de la información resultado del análisis de la pregunta es utilizado por el módulo Recuperación de documentos para realizar una primera selección de textos. Dado el gran volumen de documentos a tratar por estos sistemas y las limitaciones de tiempo de respuesta con las que trabajan, esta tarea se realiza utilizando sistemas de RI o RP. 38

45 Los sistemas de Recuperación de Pasajes (RP) utilizan los mismos modelos tradicionales de RI pero sustituyendo al documento por el pasaje. Un pasaje se define como una secuencia contigua de texto dentro de un documento. El resultado obtenido es un subconjunto muy reducido de la base de datos documental sobre los que se aplicarán los procesos posteriores. A continuación, el módulo Selección de pasajes relevantes se encarga de realizar un análisis más detallado del subconjunto de textos relevantes con el objetivo de detectar aquellos fragmentos reducidos de texto que son susceptibles de contener la respuesta buscada. Finalmente, el módulo Extracción de respuestas procesa el pequeño conjunto de fragmentos de texto resultado del proceso anterior con la finalidad de localizar y extraer la respuesta buscada. 2.3 Situación actual Los sistemas de BR actualmente en operación, afrontan la tarea de BR desde la perspectiva del usuario casual. Un usuario que realiza preguntas simples que requieren un hecho, situación o dato concreto como respuesta. Estos sistemas utilizan un único tipo de fuente de información en la que se realiza la búsqueda de respuestas: una base de datos textual compuesta por documentos escritos en un único lenguaje (actualmente el idioma inglés es el más utilizado). En algunos casos se ha avanzado un poco mas mediante el uso de bases de datos léxico-semánticas (principalmente WordNet) y la integración de algún tipo particular de ontología como SENSUS [Hovy et al., 2000]. Desde esta perspectiva, los sistemas existentes pueden contestar a preguntas simples cuya respuesta aparece en un único documento y además, los conceptos expresados en la pregunta están localizados en zonas del texto cercanas a dicha respuesta. 39

46 2.4 Clasificación de los sistemas de BR La realización de una clasificación de los sistemas existentes resulta una tarea bastante complicada. Ésta dificultad radica principalmente en la selección de la perspectiva desde la que se desea realizar dicha clasificación. Vicedo propone una clasificación detallada que muestra los diferentes niveles de procesamiento del lenguaje natural que estos sistemas emplean [Vicedo, 2002] Sistemas que no utilizan técnicas de PLN. Estos sistemas tratan de aplicar únicamente técnicas de RI adaptadas a la tarea de BR. La forma general de actuación de estos sistemas se basa en la recuperación de extractos de texto relativamente pequeños con la suposición de que dichos extractos contendrán la respuesta esperada. Generalmente estos sistemas utilizan varias formas de seleccionar aquellos términos de la pregunta que deben aparecer cerca de la respuesta. Normalmente, se eliminan las palabras vacías y se seleccionan aquellos términos con mayor valor discriminatorio". Estos términos se utilizan para recuperar directamente fragmentos relevantes de texto que se presentan directamente como respuestas [Cormack et al., 1999] o bien, para recuperar documentos que posteriormente serán analizados. Este análisis consiste en dividir el texto relevante en ventanas de un tamaño inferior o igual a la longitud máxima permitida como cadena respuesta. Cada una de estas ventanas se valora en función de determinadas heurísticas para finalmente presentar como respuestas aquellas ventanas que consiguen la mejor puntuación. Esta valoración suele tener en cuenta aspectos como el valor de discriminación de las palabras clave contenidas en la ventana, el orden de aparición de dichas palabras en comparación con el orden establecido en la pregunta, la distancia a la ventana de aquellas palabras clave que no se aparecen en la ventana, etc. 40

47 Además del sistema de la universidad de Waterloo, citado previamente, se puede incluir en este grupo el sistema utilizado por la universidad de Massachusetts [Allan et al., 2001]. El rendimiento alcanzado por este tipo de sistemas es relativamente bueno cuando la longitud permitida como respuesta es grande (del orden de 250 caracteres), sin embargo, decrece mucho cuando se requiere una respuesta concreta a la pregunta (unos 50 caracteres de longitud máxima). Un caso especial lo constituye el sistema diseñado por InsigthSoft [Soubbotin and Soubbotin, 2001]. Este sistema es uno de los que mejor rendimiento presenta aunque no utiliza ninguna herramienta de PLN. Se diferencia respecto a las anteriores aproximaciones en el uso de patrones indicativos (combinación determinada de caracteres, signos de puntuación, espacios, dígitos o palabras) en el proceso de extracción final de la respuesta Sistemas que usan información léxico-sintáctica En esta clase se pueden catalogar la mayoría de las aproximaciones existentes. Al igual que los sistemas anteriores, estos sistemas utilizan técnicas de RI para seleccionar aquellos documentos o pasajes de la colección documental que son más relevantes a la pregunta. Las diferencias más significativas estriban en el uso de técnicas de PLN para analizar las preguntas y facilitar el proceso de identificación y extracción final de las respuestas. Estos sistemas se caracterizan, en primer lugar, por la realización de un análisis detallado de la pregunta que permite conocer o aproximar el tipo de entidad que cada pregunta espera como respuesta. Estas entidades están organizadas en conjuntos de clases semánticas como por ejemplo, persona", organización", tiempo', lugar", etc. La identificación del tipo de respuesta esperada se suele hacer mediante el análisis de los términos interrogativos de la pregunta. Para realizar el análisis de la pregunta se suelen utilizar etiquetadores léxicos y analizadores sintácticos inclusive métodos de aprendizaje automático [Solorio and López, 2004]. 41

48 Por otra parte, el proceso de extracción de la respuesta combina el uso de técnicas de RI para la valoración de extractos reducidos de texto, como las utilizadas en los sistemas de la clase anterior, con el uso de clasificadores de entidades [Neumann et al., 2004]. Estas herramientas permiten localizar aquellas entidades cuya clase semántica corresponde con aquella que la pregunta espera como respuesta. De esta forma, el sistema sólo tiene en cuenta aquellos extractos de texto que contienen alguna entidad del tipo requerido como respuesta. La gran mayoría de los sistemas actuales utilizan esta aproximación [Kwok et al.2001; Negri et al ; Osenova et al., 2004]. De entre los sistemas que adoptan esta estrategia general, cabe destacar algunas variantes interesantes. El sistema utilizado por IBM [Prager et al., 2000] y el del INAOE, [Perez- Coutiño et al., 2004] basan su aproximación en el concepto de anotación predictiva. Este sistema utiliza un etiquetador de entidades para anotar en todos los documentos de la colección, la clase semántica de aquellas entidades que detecta. Dicha clase semántica se indexa junto con el resto de términos de los documentos. Este proceso facilita la recuperación preliminar de los extractos de documentos que contienen entidades cuya clase semántica coincide con la esperada como respuesta. Otras aproximaciones incluidas en este grupo realizan un uso más intensivo de la información sintáctica. Algunos sistemas tienen en cuenta la similitud entre las estructuras sintácticas de las preguntas y posibles respuestas como factor importante en el proceso de extracción de la respuesta final [Buchholz 2001; Lee et al., 2001]. Finalmente, cabe destacar algunas aproximaciones que pueden considerarse próximas a la propuesta aquí presentada. De hecho este trabajo final de carrera toma el enfoque desarrollado por Brill pero con ciertas diferencias que mencionaremos mas adelante. Los sistemas de la Universidad de Waterloo [Clarke et al., 2001] y Microsoft [Brill et al., 2001] y más recientemente Linguateca [Costa et al., 2004] se caracterizan principalmente por el uso de Internet (documentos Web) como fuente de información añadida en el proceso de BR. En el caso de la Universidad de Waterloo [Clarke et al., 2001], el sistema realiza el proceso de búsqueda a través de la Web y recopila determinada 42

49 información, como respuestas posibles encontradas y frecuencia de las mismas. Posteriormente, el sistema realiza el mismo proceso sobre la base documental sobre la que ha de extraerse la respuesta pero utilizando la información obtenida a través de Internet para mejorar el proceso de identificación y extracción de la respuesta correcta en la base documental. Los experimentos realizados por este sistema demuestran que el uso de la información extraída a través de la Web resulta de una importancia notable, mejorando en gran medida el rendimiento final del sistema. Por otra parte, Microsoft [Brill et al., 2001] no utiliza Internet como mero apoyo al sistema, sino que su aproximación se fundamenta en el uso de la información obtenida a través de la red. En resumen, este sistema trata de aprovechar la gran densidad de información existente en la Web para encontrar una respuesta que esté expresada mediante una combinación de los términos de la pregunta. Por ejemplo, una posible respuesta a la pregunta Cuándo fué inventado el papel?", podría expresarse de esta forma: El papel fue inventado el <FECHA>". Este sistema, a partir de los términos de la pregunta, construye de forma semi-exhaustiva todas las posibles combinaciones que incluyen los términos de la pregunta y el tipo de respuesta esperado incluyendo también, aquellas que son incorrectas El papel se inventó el <FECHA>". Para realizar lo anterior se identifica cuál es el verbo en la oración y se hace uso de conocimiento externo para completar o modificar las preguntas (para el ejemplo de arriba se usan sinónimos como crear, descubrir). A continuación, todas las formulaciones generadas se lanzan a través de Internet. Este sistema basa su funcionamiento en dos suposiciones: (1) Que las formulaciones incorrectas es poco probable que vayan a encontrarse. (2) Que la gran densidad de información accesible a través de la red hace muy probable que se pueda encontrar una respuesta expresada de la misma forma que alguna de las reformulaciones correctas. Posteriormente, los resultados de estas búsquedas se filtran para detectar todas aquellas posibles respuestas que coinciden con el tipo esperado. Estas 43

50 respuestas se valoran principalmente, en función de su frecuencia de aparición en los resultados de la búsqueda en Internet y se ordenan según dicho valor. En este punto, el sistema ha generado una lista de las mejores respuestas a la pregunta encontradas a través de la Web. El último paso consiste en buscar dichas respuestas en la base documental para determinar cuáles de ellas se encuentran en alguno de sus documentos. Finalmente, el sistema devuelve aquellas respuestas mejor clasificadas y que aparecen en esta colección. En el tercer caso, el sistema Esfinge de Linguateca [Costa et al., 2004] para la tarea monolingüe en Portugués tiene un enfoque bastante parecido al de Microsoft pero usando tres diferentes estrategias: En la primera, el sistema investiga las respuestas en la colección de documentos del CLEF, en la segunda, el sistema investiga las respuestas en la Web y usa la colección de documentos del CLEF para confirmar estas respuestas. Y finalmente, en la tercera estrategia el sistema solo investiga las respuestas en la Web. Es importante hacer notar que Esfinge utiliza diversos recursos lingüísticos, por ejemplo un analizador morfológico, para mejorar su rendimiento. Estas tres últimas aproximaciones están incluidas en el grupo de sistemas de BR que utilizan el enfoque de usar la Web como un complemento para el mejor rendimiento de sus sistemas, de hecho es el paradigma mas usado por la gran mayoría de los sistemas actuales [Negri et al., 2003 ; Echihabi et al., 2003 ; Jijkoun et al., 2003; Vicedo et al ; Bourdil et al ; de Pablo et al ; Pérez- Coutiño et al., 2004] Sistemas que usan información semántica. El uso de técnicas de análisis semántico en tareas de BR es escaso debido fundamentalmente a las dificultades intrínsecas de la representación del conocimiento. De hecho, sólo un grupo reducido de sistemas aplica herramientas que realizan este tipo de análisis. Estas técnicas se utilizan en los procesos de análisis de la pregunta y de extracción final de la respuesta. De forma general, estos sistemas obtienen la 44

51 representación semántica de la pregunta y de aquellas sentencias que son relevantes a dicha pregunta. A partir de lo anterior la extracción de la respuesta se realiza mediante procesos de comparación y unificación entre las representaciones de la pregunta y las frases relevantes. El sistema de la Universidad de California del Sur [Hovy et al. 2000, 2001; Echihabi et al., 2003] utiliza el concepto de tripletas semánticas (una entidad del discurso, el rol semántico que dicha entidad desempeña y el término con el que dicha entidad mantiene la relación) para representar dicha información. Como ejemplo de uso eficaz de las técnicas de análisis semántico cabe destacar los sistemas de la universidad Metodista [Harabagiu et al., 2000], LCC [Harabagiu et al., 2001], el grupo de QA de tecnología de lenguaje de DFKI [Neumann et al., 2004] y la Universidad de Ámsterdam [Jijkoun et al., 2003]. Estos sistemas utilizan el análisis semántico en el proceso de extracción final de la respuesta. Para ello, tanto las preguntas como las frases que contiene las posibles respuestas son representadas mediante fórmulas lógicas a las que se aplica un proceso de unificación para localizarlas posibles respuestas. Estas respuestas sirven de entrada a un módulo posterior de análisis contextual que permite verificar si son correctas dichas respuestas, descartando aquellas que resultan incorrectas Sistemas que usan información contextual La aplicación de técnicas de análisis contextual en sistemas de BR se restringe a la incorporación de conocimiento general del mundo asociado a mecanismos inferenciales que facilitan el proceso de extracción de respuestas y a la aplicación de procesos de resolución de correferencias. Cabe destacar que los sistemas de la universidad Metodista del Sur [Harabagiu et al., 2000], LCC [Harabagiu et al., 2001] y la universidad de Ámsterdam [Jijkoun et al., 2003] son los que mejor rendimiento obtienen de la aplicación de técnicas de este nivel de análisis del lenguaje natural. 45

52 Estos sistemas parten de las respuestas posibles obtenidas como resultado del proceso de unificación realizado a nivel de análisis semántico. A estas respuestas, se añaden un conjunto de axiomas que representan el conocimiento general del mundo (obtenidos de WordNet) junto con otros derivados de la aplicación de técnicas de resolución de correferencias a través de las respuestas posibles. La resolución de correferencias constituye el conjunto de técnicas de análisis contextual más utilizada en procesos de BR. Son varios los sistemas que aplican alguna técnica de resolución de correferencias en el proceso de BR [Hovy et al., 2001], [Harabagiu et al., 2001] y [Vicedo et al., 2002]. Generalmente, las técnicas de resolución de la anáfora se aplican en dos etapas diferentes del proceso de BR: en la extracción de las respuestas y en el análisis de las preguntas. En el primer caso, la resolución de correferencias se realiza sobre aquellos documentos que son relevantes a la pregunta con la finalidad de facilitar la localización y extracción de entidades relacionadas con la pregunta y la respuesta. En el segundo caso, los sistemas utilizan estas técnicas para seguir la pista de aquellas entidades del discurso referidas de forma anafórica a través de series de preguntas individuales que interrogan al sistema acerca de diferentes aspectos relacionados todos en un mismo contexto. 2.5 Conceptos generales Esta sección introduce algunos conceptos de RI muy utilizados y cuyo conocimiento resulta recomendable para la correcta comprensión de capítulos sucesivos. 46

53 2.5.1 Palabras de parada y palabras clave La representación de un documento depende del conjunto de palabras que lo componen. Sin embargo, existe un conjunto de palabras, de uso muy frecuente, que carecen de poder de discriminación puesto que aparecen en la mayoría de los documentos. Este conjunto de palabras se denomina lista de palabras de parada (stopword list). Estas palabras se suelen eliminar en el proceso de indexación con la intención de reducir espacio de almacenamiento y aumentar el rendimiento de los sistemas. Los siguientes términos en castellano constituyen algunos ejemplos de este tipo de palabras: el", lo", para" y con". Existen varias de estas listas que se han obtenido en estudios específicos a tal efecto [Fox, 1992; Rijsbergen, 1979]. En contraposición, aquellas palabras que no aparecen en la lista de palabras de parada, se consideran lo suficientemente discriminantes como para representar el contenido de un documento y por tanto, son indexables. Estos términos reciben la denominación de palabras clave (keywords) Pesos de términos Una de las consideraciones básicas de los sistemas de RI es que todas las palabras clave no tienen el mismo valor discriminatorio. Son varias las técnicas que se han desarrollado para calcular y asignar pesos a las palabras clave en función de su poder discriminatorio" intrínseco. La técnica de asignación de pesos más utilizada es la desarrollada en [SparckJones, 1972] donde a cada término se le asigna un peso calculado en función del valor inverso de su frecuencia de aparición en el conjunto de documentos de la colección (inverse document frequency). Este valor se computa según la siguiente expresión: idf = log t Donde N es el número total de documentos de la colección y df t es el número de documentos en los que aparece el término t. N df t 47

54 2.5.3 Obtención de raíces (stemming) El proceso de obtención de raíces es una técnica que utilizan los sistemas de RI para aumentar su efectividad y reducir el tamaño de los archivos de indexación. Este proceso consigue obtener un único término a partir de palabras con el mismo significado pero que difieren esencialmente en su morfología. Este proceso obtiene una misma forma canónica para las diferentes variantes morfológicas de un término que no tiene porqué ser necesariamente, su raíz lingüística. Existen diferentes tipos de algoritmos que realizan este proceso Expansión de preguntas La mayoría de los modelos de RI detectan aquellos documentos relevantes a una pregunta mediante la evaluación del nivel de co-ocurrencia de términos entre la pregunta y los documentos de la colección. Puesto que esta comparación se hace a nivel de términos, es fácil encontrar casos en los que el sistema descarta documentos muy relevantes que utilizan para expresar su contenido términos diferentes a los empleados en la pregunta. Bajo la expresión expansión de preguntas (question expansion) se enmarcan aquellos procesos automáticos que tratan de mejorar las preguntas iniciales generadas por los usuarios, y cuyo objetivo es minimizar el número de documentos relevantes descartados a propósito del uso de modelos de recuperación basados en la co-ocurrencia de términos. El proceso de expansión consiste en añadir, al conjunto de términos originales de la pregunta, aquellos otros términos relacionados que pueden utilizarse para expresar las mismas ideas o conceptos. Existen diferentes métodos de selección de los términos a incorporar a la pregunta. Desde la selección de variantes morfológicas de los términos originales, pasando por la búsqueda de términos semánticamente relacionados (sinónimos, hipónimos, hiperónimos,... ) en bases de datos léxico-semánticas 48

55 como WordNet, hasta el uso de técnicas estadísticas para la determinación de los términos a incluir (ejemplo: vecinos más frecuentes). El uso de este tipo de técnicas ha sido muy beneficioso en términos de rendimiento del sistema. Los trabajos desarrollados por Donna Harman [Harman, 1988, 1992] suponen un buen estudio comparativo de las diferentes técnicas de expansión existentes Realimentación El concepto de realimentación (relevance feedback) ha sido aplicado en entornos de RI como técnica diseñada para mejorar la eficacia de estos sistemas. Esta técnica consiste en enriquecer la pregunta inicial realizada por el usuario del sistema mediante la utilización de la información de aquellos documentos que se han recuperado utilizando exclusivamente dicha pregunta inicial. La información relevante incluida en estos documentos, se añade a la pregunta complementando así, la información que ésta contiene y facilitando la detección nuevos documentos relevantes en búsquedas posteriores. Este proceso puede ser manual o automático. En el primer caso, el usuario dirige el proceso de realimentación por ejemplo, seleccionando aquellos documentos que le son relevantes de entre los recuperados con la pregunta inicial. Este proceso puede realizarse también de forma automática mediante la selección de los primeros n documentos recuperados. Las técnicas de realimentación han demostrado ser muy eficaces en tareas de RI. En [Harman,1992] se puede encontrar un estudio de las principales aproximaciones existentes. 49

56 50

57 Capitulo 3. BR monolingüe: El sistema INAOE Como ya se ha dicho en los capítulos anteriores, un sistema de búsqueda de respuestas es aquel sistema capaz de devolver respuestas concisas a preguntas sobre hechos concretos. En este capítulo se verá un ejemplo de este tipo de sistemas, el sistema del INAOE de búsqueda de respuestas mediante tratamiento a nivel léxico y aprovechando la redundancia existente en la web. El sistema originalmente se implementó para su utilización en castellano. Veremos como adaptarlo a otros idiomas, y como afecta la redundancia a los resultados obtenidos. El presente capítulo ha sido extraído en gran parte del trabajo efectuado por Alejandro Del Castillo Escobedo y reflejado en la tesis titulada Búsqueda de Respuestas mediante Redundancia en la Web [Del Castillo, 2005]. 3.1 Introducción En el INAOE inician los trabajos sobre sistemas de BR en agosto de Se trabaja sobre dos ideas en paralelo: 1) Búsqueda de respuestas mediante anotación predictiva, con las siguientes premisas iniciales de trabajo:! Se efectúa un análisis léxico sintáctico.! Se reconocen entidades.! Se utilizan metadatos para expresar contenido relevante (posibles respuestas) de los documentos.! Las preguntas factuales se responden con entidades nombradas (nombres de personas, lugares, fechas...)! La hipótesis de trabajo sobre la que se basan es que si se extraen todas las entidades nombradas en un documento, y se representan 51

58 adecuadamente su contexto de ocurrencia, entonces podemos responder a preguntas sin necesidad de recurrir al documento como tal. 2) Búsqueda de respuestas basadas en la web, a partir de las siguientes premisas:! Se realiza un tratamiento a nivel léxico de las preguntas y documentos.! Se basa en la redundancia existente en la web: la misma información está repetida en multitud de documentos.! Sistema estadístico de BR capaz de responder preguntas factuales en español a partir de la web.! La idea central en la que se basa el sistema es que las preguntas y las respuestas de estas se expresan comúnmente usando las mismas palabras.! Por los tanto, las respuestas se pueden encontrar mediante un simple apareamiento de patrones léxicos, sin necesidad de aplicar recursos lingüísticos sofisticados.! La probabilidad de encontrar un ajuste de este tipo debería incrementar con la redundancia de la colección destino, en nuestro caso la web. Sobre la segunda línea de investigación, es sobre la que se ha trabajado en este PFC. Por lo tanto, en este y sucesivos capítulos cuando hablemos de sistema INAOE estaremos refiriéndonos a esta línea de investigación. 3.2 Arquitectura del sistema BR INAOE basado en la Web El trabajo está basado en el enfoque desarrollado por Brill [Brill et al. 2001]. Esta metodología no depende de costosas herramientas con las que tratar las entidades lingüísticas. La idea principal es que las preguntas y respuestas se expresan comúnmente usando las mismas palabras. Por ejemplo, en la pregunta Quién es el autor de El Quijote?, podríamos encontrar como respuesta El autor de El Quijote es... como parte de la respuesta. Por tanto, habrá que dotar al sistema de un módulo capaz de 52

59 generar distintas combinaciones de palabras a partir de la pregunta. A partir de ahí se realizarán las peticiones sobre la Web a través del buscador web Google. Este módulo será el módulo llamado Reformulaciones. Dada una pregunta, el sistema genera una serie de reformulaciones con los términos usados en la pregunta, estas reformulaciones son simples manipulaciones de palabras. O dicho de otra forma, definimos reformulación como la expresión que, probablemente, fue usada para escribir la respuesta deseada, dicha expresión se construye a partir de la manipulación de las palabras de la pregunta original. A partir de las reformulaciones, y tras haber enviado cada reformulación al Google, este nos devuelve cadenas de palabras en las cuales se encuentra parte de la petición formulada. Estos extractos son los llamados snippets. Se define snippet, como aquellos extractos de texto que son devueltos por los buscadores web, y que contienen las palabras introducidas en la búsqueda. De los extractos devueltos, se obtendrá la respuesta clasificando por extractos más frecuentes y asignado distintos pesos según los casos. Se verá con más detalle la manera de extraer respuestas en los puntos siguientes. Como ejemplo de reformulaciones generadas por el sistema, para la pregunta Cuál es la capital de España?, se generarían: - Es la capital de España - La capital de España - De España la capital - la capital de España es La respuesta se podría encontrar en un texto que podría ser la capital de España es, siendo esta una de las reformulaciones generadas, solamente combinando palabras o partes de la oración tratada. Se verán ejemplos de otros tipos de reformulaciones en el punto dedicado exclusivamente a este respecto. Para una oración con 3 partículas preposicionales o conjunciones, y para el caso de la reformulación Constituyentes, se obtendrían un total de 6 53

60 reformulaciones que lanzaría el sistema como queries en el conjunto de documentos de referencia, en nuestro caso el Google. En algunos los casos, las reformulaciones obtenidas no producen resultados, o lo que se obtiene no resulta útil para nuestros propósitos. Por ejemplo: es capital para España, España jugará en la capital de. Por esto, será necesario que para determinar la respuesta habrá que establecer criterios (a nivel léxico) tanto para la manipulación de las palabras de la pregunta como para seleccionar los mejores fragmentos a partir de los cuales se calculará la respuesta. Por supuesto, mientras más grande sea la colección que se tiene una mayor probabilidad de encontrar la respuesta correcta, mientras más fragmentos tengamos más confiable será la respuesta calculada, ya que este cálculo está en función de la palabra o palabras más frecuentemente observados en estos fragmentos. De ahí la importancia de la redundancia (múltiples ocurrencias de cierta información) existente en la web, y de por qué es el escenario perfecto para este tipo experimental de sistemas que estamos introduciendo. Es aquí donde se usa la explosión de información existente en Internet, haciendo muy probable que haya varios fragmentos con la respuesta. Cabe mencionar que esta idea también ha sido explorada por otros sistemas de BR [Buchholz et al ; Kwok et al. 2001] con pequeñas variantes y siempre para el idioma inglés. El presente trabajo final de carrera se basa en el enfoque de Brill, pero con una salvedad, las reformulaciones de la pregunta. En el enfoque de Brill se usa un lexicón para determinar las partes de la oración y las variantes morfológicas de palabras claves. En el sistema INAOE, las reformulaciones no dependen de un lexicón y se basan solamente en la manipulación de las palabras de la pregunta, sin tener casi ningún conocimiento previo acerca de dichas palabras. A diferencia del trabajo de Brill, no se hace uso de ningún conjunto de patrones léxicos por tipo de pregunta, para extender las reformulaciones con palabras no contenidas en la pregunta original. En nuestro sistema no se hace uso de conocimiento externo, específico del idioma, sino que se manipulan directamente las palabras de la pregunta, aplicando un método puramente estadístico para la selección de las respuestas. 54

61 Para adaptar el sistema a otros idiomas será necesario realizar algunos cambios, que se comentarán brevemente en el punto 3.3 (Adaptación del sistema INAOE a otros idiomas). Dada la cantidad de información que está disponible en la Web, no debe sorprender que sea una fuente ideal de respuestas a una amplia gama de preguntas. En esto consiste la redundancia que hemos mencionado. Un suceso, acontecimiento o noticia aparece descrito en la Web en diferentes formas y estilos. Los párrafos siguientes describen cada uno de los módulos del sistema de BR propuesto (Figura 3.1). Nuestro enfoque incluye los siguientes módulos: Análisis o tratamiento de la pregunta, la recuperación de los documentos y el módulo de extracción de respuestas. Figura

62 3.2.1 Reformulaciones Este módulo genera el conjunto de reformulaciones a partir de una pregunta dada. Se introducen 5 tipos de reformulaciones, que son el resultado de muchas pruebas en torno a definir qué combinaciones entre palabras de una pregunta generarían mejores resultados. Por tanto, podríamos definir reformulación como la expresión que, es construida a partir de las palabras de la pregunta, y que con cierta probabilidad es usada para escribir la respuesta buscada. La expresión obtenida, es producto de la combinación de las palabras de la expresión en la pregunta original, exceptuando la partícula interrogativa que es eliminada antes del proceso de reformulación. Se definen 5 tipos de combinaciones, correspondiendo cada una de ellas a un tipo de reformulación. Así, para la pregunta: Quién descubrió la penicilina?, las siguientes podrían ser algunas reformulaciones de la pregunta: descubrió la penicilina la penicilina descubrió la descubrió penicilina En los puntos siguientes veremos a través de un ejemplo los tipos de reformulaciones empleadas y como se obtienen a partir de la pregunta. Durante una primera etapa de experimentación en el equipo de experimentación del INAOE probaron con todas las posibles reformulaciones de las preguntas, es decir, todas las combinaciones de sus palabras. Estos experimentos demostraron dos cosas: (i) que el esquema no es funcional para analizar preguntas con más de 5 palabras; (ii) que la gran mayoría de las reformulaciones construidas son inadecuadas. 56

63 A partir de estos resultados iniciales se seleccionó un conjunto de reformulaciones, aquellas con mejores resultados. Las mejores reformulaciones correspondieron a aquellas que presentaban una estructura sintáctica correcta. En los siguientes puntos se presentan ejemplos de reformulaciones. En todos ellos se muestran resultados a partir de la pregunta: Quién ganó el campeonato de fútbol español en 2004? En los algoritmos que se describen mas adelante, usamos la siguiente notación: Se representa la pregunta Q como un conjunto de palabras: Q = { W 0, W 1,.., W n-1 }, donde W 0 representa la palabra del tipo Cuándo, Dónde, Quién, etc. y n representa el número de palabras en la pregunta. Para cada pregunta se representan las reformulaciones de ésta, R, como una cadena (string). Esta cadena está formada por palabras, espacios y dobles comillas ( ), y además satisface el formato de consulta de los motores de búsqueda tradicionales. Así, la reformulación R = W 1 W 2 corresponde a la consulta W 1 AND W 2 y la reformulación R = W 1 W 2 corresponde a la consulta W 1 W Reformulación: Bolsa de palabras Básicamente con esta reformulación obtenemos los mismos resultados que con un sistema de RI, así la búsqueda de extractos usa todas las palabras de la pregunta excluyendo las palabras vacías: ( ganó, campeonato, fútbol, España, 2004 ). 57

64 Las palabras vacías son el conjunto de palabras de uso muy frecuentes y que carecen de poder de discriminación para determinar el contenido de un documento ya que aparecen en la mayoría de los documentos, ejemplos de dichas palabras son: a, el, de. El algoritmo de esta reformulación (Tabla 3.1) considera todas las palabras de la pregunta, sin incluir palabras vacías (preposiciones, conjunciones, artículos). 1. PARA CADA W i Є Q i 1 2. SI W i no es palabra vacía ENTONCES 3. R 0 R0 U W i 4. FIN SI 5. FIN PARA 6. GUARDAR R 0 Tabla 3.1 Algoritmo Reformulación Bolsa de palabras Reformulación: Manipulación del verbo Entre las primeras observaciones al examinar una lista de preguntas factuales, el equipo investigador del INAOE se percató de que, con frecuencia, inmediatamente después del pronombre o adverbio interrogativo se encuentra el núcleo verbal. Al colocar el verbo en posición final (o eliminarlo) es posible transformar la frase interrogativa a su forma declarativa. Es de suponer que dicha forma declarativa será abundante en los documentos analizados. Dado que no se desea utilizar ningún recurso lingüístico para determinar el verbo, se generan una serie de reformulaciones manipulando la primera palabra de la pregunta (después de eliminar la partícula interrogativa) La Tabla 3.2 muestra el algoritmo utilizado. 58

65 1. W 1 = 2. R 0 = W 1 W 2.W n 3. GUARDAR R0 4. PARA i desde 1 a 2 5. R E t = W i+1 W i+2...w n-1 6. GUARDAR 7. R M t = W i+1 W i+2...w n-1 W i-1 W i M 8. GUARDAR R t 9. FIN PARA Notación Rn representa todas las palabras de la pregunta (sin la partícula interrogativa) R t E como R 0 pero eliminando la primera palabra(i-1) o, eliminando la primera palabra (i-2) R t M como R 0 pero moviendo a primera palabra (i-1) o, moviendo la primera y segunda palabra (i-2) Tabla 3.2 Algoritmo Reformulación Movimiento del verbo Para la pregunta ejemplo y con esta reformulación obtendríamos las siguientes reformulaciones: ganó el campeonato de fútbol español en 2004 el campeonato de fútbol español en 2004 el campeonato de fútbol español en 2004 ganó campeonato de fútbol español en 2004 campeonato de fútbol español en 2004 ganó el Y como en ciertas ocasiones es posible encontrar verbos auxiliares también se generarán reformulaciones manipulando la segunda palabra. 59

66 Reformulación: Componentes En este caso, la pregunta es segmentada en componentes. Un componente es interpretado aquí como una expresión delimitada por preposiciones. A partir de combinaciones de estos componentes se construirán nuevas reformulaciones. Es evidente que en algunos casos la reformulación no tiene sentido ("en 2004 español campeonato ") y no habrá extractos resultantes, sin embargo en otros casos ("en 2004 ganó el campeonato de fútbol español"), la reformulación probablemente producirá la recolección de extractos relevantes. 1. Determinar conjunto de componentes C de Q 2. R Q = C 1 C 2... C n-1 3. GUARDAR 4. PARA cada permutación C de C 5. R Q = C 1 C 2...C n-1 6. GUARDAR 7. FIN PARA Tabla 3.3 Algoritmo Reformulación componentes Una pregunta que tiene m preposiciones se representa por un conjunto de componentes C = { C 1, C 2... C m+1 }. Cada componente Ci es una subcadena de la consulta original. A continuación se muestra las reformulaciones producidas por el tipo componentes: ganó el campeonato de fútbol español en 2004 ganó el campeonato de fútbol español en 2004 ganó el campeonato en 2004 de fútbol español de fútbol español ganó el campeonato en 2004 de fútbol español en 2004 ganó el campeonato en 2004 ganó el campeonato de fútbol español en 2004 de fútbol español ganó el campeonato 60

67 donde las 3 componentes de partida son: 1) ganó el campeonato español 2) de fútbol 3) en Reformulación: Componentes excluyendo la primera palabra Este tipo de reformulación es una combinación de las dos anteriores. Como vimos en la segunda reformulación, generalmente la primera palabra es un verbo. En este caso repetimos la tercera reformulación pero eliminando la primera palabra. Las reformulaciones por componentes excluyendo la 1ª palabra resultantes con el ejemplo son: el campeonato de fútbol español en 2004 el campeonato de fútbol español en 2004 el campeonato en 2004 de fútbol español de fútbol español el campeonato en 2004 de fútbol español en 2004 el campeonato en 2004 el campeonato de fútbol español en 2004 de fútbol español el campeonato donde las 3 componentes de partida son: 1) el campeonato español 2) de fútbol 3) en

68 Reformulación: componentes excluyendo las dos primeras palabras En este caso, se supone la presencia de un verbo auxiliar, por esa razón se eliminan las dos primeras palabras. Como puede observarse, las reformulaciones son sencillas manipulaciones de los términos de la pregunta, que finalmente tratan de aprovechar cierta estructura sintáctica presente en las preguntas factuales. Por supuesto, estas reformulaciones son ciegas y se aplican de manera indiscriminada. Esto provoca que muchas reformulaciones no tengan sentido, en cuyo caso es poco probable la recopilación de extractos de interés. Sin embargo, en otros casos la reformulación coincidirá con alguno o varios documentos con la consecuente recopilación de extractos apropiados. Las reformulaciones por componentes excluyendo la 1ª y 2ª palabra: campeonato de fútbol español en 2004 campeonato de fútbol español en 2004 campeonato en 2004 de fútbol español de fútbol español campeonato en 2004 de fútbol español en 2004 campeonato en 2004 campeonato de fútbol español en 2004 de fútbol español campeonato donde las 3 componentes de partida son: 1) campeonato español 2) de fútbol 3) en Recolección de Snippets Este módulo toma las reformulaciones anteriores y lanza las búsquedas sobre la Web apoyándose en algún motor de búsqueda ya existente. En 62

69 nuestro caso, está recopilación de extractos se realiza mediante un programa que hace uso de las especificaciones de las API (Application Programming Interface) de Google 10. Para nuestros experimentos se ha escogido Google como motor de búsqueda porque tiene una gran de cantidad de documentos indexados, es muy rápido, soporta expresiones booleanas y permite la extracción de snippets con coocurrencias. El sistema almacena un conjunto de snippets, los primeros devueltos por Google. Google fue fundado en 1997 por Serge Brin y Larry Page en la Universidad de Stanford. Su arquitectura está optimizada para un rendimiento de alta velocidad y una búsqueda a gran escala [Brin et al., 1998]. Una de las características más importantes de Google es su algoritmo de ordenamiento de páginas Web llamado PageRank [Brin et al., 1998] el cual hace uso intensivo de la estructura de grafo hipertexto de la Web. PageRank clasifica las páginas de acuerdo al número y a la autoridad de los links que hacen referencia a ellas. La estructura hipertexto también es explotada considerando el texto de los links. Cuando un documento de texto es indexado, el texto de los links en otras páginas que apuntan a ese documento también son considerados como parte del documento mismo. Cuando el algoritmo investiga por documentos relevantes en una consulta, toma en cuenta la frecuencia y la posición de los términos de la consulta, así como su fuente y su capitalización. Además, las páginas donde los términos de la consulta aparecen más cercanos son consideradas más relevantes. Google prefiere extraer snippets donde la co-ocurrencia toma lugar ignorando pasajes donde solo una palabra clave (keyword) aparece. Veamos un ejemplo ilustrativo de cómo Google devuelve una respuesta correcta ante una petición en forma de un ejemplo de reformulación mediante la interfaz Web habitual del Google. Ante la pregunta Quién descubrió la penicilina?, una de las reformulaciones sería descubrió la penicilina que obtendría el siguiente resultado: 63

70 Figura 3.2 Ejemplo de sninpets devueltos por el Google Como podemos observar en el resultado experimental, en los primeros snnipets devueltos se repiten varias palabras: descubrió, penicilina, palabras vacias como artículos, preposiciones y adverbios y Fleming. Sin entrar en consideraciones estadísticas (que se abordarán en el punto 3.2.3) de cómo se calcula la respuesta, el sistema desecharía como posibles respuestas las palabras vacías y las que formen parte de la pregunta. En este caso nos quedaría como candidata perfecta Fleming, que casualmente correspondería con la respuesta correcta Cálculo de la respuesta Después de obtener, para el conjunto de las cinco reformulaciones presentadas anteriormente, un conjunto de extractos, se calculan las frecuencias de los términos contenidos en cada uno de ellos. Para ello se 64

71 calculan los primeros 5 n-gramas considerando los signos de puntuación como límites de frase y eliminando las palabras vacías. Posteriormente se obtiene una lista con cinco respuestas candidatas ordenadas en función de su frecuencia, es decir, el término o términos con mayor presencia será el primero en considerarse como la respuesta correcta. Por supuesto, es necesario aplicar una serie de criterios para determinar con mayor precisión la respuesta correcta. Con este fin se han desarrollado tres métodos diferentes: frecuencia relativa, expresiones regulares, y frecuencia compensada con expresiones regulares. Antes de explicar los diferentes métodos de extracción de la respuesta se muestra la notación utilizada para los algoritmos de dichos métodos: x(i) representa al i-grma x x* j (k) representa al j-esimo k-grama contenido en x G i representa al conjunto de todos los i-gramas en la colección F x(i) representa la frecuencia del i-grama x F xj(k) representa la frecuencia del j-esimo k-grama contenido en x P x(n) representa la frecuencia relativa del n-grama x Para clarificar el concepto de n-grama, sirva de muestra el siguiente ejemplo: 65

72 Método de frecuencias relativas El método de frecuencias relativas consiste en extraer los veinte unigramas más frecuentes obtenidos de la colección de snippets, y a partir de ellos se obtienen los penta-gramas, cuatri-gramas, tri-gramas y bi-gramas que los contengan. La razón principal para considerar sólo veinte uni-gramas es que al analizar, las respuestas de las preguntas, en los experimentos preliminares, se encontró que, de existir la respuesta correcta, las palabras que conformaban dicha respuesta siempre se encontraban dentro de ese rango. Este conjunto de n- gramas se ordena de acuerdo a su frecuencia relativa. Para observar el comportamiento del método mostramos los cinco mejores n-gramas para nuestra pregunta ejemplo. 1. Extraer los veinte unigramas más frecuentes 2. Calcular la frecuencia relativa de cada unigrama x(1)g1 fx(1) Px(1)= (1) fy(1) y G(1) 3. Determinar todos los n-gramas, desde los bigramas hasta los pentagramas, que contengan exclusivamente los unigramas más frecuentes 4. Ordenar los n-gramas en forma decreciente basados en su frecuencia relativa. Calcular la frecuencia relativa de cada n-grama x(n), donde n>1, así: N 1 Px( n) = x(1) n i i= 1 5. Mostrar al usuario los primeros cinco n-gramas como posibles respuestas Tabla 3.4 Algoritmo extracción frecuencias relativas Este método favorece las expresiones cortas. Lo anterior provoca algunos problemas cuando se trata de obtener como respuesta n-gramas más largos; por ejemplo, al momento de obtener la respuesta a la pregunta Cuándo fue lanzado el Apolo 11?, las mejores 66

73 respuestas son luna, espacio y hombre. Ocupando la cuarta y quinta posición aparecen las respuestas julio y Lo anterior motivó a desarrollar otro tipo de método de extracción que al filtrar (mediante ciertos criterios tipográficos) los n-gramas más frecuentes resolviera la problemática mencionada Método de expresiones regulares Este método también filtra los 20 uni-gramas más frecuentes pero bajo criterios tipográficos (mes del año, palabras con mayúscula inicial, números, etc.). A partir de estos uni-gramas se obtienen todos los posibles n-gramas. Los n-gramas son ordenados por número de palabras en orden descendente obteniéndose de aquí las respuestas. La Tabla 3.10 muestra el algoritmo usado en este método: 1. Se extraen los veinte unigramas más frecuentes que satisfacen un cierto criterio tipográfico (palabras que inician con mayúscula, números y nombres de meses) 2. Se determinan todos los n-gramas, desde los bigramas a los pentagramas, que contengan, exclusivamente los unigramas más frecuentes 3. Se ordenan los n-gramas en forma decreciente basados en su número de palabras 4. Se muestran al usuario los primeros cinco n-gramas como posibles respuestas Tabla 3.5 Algoritmo extracción expresiones regulares El método favorece las expresiones largas ya que después de extraer los unigramas más frecuentes se buscarán los pentagramas que contengan dichos unigramas, posteriormente los cuatrigramas y así sucesivamente. 67

74 Método de frecuencia compensada con expresiones regulares El método de frecuencia compensada utiliza las ideas de expresiones regulares y de frecuencia relativa. Este será el método utilizado en los experimentos del Capítulo 5 dedicado a mostrar los resultados experimentales del sistema y sus adaptaciones a los idiomas valenciano e inglés. Este método extiende el cálculo de la frecuencia relativa a los bi, tri y tetragramas de los cuales se compone una expresión. De esta manera, a una expresión de cinco términos que claramente por su longitud tendrá una frecuencia relativa pobre se verá mejorada al compensarla con las frecuencias relativas de los bi, tri y tetra-gramas que la conforman. Este método es el que mejores resultados proporcionó en los diferentes experimentos realizados. El método de frecuencia compensada con expresiones regulares filtra los 20 unigramas más frecuentes bajo criterios tipográficos (mes del año, palabras con mayúscula inicial, números, etc.) usando expresiones regulares. A partir de estos uni-gramas se obtienen todos los n-gramas, con n={2..5}, compuestos de estos unigramas. Posteriormente las frecuencias de los n-gramas se suman. 1. Se extraen los veinte unigramas más frecuentes que satisfacen un cierto criterio tipográfico (palabras que empiezan por mayúscula, números y nombres de meses) 2. Se determinan todos los n-gramas, desde los bigramas a los pentagramas que contengan exclusivamente los unigramas más frecuentes 3. Se ordenan los n-gramas en forma decreciente basados en su frecuencia relativa compensada. Calcular la frecuencia relativa compensada de cada n- grama x(n), donde n>1, así: Px( n) = 1 n n n i+ 1 f x i = 1 j= * ( i) j f 1 ( y) i y Gi 4. Mostrar al usuario los primeros cinco n-gramas como posibles respuestas Tabla 3.6 Algoritmo de extracción frecuencia compensada con expresiones regulares 68

75 Un peso alto significa que se tiene una mayor presencia de dicha secuencia de palabras, así como las subsecuencias de palabras contenidas. De esta manera, una expresión de cinco términos que claramente por su longitud tendrá una frecuencia relativa pobre se verá mejorada al compensarla con las frecuencias relativas de los 2, 3 y 4-gramas que la conforman. 3.3 Adaptación del sistema INAOE BR a otros idiomas El sistema de BR INAOE, originalmente, estaba configurado para la búsqueda de respuestas en castellano en la web utilizando como recolector de información el buscador Web Google. En la fase de adaptación a otros idiomas (en nuestros experimentos utilizaremos inglés y valenciano) se debe considerar lo siguiente: En plena ejecución de la aplicación, no cambiaremos el modo en que el Google busca en la web, es decir, las búsquedas se realizarán en toda la web. Esto es relevante, porque como veremos en los experimentos, hay ocasiones en las que la información devuelta por le Google quizá esté en otro idioma distinto al de la búsqueda lanzada. Esto se debe a que hay palabras que coinciden en distintos idiomas. Como ejemplo mencionar que durante la fase de experimentación se obtuvieron snippets en castellano de queries lanzadas en valenciano. Veremos con más detalle esta cuestión en el punto de experimentación. Se deben cambiar las palabras de paro dependiendo del idioma que estemos utilizando. Es necesario sustituir las palabras empleadas por los módulos en java para realizar las distintas reformulaciones. Estas palabras serán preposiciones, conjunciones y artículos. Sustituir las partículas interrogativas por la traducción al idioma empleado en los experimentos. 69

76 Por tanto, en la fase de adaptación del sistema original, se obtendrán dos sistemas derivados adaptados al valenciano y al inglés, que realizarán las mismas acciones que el sistema INAOE de partida. 70

77 71

78 Capítulo 4. Búsqueda de respuestas multilingüe: El problema de la traducción Los experimentos realizados han demostrado que la recuperación translingüe es perfectamente realizable y con un nivel de eficiencia cercano a una búsqueda monolingüe. La tarea de obtener una lista de documentos en un mismo idioma ordenada según la relevancia que tengan para una consulta escrita en un idioma diferente, ya ha sido ampliamente resuelta, aunque la eficiencia de los sistemas depende de la pareja de idiomas que se considere. Sin embargo esto sólo es un componente de la tecnología completa, aún quedan diversos problemas que no han sido completamente resueltos. Algunos de ellos se mencionaron en el Workshop CLIR: a research roadmap" en el ámbito del SIGIR :! Dominio: la mayoría de las técnicas empleadas han sido probadas sólo sobre noticias de periódicos (en las colecciones TREC, CLEF y NTCIR) y no se sabe si serían efectivas fuera de él.! Eficiencia: el coste computacional que supone una traducción adecuada de las consultas puede resultar excesivo para un entorno real de búsqueda, aparte que la calidad de las traducciones aún no es óptima.! Unificación: actualmente los sistemas de recuperación translingüe de información presentan dos claras separaciones: o Traducción y búsqueda: los procesos de traducción y búsqueda se realizan, normalmente, por separado. De esta forma la incertidumbre de las traducciones no influye en el proceso de búsqueda. o Diferentes idiomas: cuando se realiza una búsqueda multilingüe, el problema de fusionar los resultados de cada una de las búsquedas monolingües en una única lista ordenada aún no ha sido resuelto. Algunos autores proponen la integración de estas diferencias en un único modelo de manera que se pueda abordar 13 Special Interest Group on Information Retrieval 72

79 la recuperación multilingüe de información de una manera similar a la recuperación monolingüe.! Interacción: los usuarios reales de los sistemas de búsqueda están interesados en la información contenida en los documentos, no en la lista ordenada que proporcionan los sistemas. La presentación de la información contenida en documentos que están en un idioma que no es el del usuario es algo sobre lo que apenas se ha investigado, y es una posible razón para la escasa existencia de motores de búsqueda translingües en la red. De igual manera, tampoco se han estudiado los procesos interactivos de formulación y refinamiento de las consultas en un entorno multilingüe. 4.1 Introducción El auge de Internet en la llamada Sociedad de la Información, supone la disponibilidad de cantidades prácticamente ilimitadas de información accesible, principalmente, a través de la World Wide Web. Para que toda esa información sea realmente accesible y útil, los motores de búsqueda o sistemas de recuperación de información juegan un papel fundamental. Tradicionalmente, la recuperación de información se ha entendido como el proceso, totalmente automático, en el que, dada una consulta (expresando las necesidades de información del usuario) y una colección de documentos, se devuelve una lista ordenada de documentos supuestamente relevantes para la consulta. Un motor de búsqueda ideal recuperará todos los documentos relevantes (lo que implica una cobertura completa) y sólo aquellos documentos que son relevantes (precisión perfecta). Este modelo tradicional lleva consigo muchas restricciones implícitas; entre ellas, la suposición de que la consulta y el documento están escritos en el mismo idioma. Algunos motores de búsqueda incorporan sistemas de traducción automática, que sólo resultan útiles cuando los documentos ya han sido localizados, pero 73

80 no facilitan un medio efectivo para salvar la barrera del idioma en el proceso de búsqueda. Por este motivo, la información a la que facilitan el acceso estos motores de búsqueda queda limitada a la escrita en idiomas en los que el usuario sea capaz de expresar sus consultas. Esto puede suponer un problema más o menos grave según el idioma del que se trate, en general, cualquier usuario de Internet que no pueda formular consultas en inglés con fluidez tendrá dificultades a menudo para realizar sus búsquedas. Incluso para hablantes nativos de inglés, el volumen de datos inaccesible por causa de las barreras idiomáticas crece cada año, si no porcentualmente, si en términos absolutos. En la siguientes tablas se muestra la evolución de la utilización de idiomas en Internet : Utilización de Internet según el idioma Usuarios de habla inglesa 54% 51% 46% 43% (porcentaje) Usuarios de habla no inglesa 46% 49% 54% 57% (porcentaje) Total en el mundo Fuente: Computer Economics Tabla 4.1 Evolución de la utilización de idiomas en Internet Por los datos reflejados en la Tabla 4.1 se observa el gran crecimiento de usuarios en términos globales que utilizan Internet y por otro lado que en los últimos años el crecimiento de usuarios de habla distinta a la inglesa es mayor que el de usuarios de habla inglesa. 74

81 En la Tabla 4.2 se muestran la clasificación de los 10 lenguajes más utilizados en la Web: TOP TEN LANGUAGES IN THE INTERNET Internet Users, Language by Penetration (% Population) Estimate for Language World Population Language as % of Total Internet Users Inglés 296,439, % 1,107,807, % Chino 124,014, % 1,329,801, % Japonés 78,050, % 128,137, % Español 60,471, % 389,587, % Alemán 55,129, % 96,141, % Francés 38,295, % 374,555, % Coreano 31,600, % 73,044, % Italiano 28,610, % 58,608, % Portugués 28,575, % 227,628, % Holandés 14,655, % 24,224, % TOP TEN LANGUAGES 755,841, % 3,809,536, % Rest of the Languages 182,869, % 2,610,565, % WORLD TOTAL 938,710, % 6,420,102, % Fuente: Computer Economics Tabla 4.2 Clasificación de los 10 lenguajes más utilizados en Internet año 2004 El término acceso multilingüe a la información hace referencia a un concepto más amplio, aunque más adaptado a la realidad de Internet, que el concepto clásico de recuperación de información: ayudar al usuario a buscar información (no ya documentos) procedente de fuentes heterogéneas 75

82 (textuales o de contenido multimedia) por encima de las barreras idiomáticas. Diversas líneas de investigación abordan los distintos aspectos que se engloban en este concepto incluso dentro del mismo marco del procesamiento del lenguaje natural: recuperación multilingüe de información, recuperación de información multimedia (ya sea sobre video, audio o imágenes digitales), recuperación interactiva de información, sistemas de pregunta y respuesta... etc. En este documento se plantean las dificultades que se plantean para el acceso a información escrita en idiomas desconocidos para el usuario. La recuperación multilingüe de información engloba, a su vez, varios escenarios diferentes:! Recuperación translingüe de información (también llamada Bilingüe), que estudia la recuperación de documentos escritos en un único idioma diferente del utilizado para expresar la consulta. Un turista buscando información local, por ejemplo, realizará una búsqueda translingüe de su idioma nativo al del país que visita.! Recuperación multilingüe de información, que estudia la recuperación de documentos escritos en varios idiomas a partir de una consulta expresada en un idioma determinado. Por ejemplo, el caso de un periodista que quiere conocer el enfoque de un cierto tema en variaos idiomas pertenece a este escenario. En este sentido existen dos problemas que apenas han sido estudiados desde la perspectiva de la recuperación multilingüe: 1. Cómo reconocer la información realmente relevante para nuestra necesidad de información de entre toda la información ofrecida por un motor de búsqueda? 2. Cómo podemos refinar nuestra consulta teniendo en cuenta los resultados obtenidos? La razón de que no se hayan estudiado a fondo es la presunción implícita de que: 1. Los sistemas comerciales de traducción automática pueden ser utilizados para traducir los documentos al idioma nativo del usuario. 76

83 2. Las tareas de selección documental translingüe y de refinamiento de la consulta pueden ser realizadas empleando estas traducciones. Sin embargo, estas suposiciones están lejos de ser verificadas experimentalmente, y de hecho hay razones para cuestionarlas. Por un lado, las traducciones automáticas distan mucho de ser perfectas, como se mostrará en los distintos experimentos de BR translingüe del Capítulo 5. Se incluyen como anexos (Anexo I y Anexo II) dos artículos que muestran experimentos de búsqueda de respuestas en modo translingüe. 4.2 RI multilingüe En 1969 Salton planteó por primera vez el problema de encontrar documentos escritos en un idioma diferente al de la consulta y propuso una aproximación consistente en la utilización de un tesauro bilingüe (creado manualmente) entre alemán e inglés [Salton, 1970]. Los resultados obtenidos fueron prácticamente iguales a los realizados con una búsqueda monolingüe, debido a que el tesauro utilizado era manual y la correspondencia entre los términos de indexación entre ambos idiomas era perfecta. Pero no fue hasta 1996 cuando, con la creación de las primeras campañas de evaluación comparada sistemática de este tipo de sistemas, se inicia como un área de investigación propia. Este año se organizó un workshop específicamente dedicado a la recuperación translingüe de información en el SIGIR. A partir de este evento se organizan con carácter regular las siguientes actividades internacionales:! Desde 1997 se creó un track" especial en el marco del TREC para la evaluación de este tipo de sistemas. Inicialmente la evaluación se limitó a un sistema bilingüe (involucrando dos idiomas de entre inglés, francés o italiano) para, posteriormente ser extendida a una evaluación en un entorno totalmente multilingüe. El resultado de los tracks de recuperación de información translingüe del 77

84 TREC es la primera gran colección para la evaluación de sistemas de recuperación translingüe de información.! En 1998 se crea el workshop NTCIR 14, donde se evalúan sistemas translingües entre el inglés y el chino, japonés o coreano, adoptando muchas de las ideas en las que el TREC fue pionero.! En el año 2000 el track de recuperación translingüe se separó del TREC creándose el CLEF, donde se realiza el estudio de sistemas translingües de recuperación de información que utilicen idiomas europeos, mientras que en el TREC se mantuvo un pequeño track de recuperación de información translingüe específicamente dedicado a idiomas asiáticos. En este capítulo vamos a analizar las diversas técnicas que han venido utilizándose para contrarrestar la dificultad del idioma en una búsqueda translingüe de información. Comenzaremos viendo diversas técnicas que son utilizadas para mejorar la recuperación de información monolingüe en idiomas que no presentan las características del inglés. En el siguiente punto se verán los diferentes enfoques que se han utilizado para traducir las consultas introducidas por el usuario a los diferentes idiomas en los que están escritos los documentos (esta es la aproximación más utilizada, ya que traducir la consulta es mucho más eficiente que traducir los documentos). Estos enfoques dependen, sobre todo, de los recursos que se utilicen (aisladamente o en combinación): diccionarios bilingües, corpora, programas de traducción automática, tesauros... A continuación, veremos los principales enfoques alternativos a la traducción de la consulta: traducción de los documentos, traducción bidireccional e indexación conceptual. 14 Text Collection for IR Systems 78

85 4.2.1 Aspectos monolingües A lo largo de la investigación en recuperación de información se han aplicado con éxito diversos modelos (como el modelo de espacio vectorial, la Realimentación mediante Pseudo-Relevancia o la Indexación mediante semántica latente) a búsquedas realizadas sobre consultas y documentos escritos en inglés. Al enfrentarnos a idiomas que presentan características distintas al inglés (idiomas más flexivos, idiomas aglutinativos o incluso idiomas que no marcan una separación explícita entre las palabras) es necesario mejorar la búsqueda monolingüe sobre esos idiomas para poder realizar una búsqueda translingüe efectiva. Veamos diferentes técnicas que son utilizadas en el momento de la indexación de los documentos para mejorar las búsquedas: Stemming Una de las técnicas que ha demostrado ser de gran ayuda en la recuperación de información monolingüe es el stemming. Consiste en la obtención de la raíz de las palabras, de forma que el proceso de indexación se lleve a cabo sobre ellas en lugar de sobre las palabras originales. Asumiendo que dos palabras que tengan la misma raíz representan el mismo concepto, esta técnica permite a un sistema de recuperación de información relacionar términos presentes en la consulta y en los documentos que pueden aparecer bajo diferentes variantes morfológicas. Existen diversos stemmers para inglés basados en la eliminación de sufijos derivacionales. También existen stemmers para otros idiomas. Estos algoritmos no llevan a cabo ningún análisis morfológico, sino que se basan en un conjunto sencillo de reglas que truncan las palabras hasta obtener su raíz. Una alternativa es el aprendizaje de las reglas de truncamiento a partir de grandes corpora. Un ejemplo en este sentido es [Bacchin et al., 2002] donde se 79

86 evalúa SPLIT: un algoritmo de stemming independiente del idioma basado en métodos estadísticos. Analizando un conjunto de palabras, que forman parte del idioma, SPLIT detecta los sufijos y prefijos que las forman y selecciona como raíz de cada palabra el prefijo más probable. Para realizar la evaluación del algoritmo, se aplicó a un conjunto de documentos en italiano y se comparó la precisión de la búsqueda utilizando SPLIT y un stemmer específicamente diseñado para este idioma disponible en la página web de Snowball [Porter,2001]. Los resultados mostraron que la eficiencia de SPLIT era comparable a la del stemmer de italiano Segmentación de compuestos En los idiomas aglutinativos, como alemán y holandés, se unen palabras para formar otras más largas. Por ejemplo la palabra holandesa wereldbevolkingsconferentie" está compuesta por wereld" (mundo), bevolking" (población) y conferentie" (conferencia), y se traduce como Conferencia sobre la población mundial". Diversos estudios muestran que la descomposición de estas palabras produce un significativo aumento de la eficiencia de las búsquedas en este tipo de idiomas. Una alternativa a la descomposición empleando métodos lingüísticos (que exigen disponer de herramientas adecuadas en precisión, cobertura y eficiencia) es el uso de métodos estadísticos. En [McNamee and Mayeld, 2001] se presenta una aproximación a la recuperación multilingüe de información utilizando recursos independientes del idioma. Los documentos de cada uno de los idiomas son indexados utilizando 6-gramas. Las consultas son traducidas al idioma de los documentos y se realizan dos búsquedas, una empleando los 6-gramas y otra con palabras (sin ningún tipo de procesamiento adicional), cuyos resultados se combinan para ofrecer una única lista de documentos. Los resultados obtenidos fueron los mejores sobre idiomas aglutinativos en el 80

87 CLEF2000, quedando incluso por delante de otros sistemas que utilizaban algoritmos específicos para descomponer las palabras. Esta estrategia que mezcla ambas indexaciones también ha sido probada con otros idiomas como el árabe [Mayeld et al., 2001], llegando a alcanzar una eficiencia superior al 90% de la búsqueda monolingüe equivalente utilizando 4- gramas Segmentación de palabras En los idiomas asiáticos, como japonés, coreano y chino, los límites de las palabras no se marcan de manera explícita en el texto escrito. Por ello es necesario identificar las palabras individuales para mejorar el proceso de búsqueda. A la hora de indexar los textos escritos en estos idiomas existen dos aproximaciones principales:! Indexación basada en texto segmentado: que incluye la indexación de palabras y/o de sintagmas.! Indexación de caracteres: basada en n-gramas. Fundamentalmente se utilizan bigramas, ya que en japonés, chino y coreano, la longitud media de las palabras es de, aproximadamente, dos caracteres al ser, fundamentalmente, idiomas silábicos. Algunos estudios han mostrado que las búsquedas textuales en chino y coreano basadas en la indexación mediante bigramas obtienen resultados comparables (y, en ocasiones, incluso mejores) a las basadas en indexación mediante. En [Ozawa et al., 1999] se argumenta que los bigramas son insuficientes cuando se indexan documentos conteniendo lenguaje técnico, donde la longitud de las palabras es superior a la media. Se comprueba que un método adaptativo de segmentación que produce n-gramas de varias longitudes, supone una mejora substancial con respecto a la utilización de bigramas. A pesar de los resultados anteriores no parece existir un claro consenso acerca de cual de las dos aproximaciones (n-gramas o palabras) es mejor para la 81

88 indexación de textos en este tipo de idiomas. En muchas ocasiones la combinación de ambas demuestra una clara mejora sobre ambas Enfoques basados en la traducción de la consulta A la hora de realizar una búsqueda translingüe de información, nos enfrentamos a la siguiente situación: la consulta y los documentos no están escritos en el mismo idioma. Es, por tanto, necesario realizar una traducción para poder realizar una búsqueda en la que tanto consulta como documentos se encuentren en el mismo idioma. La traducción de la consulta es la opción más frecuente. Por ejemplo los 9 participantes que realizaron experimentos en recuperación translingüe en el TREC-10 emplearon esta técnica [Gey and Oard, 2001]. Esto es debido, principalmente, a que la consulta es sensiblemente más pequeña que los documentos y, por ello, el coste computacional de su traducción es mucho menor [Hull and Grefenstette, 1996]. Los tres problemas principales a los que se enfrenta un sistema de búsqueda translingüe de información al traducir la consulta: 1. Saber cómo un término escrito en un idioma puede ser expresado en otro idioma. 2. Decidir cuales de las posibles traducciones de cada término son las adecuadas en ese contexto. 3. Saber cómo pesar la importancia de las diferentes traducciones que son consideradas adecuadas. Los dos primeros retos son compartidos por los sistemas de traducción automática. Sin embargo, un sistema de traducción automática debe dar una única traducción para cada término, mientras que un sistema de recuperación translingüe de información puede asignar varios y asignarles distintos pesos. 82

89 En esta sección veremos diferentes recursos que se utilizan a la hora de traducir las consultas. Estos recursos no son utilizados por separado, cada uno puede aportar información complementaria al problema de la traducción Diccionarios La utilización de versiones electrónicas de diccionarios bilingües como recurso de traducción palabra por palabra, ha sido ampliamente estudiada en la literatura. Sin embargo su uso directo no resuelve por completo el problema de encontrar las traducciones de los términos, debido a las siguientes razones:! La cobertura del diccionario puede no ser completa, por lo que algunos términos no son traducidos. Esto sucede frecuentemente con los términos técnicos que no son de uso común. La terminología específica de un determinado dominio del conocimiento no suele estar contemplado en los diccionarios de uso común.! No contemplan todas las posibles variantes morfológicas de una palabra. Por ejemplo un diccionario puede contener el término asintótico" pero quizá no contenga asintóticamente". Este problema puede ser mitigado empleando la técnica de stemming comentada en la sección anterior.! En ocasiones es necesario traducir los nombres propios de personas (el nombre Yeltsin" se escribe Eltsine" en francés) o localizaciones ( Letonia" se escribe Latvia" en inglés) y estas traducciones pueden no estar contempladas en el diccionario. Este problema se conoce con el nombre de reconocimiento de entidades".! Para cada contexto, sólo algunas traducciones son apropiadas. Por ejemplo la palabra inglesa spring" tiene diversas traducciones en castellano con significados muy distintos entre sí: muelle", primavera", manantial"... La polisemia de las palabras dificulta la traducción y no se cuenta con métodos automáticos que puedan resolverla.! La traducción errónea de los términos es particularmente perjudicial en los conceptos representados por expresiones multipalabra. Por ejemplo 83

90 la palabra castellana banco" se traduce frecuentemente por bank" en inglés. Sin embargo la expresión banco de peces" ha de traducirse por school of fish". Por todas estas razones la utilización de un diccionario como único recurso de traducción reduce drásticamente la efectividad de las búsquedas translingües. Diversos estudios comprueban que substituyendo cada término por todas las traducciones ofrecidas por el diccionario se reduce la efectividad entre un 40 y un 60% respecto de la misma búsqueda realizada en un contexto monolingüe. Con respecto a la polisemia [Davis, 1997] propone utilizar la categoría gramatical de las palabras de la consulta para elegir entre las posibles traducciones de los términos: por ejemplo la palabra inglesa object" puede actuar como nombre y ser traducida al castellano como objeto", objetivo" o complemento", mientras que si actúa como verbo puede traducirse por objetar" u oponerse". Utilizando un diccionario bilingüe con información sobre la categoría gramatical para traducir las consultas, Davis comprobó que esta estrategia incrementaba en un 37% la precisión con respecto a la estrategia de sustituir cada término por todas las traducciones ofrecidas por el diccionario. [Pirkola, 1998] estudia los efectos de diferentes factores:! Tipo de consulta: comparó consultas en lenguaje natural con consultas formadas únicamente por las palabras y sintagmas más relevantes de la consulta. La precisión de las búsquedas fue mayor con las consultas expresadas en lenguaje natural.! Proceso de traducción: utilizó dos diccionarios bilingües para realizar la traducción: uno de propósito general y otro con información específica sobre el dominio de la medicina y la salud. Probó varias formas de combinar estos diccionarios, comprobando que la que mejores resultados daba era la de utilizar las suma de todas las traducciones proporcionadas por ambos diccionarios (eliminando traducciones duplicadas).! Estructura de la consulta tras la traducción: comparó la utilización de consultas sin ningún tipo de estructura (una simple lista de todas las traducciones) con el uso de consultas estructuradas mediante los operadores proporcionados por el motor de búsqueda Inquery [Callan et al., 1992]. Las traducciones provenientes de un mismo término se 84

91 agruparon mediante un operador de sinonimia y los términos multipalabra se identificaron con un operador de proximidad. La estructuración de la consulta resultó ser el factor que incrementó en mayor medida la precisión de las búsquedas, superando en algunos casos el 50% de incremento. Otras tendencias, proponen la utilización de un diccionario bilingüe estructurado en el que las traducciones de cada término se encuentran agrupadas en conjuntos con un significado claramente similar. No existen muchos diccionarios bilingües que presenten esta estructura, por lo que los autores desarrollan, además, un método que permite dotar de esta estructura a cualquier diccionario bilingüe empleando criterios lingüísticos (similaridad entre las palabras según WordNet), morfológicos (agrupar las palabras que comparten la misma raíz) y ortográficos (agrupar las palabras que se diferencien en un único carácter). Compararon la estructuración de la consulta propuesta por [Pirkola, 1998] con otras alternativas, empleando para ello diferentes operadores del lenguaje de consulta de Inquery y los conjuntos de traducciones agrupadas. Los resultados mostraron que la traducción de las consultas con la estructuración propuesta por Pirkola obtenía una mayor precisión que la traducción utilizando los diccionarios estructurados. Otro método, es el que propone utilizar dos idiomas pivote para realizar la traducción cuando no se dispone de un diccionario directo. Los resultados demuestran que utilizar un idioma pivote para traducir entre dos idiomas provoca una mayor pérdida de eficiencia que la utilización de un diccionario directo. Otro enfoque, es la realización de una selección de las traducciones empleando las traducciones inversas: sólo aquellas traducciones que pueden volver a traducirse al término de partida son seleccionadas. Los resultados muestran que esta simple estrategia puede ser más efectiva que otras más complejas como la desambiguación de traducciones empleando corpora paralelo. 85

92 Programas de traducción automática Otro recurso ampliamente utilizado para la traducción son los programas comerciales de traducción automática, siempre que exista uno disponible para el par de idiomas considerados. En la octava edición del TREC, al menos la mitad de los grupos participantes emplearon el sistema de traducción automática Systran de alguna forma en sus experimentos. Sin embargo otros métodos basados en la combinación de corpus y diccionarios obtuvieron mejores resultados. Los experimentos acerca de la efectividad de estos programas a la hora de traducir la consulta no aportaron datos concluyentes. Se extrajeron las suientes conclusiones: o La efectividad puede depender de la longitud de las consultas: para consultas cortas (entre 1 y 3 términos) no parece haber diferencia entre esta aproximación y la utilización de diccionarios para la traducción. Para consultas largas (formadas por varias frases) se aprecia diferencia. o Para las consultas basadas en frases, la traducción mediante Systran da mejores resultados en las búsquedas que otros métodos de traducción basados en diccionarios o corpus. Esto es debido a que los sistemas de traducción automática hacen uso de la estructura sintáctica del texto. Si las consultas están formadas por frases, los sistemas de traducción consiguen una traducción mejor que si la consulta está formada por términos independientes sin estructura. Aparte de este problema, el uso de sistemas de traducción automática depende de la existencia de un traductor entre los idiomas considerados. La creación de estos traductores es costosa, y por eso sólo existen para los pares de idiomas más demandados por el mercado. Algunos participantes utilizaron un sistema comercial para la traducción de consultas en francés, alemán, italiano, castellano, chino y japonés al inglés. Vieron que las diferencias entre la búsqueda monolingüe y las translingües 86

93 dependían bastante del idioma de partida oscilando entre un 2.3% de pérdida en el caso del francés y un 29.5% para el chino. Se realizó una comparación sistemática de tres tipos de recursos para la traducción de las consultas en una búsqueda translingüe: diccionarios, corpora paralelo (obtenido de la web utilizando el sistema PTMiner) y traducción automática (utilizando Babelfish 15 ). Los resultados mostraron que los tres métodos alcanzaron, al menos, el 90% de la eficiencia de una búsqueda monolingüe. Además encontraron que la diferencia de eficiencia dependía bastante del par de idiomas considerados Tesauros Un tesauro está formado por la colección de términos o palabras clave que se utilizan para realizar la indexación de los documentos (ya sea ésta manual o automática), así como las relaciones semánticas que los unen. La utilización de tesauros en el campo de la recuperación de información se centra en el enriquecimiento de la consulta con términos relacionados que aparecen realmente en los documentos, aunque hay otros muchos aspectos en los que pueden ser utilizados [Soergel, 1997]:! Proporcionan un vocabulario controlado para expresar las consultas, por lo que se elimina el problema del desconocimiento por parte del usuario de los términos que aparecen realmente en los documentos.! Permiten dar una mejor estructuración a los resultados. Por ejemplo la construcción de un resumen temático estructurado del documento, describiendo los temas principales del mismo así como los diferentes subtemas tratados, empleando para ello conjuntos de términos semánticamente relacionados.! Su estructuración jerárquica hacen posible su utilización en un entorno de búsqueda interactivo. Los usuarios pueden identificar los diferentes conceptos navegando por la jerarquía y, de esta forma, precisar su búsqueda

94 ! Un tesauro multilingüe sobre un dominio determinado permite la traducción de términos específicos de ese dominio que quizá no puedan encontrarse en un diccionario bilingüe. Un ejemplo de tesauro multilingüe sobre el dominio médico es el metatesauro de UMLS 16. Los tesauros construidos para la indexación manual de los documentos describen un idioma artificial (basado en uno real) sobre un dominio específico, incluyendo información adicional con anotaciones para los indexadores sobre los términos que lo componen. Estos tesauros no resultan apropiados para ser utilizados en un entorno automático de indexación, al carecer de la información necesaria que aporta el sentido común de las personas que realizan la indexación manual. Los tesauros multilingües fueron el primer tipo de recursos específicamente diseñados para la recuperación de información translingüe. Los requisitos que han de tenerse en cuenta a la hora de desarrollar estos tesauros para el procesado automático de documentos textuales pueden ser:! Describir de forma precisa las diferentes variantes de un mismo concepto en diferentes idiomas. Algunos conceptos se describen con una palabra en un idioma, mientras que en otros son necesarias varias (por ejemplo la palabra rusa dissident" es equivalente a political dissident" en inglés).! Describir extensos conjuntos de sinónimos para cada concepto analizado en cada uno de los idiomas considerados.! Detallar la mayor cantidad posible de términos multipalabra que definan un concepto determinado. De esta forma se podrían utilizar como base para realizar una desambiguación léxica. Otro tipo de tesauros son los llamados tesauros de similaridad", construidos de forma automática a partir del vocabulario de la colección a indexar. De esta manera se identifica conocimiento específico del dominio de la colección, basándose en las similitudes de los términos que la componen. La 16 Unified Medical Language System 88

95 utilización de estos tesauros para realizar expansiones de la consulta puede suponer una mejora sustancial en la eficiencia de las búsquedas monolingües. Esta técnica, por tanto, basa su funcionamiento en el análisis del corpus que forman los documentos. La utilización de tesauros en la recuperación de información translingüe queda supeditada a disponer de un tesauro multilingüe que cubra el dominio de las colecciones documentales que van a ser utilizadas. En el caso de los tesauros de similitud es necesario disponer de corpora paralelo (o comparable) para poder construir uno multilingüe Otros enfoques: Traducción bidireccional La traducción de los documentos al idioma de la consulta y la traducción de la consulta al idioma (o idiomas) de los documentos, representan dos enfoques opuestos de combinar las técnicas de recuperación de información con las de traducción automática. Según [McCarley, 1999] estos dos enfoques no tienen por qué ser mutuamente exclusivos. Para comprobarlo realizaron dos experimentos de recuperación translingüe entre francés e inglés (uno en cada sentido). Se compararon los resultados obtenidos con la traducción de las consultas, la traducción de los documentos y un sistema híbrido que combinó los resultados producidos por ambas aproximaciones de la siguiente forma: la relevancia de un documento es la media de la relevancia obtenida con la traducción de la consulta y la relevancia obtenida con la traducción de los documentos (previa normalización de ambas). Se observó lo siguiente:! Las búsquedas que involucraban una traducción en el sentido francésinglés obtuvieron mejores resultados con independencia de si se realizaba la traducción de los documentos o la de las consultas. Esto nos indica que aunque la traducción de los documentos presente 89

96 ventajas teóricas, éstas van a depender de la calidad de la traducción entre el par de idiomas considerados.! Los resultados del sistema híbrido fueron superiores a los de las dos aproximaciones individuales, no influyendo el sentido en el que se realizan las traducciones. 4.3 Arquitectura del sistema INAOE multilingüe El interés de un sistema de búsqueda en la Web es encontrar las respuestas en una gran colección de documentos. Debido a que no existe sólo un lenguaje en la Web, los sistemas de BR multilingüe, son de gran relevancia. Un sistema de BR multilingüe, es aquel sistema donde el lenguaje de la pregunta es diferente al lenguaje del documento en el que se encuentra la respuesta. En la actualidad los trabajos desarrollados en este contexto, usan diferentes recursos lingüísticos, como etiquetadores POS, extracción de entidades, relaciones semánticas, analizadores sintácticos, diccionarios, etc.; para, de este modo, entender la pregunta y las secciones concordantes en los documentos. Esta propuesta se basa en un sistema prototipo de búsqueda de respuestas monolingüe para la Web, desarrollado en el laboratorio de Tecnologías del Lenguaje de la Coordinación de Ciencias Computacionales del INAOE [Castillo et al., 2004]. Este sistema únicamente procesa preguntas formuladas en español, y la búsqueda se realiza en documentos en español. El sistema sólo se fundamenta en la redundancia de información en la Web [Brill et al., 2001]. La idea básica es adecuar este prototipo, para poder realizar búsquedas multilingües. La arquitectura del sistema sería muy parecida a la del sistema INAOE original, pero a diferencia de este, se introduce un módulo de traducción. Ésta consiste en cuatro módulos principales: 1. Traducción de las preguntas 2. Búsqueda en la Web 90

97 3. Cálculo de respuestas candidatas 4. Selección de la respuesta correcta. Pre g un ta s fac tuales Traducc ión Traduc c ión Sistem a de BR Re fo rm ulac ió n Recoleccion Snip p e ts Busc a d o r Calculo de respuestas Web resp uestas candidatas Figura 4.1 Esquema de un sistema de BR translingüe 4.4 Tareas translingües En el punto de experimentación (Capítulo 5) se presentan los resultados de los experimentos realizados. Estos, en cuanto a la tarea translingüe (no multilingüe), se pueden describir brevemente mediante los siguientes pasos: 1. Adaptación del sistema a la búsqueda translingüe. 2. Se traducen las preguntas al idioma sobre el que queremos realizar búsquedas. 3. Se lanza el sistema y se recuperan los snippets. 4. Cálculo de respuestas. 91

98 Los idiomas empleados para tales experimentos serán el valenciano, el castellano y el inglés. Aunque el presente trabajo se centra en los idiomas castellano y valenciano, se mencionan otros resultados experimentales obtenidos con preguntas en inglés. Se incluyen como anexos (Anexo I y Anexo II), los artículos publicados en diferentes foros de investigación referentes a tareas translingües realizadas durante la fase de experimentación del trabajo que aquí se presenta. Veremos la influencia que tiene la presencia de estos idiomas en la web para encontrar respuestas. Otra conclusión sobre la que podremos indagar será el error derivado que puede introducir un traductor para obtener una respuesta correcta. 92

99 93

100 Capítulo 5. Experimentos Multilingües El principal objetivo es demostrar que el sistema INAOE es funcional, obteniendo respuestas con mínimos recursos lingüísticos. Además, se pretenden conseguir distintas implementaciones del sistema en distintos idiomas para demostrar que la presencia de un idioma en Web es importante a la hora de encontrar respuestas. Se realizarán varias tareas translingües con el castellano y valenciano, comentando los resultados obtenidos. Durante el proceso de experimentación para los idiomas valenciano-castellano surgió la necesidad de incluir otra prueba con el idioma inglés. Se incluyen como Anexos (Anexo I y Anexo II) los artículos publicados durante la realización del PFC, y que presentan experimentos de BR translingües. 5.1 Introducción En los apartados 2 y 3 de este capítulo se expondrán los resultados de los experimentos realizados con el sistema INAOE de BR en la web (con las características ya detalladas en el Capítulo 3) y poniendo en funcionamiento el mismo con las preguntas del CLEF 2003 y Esto nos facilitará la comparación con los sistemas participantes (sólo para el CLEF 2005). Estas pruebas nos conducirán a demostrar la viabilidad de este tipo de sistemas que se basan en de la redundancia web. Además se demostrará que dependiendo de la presencia en este medio de un determinado idioma, se obtendrán mejores o peores resultados. La cantidad de documentos de un idioma hará que la redundancia sea mayor. Sobre esta premisa se apoyan los experimentos realizados con el sistema INAOE. La principal novedad introducida en este texto es la consecución de sistemas derivados preparados para funcionar en valenciano y en inglés a partir del sistema de BR INAOE original. Esta adaptación a otros idiomas y la comparación de resultados entre idiomas con las mismas preguntas y entre los resultados obtenidos por el sistema y otros sistemas en el CLEF será otro punto de resultados a analizar. 94

101 En los experimentos realizados con el sistema INAOE y sus adaptaciones (5.2 y 5.3) se recolectarán 50 snippets por petición lanzada (cada pregunta puede devolver cientos de resultados, se tomarán los 50 primeros), para cada reformulación y pregunta. Para el ranking de las posibles respuestas se ejecutará el programa Extract_Pesado_Compensado.pl para cada reformulación y pregunta. La tarea final será la de lanzar el programa Extrae_Respuesta. En la evaluación de resultados, tomaremos en cuenta que la respuesta esté entre las 5 con coeficiente más alto. Los resultados se presentan con el cálculo de tres medidas distintas: el número de respuestas correctas, la precisión y el MMR (Mean Reciprocal Rank). La precisión es el número de respuestas correctas en porcentaje. El MMR se calcula con la siguiente formula: MRR n ri i= = 1 n Donde n es el número total de preguntas y r i es el recíproco del rango de la primera respuesta correcta en el conjunto ordenado de repuestas candidatas para la pregunta i. 5.2 Corpus del CLEF 2003 En el CLEF 2003, se sigue con línea de investigación de años anteriores, introduciendo algunas novedades y dificultades adicionales al proceso de búsqueda. Solo admitiremos respuestas correctas o incorrectas, por lo que eliminaremos las cuestiones que en el CLEF se introdujeron y debían obtener como respuestas nulo. Lo hacemos por facilitar el trabajo, en cuanto a que deberíamos buscar estas respuestas no proporcionadas por los organizadores 95

102 del CLEF para poder lanzar el sistema con las 200 preguntas iniciales, un trabajo adicional que no se estimó necesario al tener un corpus de preguntas y respuestas suficiente de 180. En los comentarios que se hacen a cada tabla de resultados, se utilizará la siguiente notación para referirnos a las reformulaciones: Bolsa de palabras: ANDS Componentes: CONS Componentes sin la 1ª palabra: CONS1 Componentes sin la 1ª y 2ª palabra: CONS2 Movimiento del verbo: VERBO Tarea monolingüe Castellano-Castellano En esta tarea monolingüe se lanza el sistema sobre el corpus CLEF2003 para la recolección de snippes en castellano. Las preguntas también están en castellano. A continuación se presentan los resultados obtenidos. Los clasificaremos por reformulación. ANDS CONS CONS1 CONS2 VERB Correctas Precisión 39.45% 11.67% 23.89% 31.67% 32.22% MMR Tabla 5.1 Resultados del sistema de BR INAOE para el caso Castellano-Castellano con preguntas del CLEF

103 Discusión sobre los resultados Los mejores resultados se han obtenido con la reformulación ANDS con un porcentaje de respuestas correctas de un 39.45% y un MMR de Las reformulaciones CONS2 y los VERB obtienen unos resultados casi idénticos con un porcentaje del 31.67% y un 32.22%. Es interesante mencionar que de las 180 preguntas que componen nuestro corpus, 91 obtuvieron respuesta en una o varias reformulaciones. Por lo tanto el porcentaje final de obtención de respuestas del sistema será del 50.55% Tarea translingüe Castellano-Valenciano Se traducen las preguntas al valenciano utilizando el traductor de valenciano SALT 17 y se lanza el sistema. El sistema ha sido adaptado para la ejecución de búsquedas con las preguntas en valenciano. Aclarar antes de nada, que la búsqueda en Google se realiza en toda la web (no se selecciona ningún idioma). Esto es necesario mencionarlo porque el valenciano y el castellano tienen muchas palabras en común, por tanto, habrá ocasiones en las que haya snippets coincidentes. ANDS CONS CONS1 CONS2 VERB Correctas Precisión 8.33% 4.44% 11.11% 17.22% 18.33% MMR Tabla 5.2 Resultados del sistema de BR INAOE para el caso Castellano-Valenciano con preguntas del CLEF

104 Discusión sobre los resultados En este experimento, todas las reformulaciones reducen sus porcentajes. A primera vista, este resultado sería lógico, en cuanto a que se reduce la obtención de respuestas con la utilización del lenguaje valenciano con respecto al castellano. Era de esperar, ya que es menor la presencia del valenciano en la Web, y por tanto habrá menos redundancia. Decir también, que en los resultados obtenidos, todas las respuestas correctas se deben a la descarga de snippets en castellano, debido a la similitud de muchas palabras entre ambos idiomas. Llama la atención el descenso de rendimiento de la reformulación ANDS. Todas las reformulaciones se ven penalizadas por la utilización del valenciano en la búsqueda. Las preguntas que obtienen respuestas, son aquellas que más semejanza guardan con el castellano y que obtuvieron respuesta en el experimento con preguntas en castellano. Entre el 90-95% de los snippets descargados son en idioma castellano, el resto en valenciano. El sistema devolvió en tres casos la respuesta en valenciano, y en los tres casos erró. En cuanto al número total de preguntas con respuesta encontrada en alguna reformulación, es de 39. El porcentaje se queda en el 21.66% Tarea monolingüe Valenciano-Valenciano En este caso, las preguntas no se han traducido con el traductor SALT, sino que se traducen por una persona de habla valenciana. Con esta variación, se quiere eliminar los posibles fallos en la traducción automática. 98

105 ANDS CONS CONS1 CONS2 VERB Correctas Precisión 9.44% 4.44% 10.55% 16.11% 16.66% MMR Tabla 5.3 Resultados del sistema de BR INAOE para el caso Valenciano-Valenciano con preguntas del CLEF Discusión sobre los resultados Los resultados obtenidos son casi idénticos al caso de castellanovalenciano utilizando traductor. La conclusión que sacamos tras el examen de los snippets y respuestas devueltas en los casos de búsqueda en valenciano, es que las respuestas encontradas se deben a la redundancia del castellano, o dicho de otra manera, no existe suficiente redundancia del valenciano para producir respuestas a partir de los snippets descargados, que como ya dijimos en el punto anterior son en castellano. Con respecto a la tarea translingüe y el traductor, podemos decir que no ha introducido grandes errores en la traducción, que hayan llevado a un descenso en los porcentajes. De todas maneras, visto que los resultados se deben a la redundancia del castellano a partir de preguntas en valenciano con similitud entre muchas palabras, es difícil precisar la bondad del traductor. Sobre el dato total de preguntas que encuentran respuesta en alguna reformulación, obtenemos 40 preguntas sobre el total de 180, o lo que es lo mismo un 22.22% 99

106 5.2.4 Tarea translingüe Valenciano-Castellano Se traduce con el SALT las preguntas del valenciano del punto al castellano, se lanza el sistema de BR y se obtienen los siguientes resultados: ANDS CONS CONS1 CONS2 VERB Correctas Precisión 29.44% 3.33% 8.33% 16.67% 15.55% MMR Tabla 5.4 Resultados del sistema de BR INAOE para el Valenciano-Castellano con preguntas del CLEF Discusión sobre los resultados En este apartado, el proceso translingüe nos muestra una perdida de efectividad en los resultados con las preguntas obtenidas como resultado de la traducción al castellano con el SALT. Una de las causas podría ser debido al SALT. También podría deberse a que al provenir las preguntas de origen del valenciano de una persona y no de un traductor automático, este haya hecho la traducción de forma coloquial, perdiendo rigurosidad en la traducción. En resumen, después de haber traducido manualmente las preguntas originales en castellano al valenciano, y haciendo automáticamente el proceso inverso con estas preguntas obtenidas, al lanzar el sistema de BR se obtienen pérdidas de efectividad del sistema en todas las reformulaciones del orden de entre el 40-70%. El proceso de traducción penaliza el funcionamiento del sistema. Hacen falta herramientas adecuadas para habilitar el uso de sistemas de BR 100

107 translingües con resultados factibles. En el Capítulo 4 se vieron algunas de estas herramientas o subsistemas. Con respecto al uso de traductores en el proceso de BR, también se hicieron pruebas experimentales con una serie de preguntas en ingles, y las mismas obtenidas desde el idioma origen árabe a través de un traductor árabeinglés. Los resultados que en este anexo se muestran, prueban la perdida de prestaciones del sistema en su conjunto. Los resultados se muestran en el Anexo II. A continuación analizaremos los experimentos llevados a cabo con el corpus del CELF 2003 para extraer unas primeras conclusiones. Los mejores resultados se obtienen para el castellano y con la reformulación Bolsa de palabras. Como primera conclusión podríamos decir que una pregunta cuya búsqueda se realiza en castellano (de origen o con el traductor) obtiene mejores resultados que una pregunta lanzada en valenciano (de origen o traductor). Por tanto, la redundancia de la web, mayor para el castellano que para el valenciano, se traduce en mejores resultados para búsqueda de respuestas. Es necesario aquí mencionar la ganancia que obtendría un usuario que no hablara castellano y que utilizara el sistema lanzando una petición en su idioma original (valenciano), obteniendo la respuesta a través del sistema realizando la búsqueda en castellano. También se podría traducir la respuesta al idioma original de la petición. Sería necesario desarrollar una interfaz de aplicación y preparar el sistema para la ejecución por parte de usuarios no especializados. 5.3 Clasificación de resultados atendiendo a la tipología de la pregunta Durante la evaluación del sistema, se observó que ciertos tipos de pregunta obtenían mejores resultados. Los tipos de preguntas que se comparan son Qué, Cómo, Dónde, Cuándo, Cuántos y Cuál. Se engloban dentro de cada tipo las variantes de género y número. 101

108 El análisis se realizó para las preguntas del CLEF 2003 en castellano. Es importante mencionar que las preguntas cortas nos llevaron a mejores resultados. Las preguntas que obtuvieron peores resultados fueron las que la respuesta esperada era del tipo numérico o fecha, las del tipo cuántos y cuando. Las preguntas del tipo Cuál es la capital? obtuvieron los mejores resultados, encontrando las tres preguntas introducida en el CLEF 2003 respuesta. En general, las preguntas Cuál y Cómo obtuvieron los mejores porcentajes. En la tabla que se muestra a continuación se comparan los tipos de preguntas y sus porcentajes de respuestas obtenidos para el CLEF Cual/ Cuales Qué Donde Cuando Cuanto/s Cuanta/s Quién Por qué Cómo Correctas Total Precisión 77% 27% 37% 33% 0% 59% 0% 50% Tabla 5.5 Porcentaje de resultados según tipos de preguntas del CLEF En la tabla no se incluye las 21 preguntas sobre las 100 del CLEF que no utilizan las partículas interrogativas cual, que, donde, cuanto, quien, por qué, y cómo. El mejor porcentaje se obtuvo con las preguntas del tipo cual, seguido por las del tipo quién y cómo. El sistema, en su conjunto, sufrió una penalización por las preguntas del tipo cuanto, ya que en los resultados examinados sobre un total de 100 preguntas de las cuales 15 eran de este tipo, no se consiguió respuesta válida alguna. Por lo tanto, hay que mejorar los resultados de los sistemas de BR. Es necesario mejorar los resultados, sobre todo para los tipos de preguntas en los que se obtienen peores resultados. 102

109 En el Capítulo 6, se presenta un sistema de RP para la BR. Se mostrarán los resultados obtenidos en una serie de casos de estudio, para ver si podemos obtener mejores resultados con los tipos de preguntas con peores porcentajes mostrados en los experimentos anteriores. 5.4 El corpus del CLEF 2005 En el CLEF 2005, se sigue con línea de investigación de años anteriores, introduciendo algunas novedades y dificultades adicionales al proceso de búsqueda. Lógicamente, en cada CLEF se introducen nuevos retos. En el CLEF2005 se introdujeron una serie de cambios en cuanto a la complejidad de la pregunta y a la respuesta requerida. Por ejemplo, en el CLEF2003 se tomaba como buena una respuesta que estuviera entre las tres primeras de las devueltas. Por contrario, en el CLEF2005, sólo se admite la primera. En nuestros experimentos hemos tomado como buena hasta la quinta, aunque bien es verdad que en la mayoría de los casos la respuesta se devolvía en primer o segundo lugar. En este caso, tenemos un corpus de 200 preguntas de las cuales 18 no tenían respuesta en el contexto del CLEF. Por tanto, eliminamos estas 18 sin respuesta y obtuvimos los siguientes resultados: ANDS CONS CONS1 CONS2 VERB Correctas Precisión 26.92% 3.29% 15.83% 19.23% 21.42% MMR Tabla 5.6 Resultados del sistema de BR INAOE Castellano con preguntas del CLEF

110 Resultado de combinar reformulaciones. De las 182 preguntas efectuadas, 58 obtuvieron respuesta correcta al menos en un tipo de reformulación, o sea un porcentaje de 31.86%. A la vista de los resultados obtenidos, al igual que en los experimentos con el CLEF 2003, la reformulación ANDS es la que obtiene mejores resultados Comparativa entre el sistema UPV y el sistema INAOE en el CLEF 2005 En la Tabla 5.6 se muestra la comparativa entre los resultados obtenidos por el sistema INAOE y los resultados obtenidos por el sistema que representaba a la UPV (sistema QUASAR) en el CLEF de ese año que se describirá brevemente en el Capítulo 6: ANDS CONS CONS1 CONS2 VERB UPV (1ª-5ª resp) Precisión 26.92% 3.29% 15.83% 19.23% 21.42% Tabla 5.7 Comparación con los resultados de la UPV con la 1ª-5ª respuesta ANDS CONS CONS1 CONS2 VERB Precisión 11.53% 2.19% 7.14% 7.14% 7.14% UPV (1ª resp) 33.5 Tabla 5.8 Comparación con los resultados de la UPV con la 1ª respuesta 18 Los resultados del CLEF2005 no recogen porcentajes de devolución de respuesta entre las cinco primeras. Por tanto, en la casilla de la Tabla5.7 de resultado global, tomamos como dato el obtenido en la evaluación del sistema de la Tabla 5.8 de resultados obtenidos en devolución por primera respuesta. 104

111 En las Tablas 5.6 y 5.7 se han comparado los resultados obtenidos en nuestros experimentos con las distintas reformulaciones (columnas ANDS, CONS, CONS1,CONS2 y VERB) y los obtenidos por el sistema QUASAR implementado en la UPV para el CLEF2005 (columna UPV). Fusionando los resultados de todas las reformulaciones se obtiene un 31.86% de respuestas. Los resultados obtenidos por el QUASAR [Gomez et al., 2005] fueron de un 33.5%. Estos resultados tienen mucho más valor al tratarse como respuestas correctas las devueltas en primer lugar. Es probable que los mejores resultados obtenidos por el QUASAR se deban principalmente al módulo del sistema de recuperación de pasajes que, al igual que los mejores sistemas de BR en la tarea monolingüe del castellano en el CLEF 2005 (véase Tabla 5.8) están basados en el sistema de BP JIRS que se describirá en el Capítulo 6. Spanish > Spanish inao051eses 42.00% tova051eses 41.00% upv051eses 33.50% alia051eses 33.00% Tabla 5.9 Resultados de los sistemas en tarea monolingüe en el CLEF 2005 La Tabla 5.9 muestra también recoge los resultados del sistema TOVA. Este es un sistema INAOE-UPV basado en la integración de los dos. Los detalles del sistema se detallan en [Montes et al., 2006]. Conclusión preliminar después de los experimentos. Con un módulo de recuperación de pasajes como JIRS, se deberían obtener mejores resultados en la tarea monolingüe del valenciano. Esta conclusión nos sitúa en la necesidad de estudiar las prestaciones del JIRS. 105

112 106

113 Capítulo 6. El componente de búsqueda de pasajes Los sistemas más recientes de búsqueda de respuestas están normalmente implementados sobre sistemas de recuperación de pasajes. El primer sistema de Recuperación de Pasajes (RP) que aquí se presenta (JIRS) se basa en la suposición de que las palabras que forman la pregunta también lo harán en la respuesta. Esta es la misma suposición que utiliza el sistema de búsqueda de respuestas implementado por el INAOE y ya analizado en el Capítulo 3 de este documento. El segundo (sistema QUASAR) se basa en la redundancia y en RP, suponiendo que en una cantidad suficiente de documentos encontraremos la respuesta buscada en diferentes formas. En el primer sistema que presentamos en este capítulo se utiliza el concepto de n-gramas para la búsqueda de los pasajes como posibles respuestas. Veremos los módulos del sistema que utilizan este modelo. Antes de esto se definirá propiamente el JIRS. Los buenos resultados obtenidos en el CLEF 2005, en sistemas de recuperación de pasajes orientados a búsqueda de respuestas, fueron determinantes para incluirlo en este trabajo. Se realizarán experimentos simples para comprobar si se obtienen mejores resultados que los obtenidos anteriormente, sobre todo en los tipos de cuestiones en los que se obtuvieron peores porcentajes. 6.1 Introducción Una línea de investigación dentro de la recuperación de información (RI) son los llamados sistemas de Recuperación de Pasajes (RP). Estos sistemas miden la relevancia de un documento con respecto a una pregunta en función de fragmentos contiguos de texto. Estos fragmentos de texto son los llamados pasajes. De esta forma, se facilita la detección de extractos que pueden ser relevantes para el usuario y que en el supuesto de estar presentes en documento grandes no serían localizados y catalogados como relevantes porque la aportación total de relevancia del documento donde aparecen. 107

114 Estos sistemas resultan computacionalmente más costosos que los sistemas de RI tradicionales, pero los resultados obtenidos justifican esta mayor complejidad. En este capítulo presentamos dos sistemas implementados en la UPV, el sistema JIRS y el sistema QUASAR, definiendo en cada caso su arquitectura y mostrando los conceptos en los que se apoyan. Los sistemas de BR, se pueden dividir en los siguientes componentes: análisis de la pregunta, recuperación de documentos relevantes, extracción de pasajes relevantes y extracción de respuestas. Para poder extraer la respuesta correctamente, es muy importante trabajar sobre un conjunto de fragmentos de texto lo más reducido posible que incluyan la respuesta. Debido a esto, las últimas implementaciones de sistemas BR están basados directamente en sistemas de RP en lugar de sistemas de RI. El componente de RP tiene una importancia vital porque reduce la colección original de documentos a un conjunto de pasajes en los cuales la respuesta debe ser buscada. Por lo tanto, si el componente RP no es capaz de recuperar pasajes relevantes, el proceso fallará y no se encontrará respuesta alguna. Llegados a este punto, debemos subraya una diferencia importante entre la RI tradicional y los sistemas RP orientados a BR. En el primer caso, la etapa de recuperación de documentos tiene el mayor coste computacional. Mientras que en el segundo caso, la clave y el mayor esfuerzo se realiza en la etapa de recuperación de los segmentos de texto (pasajes) que deben contener la respuesta. Métodos para medir la relevancia Existen diferentes métodos para determinar la similitud entre el pasaje del espacio de búsqueda y la pregunta efectuada. Los métodos más representativos se caracterizan por lo siguiente: 1) La relevancia depende del acople pasaje con la pregunta. 2) La relevancia depende de la densidad de los términos de la pregunta en el pasaje. 108

115 La comparación de resultados obtenidos por sistemas de RP usados en el TREC hecho por [Tellex S.,2003] demuestran que los mejores sistemas de RP están basados en densidad de términos presentes en el pasaje. 6.2 El sistema de búsqueda de pasajes JIRS En los siguientes apartados se describirá el sistema de BP JIRS y su arquitectura. Esta información ha sido consultada en los trabajos de [Gómez et al., 2005] Definición de JIRS El Sistema de Recuperación de Información basado en JAVA (JIRS), es un sistema de RP orientado a BR que utiliza el método de densidad para el cálculo de la similitud entre el pasaje y la pregunta. JIRS busca similitud entre el pasaje y la pregunta. JIRS busca estructuras que contienen términos de la pregunta para así extraer los pasajes que son más relevantes en función de la densidad de términos con respecto a la pregunta. JIRS se basa en la misma hipótesis de partida que el sistema BR INAOE: Los términos que componen la pregunta, formarán parte o estarán cerca de la respuesta JIRS utiliza el concepto de n-grama durante el proceso. Una sola palabra coincidente en pregunta y respuesta es un 1-grama. Dos palabras de la pregunta que aparecen en pregunta y respuesta consecutivas forman un bigrama. Y así sucesivamente. En este sentido esta es otra similitud en cuanto al procedimiento de operación del sistema JIRS con respecto al sistema INAOE. Para evaluar la importancia de cada n-grama, se desarrollaron tres modelos. Cada modelo se usa para obtener el peso del n-grama a partir del 109

116 número de palabras que lo componen, el peso de los palabras y la distribución de los distintos n-gramas en el pasaje. Otra característica importante de JIRS es su independencia del idioma. Se puede adaptar fácilmente para la RP orientado a BR en otros idiomas. De hecho, en este capítulo se dedica una parte a la explicación de cómo adaptar JIRS a otro idioma (valenciano) y se realizan algunos experimentos sobre un corpus en este idioma Arquitectura del sistema JIRS JIRS es un sistema de IR que se adaptó específicamente para recoger pasajes. El resultado es un sistema RP que se basa en buscar estructuras de la pregunta en lugar de buscar palabras clave. JIRS es capaz de encontrar estructuras de la pregunta en una colección de documentos rápida y eficientemente utilizando diferentes modelos basados todos ellos en n-gramas. JIRS utiliza un sistema de RP tradicional como primer paso y entonces busca todos los posibles n-gramas de la pregunta entre los pasajes recuperados. Con estos pasajes realiza la clasificación dependiendo del número y el peso de los n-gramas aparecidos en estos pasajes. La pregunta del usuario, finalmente, es pasada a un motor de búsqueda que devuelve una lista de sus pasajes con las palabras a las que se les ha asignado un valor según su peso. La estructura del sistema JIRS se muestra en la figura siguiente: 110

117 Figura 6.1 Arquitectura JIRS Por otra parte, mencionar que las estructuras de n-gramas de la pregunta, sin la partícula interrogativa, son extraídos por el módulo de extracción de n-gramas. En el siguiente ejemplo, se muestra el proceso de extracción de los n-gramas de la pregunta. Utilizaremos para el ejemplo la siguiente pregunta: Cuál es la capital de España? Cuál es la capital de España? 1 5-grama es la capital de la capital de España 2 cuatri-gramas es la capital la capital de capital de España 3 tri-gramas 111

118 es la la capital capital de de España 4 bi-gramas es la capital de España 5 uni-gramas Una vez finalizada la obtención de los n-gramas de la pregunta, hacemos lo mismo para cada pasaje devuelto por el módulo motor de búsqueda. En este paso sólo se tienen en cuenta los términos que forman la pregunta. Finalmente, con los n-gramas de la pregunta y los n-gramas de los pasajes obtenidos se hace una comparación para calcular la similitud entre ambos. En el siguiente ejemplo se muestran los n-gramas que se extraerían de dos pasajes devueltos por el motor de búsqueda. Estos ejemplos serán los mismos que utilizaremos para introducir los diferentes modelos de calcular la similitud entre pasaje y pregunta. Pasaje1 Ayer, la delegación visitó Madrid, la capital de España, y después estuvo en Valencia hasta que se desplazó a Barcelona Pasaje2 Chirac invitó a Rajoy a la capital de Francia para encontrar una solución política a los conflictos de España en el País Vasco la capital de España la capital de capital de España 1 4-gramas la capital de 2 3-gramas 1 3-gramas 112

119 la capital de capital de la capital 3 2-gramas capital de 2 2-gramas de España la la capital de 4 1-gramas capital 4 1-gramas de España España A continuación se presentan los tres modelos estudiados para averiguar la similitud entre pregunta y pasajes. Tanto el modelo n-grama de densidad de distancias como el n-grama peso de términos se basan en el modelo n-grama simple [Gómez et al., 2005a]. El modelo n-grama simple Con este modelo la similitud entre la pregunta y el pasaje devuelto se calcula con la siguiente fórmula: expresión (1) Donde Sim(p,q) es la función que mide la similitud de los conjuntos de n- gramas de la pregunta q con los conjuntos de n-gramas del pasaje p. Qj es un conjunto de j-gramas que son generados de la pregunta q. Pj es un conjunto de j-gramas generados del pasaje p para compararlos con los generados a partir de la pregunta. 113

120 El modelo n-grama de peso de términos El modelo n-grama simple tiene el problema de que todos los n-gramas tienen el mismo peso. Esto puede causar que pasajes con n-gramas irrelevantes pueden ser más relevantes que otros con n-gramas más importantes. Para solventar esta carencia se desarrolló el modelo n-grama de peso de términos. Con este modelo el peso dado de los n-gramas está determinado como la suma de los pesos de los términos que contiene. La expresión de cálculo que determina este valor es la misma que la del modelo n-grama simple con la diferencia de que la función h(x,p j ) se cambia po la siguiente: si no expresión (2) El modelo n-grama de densidad de distancias En los anteriores métodos de n-gramas más largos continúan siendo más relevantes que los cortos, independientemente de los términos que contenga. Esto se debe a que el peso de los pasajes está calculada sumando todos los n-gramas que contiene. El modelo n-grama de densidad de distancias se basa en la búsqueda de los n- gramas con un valor más alto. El resto de los n-gramas recuperados se multiplicará por un factor de distancia el cual tiene en cuenta la distancia con respecto al n-grama con el valor más alto. El peso de cada n-grama se obtiene de la expresión (2) pero sus pesos se modifican por la siguiente expresión: expresión (3) 114

121 Donde L es el número de términos entre el n-grama x max (x max es el n-grama con el peso más alto calculado con la expresión (2) y el n-grama x del pasaje. El valor de similitud viene determinado por la siguiente expresión: expresión (4) Donde D es el conjunto de los n-gramas con valor más alto con respecto a la pregunta q, los cuales corresponden con el pasaje p, y cuyos términos no están repetidos. wi es el peso del término enésimo de la pregunta y n es el número de términos de la pregunta. h(x,d) es la función definida por la expresión (2) 6.3 El sistema de búsqueda de respuestas QUASAR El sistema de búsqueda de pasajes JIRS ha sido desarrollado para posteriormente poderlo integrar en el sistema de recuperación de respuestas QUASAR realizado por el Laboratorio de Ingeniería del Lenguaje Natural de la UPV. A continuación se describen las principales características de dicho sistema, tal y como han sido detalladas en [Gomez et al., 2006]. Como idea de partida, suponemos que en una colección de documentos lo suficientemente extensa, encontraremos la respuesta a una pregunta dada. Además esta pregunta se encontrará expresada de distintas formas. El sistema emplea Máquinas de Vectores Soportados y Ajuste de Patrones para identificar el tipo de respuesta y posteriormente extraerla, una vez que el sistema JIRS devuelve los pasajes relevantes. 115

122 6.3.1 Introducción Dentro de las funciones globales de un sistema BR podríamos mencionar: clasificación de la pregunta, recuperación de documentos o pasajes relevantes y extracción de respuestas. Estas tres funciones marcan la división en módulos del sistema. La Clasificación de la Pregunta se define como la tarea de asignar un tipo (de entre unos tipos predefinidos) a cada pregunta enviada al sistema. El sentido de esta clasificación, viene del hecho de que a distinto tipo de preguntas se les aplicarán distintas estrategias. Por ejemplo, a la pregunta Quién descubrió América?, se espera una respuesta en forma de nombre propio y la forma de obtenerla será distinta de la pregunta Qué es la Goma-2 eco?. En este segundo caso, la respuesta esperada debe ser una definición. La clasificación de la pregunta, es importante como veremos más adelante, ya que focaliza la búsqueda y reduce el error en la respuesta obtenida. Esto queda patente por numeroso estudios, entre los cuales destacamos el de Moldovan en el año 2003 en el que cuantifica en más de un 36% los errores producidos directamente por la clasificación errónea de la pregunta en el CP [Moldovan, et al., 2003] Arquitectura del sistema En la Figura 6.2 se muestra la arquitectura del sistema Quasar. 116

123 Figura 6.2 Arquitectura del sistema QUASAR A partir de una pregunta dada, esta se pasará a los módulos de Análisis de la pregunta y Recuperación de pasajes. Después, el módulo Extracción de la respuesta permitirá obtener la respuesta. 6.4 Casos de estudio con el valenciano Aunque el corpus sobre el que realizamos la búsqueda proviene de la colección CLiC-TALP versión 3.0, de la Universidad Politécnica de Cataluña en idioma catalán, y las preguntas utilizadas en los casos de estudio han sido construidas en valenciano, las diferencias entre ambos (considerando que hoy en día, existe una gran polémica entre si son o no el mismo idioma) a nivel léxico-sintáctico no son muy apreciables. Por tanto, a partir de ahora, nos referiremos al idioma empleado para los casos de estudio como valenciano. JIRS es un sistema altamente configurable y adaptable para distintos idiomas. Una de las tareas realizadas en este PFC ha sido la de adaptar JIRS para la BP en documentos en valenciano. La búsqueda se realizará sobre un 117

124 documento en valenciano-catalán de palabras. La adaptación conlleva la inclusión de una lista de stopwords en valenciano. Para tener una primera idea de sus prestaciones, se probará el sistema JIRS para cuatro cuestiones, dos del tipo Cuántos y otras dos del tipo Quién. Se espera mejorar los resultados en comparación con los obtenidos en los experimentos del Capítulo 5 con las preguntas del tipo Cuántos. Los pasos para la instalación, configuración y ejecución del sistema están explicados en el manual descargable junto con la aplicación desde la pagina Web del JIRS. Por tanto, solo se exponen los resultados obtenidos junto con las preguntas de prueba de dos tipos Quién? y Cuántos? (traducidas al valenciano Qui y Quatns?). Las preguntas de prueba serán: 1. Qui és el president de la Generalitat? 2. Qui és el secretary general d'erc? 3. Quants desplaçaments a l' any es produeixen a la Regió Metropolitana de Barcelona? 4. Quants millions de tones tin de transit el port de Tarragona en l'any 1999? 5. Qui ha presentat una proposició no de llei en el Parlament on s'insta al Govern de la Generalitat a obrir una oficina del departament d'agricultura ganaderia i pesca? 6. Quantes activitats ha acollit el Palau Firal els primers cinc mesos en l'any 1999? 7. Que va proposar ERC en relació al Pla Hidrologico Nacional PHN? 8. Qui és el sotsdirector de la entitad bancària Deutsche Bank a Espanya? Tras lanzar el sistema, se obtuvieron los siguientes resultados (se muestran gráficamente algunos de los resultados obtenidos): 1. Qui és el president de la Generalitat? 118

125 2. Qui és el secretary general d'erc? 119

126 3. Quants desplaçaments a l' any es produeixen a la Regió Metropolitana de Barcelona? 4. Quants millions de tones tin de transit el port de Tarragona en l'any 1999? 120