3.1. Introducción... 1

Transcripción

1 ÍNDICE GENERAL Índice general 1. Recuperación de Información basada en contenido Introducción Pasado, presente y futuro Desarrollos históricos Recuperación de información en las bibliotecas La Web y las bibliotecas digitales Recuperación de Datos versus Recuperación de Información Proceso de recuperación de información Sistema de recuperación de información Recuperación de información no es sólo filtering Retos de investigación Recuperación de Información sobre Textos Proceso de Recuperación de Información Modelos de representación interna Modelo booleano Modelo vectorial Modelo probabilístico Modelos alternativos de recuperación de información Métodos de análisis de textos Preprocesamiento de documentos Procesamiento de lenguaje natural Ley de Zipf Ley de Heaps Evaluación de la recuperación Recall y precisión Consultas basadas en palabra clave Emparejamiento de patrones (Pattern Matching) Métodos de indexación Índices invertidos Arrays de sufijos Recuperación de Información en la Web Introducción Principales desafíos Caracterizando la Web Alternativas para el usuario Arquitectura de los motores de búsqueda Arquitectura centralizada Recuperación de Información basada en contenido i

2 ÍNDICE GENERAL Arquitectura distribuida Algoritmos de ranking Índices para la Web Algoritmos de crawling ii

3 Capítulo 1 Recuperación de Información basada en contenido 1.1. Introducción La Recuperación de Información (IR) trata la representación, almacenamiento, organización y acceso a los elementos de información. La representación y organización de los elementos de información deben proporcionar al usuario un acceso sencillo a la información en la que está interesado. La necesidad de información por parte del usuario debe traducirse en un conjunto de palabras clave (o términos índice). Dada la consulta, la meta final de un sistema IR es recuperar información que debe ser útil o relevante al usuario. El énfasis está en la recuperación de información en oposición a la recuperación de datos Pasado, presente y futuro Desarrollos históricos Desde siempre, el hombre ha organizado la información para su posterior recuperación y uso. Un ejemplo típico son las listas de contenidos de los libros. Debido el crecimiento en el volumen de información fue necesario posteriormente a recurrir a la utilización de estructuras de datos que facilitasen el acceso a la información almacenada, como es el caso de los índices. Durante muchos años, los índices fueron creados manualmente como jerarquías de categorización y, más recientemente, los ordenadores han permitido su construcción automática. Los índices automáticos proporcionan una vista del problema de recuperación más orientada al sistema que a la necesidad del usuario. A este respecto, es importante distinguir entre 2 diferentes vistas del problema de IR: orientada a la máquina y orientada al humano. En la vista orientada a la máquina, el problema de IR consiste principalmente en construir índices eficientes, procesar las consultas con un alto performance y desarrollar algoritmos de ranking que mejoren la calidad de la respuesta. En la vista orientada al usuario, el problema IR consiste principalmente en estudiar el comportamiento del usuario, comprender sus necesidades y determinar cómo afecta esa comprensión a la organización y operación del sistema de recuperación. De acuerdo a esta vista, el procesamiento de las consultas basado en palabras clave es una estrategia que probablemente no dará lugar a una buena solución. En este trabajo se analiza principalmente la vista orientada a la máquina. Recuperación de Información basada en contenido 1

4 1.3. RECUPERACIÓN DE DATOS VERSUS RECUPERACIÓN DE INFORMACIÓN Recuperación de información en las bibliotecas Las bibliotecas han sido las primeras instituciones que adoptaron sistema de IR para recuperar información. En la primera generación, los sistemas consistían básicamente en la automatización de tecnologías previas (como fichas) y la búsqueda por nombre de autor y título. En la segunda generación, se incorporaron capacidades de búsqueda por palabras clave y realización de consultas más complejas. En la generación actual, el enfoque está en las interfaces gráficas, formularios electrónicos y características de hipertexto La Web y las bibliotecas digitales Dado que los motores actuales de la Web continúan utilizando índices similares a los de las bibliotecas tradicionales, qué ha cambiado? Fundamentalmente el bajo coste, el mayor acceso y la libertad de publicación han permitido a los usuarios utilizar la Web como un medio altamente interactivo. En el futuro hay tres cuestiones que se deben añadir. La primera, que a pesar de la alta interactividad, los usuarios tienen problemas para recuperar información relevante a sus necesidades de información. Segundo, dado el incremento en la demanda de acceso, el tiempo de respuesta está siendo cada vez más un factor importante. Por último, la calidad de la recuperación se ve también muy afectada por la interacción del usuario con el sistema Recuperación de Datos versus Recuperación de Información La recuperación de datos, en el contexto de un sistema IR, consiste principalmente en determinar qué documentos de la colección contienen las palabras clave de la consulta del usuario. Esto, frecuentemente, no es suficiente para satisfacer la necesidad de información del usuario. De hecho, el usuario de un sistema IR está interesado en la recuperación de información sobre un tema y no en recuperar datos que satisfagan una consulta. Un lenguaje de recuperación de datos recupera todos los objetos que satisfagan condiciones exactamente definidas mediante una expresión regular o en álgebra relacional. Para un sistema IR, sin embargo, los objetos recuperados pueden ser inexactos y es probable que existan pequeños errores. La principal razón de esta diferencia es que IR trata con textos en lenguaje natural que no siempre están bien estructurados y pueden ser semánticamente ambigüos. Los sistemas de recuperación de datos (como una BD relacional) tratan con datos que tienen una estructura y semántica bien definidas. La recuperación de datos no resuelve el problema de recuperar información sobre un tema. Para ser efectivo en su intento de satisfacer la necesidad del usuario, el sistema IR debe interpretar el contenido de los documentos y clasificarlos de acuerdo al grado de relevancia respecto a la consulta del usuario. Esta interpretación involucra la extracción de información sintáctica y semántica del documento y su utilización para emparejar la necesidad de información del usuario. La dificultad no está únicamente en cómo extraer esta información sino también en cómo utilizarla para decidir la relevancia. Así, la noción de relevancia es el aspecto central de la recuperación de información. De hecho, la meta principal de un sistema IR es recuperar todos los documentos relevantes a la consulta del usuario intentando recuperar el menor número posible de documentos no-relevantes Proceso de recuperación de información Antes de llevar a cabo el proceso de recuperación es necesario definir la BD textual. Esto es realizado por el administrador de la BD, quien especifica: 2

5 1.5. SISTEMA DE RECUPERACIÓN DE INFORMACIÓN 1. los documentos a utilizar 2. las operaciones que se pueden aplicar al texto 3. el modelo (i.e, la estructura del texto y los elementos que se pueden recuperar). De este modo se transforman los documentos originales y se genera una vista lógica de los mismos. Una vez que está definida la vista lógica, el administrador de la BD construye un índice sobre los documentos. El índice es una estructura crítica ya que será la que acelere las búsquedas sobre grandes volúmenes de datos. Los recursos (tiempo y espacio de almacenamiento) consumidos en el proceso de creación del índice se verán compensados en el momento de las consultas. Cuando la BD documental está indexada, el proceso de recuperación puede comenzar. El usuario entonces especifica la necesidad del usuario la cual es procesada y transformada aplicándole las mismas operaciones que a los documentos obteniendo finalmente una representación interna de la misma. Posteriormente la consulta se procesa y se obtiene el conjunto de documentos respuesta. Antes de ser devueltos al usuario, los documentos recuperados se clasifican en función de su relevancia. El usuario entonces examinará los documentos recuperados para localizar la información de interés. En este punto, el usuario podría elegir el subconjunto de documentos que son verdaderamente relevantes y utilizarlos para comenzar un ciclo de realimentación del usuario. En este ciclo, el sistema utiliza los documentos seleccionados por el usuario para depurar la formulación de la consulta. Se supone que esta modificación de la consulta permitirá una mejor representación de la necesidad del usuario Sistema de recuperación de información El usuario de un sistema de recuperación tiene que traducir su necesidad de información en una consulta en el lenguaje proporcionado por el sistema. En un sistema IR esto normalmente implica especificar un conjunto de palabras que represente la semántica de la necesidad de información. En un sistema de recuperación de datos, una expresión de consulta (tal como, por ejemplo, una expresión regular) se utiliza para expresar las restricciones que deben ser satisfechas por objetos en el conjunto respuesta. En ambos casos, se dice que el usuario busca información ejecutando una tarea de recuperación. El usuario del sistema de recuperación realiza dos tareas: recuperación de datos o de información y visualización. Los sistemas de recuperación de información clásicos normalmente permiten únicamente la recuperación, mientras que los sistemas actuales (hipertextos, bibliotecas digitales, interfaces Web) intentan combinar ambas tareas Recuperación de información no es sólo filtering En un sistema IR tradicional, los documentos en la colección permanecen relativamente estáticos mientras nuevas consultas son introducidas al sistema. Este modo de operación se denomina recuperación ad hoc y es la forma habitual. Una operativa diferente es aquella en la que las consultas permanecen relativamente estáticas mientras los documentos son dinámicos. Este modo de operación se denomina filtering. En filtering se define un perfil de usuario. Los usuarios deciden cuáles son sus preferencias, y cada vez que se recibe un documento, deciden si les interesa o no. Las preferencias del usuario no cambian durante la sesión. La decisión se reserva al propio usuario. Por ello, no se trata realmente de un modelo de recuperación de información. En filtering, el paso crucial no es la clasificación sino la construcción del perfil de usuario que refleje fielmente las preferencias del usuario. Para ello, una aproximación simple es describir el perfil 3

6 1.7. RETOS DE INVESTIGACIÓN mediante un conjunto de palabras clave. Otras aproximaciones más complejas recopilan información relevante del usuario para ajustar el perfil Retos de investigación En los últimos años, el área de IR ha aumentado sus primeras metas de indexación y búsqueda de documentos dentro de una colección. Hoy en día, la investigación en IR incluye modelización, clasificación de documentos y categorización, arquitectura de sistemas, interfaces de usuario, visualización de datos, filtering, lenguajes, etc. A comienzo de los 90, un hecho cambió las percepciones iniciales - la aparición de la Web. La Web ha introducido nuevos problemas. Encontrar información útil es una tarea habitualmente tediosa y difícil. Para satisfacer la necesidad de información, el usuario debe navegar a través de los enlaces (el hiperespacio) y, en muchas ocasiones, la navegación resulta ineficiente. El obstáculo principal es la ausencia de un modelo de datos subyacente. 4

7 Capítulo 2 Recuperación de Información sobre Textos 2.1. Proceso de Recuperación de Información La recuperación de información puede verse como: Dada una necesidad de información (consulta + perfil del usuario +...) y un conjunto de documentos, ordenar los documentos por relevancia para esa necesidad y presentar un subconjunto de los más relevantes. Los sistemas de IR generalmente adoptan términos índice para indexar y recuperar documentos. En el sentido estricto, un término índice es una palabra clave (o grupo de palabras relacionadas) que tiene significado. En su forma general, un término índice es una palabra que aparece en el texto de un documento en la colección. La recuperación basada en términos índice es simple pero no incluye aspectos clave propios de la tarea de recuperación de información. Por ejemplo, la recuperación mediante términos índice adopta como característica fundamental la idea de que la semántica de los documentos y la necesidad del usuario puede ser expresada de forma natural mediante conjuntos de términos índice. Esto es una sobre-simplificación del problema porque una cantidad importante de semántica de los documentos y de la consulta se pierde cuando se sustituye el texto por un conjunto de palabras. Además, el emparejamiento entre cada documento y la consulta del usuario se realiza mediante un espacio impreciso de términos índice. Así, no sorprende que aparezcan documentos irrelevantes entre los recuperados. La insatisfacción de los usuarios Web con las respuestas que obtienen es justamente un buen ejemplo de esta situación. Un problema central en los sistemas IR es la predicción de qué documentos son relevantes y cuáles no. Esta decisión es dependiente del algoritmo de ranking que intenta establecer una ordenación simple de los documentos recuperados. Por ello, el algoritmo de ranking es crucial. Hay dos etapas para abordar el problema: 1. Elegir un modelo para calcular la relevancia de los documentos a la consulta. El modelo IR adoptado determina las predicciones sobre lo que es relevante (i.e, la noción de relevancia implementada por el sistema). Su bondad se mide comparando las respuestas del sistema contra las que un conjunto de expertos consideran relevantes. 2. Diseñar algoritmos y estructuras de datos que lo implementen (índices). Su bondad se mide considerando el tiempo de respuesta del sistema, espacio extra de los índices, tiempo de construcción y actualización del índice, etc. Todo sistema IR debe incluir tres elementos: 1. Modelo de representación interna: Forma en que serán representados internamente los documentos y la consulta. Recuperación de Información basada en contenido 1

8 2.2. MODELOS DE REPRESENTACIÓN INTERNA 2. Método de análisis (indexación): Proceso para obtener las representaciones de los documentos a partir del análisis de su contenido. 3. Cálculo de similitud entre las representaciones de los documentos y de la consulta. Se definen en el modelo de representación interna. A continuación se presentan en detalle estos elementos Modelos de representación interna Los tres modelos clásicos de IR son el modelo booleano, vectorial y probabilístico. En el modelo booleano los documentos y las consultas están representadas por conjuntos de términos índice. En el modelo vectorial, los documentos y las consultas están representadas como vectores en un espacio t-dimensional. Por ello, el modelo se denomina algebraico. En el modelo probabilístico, la herramienta para la modelización de los documentos y la consulta se basan en la teoría de la probabililidad. Veamos estos modelos en detalle Modelo booleano El modelo booleano es un modelo de recuperación simple basado en la teoría de conjuntos y en el álgebra booleana. Los documentos se representan mediante términos índice. La relevancia es binaria: un documento es relevante o no. Las consultas son expresiones booleanas del tipo: 1 palabra: un documento es relevante si y sólo si contiene la palabra AND: los documentos deben contener todas las palabras OR: los documentos deben contener alguna palabra A BUTNOT B: los documentos deben ser relevantes para A pero no para B Dada su simplicidad y formalismo claro, el modelo booleano recibió gran interés en el pasado y fue adoptado por muchos de los sistemas bibliográficos comerciales. Es de las primeras ideas que a uno se le ocurren, y es la opción preferida para manejar texto en una BD relacional. Sin embargo, es bastante malo para IR. Su estrategia de recuperación se basa en un criterio de decisión binario (i.e., un documento se relevante o no relevante) sin ninguna noción de escala. Por lo tanto, da lo mismo que un documento contenga 1 o 100 veces las palabras de la consulta, o que cumpla una ó todas las cláusulas de un OR. Tampoco considera la posibilidad de una coincidencia parcial de un documento (ej. que cumpla con casi todas las cláusulas de un AND). Es, por tanto, más un modelo de recuperación de datos que de información. Además, a muchos usuarios les resulta complicado expresar sus consultas mediante expresiones booleanas. Por ello, en la mayoría de los casos las expresiones formuladas actualmente por los usuarios son bastante simples. Para usuarios expertos puede ser adecuado, o con mejores interfaces Modelo vectorial El modelo vectorial reconoce que el uso de pesos binarios es demasiado limitado y propone un modelo en el que el emparejamiento parcial es posible. Para ello, asigna pesos no binarios a los términos índice en consultas y documentos para poder calcular posteriormente el grado de similitud entre cada documento y la consulta. Ordenando los documentos recuperados en orden decreciente en función del grado de similitud, el modelo vectorial tiene en cuenta los documentos que emparejan con 2

9 2.2. MODELOS DE REPRESENTACIÓN INTERNA los términos de la consulta parcialmente. De este modo, el conjunto respuesta es más preciso (i.e., coincide más con la necesidad del usuario) que el obtenido mediante el modelo booleano. Los documentos d j y la consulta se representan como vectores t-dimensionales, siendo t el número de términos diferentes en el conjunto de documentos. El modelo vectorial propone evaluar el grado de similitud entre el documento d j y la consulta q como la correlación entre sus vectores. Esta correlación puede ser cuantificada, por ejemplo, como el coseno del ángulo entre los dos vectores. Entre las ventajas de este modelo podrían destacarse: Su cálculo de pesos mejora el performance de recuperación. Su emparejamiento parcial permite recuperar documentos que se aproximan a la consulta. Se recuperan los documentos que superan un umbral de similitud. La aproximación mediante coseno clasifica los docs en función de su grado de similitud con la consulta. Permite retroalimentación (Relevance feedback, documents like this = Encuentra más documentos semejantes a los actuales) Teóricamente, el modelo vectorial tiene la desventaja de que se asume que los términos índice son independientes. Sin embargo, en la práctica, la consideración de dependencias entre términos puede ser una desventaja. Debido a la localidad de muchas dependencias entre términos, su aplicación indiscriminada a todos los documentos de la colección puede repercutir negativamente en el performance total. A pesar de su simplicidad, el modelo vectorial es mejor o al menos tan bueno como otras alternativas más sofisticadas. Por esta razón, hoy en día es el modelo más popular para recuperación de información Modelo probabilístico Modelos alternativos de recuperación de información Extensiones al modelo Booleano: Booleano Extendido, Conjuntos Difusos Extensiones al modelo Vectorial: Vectorial generalizado, LSI (Latent Semantic Indexing), Redes neuronales Extensiones al modelo Probabilístico: Redes Bayesianas, Redes de Inferencia Bayesiana 3

10 2.3. MÉTODOS DE ANÁLISIS DE TEXTOS 2.3. Métodos de análisis de textos No todas las palabras son igualmente significativas para representar la semántica de un documento. En lenguaje escrito, algunas palabras tienen más significado que otras. Generalmente, los sustantivos (o grupos de sustantivos) son los más representativos del contenido de un documento. En general, se considera que merece la pena preprocesar el texto de los documentos de una colección para determinar los términos a ser utilizados como términos índice. Las operaciones de texto que se aplican durante el preprocesamiento se explican en los siguientes apartados. Sin embargo, la representación de los documentos mediante términos índice da lugar a una representación imprecisa de la semántica de los documentos en la colección. Por ejemplo, un término como the no tiene significado y puede dar lugar a la recuperación de documentos que no están relacionados con la consulta del usuario. La utilización de todas las palabras para indexar un conjunto de documentos genera mucho ruido para la tarea de recuperación. Una forma de reducir el ruido es disminuir el conjunto de palabras utilizadas para la indexación. El preprocesamiento de los documentos puede verse como un proceso para controlar el tamaño del vocabulario y mejorar así el performance de recuperación. Aunque el control del tamaño del vocabulario es una técnica habitual con los sistemas comerciales, introduce un paso adicional en el proceso de indexación que frecuentemente no es percibido por los usuarios. Como resultado, estos pueden sorprenderse con alguno de los documentos recuperados y con la ausencia de otros que esperaba. Por ejemplo, un usuario podría recordar que cierto documento contiene la cadena the house of the lord y, sin embargo, ese documento no aparece entre los recuperados (porque el vocabulario no incluye the ni of ). Por ello, algunos motores Web indexan todas las palabras del texto Preprocesamiento de documentos El preprocesamiento consiste en transformaciones para reducir el texto: 1. Análisis léxico (tokenization): Tratamiento de dígitos, signos de puntuación y mayúsculas 2. Eliminación de stopwords: Filtrado de palabras con poco significado para propósitos de recuperación 3. Stemming (lematización): Eliminación de afijos y recuperación de documentos con variaciones sintácticas de los términos de la consulta 4. Selección de términos representativos 5. Construcción de thesaurus: Expansión de la consulta original con términos relacionados Análisis léxico del texto Es el proceso de separar las palabras en el texto. Aunque a primera vista podría pensarse que esto únicamente supone el reconocimiento de los separadores de palabra, sin embargo existen varios casos (problemas) a tener en cuenta: Combinación de letras y números: UB40, Windows95, 350AC, 510A.C. Números: Para los números se suele hacer otro tipo de indexación. Además, debe tenerse en cuenta que no todos los números significan lo mismo: Motorola (nombre propio), euros (cantidad), 2003 ( año?). Cómo reconocer los números que son relevantes? En general, los números no se consideran términos índice a menos que se indique lo contrario (mediante expresiones regulares). 4

11 2.3. MÉTODOS DE ANÁLISIS DE TEXTOS Guiones y signos: Los guiones se suelen eliminar para evitar inconsistencias de uso. Sin embargo, hay palabras que poseen guiones que forman parte integral de las mismas: Zig-Zag, 3.12, B-49, U.S.A. = USA. Para estos casos, se suele recurrir a la utilización de reglas para especificar estas excepciones. Palabras Compuestas: Santa María, New York Ignorar mayúsculas y minúsculas?: Los analizadores léxicos suelen convertir el texto a minúsculas o mayúsculas. Sin embargo, una vez más, deben considerarse los escenarios particulares, por ejemplo, MIT/mit, General Motors (Motors!= motors), SAIL vs sail Separadores propios de cada idioma: estel.lar Acentos: Résumé o Resume, Papá o Papa, Léixample (Léixample ó eixample) Lenguajes Chino y Japonés: Sin espacios entre palabras Tokenización ambigüa: El japonés tiene múltiples alfabetos, la escritura en hebreo es de derecha a izquierda En general, no resulta complejo implementar estas operaciones de texto. Sin embargo, deben estudiarse las distintas excepciones con cuidado ya que pueden provocar un importante impacto en el momento de la recuperación de documentos. Esto es especialmente preocupante en aquellas situaciones en las que el usuario encuentra difícil comprender la estrategia de indexación que utiliza el sistema. Por ello, algunos motores Web están optando por no realizar algunas operaciones de texto ya que esto simplifica la interpretación del usuario. Eliminación de stopwords Las palabras que son más frecuentes en los textos de una colección no son buenos discriminantes y se denominan stopwords. Artículos, preposiciones y conjunciones, así como algunos verbos, adverbios y adjetivos son candidatos naturales para formar parte de la lista de stopwords. Son característicos de cada lenguaje por lo que se requiere detectar el idioma de cada documento tratado. La eliminación de stopwords permite reducir el tamaño de la estructura de indexación. Sin embargo, hay controversia sobre sus beneficios. La eliminación de stopwords puede empeorar el resultado de la consulta. Así, supongamos que un usuario está buscando documentos que contengan la frase to be or not to be. La eliminación de stopwords puede dejar únicamente el término be de toda la frase, haciendo casi imposible reconocer correctamente los documentos con la frase anterior. Esta es una razón por la que muchos motores Web NO lematizan. Stemming Frecuentemente, la palabra especificada por el usuario en la consulta no aparece exactamente en un documento pero sí alguna variante gramatical de la misma como plurales, gerundios, sufijos de tiempo verbal, etc. Este problema puede resolverse con la sustitución de las palabras por su raíz (stem). Un stem es la porción de una palabra que resulta de la eliminación de sus afijos (prefijos y sufijos). Un ejemplo podría ser la palabra connect que es el stem de connected, connection, connections. Los stems son interesantes ya que permiten reducir variantes de la misma raíz gramatical a un concepto común. Consecuentemente, el stemming permite reducir el tamaño de la estructura de indexación ya que el número de términos índice se reduce. Además, permite ampliar la definición de la consulta con las variantes morfológicas de los términos usados, mejorando así el performance de recuperación. Sin embargo, hay controversia en la literatura acerca de sus beneficios. 5

12 2.3. MÉTODOS DE ANÁLISIS DE TEXTOS Se pueden distinguir varios tipos de estrategias de stemming: mediante un diccionario, n-grams y eliminación de afijos. La aproximación mediante diccionario consiste en la búsqueda del stem en una tabla. Es un proceso simple pero la construcción del diccionario es costosa, por lo que esta aproximación no suele ser práctica. El stemming mediante n-grams se basa en la identificación de digramas y trigramas y se trata más de un procedimiento de clustering que stemming como tal. La eliminación de afijos es intuitiva, simple y se puede implementar eficientemente. Por ello la vemos en detalle. En eliminación de afijos, la parte más importante es la eliminación de sufijos porque la mayoría de las variantes de una palabra se generan con su introducción. El algoritmo más popular para la eliminación de sufijos es el algoritmo de Porter debido a su simplicidad y elegancia. El algoritmo de Porter usa una lista para la detección de sufijos. La técnica se basa en aplicar una serie de reglas a los sufijos de las palabras del texto. Por ejemplo, la regla s > φ se utiliza para convertir las formas plurales en singulares sustituyendo s por nulo. Siempre se busca el sufijo más largo de la palabra que empareje con los antecedentes en un conjunto de reglas. Las reglas de Porter están separadas en 5 grupos distintos. Al aplicar lematización podemos provocar dos tipos de errores: 1. Infrarradicación (understemming): Obtener distintas formas canónicas para una palabra 2. Sobrerradicación (overstemming): Obtener la misma forma canónica para dos palabras distintas Selección de términos índice La selección de términos índice puede hacerse de forma manual o automática. En este último caso, existen distintas aproximaciones, como es el caso de la identificación de grupos de sustantivos. Una frase en lenguaje natural suele estar compuesta por nombres, pronombres, artículos, verbos, adjetivos, adverbios y conectores. Dado que las palabras de cada clase gramatical tiene un propósito concreto en la frase, puede argumentarse que la mayoría de la semántica se encuentra en los sustantivos. Así, seleccionar los sustantivos (o grupos de sustantivos como guerra civil, por ejemplo) como términos índice es una estrategia interesante. Thesaurus Un thesaurus consta de: 1. Lista de palabras/frases (conceptos) importantes en un dominio. Son los componentes de indexación y generalmente son sustantivos o verbos en gerundio. 2. Un conjunto de palabras relacionadas para cada palabra anterior. Las relaciones entre conceptos pueden ser de sinonimia (car = automobile) o de generalización (Dólar > unidad monetaria > unidad de medida, Caballo > equino > mamífero > ser vivo > entidad) Los principales objetivos de un thesaurus son proporcionar un vocabulario controlado para indexación y búsqueda, y ayudar al usuario en la formulación de consultas. La utilización de un vocabulario controlado permite la normalización de los conceptos indexados, reducción del ruido, identificación de términos índice con significado semántico, y recuperación basada en conceptos, no en palabras. Estos aspectos son especialmente útiles en dominios específicos, como la medicina o jurisprudencia, para los que existe una cantidad importante de conocimiento recopilado. Sin embargo, para dominios generales, como la Web, no está tan clara su utilidad. 6

13 2.4. PROCESAMIENTO DE LENGUAJE NATURAL 2.4. Procesamiento de lenguaje natural Existen dos leyes empíricas, ampliamente aceptadas en el campo de la Recuperación de Información, que estudian la variabilidad de las palabras dentro los corpus de lenguaje natural. Se denominan Ley de Zipf y Ley de Heaps, y se detallan a continuación Ley de Zipf La Ley de Zipf [2, 8, 11] es un modelo aproximado para representar la distribución de las frecuencias de las palabras. Esta ley establece que si ordenamos las v palabras del vocabulario de un texto en orden decreciente de frecuencia, la probabilidad de la palabra más frecuente es i θ veces la de la i-ésima palabra, para todo i. Esto significa que la probabilidad de la i-ésima palabra es p i = A/i θ, donde 1 A =, y el valor de θ depende del texto. Pi 1 1/iθ La Ley de Zipf tiene dos aproximaciones. En el primer caso se considera θ = 1,0. Esta versión es muy sencilla pero también inexacta y no sigue bien la distribución real de los textos en lenguaje natural. La mayoría de los textos reales tienen un vocabulario más sesgado, de modo que los valores de θ mayores que 1 (más concretamente entre 1.4 y 1.8) se ajustan mejor [1, 2]. Esta segunda aproximación, donde θ > 1, se denomina Ley de Zipf generalizada. La Figura 2.1 ilustra las probabilidades teóricas de las palabras en un texto para distintos valores de θ. Se puede observar que cuanto más grande es el valor de θ, más sesgada es la distribución de frecuencias del corpus, mientras que valores más pequeños de θ se asocian a textos con distribuciones de frecuencia más uniformes θ = 1.00 θ = 2.00 θ = frecuencia posición palabras del vocabulario Figura 2.1: Distribución teórica de las frecuencias de las palabras en un texto para valores de θ= 1.0, 2.0 y Ley de Heaps La Ley de Heaps[5] relaciona el tamaño del vocabulario y el número total de palabras en el texto. Indica que un texto de O(n) palabras tiene un vocabulario de tamaño del orden O(n β ) para 7

14 2.5. EVALUACIÓN DE LA RECUPERACIÓN 0 < β < 1. En estudios previos [1, 7, 9] se ha demostrado que, para textos en inglés, el valor de β es lo suficientemente bajo (entre 0, 4 y 0, 6). La Figura 2.2 ilustra los tamaños de vocabulario que se obtienen con textos de distintos tamaños tomando los valores de β = 0,4, β = 0,5 y β = 0,6. Se puede observar que para un tamaño del corpus dado, el tamaño del vocabulario aumenta a medida que lo hace el parámetro β. En general, puede afirmarse que el vocabulario tiene un tamaño próximo a la raíz cuadrada del tamaño del texto β = 0.6 β = 0.5 β = 0.4 palabras en vocabulario número palabras del texto Figura 2.2: Tamaño del vocabulario para distintos valores de β La ley de Heaps es aplicable a colecciones de documentos y, por lo tanto, a la Web Evaluación de la recuperación Antes de la implementación final de un sistema de recuperación de información, se suele llevar a cabo una evaluación del sistema. Las medidas más habituales para evaluación del performance de cualquier sistema de recuperación de datos son el tiempo y el espacio. Cuanto menor sea el tiempo de respuesta y el espacio de almacenamiento utilizado, mejor será el sistema. Además, en el caso de un sistema que proporcione recuperación de información existen otras métricas interesantes. Así, los sistemas de recuperación de información requieren la evaluación de la precisión en el conjunto respuesta. Este tipo de evaluación se denomina evaluación del performance de recuperación. La evaluación del performance de recuperación se basa habitualmente en una colección de test y una medida de evaluación. La colección de test está formada por una colección de documentos, un conjunto de consultas de ejemplo y un conjunto de documentos relevantes (proporcionadas por especialistas) para cada consulta. Dada una estrategia de recuperación S, la medida de evaluación cuantifica (para cada ejemplo de consulta) la similitud entre el conjunto de documentos recuperados por S y el conjunto de documentos relevantes dado por los especialistas. Esto proporciona una estimación de la bondad de la estrategia de recuperación S. 8

15 2.5. EVALUACIÓN DE LA RECUPERACIÓN Existen dos medidas de evaluación de recuperación ampliamente utilizadas: recuperación (recall) y precisión. A continuación se explican en detalle Recall y precisión Supongamos una consulta I (de una colección de test) y su conjunto R de documentos relevantes. Sea R el número de documentos en este conjunto. Asumimos que la estrategia de recuperación a evaluar procesa la consulta I y genera un conjunto respuesta A. Sea A el número de documentos en este conjunto, y R A el número de documentos que se encuentran en la intersección de los conjuntos R y A. La Figura 2.3 ilustra estos conjuntos. Figura 2.3: Documentos recuperados y relevantes Las medidas recall y precisión se definen como sigue: El recall es la fracción de documentos relevantes (el conjunto R) que han sido recuperados, es decir: Recall = R A R La precisión es la fracción de documentos recuperados (el conjunto A) que es relevante, es decir: P recision = R A A El recall y la precisión asumen que todos los documentos en A han sido examinados. Sin embargo, al usuario no se le suelen presentar todos los documentos de la respuesta a la vez. Por el contrario, habitualmente los documentos se ordenan de acuerdo al grado de relevancia y posteriormente el usuario los examina comenzando por el documento que ocupa el puesto más alto. En esta situación, las medidas de recall y precisión varían a medida que el usuario procede con el examen del conjunto respuesta A. Esta situación puede representarse mediante una curva de precisión y recall como se muestra en la Figura 2.4. Veamos un ejemplo para explicar la gráfica anterior. Supongamos la consulta q donde R = {d 3, d 5, d 9, d 25, d 39, d 44, d 56, d 71, d 89, d 123 } es el conjunto definido por especialistas con los 10 documentos relevantes para esa consulta. 9

16 2.5. EVALUACIÓN DE LA RECUPERACIÓN Figura 2.4: Gráfica precisión y recuperación (recall) Supongamos ahora que la ejecución de la consulta q sobre el algoritmo de recuperación a evaluar da lugar al siguiente conjunto respuesta (donde los documentos están ordenados decrecientemente por relevancia): A = {d 123, d 84, d 56, d 6, d 8, d 9, d 511, d 129, d 187, d 25, d 38, d 48, d 250, d 113, d 3 } Si analizamos esta clasificación, comenzando por el documento más relevante, puede observarse lo siguiente. Primero, el primer documento d 123 es relevante, por lo que en este punto tenemos una precisión de (i.e, del 100 %), y un recall de P recision = R A A = 1 1 = 1 Recall = R A R = 1 10 = 0,1 (i.e, del 10 %). Si continuamos analizando vemos que el siguiente documento relevante es el tercero en la lista de los recuperados. En este momento podemos decir que tenemos una precisión de aproximadamente el 66 % (2 de los 3 documentos recuperados son relevantes) y un recall del 20 % (2 de los 10 documentos relevantes han sido recuperados). De este modo se va generando una gráfica recallprecisión. Habitualmente el análisis se realiza sobre varias consultas dando lugar a una figura similar a la mostrada en Figura

17 2.6. CONSULTAS BASADAS EN PALABRA CLAVE 2.6. Consultas basadas en palabra clave Emparejamiento de patrones (Pattern Matching) La técnica de consulta mediante emparejamiento de patrones consiste en localizar todas las ocurrencias (o la primera) de un patrón m en un documento [4, 6, 10]. Un patrón define un conjunto de características sintácticas que deben ocurrir en el texto. La cadena de texto que satisfaga estas características se dice que empareja con el patrón. Los patrones pueden ser muy simples (palabras, por ejemplo) o complejos (como expresiones regulares). Los tipos de patrones más habituales son: palabras: secuencia de caracteres que debe dar lugar a una palabra en el texto. prefijos: cadena con la que debe comenzar una palabra. Ej: cant devolvería documentos que contengan palabras como cantaba o cantante. sufijos: cadena con la que debe finalizar una palabra. Ej: ión devolvería los documentos que contengan camión, nación o pasión. subcadenas: cadena que puede aparecer dentro de una palabra. Ej: enc devolvería textos que incluyan palabras como eficiencia, reticencia, encuadernar o creencia. La subcadena puede incluir separadores de palabras (,, blanco, ;, :, etc.). Ej: ado par devolvería documentos que incluyan analizado parcialmente, estudiado particularmente o citado para. rangos: en este caso el patrón está formado por dos cadenas, de modo que se obtienen los documentos que contengan palabras que se encuentren (alfabéticamente) entre las mismas. Ej: lado lodo devuelve textos con palabras como lamer, lectura o local. permitiendo errores: este tipo de búsqueda resulta de interés cuando se intenta evitar errores tipográficos (de tecleo, fallos de OCR, etc.). En este caso se recuperan los documentos que incluyen palabras similares al patrón. Aunque existen varios modelos de similitud entre palabras, el más empleado en el campo de la Recuperación de Textos es la distancia de edición. La distancia entre dos cadenas es el número mínimo de inserciones, borrados y sustituciones necesarias para hacerlas iguales. De este modo, la consulta debe especificar el número máximo de errores permitidos para que una palabra empareje con el patrón. Ej: una consulta casa (distancia 1) devuelve documentos con cadenas de la forma ca sa, cosa o cara. expresiones regulares: una expresión regular es un patrón más general formado por cadenas simples y los operadores: unión: si e 1 y e 2 son expresiones regulares, (e 1 e 2 ) devuelve las cadenas emparejadas con e 1 o con e 2. concatenación: si e 1 y e 2 son expresiones regulares, las ocurrencias de (e 1 e 2 ) están formadas por las ocurrencias de e 1 seguidas inmediatamente por las de e 2. De este modo, las cadenas simples pueden verse como la concatenación de caracteres simples. repetición: si e es una expresión regular, (e ) empareja con secuencias de 0 o más ocurrencias contiguas de e. Ej. de expresión regular: pro(blema teina)(s ɛ)(0 1 2)* (donde ɛ representa la cadena vacía) devuelve documentos que contengan las palabras problemas o proteina02. patrones extendidos: son subconjuntos de expresiones regulares que se expresan con una sintaxis más simple. Como cada sistema tiene sus propios patrones extendidos no hay una definición formal para los mismos. 11

18 2.7. MÉTODOS DE INDEXACIÓN Además, como ejemplos extraídos de sistemas actuales podemos destacar: tipos de caracteres: una o más posiciones dentro del patrón se emparejan con cualquier carácter dentro de un conjunto predefinido. Este tipo de patrón tiene utilidad para aplicar emparejamiento no sensible a mayúsculas/minúsculas, uso de rangos de caracteres (indicar que un carácter debe ser un dígito, por ejemplo) o uso de comodines, entre otros. expresiones condicionales: parte del patrón puede o no aparecer. combinaciones para permitir que algunas partes del patrón emparejen exactamente y otras admitan errores Métodos de indexación Todas las técnicas de búsqueda presentadas en el apartado anterior son secuenciales, es decir, recorren los documentos que forman la base de datos textual secuencialmente buscando las ocurrencias del elemento a localizar. Obviamente, la aplicación de este tipo de búsqueda directamente sólo es apropiada cuando el texto es pequeño (de pocos Megabytes) o si se trata de textos muy volátiles. En otro caso, debería recurrirse a la utilización de técnicas de indexación que agilicen las búsquedas, como las que se tratan a continuación. Concretamente, hablaremos de la técnica de índices invertidos y array de sufijos haciendo especial hincapié en la primera por ser actualmente la mejor elección para la mayoría de las aplicaciones. Los arrays de sufijos son más rápidos para búsquedas de frases y otro tipo de consultas menos comunes, pero son más complejos de construir y mantener Índices invertidos Un índice invertido es un mecanismo orientado a palabras para indexación de documentos. Es la estructura más elemental para recuperación de palabras. Está formado por dos elementos: el vocabulario (conjunto de términos distintos del texto) y las listas de ocurrencias (para cada término, la lista de documentos donde este aparece). La Figura?? muestra un ejemplo. Figura 2.5: Ejemplo de un índice invertido El espacio requerido para almacenar el vocabulario no es grande. De acuerdo a la ley de Heaps, el vocabulario crece O(n β ) donde β depende del texto, estando entre 0,4 y 0,6 en la práctica. Por ejemplo, para una colección de 1 Gb el vocabulario tendrá un tamaño de alrededor de 5 Mb. Además, este 12

19 2.7. MÉTODOS DE INDEXACIÓN tamaño puede reducirse si se utilizan técnicas de preprocesamiento como las comentadas anteriormente (stemming, stopwords, etc.). El tamaño de la lista de ocurrencias es más elevado. Además, su tamaño depende de la granularidad del direccionamiento. Así, si se direcciona únicamente a los documentos donde aparece cada término, el tamaño de la lista de ocurrencias es más pequeño, pero si se desea direccionar las posiciones concretas en las que aparece el término dentro de cada documento, entonces la lista de ocurrencias puede tomar un tamaño muy elevado. En ocasiones, se recurre a una situación intermedia donde se utiliza un direccionamiento por bloques. En este caso, el texto se divide en bloques, y las ocurrencias apuntan a los bloques donde aparece el término (en vez de a las posiciones exactas). Los índices clásicos que apuntan a las ocurrencias exactas de los términos se suelen denominar índices invertidos completos. Utilizando direccionamiento por bloques no sólo se reduce el número de punteros sino que además se agrupan las ocurrencias de un término dentro de un bloque con una única referencia. Con esta técnica se consiguen índices que únicamente suponen una sobrecarga (overhead) del 5 % por encima del tamaño del texto. El precio que hay que pagar es que si se precisa conocer las posiciones exactas de un término (por ejemplo, para una búsqueda por proximidad), es necesario realizar una búsqueda secuencial dentro del bloque seleccionado. Así, los índices con direccionamiento de bloque con 256 bloques no trabajan bien con textos por encima de los 200 Mb. La Tabla 2.1 presenta el espacio ocupado por los índices invertidos sobre textos de diferentes tamaños, con y sin el uso de stopwords. La inversión completa almacena las posiciones exactas de los términos, utilizando 4 bytes por puntero. El índice con direccionamiento a documento asume que los documentos tienen un tamaño de 10K (y el número necesario de bytes por puntero, es decir, 1, 2 o 3 bytes dependiendo del tamaño del texto). El índice con direccionamiento a bloque asume que utilizamos 256 o 64K bloques (1 o 2 bytes por puntero) independientemente del tamaño del texto. El tamaño de los punteros puede reducirse si se comprimen. Asumimos también que el 45 % de las palabras son stopwords y que hay una palabra no-stopword cada 11.5 caracteres. La estimación del tamaño del vocabulario está basada en la ley de Heaps. Indice Colección pequeña Colección media Colección grande (1 Mb) (200 Mb) (2 Gb) a palabras 45 % 73 % 36 % 64 % 35 % 63 % a documentos 19 % 26 % 18 % 32 % 26 % 47 % a 64K bloques 27 % 41 % 18 % 32 % 5 % 9 % a 256 bloques 18 % 25 % 1.7 % 2.4 % 0.5 % 0.7 % Tabla 2.1: Tamaño de los índices invertidos en función del tamaño del texto. La columna derecha representa el caso en que los stopwords no son indexados Los bloques pueden ser de tamaño fijo (dado por el tamaño del bloque lógico) o pueden definirse mediante una división natural de la colección en ficheros, documentos, páginas Web u otros. La división en bloques de tamaño fijo mejora la eficiencia en cuanto al tiempo de recuperación; es decir, cuanto más varíen los tamaños de bloque más cantidad de texto es necesario recorrer secuencialmente. Esto es debido a que los bloques de mayor tamaño emparejan más frecuentemente con las consultas y son más caros de recorrer. La división utilizando cortes naturales puede eliminar la necesidad de recorridos on-line cuando no se precisa un emparejamiento exacto, dado que basta con conocer las unidades de recuperación resultantes. Sin embargo, si se empaquetan muchas unidades de recuperación (páginas, documentos, etc.) en un único bloque, dicho bloque tendrá que ser recorrido para determinar las unidades a recuperar. Debe tenerse en cuenta también que para poder utilizar direccionamiento de bloque es necesario 13

20 2.7. MÉTODOS DE INDEXACIÓN disponer del documento en el momento de la búsqueda. Esto no sucede en el caso de textos remotos (como en los motores Web) o si el texto está almacenado en CD-Rom que deba ser montado, por ejemplo. Búsqueda El algoritmo de búsqueda en un fichero invertido sigue tres pasos: 1. Búsqueda en el vocabulario: Consiste en la búsqueda de las palabras y los patrones de la consulta. Las consultas por frases y proximidad se dividen en palabras. 2. Recuperación de ocurrencias: Recuperación de las listas de ocurrencias de las palabras encontradas. 3. Manipulación de ocurrencias: Resolución de operaciones boolenas, consultas de frases, proximidad, etc. Si se utiliza direccionamiento de bloque puede ser necesario buscar directamente en el texto (en caso de posiciones exactas de las palabras para la búsqueda de frases). La búsqueda comienza siempre en el vocabulario, por lo que es interesante tenerlo en un fichero separado. De este modo es posible que quepa en memoria incluso en caso de colecciones grandes. La búsqueda de términos en el vocabulario puede realizarse utilizando una estructura como hashing o árboles B. Si los términos se almacenan en orden lexicográfico, en lugar de en orden de entrada, se consigue reducir el espacio y se mejora el performance, dado que se pueden aplicar búsquedas binarias. Las consultas por prefijo o por rango pueden resolverse con búsqueda binaria o árboles-b, pero no con hashing. Si la consulta involucra varios términos, el proceso finaliza devolviendo el conjunto de ocurrencias (puede necesitarse hacer una unión de listas si el patrón incluye muchas palabras). Veamos cómo varía el proceso de búsqueda dependiendo del modelo de representación subyacente: Consulta en el modelo booleano: Buscar los términos de la consulta en el vocabulario (en memoria) usando, por ejemplo, hashing. Recuperar de disco las listas de ocurrencias de cada término. Combinar las listas de ocurrencias mediante operaciones de conjunto unión, intersección, diferencia. Consulta en el modelo vectorial: En este caso sólo interesa recuperar los R documentos con mayor similitud respecto a la consulta. Las ocurrencias de cada término están almacenados decrecientemente por tf. Partir con el término de la consulta de mayor idf y traer los R primeros documentos de su lista (si no llegamos a juntar R, seguimos con el segundo término de mayor idf). Una vez que tenemos R candidatos, seguimos recorriendo los términos de la consulta, de mayor a menor idf. Como el tf en cada lista decrece, en cierto momento podemos determinar que no es necesario seguir recorriendo la lista pues los candidatos no pueden entrar al ranking de los R mejores. Puede hacerse más eficiente cortando las listas donde se considere improbable que modifiquen el ranking. Este tipo de relajamiento es muy utilizado en los buscadores Web. Búsqueda de frases o proximidad: Este tipo de consultas resulta más complejo de resolver utilizando índices invertidos: 14