Implementación de ranking de documentos utilizando similaridad y NR-grep

Transcripción

1 UNIVERSIDAD DE MAGALLANES FACULTAD DE INGENIERÍA DEPTO. DE ING. EN COMPUTACIÓN Implementación de ranking de documentos utilizando similaridad y NR-grep José Carlos Alvarado Alvarado. 2004

2 La presente Memoria de Titulo ha sido aprobada con la siguiente calificación: José Carlos Alvarado Alvarado Memoria : Examen de Título : Nota Final : Sr. Carlos Arias Méndez Director Departamento De Ingeniería en Computación Agosto de 2004

3 UNIVERSIDAD DE MAGALLANES FACULTAD DE INGENIERÍA DEPTO. DE ING. EN COMPUTACIÓN Implementación de ranking de documentos utilizando similaridad y el NR-grep Trabajo de titulación presentado en Conformidad a los requisitos para Obtener el titulo de Ingeniero en Ejecución en Computación e Informática Profesor Guía: Sr. Mauricio Marín C. José Carlos Alvarado Alvarado. 2004

4 i Resumen Conceptualmente, la Recuperación de Información (RI) es una operación en la que se interpreta una necesidad de información de un usuario y se seleccionan los documentos más relevantes capaces de solucionarla, es decir, consiste en buscar documentos que exhiban un mayor parecido a la pregunta formulada [15]. En Recuperación para base de datos de texto, existe una técnica llamada ranking de documentos, y su principal idea es que en una colección de documentos se puedan listar en algún orden de relevancia, calculando y clasificando la importancia de cada uno de éstos [1]. Por ello, uno de los objetivos generales de esta memoria es implementar un programa que permita crear un ranking de documentos para mejorar la calidad de las respuestas de NR-grep, el cual permite realizar búsquedas mediante expresiones regulares, simples y complejas[2]. NRgrep no tiene la característica de presentar ningún tipo de ranking de documentos en el resultado entregado al usuario, pues el resultado que entrega, es un listado de documentos en el orden en que son encontrados. La implementación contempla la utilización de dos estrategias para abordar el problema: la primera consiste en utilizar una base de datos de texto distribuida no procesada, y como complemento a ésta, una base de datos de texto distribuida procesada. En ambos casos el objetivo es obtener el ranking que calcula la similaridad de documentos usando el modelo vectorial. Durante el desarrollo del programa está previsto utilizar la biblioteca de programación paralela BSP PUB, con el objetivo de aplicar el programa sobre N procesadores, los que ejecutarán NR-grep en forma secuencial, creando de esta manera, una ejecución en paralelo de NR-grep. La base de datos de texto procesada y no procesada se diferencian en la creación de archivos que son necesarios para la obtención del ranking de documentos, en el primer caso los archivos son generados al comienzo, antes de la habilitar el programa de consultas, y en el

5 ii segundo caso, los archivos se van generando a medida que el usuario realiza las consultas. Además se visualizan las ventajas y desventajas de utilizar una u otra estrategia.

6 iii Índice Resumen...I Índice... II 1 Capítulo I. Introducción Conceptos Generales Objetivos Organización del documento Capítulo II. Marco Teórico Computación Paralela Modelo BSP de Computacion Paralela Herramientas a utilizar Capítulo III. NR-grep Búsqueda en texto Flexible y Eficiente NR-grep (Nondeterministic reverse grep) Clasificación de patrones Capítulo IV. Modelo RI y Estructura de datos Indice Invertido Ranking de Documentos...19

7 iv Método del Vector Similaridad Capítulo V. Diseño e Implementación Diseño Implementación Estrategia de utilización base de datos de texto no procesada Compilacion y ejecución Funcionamiento Estrategia de utilización base de datos de texto procesada Funcionamiento Esquema de Consultas Cliente Servidor Capítulo VI. Pruebas y Evaluaciones Capítulo VII. Conclusiones...47 Bibliografía...50

8 v Índice de Figuras 1 Funcionamiento programa general BSP Modelos de Recuperación de información Representación gráfica del producto coseno entre documentos d1 y d Ejemplo de raíz global propagada hacia los procesadores ABB global Esquema básico de consultas Estructura de directorios Formulario de consultas Ejemplo de consulta utilizando la base de texto procesada Ejemplo de consulta utilizando la base de texto no procesada Ranking utilizando base de de datos texto no procesada opción l Ranking utilizando base de datos de texto procesada opción l Ranking utilizando base de datos de texto procesada opción i Ranking utilizando base de datos de texto no procesada opción i...44

9 Capítulo I Introducción

10 1 1 Introducción 1.1 Conceptos generales El concepto de expresiones regulares (regular expressions) se refiere a una familia de lenguajes compactos y potentes para la descripción de caracteres. Las expresiones regulares permiten evaluar o comparar la existencia de un patrón de búsqueda en una cadena o un valor determinado, ésta comparación es conocida con el nombre de pattern matching o reconocimiento de patrones. Muchos editores de texto y otras herramientas utilizan estos lenguajes para buscar ciertas estructuras en el texto. Por otra parte, la Recuperación de Información (RI) se puede definir como : Dada una necesidad de información ( consulta + perfil del usuario +... ) y un conjunto de documentos, ordenar los documentos de más a menos relevante para esa necesidad y presentar un subconjunto de los más relevantes. Para abordar éste problema, se pueden observar dos grandes etapas, la primera es la elección de un modelo que permita calcular la relevancia de un documento frente a una consulta, y la segunda es el diseño de algoritmos y estructuras de datos que lo implementen. La primera etapa se mide comparando las respuestas del sistema contra las que un conjunto de expertos consideran relevantes, y la segunda se mide considerando el tiempo de respuesta del sistema, espacio extra de los índices, tiempo de construcción, etc [9]. Dentro de éste contexto se encuentra NR-grep, que permite realizar consultas mediante expresiones regulares como un habitual programa de búsqueda en UNIX (grep, egrep, etc), y como tal realiza la entrega de resultados en forma como aparecen los documentos en el árbol de directorios; de ahí surge la necesidad de mejorar la entrega de los resultados realizando un ranking de documentos, el cual se crea utilizando como función de comparación, la similaridad entre documentos.

11 2 1.2 Objetivos El propósito principal de este trabajo es mejorar la calidad de las respuestas que entrega NRgrep, pues NR-grep, no posee la característica de presentar algún orden de relevancia en el listado de archivos que entrega al usuario. Los objetivos generales son : Implementar una aplicación que permita mejorar la calidad de las respuestas de NR-grep. Habilitar dicha aplicación para realizar un procesamiento de texto en forma paralela. Dentro de los objetivos generales, se destacan los siguientes objetivos específicos: Implementar el Modelo Vectorial para obtener un ranking de documentos. Implementar una aplicación que permita la comunicación entre procesadores, utilizando la biblioteca BSP PUB, con el fin de crear un ranking global utilizando N procesadores. Visualizar posibles ventajas y desventajas de utilizar la base de datos de texto distribuida procesada versus la no procesada, en ambos casos se crearán programas con estructuras de datos similares, como también la estructura de archivos y directorios utilizados. Crear una interfaz gráfica que permita al usuario interactuar con el sistema. Para alcanzar los objetivos mencionados se seguirán los siguientes pasos:

12 3 1. Revisar el funcionamiento de NR-grep, para aplicarlo sobre las bases de datos de texto. 2. Implementar un programa que permita trabajar con la base de datos de texto en forma local, ya sea procesada como no-procesada. 3. Definir una estructura de datos para el almacenamiento de las respuestas en forma global, utilizando los N procesadores. 4. Luego, se distribuirá la base de datos de texto e crearan programas que implementen una programación paralela. 5. Comparar la calidad de respuestas obtenidas al aplicar los programas sobre la base de datos de texto distribuida procesada y no procesada. 1.3 Organización del documento El resto de éste documento se encuentra organizado de la siguiente manera: Capítulo II. Marco Teórico: En este capítulo se describen algunos conceptos importantes con respecto al sistema operativo y herramientas utilizadas en la implementación de los programas, Linux, biblioteca PUB, entre otros. Capítulo III. NR-grep Búsqueda en Texto Flexible y Eficiente: Aquí se describe a grandes rasgos el software NR-grep. Capítulo IV. Modelo RI y estructuras de datos: En este capítulo se presenta el modelo RI, método y función de similaridad a utilizar. Capítulo V. Diseño e implementación: Aquí se describe la lógica a utilizar para la implementación del programa, además, se entrega una pequeña descripción acerca de los archivos y la estructura de directorios utilizada.

13 4 Capítulo VI. Pruebas y evaluaciones: En este capítulo se entregan las comparaciones realizadas entre las estrategias propuestas, también, se mencionan los posibles trabajos a futuro. Capítulo VII. Conclusiones: Se mencionan las conclusiones que se obtuvieron una vez realizadas las pruebas comparativas entre una y otra estrategia, junto a la salida de NR-grep.

14 Capítulo II Marco Teórico

15 6 2 Marco Teórico 2.1 Computación Paralela El concepto de paralelismo se entiende como la incorporación de varios procesadores comunicados entre sí, para resolver un problema computacional. De esta manera, el problema se puede solucionar en menor tiempo de ejecución, pues la carga computacional se particiona entre varios procesadores, obteniendo con esto una mejora en relación entre costo y rendimiento [11]. La computación paralela requiere de al menos tres componentes distintos. El primero es el hardware paralelo para ejecutar aplicaciones paralelas. El segundo es una máquina abstracta o modelo de programación en el cual se escriban aplicaciones en paralelo. El tercero es el software que permita desarrollar las aplicaciones [10]. 2.2 Modelo BSP de Computación Paralela Es un estilo de programación paralela desarrollado para paralelismo de propósito general, es decir, paralelismo a través de todas las áreas de aplicación y una amplia variedad de arquitecturas [6]. Las propiedades fundamentales de BSP son: Es independiente de la arquitectura, contrario a muchos sistemas de programación paralela, BSP es diseñado para ser independiente de la arquitectura, de manera que los programas se ejecuten sin necesidad de cambios cuando son llevados de una arquitectura a otra, es decir, los programas en BSP son altamente portables. El funcionamiento de un programa en determinada arquitectura es predecible, el tiempo de ejecución de un programa en BSP puede ser computado por el código del programa y por algunos parámetros relacionados con la arquitectura.

16 7 En el modelo BSP se distinguen dos aspectos fundamentales de computación paralela que son: la comunicación y sincronización. En la figura se puede observar el funcionamiento de un programa general BSP, el cual procede en bloques de ejecución llamados supersteps. Un superstep está compuesto de tres etapas: Computación local simultánea en cada proceso, usando sólo valores almacenados en su memoria local. Comunicación entre los procesos, para llevar a cabo la transferencia de datos entre los procesadores. Una barrera de sincronización con la cual se espera que se completen todas las comunicaciones, es decir, todos los mensajes son enviados a su destino, y éstos se encuentran disponibles al instante en que se inicia el siguiente superstep. Figura Funcionamiento de un programa general BSP.

17 8 Este modelo de programación paralela es aplicable a varias clases de arquitecturas paralelas: memoria distribuida, memoria compartida y redes. Existe una biblioteca para el desarrollo de algoritmos paralelos llamada BSP PUB, disponible en lenguajes de programación tales como C, C++ y Fortran; para programar de una manera SPMD (Single Program Multiple Data) [7]. El objetivo de la biblioteca BSP PUB es proveer la comunicación necesaria para manipular partes de la estructura de datos que se encuentran en otros procesadores. 2.3 Herramientas a utilizar Software de búsqueda mediante expresiones regulares NR-grep versión 1.1, el cual fue utilizado para realizar las búsquedas mediante expresiones regulares, el código fuente puede ser descargado en: Lenguaje de programación: C++, utilizado en la implementación del programa principal. PHP, utilizado para creación de los formularios de consulta. PERL, para la implementación del script para el filtraje de los documentos de las base de datos de texto, cliente y servidor. Biblioteca STL, para la utilización estructuras de datos. Para la programación paralela se utilizó la biblioteca PUB (Paderborn University BSP). 4 equipos Pentium IV, con 128 MB de Ram, conectados en red (velocidad de 100Mbps) y ejecutando Linux RedHat 7.3, la versión del kernel de Linux es

18 Capítulo III NR-grep Búsqueda en Texto Flexible y Eficiente

19 10 3 NR-grep: Búsqueda en Texto Flexible y Eficiente 3.1 NR-grep (Nondeterministic reverse grep) NR-grep (nondeterministic reverse grep) es una herramienta diseñada para la búsqueda eficiente de patrones complejos. Diferente de las herramientas anteriores de la familia del grep, tales como agrep y grep de GNU, NR-grep se basa en un concepto único y uniforme: la simulación bit-paralelo de un autómata sufijo no-determinístico. NR-grep puede buscar de patrones simples a expresiones regulares, exactamente o permitiendo errores en las búsquedas, con una eficacia que disminuye en forma leve mientras que la complejidad del patrón buscado, aumenta. Otro concepto integrado completamente en NRgrep y que contribuye esta disminución leve, es la selección de los subpatrones adecuados para la exploración rápida. NR-grep es una herramienta de búsqueda construida sobre el algoritmo BNDM (Backward Nondeterministic Dawg Matching algorithm), BNDM esta basado en el algoritmo BDM (Backward DAWG matching), éste algoritmo utiliza autómatas de sufijos para detectar substring dentro del texto. Como el algoritmo Boyer-Moore, BDM también puede saltar caracteres dentro de un texto. En el algoritmo BDM original, el autómata de sufijos es creado en forma determinista, BNDM es una versión de BDM, éste mantiene el autómata de sufijos en forma no determinista usando bit paralelo (bit-parallelism), por ello el nombre Nondeterministic Reverse Grep, puesto que BNDM explora el texto en la dirección opuesta [2]. 3.2 Clasificación de patrones NR-grep clasifica los patrones permitidos de búsqueda en tres niveles:

20 11 Patrones simples: un patrón simple es una secuencia de m clases de caracteres (notar que un solo carácter es un caso particular de una clase). La característica que lo distingue es que una ocurrencia de un patrón simple tiene longitud m, pues cada posición del patrón coincide con una posición del texto. Ejemplo : [Vv]acaciones, para las palabras Vacaciones y vacaciones. 199[0-9], define los años 1990 al Patrones extendidos: un patrón extendido agrega a los patrones simples la capacidad de caracterizar clases individuales opcionales o repetibles (pueden aparecer consecutivamente un número de veces en el texto). El propósito de patrones extendidos es capturar lo más posible las extensiones usadas comúnmente de los patrones normales en la búsqueda para desarrollar los algoritmos especializados. Ejemplo: [0-9]+\.?[0-9]*, expresión que indica números. gatos?, para las palabras gato y gatos. Expresiones regulares: una expresión regular es formada por las clases simples, una secuencia de caracteres nula o vacía, concatenación, unión o repetición de otras expresiones regulares. Éste es el tipo más general de patrón que usa para la búsqueda. Ejemplo: Roos(ve Be)lt, puede ser la expresión Rossvelt o RossBelt. (Sr. Sra. Srta.) Pérez, para indicar Sr. Pérez o Sra. Pérez o Srta. Pérez En NR-grep se desarrollaron diversos algoritmos de búsqueda para cada tipo de patrón (debido al aumento de la complejidad), de ésta manera patrones más simples se buscan con algoritmos más simples y más rápidos. NR-grep recibe en la línea de comando un patrón y una lista de los archivos a buscar, las opciones que se inspiran la mayoría de ellas en el programa agrep son:

21 12 i, la búsqueda es caso insensible ( mayúsculas y minúsculas ); W, solamente las palabras enteras que concuerdan con el patrón se aceptan; x, solamente los líneas completas que concuerdan con el patrón; c: muestra el total de registros que se ajustan al patrón, pero no los muestra. l: imprime sólo los nombres de los archivos que contienen coincidencias; G: imprime el contenido entero de los archivos donde se encontraron coincidencias; h: solo muestra los registros que se ajustan al patrón, pero no individualiza por archivo; n: muestra un listado con todos los registros que calzaron con la búsqueda del patrón, indicando el archivo al que pertenecen y el nro. de línea donde fue encontrado; v: muestra un listado con todos los registros que no se ajustaron a la búsqueda, indicando el archivo al que pertenecen. L: toma el patrón literalmente (sin ningún carácter especial); Hay opciones que no se pueden utilizar en forma conjunta, estas son: -c y G, -n y l, y por último l y G. A continuación se muestran algunos ejemplos de uso de NR-grep en un ambiente Linux. Tomando el patrón tercera en forma literal y sobre el directorio /soft/tercera/diario/1998/12/09/, la salida es: >> nrgrep L tercera /soft/tercera/diario/1998/12/09/* <META NAME="keywords" CONTENT="copesa, chile, noticias, español, tercera"> <META http-equiv="pics-label" content='(pics-1.1 " l gen true comment "RSACi North America Server" by "jccamus@copesa.cl" for " on " T07: " r (n 0 s 0 v 0 l 0))'> <a href=" TARGET="top"><img border=0 src=" WIDTH="468" HEIGHT="50" alt="internet, pensando en Chile"></a> <a href=" información sobre este tema</a> <a href="news://tercera.copesa.cl/copesa.tercera.lectores"><img src=/icn/opiniones.gif width=80 height=20 border=0></a> <a href="mailto:latercera@copesa.cl">latercera@copesa.cl</a>

22 13 Utilizando la búsqueda insensible a mayúsculas y minúsculas, con la expresión tucapel y sobre el directorio /soft/tercera/casos/tucapel/datos/, la salida es la siguiente: >>nrgrep i tucapel /soft/tercera/casos/tucapel/datos/* /soft/tercera/casos/tucapel/datos/dato1.html: <html> <head>  <title>caso Tucapel</title>  <meta http-equiv="content-type" content="text/html; charset=iso "> </head> d valign="bottom" align="left" height="19"> <a href=" target="_self"><img src="../img/t-vlogo.gif" width="120" height="20" hspace="10" border="0"></a> </td> <td valign="bottom" align="center" height="19"><img src="../img/t-vcasos1.gif" width="150" height="20" hspace="20"></td> <td valign="bottom" align="right" height="19"> <a href="../index.html"><img src="../img/t-vportada.gif" width="66" height="20" border="0"></a> <a href="javascript:history.back()"><img Por último, utilizando las opciones nombres de archivo e ignorando las mayúsculas y minúsculas. Esta vez la expresión es (presidente juez), y sobre el directorio /soft/tercera/casos/tucapel/datos/, y cuya salida es: >> nrgrep li (presidente juez) /soft/tercera/casos/tucapel/datos/* /soft/tercera/casos/tucapel/datos/dato1.html /soft/tercera/casos/tucapel/datos/dato2.html /soft/tercera/casos/tucapel/datos/dato3.html. Finalmente, las ventajas principales al realizar una comparación entre NR-grep y la familia del programa grep son: la uniformidad en el diseño, bajos tiempos de búsqueda, rapidez en la

23 14 búsqueda de patrones complejos, patrones extendidos de gran alcance, el modelo mejorado del error para buscar en forma aproximada, y la optimización de subpatrones. NR-grep fue desarrollado completamente en ANSI C y probado sobre las plataformas Linux y Solaris.

24 Capítulo IV Modelo RI y Estructura de Datos

25 16 4 Modelo RI y Estructura de Datos El objetivo en la Recuperación de información es localizar información en grandes colecciones de documentos, los usuarios de estos sistemas formulan consultas que expresan qué contenidos desean localizar. Para ello es preciso que el sistema procese previamente la colección de documentos a fin de construir estructuras de acceso (índices) que permitan una localización rápida. Los buscadores en Internet son los sistemas de Recuperación de Información más populares [9]. Una de las partes más importantes dentro de la Recuperación de Información es la respuesta o los resultados obtenidos y en que orden se entregan. Los documentos son caracterizados por palabras claves, algunas de éstas palabras pueden ser más importantes que otras, por lo que el concepto de peso de una palabra clave se hace importante. Figura 4.1 Modelos de Recuperación de Información. Entre los modelos más populares de Recuperación de Información observados en la figura 4.1 se encuentra el Modelo Vectorial, por ser simple y eficiente de implementar, además de

26 17 entregar buenos resultados, por lo cual fue elegido como base para realizar el ranking de documentos. 4.1 Índice Invertido Los índices invertidos suelen estar compuestos por una lista invertida y un conjunto de archivos en donde se almacena la información con respecto a los archivos que componen la base de datos de texto [7]. Los archivos se desglosan de la siguiente manera: Documentos.txt, almacena todos los nombres de documentos que componen la base de datos de texto. Vocabulario.txt, contiene las palabras relevantes de la colección, con un identificador de cada palabra y las frecuencias con que aparecen en los documentos. Listas Invertidas.txt, este archivo almacena una lista de pares (documento, frecuencias) por cada palabra de vocabulario.txt. Se considera la frecuencia de una palabra en un documento, a la cantidad de veces que aparece la palabra en un documento, por ejemplo, si una palabra con identificador de palabra 20 se encuentra en los documentos con identificadores 70, 256 y 300, entonces en el archivo aparece la línea,... 20,70,0.3,256,0.1,300,0.6..., en cuanto a frecuencia normalizada ésta considera la cantidad de veces que aparece la palabra en el documento y la cantidad de veces de la palabra mas relevante del documento, formando el cuociente Frec(palabra) / Frec(palabra más relevante). En forma general, Frec(t,i) es la frecuencia normalizada de la palabra relevante t en el documento i, sea Fmx(i) el número de veces en que aparece la palabra relevante más frecuente en el documento i, y sea F(t,i) el número de veces en que la palabra relevante t aparece en el documento i. Entonces la frecuencia normalizada esta dada por, Frec(t,i) = F(t,i) / Fmx(i) 4.1

27 18 A continuación, se muestra un ejemplo de los archivos, vocabulario y lista invertida. Archivos : DOCUMENTO 1, DOCUMENTO 2 y DOCUMENTO 3. <DOCUMENTO 1> <DOCUMENTO 1> <DOCUMENTO 1> <TEXTO> <TEXTO> <TEXTO> hola mundo hola chao casa arbol casa mundo chao Hola </TEXTO> mundo </TEXTO> </DOCUMENTO 1> </TEXTO> </DOCUMENTO 1> </DOCUMENTO 1> Donde, el archivo Documentos.txt posee el nombre e identificador del archivo. Documentos.txt 0 DOCUMENTO 1 1 DOCUMENTO 2 2 DOCUMENTO 3 El archivo Vocabulario.txt es : Vocabulario.txt arbol,0,1 casa,1,1 chao,2,2 hola,3,2 mundo,4,1, lo que significa que la palabra arbol tiene el identificador de palabras 0, y aparece en el archivo con identificador de archivos 1. Finalmente, Listas Invertidas.txt : Listas Invertidas.txt 0, 3, , 3, , 1,0.333, 2, , 1,0.333, 2, , 1,1.00, donde la palabra con identificador 0 se encuentra en el archivo con identificador 3 y posee una frecuencia normalizada de

28 Ranking de Documentos. Al realizar las consultas sobre el índice invertido, cada palabra que sea parte de la consulta genera un conjunto de documentos, donde sus URL s deben ser presentadas en orden de ranking ( los más relevantes, i.e. mayor ranking primero) al usuario. Para construir el ranking de documentos, se utiliza el método del vector, que se explica a continuación Método del Vector La descripción del modelo vectorial o también llamado método del Vector es la siguiente: Se selecciona un conjunto de palabras útiles para discriminar términos (vocabulario). En los sistemas modernos, toda palabra del texto o documento se considera un término, excepto por las stopwords. Sea {t 1,...,t k } el conjunto de términos y {d 1,...,d N } el de documentos. Un documento se modeliza como un vector d i d i = ( w( t 1, d i ),...w( t k, d i ) ) 4.2 ; donde w(t,i) es el peso del término t k en el documento d i. Hay varias formulas para calcular los pesos de los términos, pero la que se utilizará es: W(t,i) = log ( N ) Frec(t,i) 4.3 D(t) * donde t = documento, i = palabra, Frec(t,i) es la Frecuencia Normalizada, N el número total de documentos existentes, y D(t) es la cantidad de documentos en donde aparece la palabra t.

29 20 Luego el ranking R(i,Q) de un documento i frente una consulta Q formada por n palabras t esta dado por, R(i,Q) = { t Q }[ W(t,i) ] 4.4 El siguiente es un ejemplo del ranking de documentos frente a una consulta realizada utilizando los archivos de la figura 4.2 : Para la consulta chao y los documentos encontrados son DOCUMENTO 1 y DOCUMENTO 2, cuyos ranking s son y Por lo tanto, el ranking de documentos queda encabezado por el Documento1, el cual posee una mayor relevancia. Consulta : chao ; R(DOCUMENTO 1) = , R(DOCUMENTO 2) = ; Ranking de documentos : DOCUMENTO 1 DOCUMENTO Similaridad Otro concepto importante es la similaridad entre documentos, que es el grado de igualdad o semejanza entre documentos. Una de las funciones de similaridad más utilizada es la distancia coseno o producto punto entre dos vectores (representación vectorial del documento). En la figura se representa gráficamente el producto coseno entre el documento d1 que contiene información acerca de La crisis de los misiles y el documento d2 que contiene información acerca de Los misiles en Cuba.

30 21 Figura Representación gráfica del producto coseno entre documentos d1 y d2. La similaridad entre documentos se efectúa entre las representaciones vectoriales de cada documento. Dos documentos iguales tienen similaridad 1, y ortogonales (si no comparten términos) tienen similaridad cero.

31 Capítulo V Diseño e Implementación

32 23 5 Diseño e Implementación En el presente capítulo se muestra el diseño, lógica e implementación de las estructuras que se utilizan para la construcción del índice y posterior obtención del ranking de documentos. 5.1 Diseño NR-grep se aplica en forma secuencial sobre una base de datos de texto local, por lo que en el diseño se debía tener presente que NR-grep se aplicará en forma paralela, obteniendo de esta manera un NR-grep distribuido. Como NR-grep es aplicado en forma secuencial sobre cada procesador se obtendría N listados (siendo N la cantidad de procesadores a utilizar) al aplicarlo en forma paralela, N listados que posteriormente serían utilizados para crear el ranking de documentos utilizando la función de similaridad entre documentos. Para utilizar la similaridad como función de comparación entre los documentos, se creó un índice invertido, ya que se debe tener una representación vectorial (vector de palabras relevantes con sus respectivos pesos) de los documentos para obtener el producto coseno. Este índice se creará con unas pequeñas variaciones en cuanto a los archivos que se utilizan en su implementación, como también en la secuencia de almacenamiento de la información. Esto, debido a que se debe tener en cuenta que en un primer momento se trabaja con la base de datos de texto no procesada y luego con la procesada. La base de datos de texto procesada y no procesada se diferencian en la creación de archivos que son necesarios para la obtención del ranking de documentos, en el primer caso los archivos son generados al comienzo, antes de la habilitar el programa de consultas, y en el segundo caso, los archivos se van generando a medida que el usuario realiza las consultas.

33 24 Durante la implementación se utilizó la estructura de Árbol Binario de Búsqueda (ABB) para el almacenamiento del ranking de documentos, cada nodo del ABB está definido por una clase llamada NodoDTV, la cual encapsula la información relevante de un documento junto con el procesador al que pertenece. Los atributos que posee esta clase son: Nombre del documento. Distancia. Procesador al que pertenece. Identificador del documento. Cantidad de veces que aparece la palabra más relevante. Inicio y fin en frecuencias.dat. Además, se encuentran los punteros a los objetos NodoDTV y otras variables utilizadas. Se debe tener en cuenta que cada procesador crea su propio ranking (ABB) con la información local. Desde luego, el ABB principal es creado por el primer procesador que posea la información necesaria; una vez construido el ABB, se propaga la raíz hacia los demás procesadores. Con ello se crean los ABB locales, cada uno con su propia información pero con la raíz global, para luego agregar los nodos de los ABB locales al ABB global. La lógica para la construcción del ABB es la siguiente: 1. Ubicación de la raíz global El procesador que obtenga datos para formar el ABB local es quien entrega la raíz global, el recorrido de los procesadores se realiza en forma secuencial, es decir, comienza el procesador 1 hasta donde se encuentre una raíz, de lo contrario no existe raíz global lo que indica que no hay documentos que satisfagan la consulta.

34 25 El procesador que tenga la raíz, la comunica hacia los demás procesadores utilizando las propiedades de la biblioteca PUB, en la figura se puede observar en forma gráfica la propagación de la raíz utilizando cuatro procesadores. Figura Ejemplo de raíz global propagada hacia los ABB locales de cada procesador. 2. Inserción de nodos. Para la inserción del nodo en el ABB local se toma el resultado del producto punto que en general es la distancia coseno entre dos documentos. Para la inserción de los nodos en el árbol global, se utiliza el atributo distancia del nodo a insertar. En ambos casos una distancia mayor significaba que los documentos eran bastante similares, y en el caso contrario significaba que los documentos eran distintos. La figura muestra una representación particular de ABB global construido a partir de los ABB locales de la figura 5.1.1, ya que el orden de los nodos es obtenido una vez realizada la similaridad entre los documentos.

35 26 Figura ABB global. Para tener una mejor perspectiva y desarrollo del proyecto, éste se dividió en tres etapas, las dos primeras, consistieron en crear los archivos y programas necesarios para realizar las consultas sobre la base de datos de texto no procesada y procesada. La tercera etapa consiste en crear una aplicación gráfica para que el usuario interactúe con el sistema. En ambos casos, se utilizó la base de datos de texto de la Tercera la cual fue descargada en el directorio /soft/tercera/, ubicado en cada uno de los procesadores utilizados, ya que de acuerdo al Modelo BSP cada procesador debe tener la misma estructura de directorios, junto a los archivos y ejecutables necesarios para que el programa principal se ejecute. La figura muestra un esquema básico del proceso de consulta, en él se encuentran los 4 procesadores, cada uno almacena parte de la base de datos de texto distribuida, el Servidor que esta escuchando peticiones de consulta y el formulario de consultas. El proceso comienza cuando el usuario realiza la consulta en el formulario, los datos de la consulta son enviados al Servidor que está a la espera de peticiones, el que además ejecuta el programa en paralelo con los datos de la consulta. A partir de ello, cada procesador crea su ABB con los datos locales, y posteriormente se crea el ABB global que almacena el ranking de documentos que son enviados como respuesta al usuario.

36 27 Figura Esquema básico de consultas. 5.2 Implementación Durante el desarrollo del proyecto se crearon directorios similares para abordar cada una de las estrategias a utilizar, para luego realizar las comparaciones respectivas junto a la salida de NR-grep. Recordar que ambas estrategias se diferencian en los archivos de almacenamiento de datos. Ambos directorios denominados Base Procesada y Base No Procesada, se describen a continuación y cuyo esquema se observa en la figura

37 28 Figura Estructura de directorios Estrategia de utilización base de datos de texto no procesada Bajo éste directorio se encuentran los archivos Makefile y bsprueba.cc, además de los subdirectorios Frecuencias y Estructuras. A continuación se entrega una explicación de cada archivo y al final se dará una breve reseña del funcionamiento. Frecuencias: En éste directorio se almacenan los archivos utilizados para crear el índice invertido, los cuales son: Historial.txt: Almacena los nombres de archivos procesados, su formato es : ( id_doc, pal_rel, beg, end, nombre_doc ), y donde: id_doc : identificador numérico del documento. pal_rel : cantidad de veces de que aparece la palabra más relevante. beg: bytes de inicio en archivo frecuencias.dat end: bytes de fin en archivo frecuencias.dat. nombre_doc : nombre del documento. Ejemplo: 1,17,0,2484,/soft/tercera/casos/matute/documentos/informe1.html 2,19,2484,4669,/soft/tercera/casos/matute/documentos/informe2.html

38 29 3,12,4669,5212,/soft/tercera/casos/matute/noticias/archivo.html 4,105,5212,7773,/soft/tercera/casos/matute/noticias/archivo1.html... Words.txt: Es el vocabulario de los archivos procesados, su formato es: ( identificador_numérico_palabra, palabra). Frecuencias.dat: Archivo binario encargado de almacenar el id de la palabra junto a su frecuencia, cuyo formato es: ( nombre_doc, id_pal1, frec1, id_pal2, frec2... id_doc n, nombre_doc n id_pal m, frec m ) n : total de documentos, m: total palabras en el documento. Blip.pm: Es una biblioteca definida PERL, definida para almacenar las palabras irrelevantes y funciones para el manejo de datos. Filtro: Script PERL, que se encarga de obtener las palabras relevantes de cada documento, ignorando las palabras irrelevantes (preposiciones, conjunciones, artículos, etc.) y etiquetas que forman parte del documento HTML, También se encarga de crear los archivos frecuencias.dat, historial.txt y words.txt, teniendo en cuenta que en esta etapa cada vez que se realiza una consulta algunos documentos ya se encuentran procesados y otros no, por lo que los datos relevantes del documento nuevo van siendo agregados a los archivos correspondientes, para evitar el reingreso de datos, como también recalcular las frecuencias ya obtenidas. Estructuras: Dentro de este directorio se almacenan las estructuras y funciones que fueron definidas para el manejo de datos. estructuras.h: Dentro del archivo se define la clase NodoDTV, que es la que modeliza un documento como objeto, almacenando los datos importantes de un

39 30 documento, tal como procesador al que pertenece, veces de la palabra mas relevante, nombre del documento, etc. funciones.cc: Se definen las funciones utilizadas para el manejo del archivo frecuencias.dat del cuál se obtiene el vector que representa el documento, es decir, el mapa que representa el documento. También se encuentran las funciones que permiten calcular la similaridad entre documentos mediante la distancia coseno, o más comúnmente llamada producto punto. Esta operación consiste en obtener el producto entre dos mapas, siendo el índice del mapa el identificador de cada palabra y su contenido, la frecuencia normalizada de la palabra. Por otra parte, se encuentran las funciones que permiten insertar los nodos al ABB. Esta función se encuentra sobrecargada, debido a que se debe realizar una inserción local, y además la inserción al ABB global, ya que en el primer caso la inserción se hace obteniendo el producto punto entre los documentos, y en el segundo caso, sólo se compara la distancia a la raíz. Además, se encuentra la función encargada de liberar la memoria utilizada.

40 Compilación y ejecución Dentro del archivo Makefile se encuentran las reglas de compilación para los archivos que forman parte del proyecto, además de las reglas para creación y copia remota de directorios y archivos. La ejecución se realiza mediante la opción run del programa pubd con la siguiente instrucción: pubd -e ssh -p N -n IP run = "ruta del ejecutable lista de parámetros"; ( N: número de computadores a utilizar, IP: números IP de cada computador) donde se levanta el programa residente (daemon) y se ejecuta el programa Funcionamiento En esta etapa la estrategia consiste en analizar los documentos a medida que se realizan las consultas, es decir, al realizar una consulta, el parámetro ruta se revisa con el fin de encontrar todos los archivos mencionados, una vez que se obtienen los archivos se coteja con el archivo historial.txt, donde se encuentran los archivos procesados hasta ese instante. En caso de no encontrarse dentro del listado, el archivo es revisado y se almacenan las palabras relevantes y frecuencias, en el archivo words.txt y frecuencias.dat, y en caso de encontrarse procesado se sigue la ejecución normal. Luego, se realiza la parte común a las dos estrategias, la que consiste en la creación del ABB en cada procesador, en donde cada uno utiliza sus propios datos teniendo en cuenta que la raíz es entregada por el primer procesador que pueda crear su ABB, comenzando el recorrido por el procesador principal (procesador 0, identificador con el cual distingue a los diferentes procesadores PUB) y luego en caso de no existir raíz, continúa con procesador 1, procesador 2,..., procesador n, donde n es el número total de procesadores. Al no existir raíz, significa que no hay respuesta para la consulta.

41 32 De existir respuesta, se comienza insertar los nodos de los ABB locales de cada procesador al ABB global del procesador que proporcionó la raíz global, transformándolo de esta manera en un ABB global. Finalmente, se recorre el ABB en inorden, tomando en primer lugar la raíz, y luego se entrega a la función que realiza el recorrido el subárbol izquierdo y posteriormente el subárbol derecho, con lo cual se obtiene ranking de documentos completo. Como ejemplo, se tiene el ABB global de la figura 5.2 cuyo recorrido es: D1, C, A, D, B, F Estrategia de utilización base de datos de texto procesada Bajo éste directorio se encuentran los archivos Makefile y bsprueba.cc, además de los subdirectorios Frecuencias y Estructuras. Los subdirectorios y archivos que lo componen son los mismos que posee la estrategia de utilización de base de datos de texto no procesada. En esta etapa el filtro se realiza al comienzo, donde se examinan todos los documentos de la base de datos de texto, de esta manera, el archivo frecuencias.dat, words.txt e historialt.txt son creados al principio y contienen toda la información relevante de los documentos que forman parte de la base de datos de texto. La compilación y ejecución es similar al de la estrategia de utilización base de datos de texto no procesada Funcionamiento En esta etapa la estrategia consiste en analizar los documentos al comienzo antes de habilitar el proceso de consultas, es decir, se procesan todos los archivos que componen la base de datos de texto. Esto significa, ejecutar el script encargado de obtener los archivos de control para la obtención del ranking de documentos.

42 33 Luego, se realiza la parte común a las dos estrategias, la que consiste en la creación del ABB local en cada procesador, en donde cada uno utiliza para ello sus propios datos y teniendo en cuenta que la raíz es entregada por el primer procesador que pueda crear su ABB local, comenzando el recorrido por el procesador principal (procesador 0, identificador que utiliza PUB para identificar cada procesador) y luego en caso de no existir raíz continúa con procesador 1, procesador 2,..., procesador n, donde n es el número total de procesadores. Cuando no existe raíz, significa que no hay respuesta para la consulta, de lo contrario se comienza a insertar los nodos de los árboles locales de cada procesador al ABB global del procesador que tiene la raíz global, transformándolo de esta manera en un ABB global. Finalmente, se recorre el ABB en inorden, tomando en primer lugar la raíz, y luego se entrega a la función que realiza el recorrido el subárbol izquierdo y posteriormente el subárbol derecho, con lo cual se obtiene ranking de documentos completo. Como ejemplo, se tiene el ABB global de la figura 5.2 cuyo recorrido es: D1, C, A, D, B, F.

43 Esquema de Consultas La etapa final del proyecto consistió en dejar disponible el buscador desarrollado mediante un esquema cliente-servidor utilizando socket. Para crear el Cliente y Servidor se utilizó el Lenguaje PERL, debido a la gran facilidad que entrega éste para construir este tipo de aplicaciones, para ello sólo se debe incluir el modulo IO::Socket que entrega las subrutinas para el manejo de los sockets. Tanto el servidor como el formulario de consultas fueron creados en el procesador principal Cliente Mediante un formulario se obtienen los datos que el usuario entrega para realizar la consulta, datos previamente revisados y formateados, los cuales son enviados al servidor mediante el uso de socket. Una vez enviados los datos el cliente espera la respuesta del Servidor, luego, retira del socket el mensaje donde viene una lista de archivos en orden de relevancia, y los cuales que forman la respuesta encontrada en la base de datos de texto distribuida, posteriormente forma un documento HTML creando un enlace a cada documento que es parte de la respuesta, que es finalmente mostrado al usuario. El usuario ejecuta al cliente desde un formulario HTML mediante el esquema cgi-bin, cuyo formulario de consulta se puede observar en la figura

44 35 Figura Formulario de consultas. Las opciones del formulario de consulta (figura ) son las siguientes: Base de datos de texto: Procesada No Procesada Opción : Insensible MAY/MIN Literal Solo nombres de archivos Servidor El servidor toma los parámetros que forman la consulta del último mensaje recibido en el socket y ejecuta el programa BSP, donde cualquiera de los procesadores le entregara el resultado mediante la copia remota del archivo resultante.

45 36 Una vez que se obtiene el conjunto de documentos ordenados por ranking, el servidor crea el mensaje donde se encuentran las URLs que se entregarán como respuesta al usuario, posteriormente el mensaje es puesto en un socket. La figura muestra el resultado de la consulta pino(c chet) sobre la base de datos de texto procesada, utilizando la opción Insensible MAY/MIN y sobre el directorio /soft/tercera/diario/2001/01/10/extras/*.*. En ella se puede apreciar el listado de archivos en orden de relevancia. Figura Ejemplo de consulta utilizando la base de texto procesada.

46 37 En la figura se puede observar un segundo ejemplo de consulta, esta vez utilizando la base de datos de texto no procesada, expresión (matute lagos) y sobre el directorio /soft/tercera/diario/*.*. Figura Ejemplo de consulta utilizando base de texto no procesada.

47 Capítulo VI Pruebas y evaluaciones

48 39 6 Pruebas y Evaluaciones Las pruebas se realizaron utilizando 4 equipos Pentium IV, con 128 MB de Ram, conectados en red (velocidad de 100Mbps) y ejecutando Linux RedHat 7.3, la versión del kernel de Linux es Al comienzo las pruebas se realizaban en forma local, utilizando solamente el procesador principal obteniendo (en algunos casos utilizando los procesadores virtuales) resultados similares a los que se encontrarían mas adelante utilizando los procesadores en paralelo. Una vez implementados los programas en paralelo utilizando la biblioteca BSP PUB, se continuó con la etapa de pruebas y evaluaciones, comparando los listados ordenados por relevancia al utilizar una u otra estrategia. Al momento de realizar las comparaciones se debía tener presente que el primer archivo que entregaba NR-grep, es tomado como raíz, ya sea para construir el ABB local, como para el ABB global. De esta manera, los listados tendrían una raíz común, pero, los listados son creados de manera diferente, pues NR-grep tiene la característica de no presentar ningún orden de relevancia en sus listados, ya que los archivos son mostrados en el orden en que son encontrados dentro del árbol de directorios. A diferencia de las estrategias, que forman sus listados de archivos a través de un ranking de documentos. En primer lugar, se abordó la primera estrategia utilizando los 4 procesadores disponibles, obviamente se podían utilizar más procesadores, pero por disponibilidad de computadores solo se utilizaron 4. En teoría, los listados ordenados por relevancia debían presentar aproximaciones a los que entregaba la segunda estrategia, pues a utilizar la formula , los valores se incrementan a medida que se realizan consultas (donde se procesen nuevos documentos), pues el valor N (cantidad de documentos procesados) de la formula:

49 40 W(t,i) = log ( N ) Frec(t,i) D(t) * era 0 en la primera consulta, lo que significaba que no se habían procesado documentos. Desde luego, se debían realizar bastantes consultas para ir obteniendo un incremento deseable del valor N. De este modo, se tendría una mejor aproximación al cálculo total de la base de datos de texto. Posteriormente se realizaron las pruebas de la segunda estrategia, que consistía en utilizar la base de datos de texto procesada. Los resultados, como se esperaban fueron muy diferentes al compararlos con los resultados que entregaba la primera estrategia utilizada. Obviamente, esto se debía a que ya se tenía procesada la base de datos de texto, lo que permite tener valores más precisos ya que se tiene el cálculo total de la base de datos de texto. Esto se vio reflejado al momento de realizar las comparaciones con los listados de archivos que entregaba la primera estrategia, pues el orden de los archivos era solo aproximado. De igual modo, las comparaciones realizadas entre las estrategias y el listado entregado por NR-grep, se realizaron comparando el orden de los archivos. Ambas estrategias presentaban listados diferentes al presentado por NRgrep, debido a que los listados se creaban calculando la relevancia de los documentos y NR-grep solo los lista de acuerdo al orden en que son encontrados. En cuanto al tiempo de respuesta, se debe tener en cuenta que al utilizar la segunda estrategia el proceso de filtraje y creación de los archivos necesarios para crear el ranking de documentos se realiza al comienzo, proceso que es mucho más veloz en comparación a la segunda estrategia, pues en ésta cada documento que no ha sido procesado pasa por única vez por el proceso de filtraje (obtención de palabras relevantes y frecuencias normalizadas) al momento que se realiza la consulta, haciendo que el proceso sea lento, hecho que queda demostrado cuando la respuesta de NR-grep tiene muchos documentos que no han sido procesados.

50 41 A continuación se muestran algunos resultados del ranking de documentos obtenidos utilizando ambas estrategias y la salida entregada por NR-grep. En las figuras 6.1 y 6.2, se pude notar las diferencias que existen en el orden de los listados de documentos entregados por ambas estrategias, al realizar la consulta con la expresión.e[^a-za-z_]n#, opción l (solo nombres de archivo) y sobre el directorio /soft/tercera/casos/prats/documentos/fallo/. La expresión busca cualquier carácter en la primera posición, luego el carácter "e", posteriormente cualquier carácter excepto una letra o una raya un la tercera posición, luego "n", y finaliza con un separador. Ejemplo : be1nx, donde x representa un tabulador. A medida que se realizaban nuevas consultas, los resultados no variaban en forma drástica, debido a que la primera estrategia (base de datos de texto procesada) trabaja con el cálculo total de la base de datos de texto. De acuerdo a ello se puede mencionar que, utilizando la base de datos de texto procesada (figura 6.2) se obtiene un mejor ranking de documentos en comparación con el resultado de la estrategia que utiliza la base de datos de texto no procesada (figura 6.1). Figura 6.1 Ranking utilizando base de datos de texto no procesada opción l.

51 42 Ambas estrategias obtienen un mejor ranking de documentos al realizar la comparación con el listado que entrega NR-grep, pues NR-grep proporciona un listado sin ningún tipo relevancia de documentos, ya que los muestra en forma que son encontrados dentro del árbol de directorios. El listado de archivos que entrega NR-grep es el siguiente: /soft/tercera/casos/prats/documentos/fallo/fallo00.html /soft/tercera/casos/prats/documentos/fallo/fallo01.html /soft/tercera/casos/prats/documentos/fallo/fallo02.html /soft/tercera/casos/prats/documentos/fallo/fallo03.html /soft/tercera/casos/prats/documentos/fallo/fallo04.html /soft/tercera/casos/prats/documentos/fallo/fallo05.html /soft/tercera/casos/prats/documentos/fallo/fallo06.html /soft/tercera/casos/prats/documentos/fallo/fallo07.html /soft/tercera/casos/prats/documentos/fallo/fallo08.html /soft/tercera/casos/prats/documentos/fallo/fallo09.html /soft/tercera/casos/prats/documentos/fallo/fallo10.html /soft/tercera/casos/prats/documentos/fallo/fallo11.html /soft/tercera/casos/prats/documentos/fallo/fallo12.html /soft/tercera/casos/prats/documentos/fallo/fallo13.html /soft/tercera/casos/prats/documentos/fallo/fallo14.html /soft/tercera/casos/prats/documentos/fallo/fallo15.html Figura. 6.2 Ranking utilizando base de datos de texto procesada opción l.