EXTRACCIÓN DE INFORMACIÓN EN DOMINIOS COMPLEJOS

EXTRACCIÓN DE INFORMACIÓN EN DOMINIOS COMPLEJOS Ángel Alonso Álvarez Escuela de Ingenierías (Universidad de León), Campus de Vegazana s/n, 24071 León, [dieaaa@unileon.es] José Ramón Villar Flecha Escuela de Ingenierías (Universidad de León), Campus de Vegazana s/n, 24071 León, [diejvf@unileon.es] Carmen Benavides Cuellar Escuela de Ingenierías (Universidad de León), Campus de Vegazana s/n, 24071 León, [diecbc@unileon.es] Isaías García Rodríguez Escuela de Ingenierías (Universidad de León), Campus de Vegazana s/n, 24071 León, [dieigr@unileon.es] Francisco Jesús Rodríguez Sedano Escuela de Ingenierías (Universidad de León), Campus de Vegazana s/n, 24071 León, [diefrs@unileon.es] Resumen En cualquier dominio sobre el que se trabaje es habitual encontrar colecciones de datos que son utilizados para extraer de ellos información. En este trabajo se presenta una técnica utilizada para extraer información conceptualizada de un determinado dominio y su aplicación a un problema particular: el desarrollo de un clasificador de documentos de textos. Palabras Clave: Extracción de Información, Clasificación de Textos, Clasificación, Toma de Decisión, Algoritmo de los k Vecinos más Cercanos. 1 INTRODUCCIÓN La extracción de información de un texto es una técnica muy relacionada con el procesamiento de lenguaje natural ([1], [18], [19], [22]). A diferencia de ésta, la extracción de información trata de descubrir conceptos en la información y así rellenar adecuadamente los tipos de datos que los representan. Un ejemplo sería rellenar objetos encuentro con el tipo de acto (jornadas, congreso, charla, coloquio, etc.), título, participantes, tema principal, ideas planteadas, etc. Cada concepto se representa entonces en una unidad de información, dicha unidad de información dispondrá de una serie de palabras que la disparan o hacen relevante. En ([28], [29]) se presenta un método para construir un diccionario para la extracción de información de manera automática basándose en unos marcos definitorios de conceptos y un algoritmo de inducción que se detalla en él. Una diferencia de la extracción de información con el procesamiento de lenguaje natural es que la primera solo analiza textos del dominio, descartando para el procesamiento posterior toda parte de un documento que no pertenezca a dicho dominio. Esto permite simplificar el procesamiento posterior al deshacer por sí mismo la posible ambigüedad de las palabras que aparezcan en las porciones de texto del documento a analizar. A continuación se describe un problema que se ha resuelto con el uso de la técnica de extracción de información. Seguidamente se describen tanto el problema, las técnicas a usar, el desarrollo implementado como solución al problema y, finalmente, conclusiones y trabajos futuros. 2 PROBLEMA En el año 2000, la Junta de Castilla y León concedió el Proyecto de Investigación Aplicada titulado Desarrollo de un Sistema Basado en el Conocimiento: Aplicación a la Hullera Vasco- Leonesa, en adelante denominado el proyecto, con clave orgánica LE038/UA y un plazo de realización desde Enero de 2000 a Diciembre de 2002. Este proyecto está siendo realizado por el departamento de Ingeniería Eléctrica y Electrónica de la Universidad de León, como Investigación Aplicada a la Fundación Sociedad Hullera Vasco- Leonesa, S.A. (en adelante, la empresa ). El proyecto de investigación aplicada tenía como objetivo facilitar las labores realizadas por la empresa en el ámbito de la gestión de la documentación. Entre las labores a realizar por dicho departamento cabe destacar la clasificación de toda referencia bibliográfica considerada importante.

En el modelado del dominio se utilizó Ingeniería del Conocimiento, más concretamente, la metodología Ideal ([4], [12]) para extraer el conocimiento de la empresa a incorporar a la aplicación, además de las tendencias actuales de la Inteligencia Artificial y la Ingeniería del Conocimiento ([3], [15], [24], [30]) con el fin de implementar una aplicación de última generación. En la figura 1 se describe gráficamente el modelo de la aplicación desarrollada. automáticamente y selección de las apropiadas de forma manual, que la selección de los descriptores se realizase de la manera más similar posible a la utilizada por los expertos, que no necesitase un entrenamiento exhaustivo. La solución que se planteó al problema se basó en el uso de las siguientes herramientas: Referencias Bibliográficas Scanner Distribución selectiva de información DBMS Sistema Documental Generación automática de documentos uso de un tesauro con términos específicos y de significado no ambiguo, en concreto, se utilizó el Tesauro de Medio Ambiente del MOPT [27], como conjunto de categorías, generación automática del contenido semántico para cada descriptor, extracción de información de las referencias bibliográficas a clasificar para deducir sus contenidos. Figura 1 : Esquema de la aplicación Como ya se ha comentado, la clasificación de las referencias bibliográficas es una de las tareas desarrolladas por la empresa. Un requisito impuesto por la empresa para dicha tarea era el funcionamiento semiautomático. En otras palabras, el sistema propone al usuario clasificador una serie de categorías, con una credibilidad calculada. El usuario seleccionará las que considere oportunas. Además, se constató que los expertos de la empresa solicitaban una clasificación en términos libres, mientras que los usuarios del sistema documental deseaban una estandarización de los términos y una unificación de los mismos. Otro requerimiento básico del sistema clasificador era la ausencia de entrenamiento complejo, lo cuál complicaba aún mas la elección del clasificador a utilizar. Finalmente, se determinó la forma que tenían los expertos para clasificar. Básicamente, los expertos clasificadores analizaban el texto, recogían mentalmente una serie de términos significativos, y basándose en estos términos y en experiencias pasadas determinaban con qué etiquetas catalogaban cada referencia bibliográfica. Esta forma de trabajar es muy semejante a la marcada en los tesauros como normas para realizar la catalogación. Resumiendo, el conjunto de prerrequisitos exigidos al clasificador fueron: clasificación semiautomática, con propuestas de categorías generadas Para los dos últimos puntos se utilizaron técnicas de Inteligencia Artificial (I.A.) cuya eficiencia ha sido probada para el idioma inglés. Sin embargo, su uso aplicado al castellano no está documentado hasta ahora. En el siguiente apartado se describirán brevemente las técnicas utilizadas. 3 TÉCNICAS DE I.A. UTILIZADAS Las técnicas utilizadas para resolver el problema planteado se pueden definir como de extracción de información, y son utilizadas en dominios de procesamiento de lenguaje natural y de clasificación de textos. En concreto, las propuestas realizadas en los trabajos de Riloff ([16], [17], [18], [23]) son las utilizadas. En dichos trabajos se genera un léxico semántico partiendo de una colección de categorías de clasificación. El léxico semántico (o corpus semántico) es una lista de palabras con una certidumbre asociada que describen el significado semántico de cada categoría. Una vez definido un léxico para cada categoría, es posible proponer diferentes categorías como clasificación de un documento de texto analizando las palabras que aparecen en él. La extracción de información de un texto es una técnica muy relacionada con el procesamiento de lenguaje natural ([1], [18], [19], [22]). Una diferencia de la extracción de información con el procesamiento de lenguaje natural es que la primera solo se analizan textos del dominio, descartando para el procesamiento posterior todo documento que no pertenezca a dicho dominio. Esto permite simplificar el procesamiento posterior al deshacer por sí mismo

la posible ambigüedad de las palabras que aparezcan en las porciones de texto del documento a analizar. Cuando se utiliza la extracción de información en la clasificación de documentos de texto, el proceso debe extraer primero todas las unidades de información importantes sobre el dominio que un documento contiene. Estas unidades de información se almacenarán de la manera adecuada con referencia al documento del que fueron extraídas. Posteriormente, una consulta se convertirá a una unidad de información y se comparará ésta con las almacenadas en el sistema que se consideren relevantes debido a que el documento contiene palabras consideradas disparadoras para las unidades de información almacenadas. En [21] se muestran como la extracción de información de forma automática permite la construcción de los corpus. Para ello utiliza una técnica denominada disparadora multicapas que analiza el efecto de cada una de las aportaciones antes de introducirla en el corpus de palabras. Esta observación evita el rápido deterioro que sufren los algoritmos de generación de corpus. En [9] se presentan algunas ideas para el desarrollo de sistemas para la extracción de información basados en reglas. La extracción de información ha sido utilizado para clasificación en [22] usando las firmas de relevancia, donde una firma es el par (palabra disparadora- unidad de información). Una firma relevante es aquella para la cuál su referencia discrimina fuertemente entre relevante o no en un determinado dominio. En [20] se presenta un estudio de la aplicación de los algoritmos de extracción de información en la interpretación automática de textos. En [8] se estudia el uso de clasificadores de textos para facilitar la extracción de información contenida en conjuntos de datos. 4 DESCRIPCIÓN DEL TRABAJO REALIZADO En el diseño y posterior desarrollo del sistema de clasificación se debían definir cada uno de los siguientes puntos: cómo representar las referencias bibliográficas a clasificar, cómo dotar de semántica a los descriptores, definición del criterio de selección de los descriptores a proponer. Como se dijo anteriormente, la colección de categorías está representada como un tesauro. El tesauro está formado por términos con significado único, bien descriptores o no descriptores. Sólo los primeros se utilizan para clasificar. La representación de las referencias, para mantener las hipótesis marcadas en ([23], [18], [17]), se realiza mediante sus ficheros invertidos. Para dotar de semántica a los descriptores se utilizaron las técnicas de extracción de información para la generación de un corpus semántico indicada en ([17], [18], [21], y [23]). De esta forma, cada descriptor se caracterizará por un conjunto inicial de pares <palabra-certidumbre> que describen su semántica. A partir de un texto del dominio, y utilizando extracción de información, se entrenará el sistema para que aumente el conjunto de pares con los sustantivos encontrados en el texto de entrenamiento. Finalmente, indicar que el modelo de clasificador utilizado emplea un razonamiento basado en medidas de certeza o certidumbre [2], para lo que utiliza unas fórmulas de disyunción producto y conjunción máximo, siendo el motor de inferencia el algoritmo de los k vecinos más cercanos [6] para seleccionar los descriptores a proponer. Este sistema se caracteriza por emular la forma de razonar y la de los expertos de clasificación. Un punto importante es la reducción en las tareas de entrenamiento, siendo éste necesario únicamente para caracterizar el corpus de los descriptores del tesauro. Los textos a seleccionar para la generación automática de corpus deben pertenecer al dominio semántico del descriptor, siendo esta selección una tarea laboriosa pero sencilla de realizar por un ser humano. 4.1 SEMÁNTICA DE LOS DESCRIPTORES Se ha comentado previamente que se utilizará un glosario de términos jerarquizados con significado único (descriptores). A este conjunto de descriptores se le denomina tesauro. Cada descriptor está caracterizado por un corpus o corpus semántico (conjunto de palabras que le dotan de significado). Cada palabra perteneciente al corpus de un descriptor tiene una certidumbre asociada, calculada según un determinado algoritmo. Para la generación automática del corpus se generaron las siguientes herramientas: analizador morfológico, generador de corpus.

Para el analizador morfológico se siguió el principio teórico de Porter definido en [13]. Sin embargo, el algoritmo que en dicho trabajo se muestra está muy enfocado al idioma inglés. En el caso del idioma castellano, este algoritmo es de poco éxito. Por lo tanto se realizó un estudio de la Lengua Española o Castellano, y para ello se analizaron los textos ([7], [14], [10], [11]). Con todo este material se elaboró un agente utilizando el motor de inferencia de la shell de sistemas expertos Jess [5], el cuál implementa como motor de búsqueda el algoritmo RETE. Los resultados de este analizador morfológico están fuera del ámbito de este trabajo por lo que no se muestran. A efectos del presente trabajo indicar que este analizador morfológico genera para cada palabra la raíz que considera de mayor credibilidad. Para el generador de corpus se siguieron las pautas marcadas por Riloff en su trabajo ([18], [17] y [23]). En estos trabajos se realiza la generación automática de corpus para descriptores conceptuales partiendo de las siguientes premisas: cada concepto está representado por un término lingüístico, pudiendo cada término estar compuesto por más de una palabra, cada término dispone de un conjunto de palabras que le dotan de un corpus inicial, cada palabra del corpus de cada descriptor tiene asociada una certidumbre sobre el grado con que dicha palabra afecta o referencia al descriptor. valor p se calcula a partir de la frecuencia de aparición de la raíz en cada una de las frases en las que aparecen raíces asociadas a palabras del corpus de un determinado descriptor multiplicada por la certidumbre de dichas raíces y dividida por la frecuencia con que dicha raíz aparece en el texto. Cabe destacar que, aunque se utilizan raíces para descubrir nuevos candidatos para formar parte del corpus, cada raíz tiene asociada un conjunto de palabras para la cuál cumple dicha condición (ser raíz). Dichas palabras asociadas son las que finalmente se añaden al corpus del descriptor, quedando éste compuesto por el conjunto de palabras cuyas raíces fueron descubiertas en un texto generador mediante el algoritmo de Riloff ya comentado, conjuntamente con las modificaciones que se le han realizado. Una vez implementadas las herramientas con los algoritmos descritos, para generar el corpus de cada uno de los descriptores se debe disponer de un archivo de texto con un formato preestablecido donde se disponga el tesauro jerárquico, las relaciones de más específico que y relacionado con (propias de un tesauro), así como las palabras iniciales del corpus conjuntamente con sus credibilidades, generándose un flujo representado en la figura 2. Lista Descriptores con su corpus inicial Documento con el contenido del dominio Las modificaciones que se realizaron sobre dicho trabajo para su adaptación al castellano y al problema a resolver fueron: en lugar de trabajar con palabras se trabaja con los lexemas de las palabras a través del analizador morfológico construido y ya comentado, en sus trabajos Riloff descarta las palabras que aparezcan menos de un 5% en el texto. Para el español esto es demasiado restrictivo, así es como se decidió, tras pruebas y error, trabajar con un 1% o menos. Este es un valor que se continuará ensayando, la formula para asignar las puntuaciones varía, ya que tiene en cuenta la credibilidad de la raíz que añade la raíz candidata. La nueva formula es (1): frec.deaparición enventanasi certidumbrei p = (1) frec. aparición texto donde p es la certidumbre a asignar a una nueva raíz que forma parte del corpus de un descriptor. Este Figura 2 : Flujo de datos en el generador automático de corpus 4.2 SELECCIÓN DE LOS DESCRIPTORES A PROPONER Una vez disponible el corpus para el tesauro, el clasificador clásico trabaja como sigue: extracción de las palabras con su frecuencia relativa de la referencia bibliográfica, análisis morfológico de las palabras para extraer su raíz,

para cada palabra de la lista de palabras de la referencia bibliográfica se busca si forma parte del corpus de descriptores del tesauro, proponiendo descriptores con una certidumbre igual a la de la palabra multiplicada por su frecuencia de aparición en el texto a clasificar. La certidumbre que se elige para un descriptor que aparece referenciado por diversas palabras es la máxima de las calculadas, aplica el algoritmo de los k vecinos más cercanos para la selección y propuesta de los descriptores. El valor k es configurable, inicialmente se han propuesto 5 descriptores. Nunca se proponen descriptores con certidumbre menor a un valor UMBRAL_DESCRIPTOR, cuyo valor es modificable y por defecto es 0.0. Los valores seleccionados por defecto pueden ser ajustados en las pruebas para armonizarlos con la cantidad de datos manejables por un experto. La propuesta realizada por el clasificador clásico contiene el descriptor y su certidumbre, pudiendo utilizarse directamente como clasificador automático o semiautomático. 5 ENSAYOS Y RESULTADOS Para comprobar el comportamiento del sistema se utilizó el microtesauro Biología, contenido en el tesauro del MOPT [27]. Para evaluar el sistema se plantearon diversas medidas típicas, las cuáles se pueden estudiar en ([25], [26]). En concreto, se optó por visualizar las medidas de precisión, notificación, y las medidas E y F de de Van Rijsbergen. Para el caso de éstas últimas, se utilizó un coeficiente β de valor 1 (igualdad de peso entre precisión y notificación). Para realizar estas medidas se tuvo en cuenta, como es lógico, que los clasificadores debían tener carácter de clasificadores automáticos. Los resultados se muestran en la tabla 1. Totales Agregados Totales Medios FP 266 FN 113 VP 89 VN 3166 Precisión 0,251 0,158 Notificación 0,441 0,567 E 0,68 0,752 F 0,32 0,248 Tabla 1: Resultados. 6 CONCLUSIONES La extracción de información representa un buen camino para instancias conceptos extraídos de los datos analizados. En su uso en la clasificación de documentos de texto se observa que el corpus inicial para el entrenamiento de descriptores es fundamental, y una mala selección de certidumbres iniciales conlleva un fallo en el entrenamiento. De hecho, el clasificador implementado podría optimizarse sin modificar el algoritmo si los datos de entrenamiento inicial se mejoraran. Como trabajos futuros cabe destacar el estudio de mejoras en el analizador morfológico, y el uso de estas técnicas en la caracterización conceptual en el dominio de la automática. Referencias [1] Cardie, C., (1997) Empirical methods in information extraction, American Association for Artificial Intelligence, pp. 65-70. [2] Cuena, J., (1995) Notas sobre modelos de razonamiento, Facultad de Informática, Universidad Politécnica de Madrid. [3] Dershowitz, N., (2000) Artificial Intelligence: retrospective/prospective, Annals of Mathematics and Artificial Intelligence, 1 a 4, 3-5. [4] Gómez, A., Juristo, N., Montes, C., Pazos, J., (1997) Ingeniería del Conocimiento, Editorial Centro de Estudios Ramón Areces, S.A., Colección de Informática, ISBN 84-8004-269-9 [5] Jess Site, Shell para Sitemas Expertos Jess, [en línea] <http://herzberg.ca.sandia.gov/jess/> [Consulta 1 julio 2002]. [6] Keller, J. M., Gray, M. R., Givens, J. A. jr., (1985) A Fuzzy K-Nearest Neighbor Algorithm, IEEE Transactions on Systems, Man and Cybernetics, SMC-15, 4, pp. 580-585. [7] Lang, M. F., (1992) Formación de palabras en español (Spanish Word Formation), Ediciones Cátedra S.A., Madrid. [8] Lewis, D. D., (1991) Data extraction as text categorization: An experiment with the MUC-3 corpus, Proceedings of the Third Message Understanding Evaluation and Conference. [9] McSherry, D., (2000) Automating case selection in the construction of a case library, Knowledge-Based Systems, 13, pp. 133-140.

[10] Miranda Podadera, L., (1988) Gramática española, Editorial Hernando, Madrid. [11] Mínguez Fontan, N., (1987) Gramática del español II, Editorial Santillana, Madrid. [12] Palma, J. T., Paniagua, E., Martín, F., Martín, R., (2000) Ingeniería del Conocimiento. De la Extracción al Modelado del Conocimiento, Revista Iberoamericana de Inteligencia Artificial, 11, pp. 46-72. [13] Porter, M. F., (1980) An algorithm for suffix stripping, Program, 14, 3, pp. 130-137. [14] Puebla Ortega, J., (1995) Cómo conjugar todos los verbos del español, Editorial Playor, Madrid. [15] Rasmus, D. W., (2000) Knowledge management trends: the role of knowledge un e- business, PC AI, 14, 4, pp. 16-20. [16] Riloff, E., (1991) Little Words Can Make a Big Difference for Text Classification, Proceedings of the 18th Annual International ACM SIgIR Conference on Research and Development in Information Retrieval, pp. 130-136. [17] Riloff, E., (1983) Automatically Constructing a Dictionary for Information Extraction Task, Proceedings of the Eleventh National Conference on Artificial Intelligence, AAI Press MIT Press, pp. 811-816. [18] Riloff, E., (1996) Using learned extraction patterns for text classification, Connectionist, Statistical, and Symbolic Approaches to Learning for Natural Language Processing In Wermter, S., Riloff, E., & Scheler, G. (eds.)., Springer-Verlag, pp. 275-289. [19] Riloff, E., (1996) An Empirical Study of Automated Dictionary Construction for Information Extraction in Three Domains, AI Journal, 85, 1, 2, pp. 101-134. [20] Riloff, E., (1999) Information Extraction as a Stepping Stone toward Story Understanding, MIT press, Montreal, Canada. [22] Riloff, E., Lehnert, W., (1994) Information Extraction as a Basis for a High-Precision Text Classification, ACM transactions on Information Systems, 12, 3, pp. 296-333. [23] Riloff, E., Shepherd, J., (1997) A Corpus- Based Approach for Building Semantic Lexicons, Proceedings of the Second Conference on Empirical Methods in Natural Language Processing. [24] Rivero, S., (2000) Gestión del conocimiento: una vía hacia la ventaja competitiva, DYNA. Ingeniería e Industria, LXXV, 3, pp. 6-16. [25] Sebastiani, F., (1999) Machine Learning in Automated Text Categorization, Technical Report IEI-B4-31-1999, Istituto di Elaborazione dell'informazione, Consiglio Nazionale delle Ricerche, Pisa, IT. [26] Sebastiani, F., (1999) A Tutorial on Automated Text Categorization, Proceedings of ASAI-99, 1st Argentinian Symposium on Artificial Intelligence, pp. 7-35. [27] Secretaría General de Medio Ambiente, (1990) Tesauro de Medioambiente del MOPU, Ministerio de Obras Públicas y Urbanismo, ISBN 84-7433-668-6. [28] Soderland, S., Fisher, D., Aseltine, J., Lehnert, W., (1996) Issues in inductive learning of domain-specific text extraction rules, Connectionist, Statistical, and Symbolic Approaches to Learning for Natural Language Processing, Lecture Notes in Artificial Intelligence, Springer, pp. 290-301. [29] Soderland, S., Fisher, D., Aseltine, J., Lehnert, W. G., (1995) Crystal: Inducing a conceptual dictionary, Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence, pp. 1314-1321. [30] Suso, R., (2000) Conocimiento e innovación, DYNA. Ingeniería e Industria, LXXV, 3, pp. 58-63. [21] Riloff, E., Jones, R, (1999) Learning dictionaries for information extraction using multi-level boot-strapping, Proceedings of the Sixteenth National Conference on Artificial Intelligence, pp. 474-479.