Aplicando la Clasificación de Texto en la Extracción de Información

Aplicando la Clasificación de Texto en la Información Alberto Téllez-Valero 1, Manuel Montes-y-Gómez 1,2, Luis Villaseñor-Pineda 1 1 Coordinación de Ciencias Computacionales Instituto Nacional de Astrofísica Óptica y Electrónica (INAOE) e-mail: {albertotellezv, mmontesg, villasen}@inaoep.mx 72840 Puebla, México 2 Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia e-mail: mmontes@dsic.upv.es 46022 Valencia, España. Resumen: La clasificación de texto es la actividad de etiquetar textos en lenguaje natural con categorías temáticas tomadas desde un conjunto previamente definido. En contraste, la creación de una representación estructurada de información tomada desde textos en lenguaje natural es conocida como extracción de información. En este artículo proponemos definir a la extracción de información como una tarea de clasificación de texto. La idea principal de esta aproximación es usar algoritmos de aprendizaje automático en lugar de un sofisticado análisis lingüístico. Con el propósito de mostrar los resultados de este método, presentamos un sistema llamado Topo. Este sistema permite extraer información de noticias que reportan desastres naturales. Palabras Clave: Información, Clasificación de Texto, Aprendizaje Automático. 1. Introducción El crecimiento explosivo de documentos disponibles en formato digital complica su exploración y análisis. Por consiguiente, son necesarios nuevos métodos que ayuden a los usuarios a filtrar y estructurar la información relevante. Dos ejemplos de esta clase de métodos son la clasificación de texto y la extracción de información. La clasificación de texto (TC, por sus siglas en inglés) es la asignación de documentos de texto en formato libre a una o más categorías predefinidas en base a su contenido [1]. Ella se usa en aplicaciones donde la organización de documentos es requerida. Por ejemplo, en el indexado y filtrado automático de textos. Por otro lado, la extracción de información (IE, por sus siglas en inglés) es usada para estructurar la información considerada relevante que se encuentra en documentos de un dominio determinado. En otras palabras, el objetivo de un sistema de extracción de información es encontrar y enlazar la información relevante, ignorando la extraña e

irrelevante [2]. La principal aplicación de un sistema de IE es llenar una base de datos con información proveniente de textos sin un formato predefinido. La clasificación de texto y la extracción de información son dos formas complementarias de procesamiento de texto. Sin embargo, su interacción y sinergia ha sido mínima. Muchos sistemas de IE usan métodos de TC para asegurar que el documento a ser procesado contenga la información esperada. En este artículo exploramos como TC e IE pueden integrarse más estrechamente. Básicamente, proponemos una aproximación de IE que usa técnicas de TC para guiar las decisiones de extracción. Con el propósito de mostrar los resultados de esta propuesta, presentamos el sistema Topo que permite llenar automáticamente una base de datos sobre desastres naturales a partir de noticias de periódicos electrónicos en español. El resto del artículo es organizado de la siguiente manera. La sección 2 describe el trabajo relacionado. En la sección 3 presentamos nuestra aproximación para extraer información usando clasificación de texto. La sección 4 describe una aplicación real de nuestro método y muestra los resultados obtenidos. Finalmente, en la sección 5 concluimos la discusión. 2. Trabajo relacionado La disponibilidad de grandes colecciones de textos ha estimulado el uso de técnicas estadísticas en muchas tareas del procesamiento del lenguaje natural (ver [3] para un estudio). El uso de métodos estadísticos en aplicaciones de extracción de información está principalmente enfocado en la adquisición automática de los patrones de extracción, los cuales son utilizados para dirigir la tarea de extracción (ver [4] y [5] para un estudio). A continuación, se mencionan brevemente las aproximaciones para extracción de información que se consideran más importantes con respecto al presente trabajo. Además, se describe el enfoque de clasificación de texto basado en técnicas de aprendizaje automático, el cual es usado en esta investigación. 2.1 información Existen pocos trabajos que utilizan métodos de TC para guiar la tarea de extracción de información. En general, estos desarrollos presentan arquitecturas que se basan en la hipótesis que analizando la combinación de palabras que rodean a la información de interés, es suficiente para encontrar los patrones de extracción requeridos. La ventaja de estas arquitecturas es que un profundo análisis lingüístico no es requerido, en su lugar, técnicas de TC son usadas para aprender los patrones buscados. Este enfoque parece ser bastante útil, sin embargo su aplicación actual no refleja del todo su potencial, así como sus deficiencias. Por ejemplo, en [6] esta aproximación fue usada para el problema de identificar afiliaciones de autores y analizar citas en publicaciones, y en [7] para extraer datos desde anuncios de empleo. En las tareas antes mencionadas se tiene cierta estructura en la información a ser extraída, por tal motivo no se puede concluir mucho acerca de su comportamiento en documentos con formato libre. Por otro lado, en [8] se presenta una aplicación que se encarga de llenar una base

de datos de contactos con direcciones de e-mail tomadas desde correos electrónicos, los cuales presentan diferentes formatos y estilos. Esta última aplicación da una mayor perspectiva de los alcances de dicha aproximación, sin embargo su dominio de estudio se limita a extraer sólo un tipo de dato (direcciones de e-mail). Por tal motivo, es necesario extender este trabajo a un dominio más complejo, donde no sólo exista variedad de formatos y estilos, sino que además, la información a ser extraída sea de más de un tipo y de diferentes características, por ejemplo: fechas, cantidades, nombres de lugares y eventos, entre otras. 2.2 Clasificación de texto La aproximación de TC basada en aprendizaje automático a ganado importancia y eventualmente ha llegado a ser la dominante. Las ventajas de esta aproximación son: una buena efectividad, un considerable ahorro en términos de mano de obra del experto, y cierta independencia del dominio [9]. La construcción del clasificador de texto inicia con una colección de documentos manualmente clasificados (el conjunto de entrenamiento), y entonces se aplican algunos métodos de recuperación de información y aprendizaje automático para adquirir una función de clasificación (el clasificador). Tal aproximación considera las siguientes tareas (consultar [1] y [9] para más detalle): Indexado. El objetivo es representar los documentos de texto en una forma adecuada de su contenido para su uso con el clasificador. La representación más comúnmente usada es el modelo de espacio vectorial, donde los documentos son representados por vectores de términos. Tales términos son usualmente determinados por medio de algún tipo de análisis morfológico. También, se utilizan varios esquemas de indexado para los términos. Reducción de dimensionalidad. Es común que el espacio de representación tenga una alta dimensionalidad. Así, con el propósito de evitar el sobre ajuste en el proceso de aprendizaje e incrementar su eficiencia y efectividad, es necesario considerar sólo un subconjunto de los términos originales. La selección de los términos más representativos es hecha por una función de características. Por ejemplo, la ganancia en la información y la estadística chi-cuadrada. Aprendizaje. Varias técnicas han sido aplicadas para construir el clasificador. Por ejemplo: clasificadores bayesianos como Simple de Bayes, árboles de decisión como C4.5, aprendizaje basado en memoria como K-Vecinos más cercanos, y métodos kernel como Máquinas de Vectores de Soporte. Sin embargo, ninguna domina sobre otra para todos los dominios. 3. Arquitectura para la extracción de información La arquitectura propuesta considera tres tareas principales: 1. Filtrar los textos relevantes al dominio de estudio. 2. Detectar las entidades de información con posibilidad de ser extraídas.

3. Discriminar entre las entidades identificadas aquellas que proporcionan información útil para llenar la base de datos. El diseño de la arquitectura consiste de un modelo estructural formado por tres componentes conectados en cascada (ver figura 1). A continuación se describe cada uno de los componentes. Colección de textos características de los textos Clasificación de textos Filtrado de Textos Expresiones con las entidades contextos Identificación de entidades Textos relevantes Identificación de Entidades características de los contextos Clasificación de contextos Información relevante Información Fig.1 Arquitectura de Información basada en TC. 3.1 Filtrado de textos Debido a que es más probable que los textos pertenecientes al dominio de estudio contengan la información requerida, el objetivo de este componente es filtrar los documentos que se consideran relevantes. Una manera efectiva de llevar a cabo esta tarea es usando algún método de TC (ver sección 2.2). Básicamente, el componente de filtrado de textos considera las siguientes tareas: 1. Transformar el texto de su formato inicial a una representación adecuada para la tarea de clasificación. 2. Aplicar el clasificador previamente construido para el dominio de estudio, con el propósito de separar los textos relevantes de los irrelevantes. 3.2 Identificación de entidades La tarea de este componente es detectar, en los documentos considerados relevantes, aquellos segmentos de texto con alguna posibilidad de ser incluidos en la base de datos. A tales segmentos los vamos a llamar entidades. Para detectar las entidades decidimos hacer un análisis con expresiones regulares, esto con el propósito de hacer un mínimo uso de recursos lingüísticos.

Finalmente, una vez identificadas las entidades, la siguiente tarea es extraer la información que se encuentra próxima, a la cual llamaremos contexto. En la figura 2 se presenta un ejemplo. 3.3 información Una vez identificadas las entidades con posibilidad de ser extraídas, este componente se encarga de filtrar las que son consideradas útiles para llenar la base de datos. Para realizar tal selección se utiliza el contexto de la entidad junto con un TC previamente construido y entrenado para discriminar fragmentos del documento en las categorías de interés, las cuales generalmente se corresponden con los registros de la base de datos que deseamos llenar. En otras palabras, definimos a la tarea de extracción de información como una tarea de clasificación de textos, donde el propósito es clasificar entidades por su contexto en lugar de documentos por su contenido. Es importante mencionar que en este componente se puede tener más de un clasificador de texto. Esto es debido a que en ocasiones es preferible especializar diferentes clasificadores en diferentes tipos de entidades. Por ejemplo, un clasificador para discriminar contextos de nombres y otro para discriminar contextos de cantidades. También, el mejor tamaño de los contextos para su correcta clasificación, así como el método de aprendizaje empleado, es algo que debe ser determinado mediante experimentación, y no precisamente debe ser el mismo para todos los tipos de entidades. En la figura 2 se ejemplifica el proceso de identificar entidades y de extracción de información. El huracán Isidore dejó en la península de Yucatán 300 mil personas damnificadas y el deceso de una persona ISIDORE = No relevante YUCATÁN = Lugar del evento 300 MIL = Personas damnificadas UNA = Personas muertas Identificación de Entidades Información El huracán (ISIDORE) dejó en península de (YUCATÁN) 300 mil de Yucatán (300 MIL) personas damnificadas deceso de (UNA) persona Fig.2 Proceso de identificar entidades y extraer información. 4. Caso de estudio: Noticias de desastres naturales En esta sección introducimos un sistema de extracción de información basado en la arquitectura propuesta en la sección 3. El sistema es llamado Topo, y su propósito es

extraer información relacionada con desastres naturales desde noticias de periódicos en español. Este caso de estudio está inspirado por el trabajo realizado por la Red de Estudios Sociales en Prevención de Desastres en América Latina 1. La base de datos a ser llenada por el sistema consiste en información relacionada con el evento (fecha, lugar y magnitud), información relacionada con las personas (número de muertos, heridos, desaparecidos, damnificados y afectados), información relacionada con las viviendas (número de viviendas destruidas y afectadas), e información relacionada con la infraestructura (número de hectáreas afectadas y perdida económica). Actualmente trabajamos con noticias que tratan los eventos de: huracán, incendio forestal, inundación, sequía y sismo. A continuación, presentamos las características técnicas de la implementación, y mostramos la forma de evaluar el sistema junto con los resultados obtenidos. 4.1 Características técnicas El conjunto de entrenamiento utilizado fue obtenido desde varios periódicos Mexicanos que están disponibles desde Internet. Esta colección consistió de 300 noticias que tratan sobre desastres naturales. El componente de filtrado de textos incluye un clasificador entrenado con el conjunto previamente mencionado más una colección de 229 noticias consideradas irrelevantes 2. Este clasificador implementa un indexado con una representación vectorial con entradas booleanas, es decir, cada texto es representado como un vector de ceros y unos que indican la presencia o ausencia de ciertos términos en el documento. El vector contiene 648 términos seleccionados mediante la función de características ganancia en la información. El esquema de aprendizaje utilizado es el de Maquinas de Vectores de Soporte. Con respecto al componente de identificación de entidades, éste puede detectar nombres, fechas y cantidades utilizando un análisis con expresiones regulares. Además, se agregaron dos diccionarios para tratar las excepciones que ocurren en las expresiones con respecto a nombres y cantidades. Tales excepciones son las siguientes: Palabras reconocidas como una entidad de nombre únicamente porque inician con letra mayúscula (por ejemplo: artículos y preposiciones al inicio de una oración) Números reportados con letras en lugar de dígitos, o una combinación de ambos (por ejemplo: mil 500 personas) En el componente de extracción de información se utilizan tres diferentes clasificadores, cada uno de ellos especializado en nombres, fechas y cantidades respectivamente. Para su entrenamiento se utilizaron un total de 1929 segmentos de textos que representan contextos de las entidades de interés- tomados aleatoriamente desde el conjunto de entrenamiento. Los tres clasificadores implementan un indexado 1 http://www.desinventar.org/ 2 Por textos relevantes entendemos todos aquellos que contienen información a ser extraída, mientras que los irrelevantes son los que contienen palabras o frases usadas comúnmente en la descripción de un fenómeno natural, pero que en estos casos se usan en contextos muy diferentes. Por ejemplo, la frase ojo del huracán en el contexto de el presidente está en el ojo del huracán.

con una representación vectorial con entradas nominales, es decir, cada contexto es representado por un vector de palabras. Debido a que el tamaño de los contextos que se tomaron para experimentar no es mayor de 14 palabras, no fue necesario hacer una reducción de dimensionalidad. Actualmente, los mejores resultados se han obtenido con contextos de 4 palabras (2 a la izquierda y 2 a la derecha) para clasificar nombres y fechas, y contextos de 6 palabras (3 a la izquierda y 3 a la derecha) para clasificar cantidades. El esquema de aprendizaje con el que se han obtenido los mejores resultados en los tres casos es: Máquinas de Vectores de Soporte. Finalmente, cabe mencionar que el sistema Topo es una aplicación real implementada en Java utilizando Weka [10]. 4.2 Evaluación Para evaluar el desempeño del sistema se utilizaron tres métricas: Precisión, cobertura y medida-f [1]. Las cuales son comúnmente usadas para evaluar sistemas de IE y TC. Además, utilizamos la técnica de ejecutar 10 veces una validación cruzada con 10 pliegues (10-Fold Cross-Validation, en inglés) para la evaluación global. Esta técnica es la manera estándar de medir la tasa de error de un esquema de aprendizaje sobre un conjunto de entrenamiento [10]. La tabla 1 muestra el promedio de los resultados. Tabla.1 Resultados de evaluación. Componente Precisión Cobertura Medida-F FILTRADO DE TEXTOS 90% 89% 90% Huracán 98% 87% 92% Incendio forestal 93% 97% 95% Inundación 85% 91% 88% Sequía 84% 77% 81% Sismo 94% 94% 94% Irrelevante 87% 88% 88% IDENTIFICACION DE ENTIDADES 88% 99% 93% Nombres 70% 100% 82% Fechas 97% 100% 98% Cantidades 98% 98% 98% EXTRACCION DE INFORMACION 86% 81% 83% Fecha del evento 97% 100% 99% Lugar del evento 74% 76% 75% Magnitud del evento 87% 90% 89% Número de personas muertas 79% 80% 79% Número de personas heridas 96% 79% 87% Número de personas desaparecidas 100% 67% 80% Número de personas damnificadas 88% 64% 74% Número de personas afectadas 53% 42% 47% Número de viviendas afectadas 83% 33% 48% Número de viviendas destruidas 78% 80% 79%

Número de hectáreas afectadas 88% 94% 91% Perdida económica 100% 54% 70% Nombres irrelevantes 76% 74% 75% Fechas irrelevantes 100% 98% 99% Cantidades irrelevantes 74% 83% 78% 5. Conclusiones Este artículo presenta una aproximación para construir sistemas de extracción de información. En general, la propuesta está soportada principalmente por un análisis de expresiones regulares y técnicas de clasificación de texto. Con esto se evita emplear cualquier tipo de análisis lingüístico sofisticado. Nuestros experimentos demuestran el potencial de esta aproximación. Usando un conjunto de entrenamiento relativamente pequeño, alcanzamos una medida-f promedio de 83% para la tarea de extracción de información. También, se puede concluir que la principal desventaja de esta propuesta es que no es posible extraer información expresada de forma implícita en los textos. Además, es complicado extraer y enlazar la información desde documentos que reportan más de un evento de interés. Creemos que tales problemas pueden ser parcialmente resueltos usando algún nivel de análisis lingüístico como etapa de pre-procesamiento, justo antes de aplicar la identificación de entidades. Agradecimientos El presente trabajo fue parcialmente financiado por el CONACYT (Proyectos U39957-Y y 43990). Asimismo, el primer autor agradece al CONACYT por el apoyo otorgado a través de la Beca para Estudios de Maestría # 171610. Por su parte, el segundo autor agradece a la Secretaría de Estado de Educación y Universidades, España. Referencias [1] Aas K., Eikvil L., Text Categorization: a Survey, Technical Report, Norwegian Computing Center (1999) [2] Cowie, J., Lehnert, W., Information Extraction. Communications of the ACM, Vol. 39, No. 1 (1996) 80-91 [3] Manning, C., Schütze, H., Foundations of Statistical Natural Language Processing. MIT Press (1999) [4] Muslea, I., Extraction Patterns for Information Extractions Tasks: A Survey. In Proceedings of the AAAI Workshop on ML for Information Extraction (1999) [5] Turno, J., Information Extraction, Multilinguality and Portability. Revista Iberoamericana de Inteligencia Artificial. No. 22 (2003) 57-78 [6] Bouckaert, R., Low level information extraction. In Proceedings of the workshop on Text Learning (TextML-2002), Sydney, Auxtralia (2002)

[7] Zavrel, J., Berck, P., Lavrijssen, W., Information Extraction by Text Classification: Corpus Mining for Features. In Proceedings of the workshop Information Extraction meets Corpus Linguistics, Athens, Greece (2000) [8] Kushmerick, N., Johnston, E., McGuinness, S., Information Extraction by Text Classification. 17th International Join Conference on AI (IJCAI-2001), N. Kushmerick Ed. Adaptive Text Extraction and Mining (Working Notes), Seattle, Washington (2001) 44-50 [9] Sebastiani, F., Machine Learning in Automated Text Categorization: a Survey. Technical Report IEI-B4-31-1999, Istituto di Elaborazione dell Informazione (1999) [10] Witten, I. H., Frank, E., Data Minning: Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann (2000)