Un etiquetador morfológico para el español de Cuba

Universidad de Oriente Facultad de Matemática y Computación Un etiquetador morfológico para el español de Cuba Tesis en opción al título de Máster en Ciencia de la Computación Presentada por: Lic. Lisette García Moya Dirigida por: Dra.C. Aurora Pons Porrata Dr.C. Leonel Ruiz Miyares Santiago de Cuba, Septiembre 2008

A mis padres

Agradecimientos Quiero dar mis más sinceros agradecimientos a todas las personas que han posibilitado la realización de esta tesis: A mis tutores: Aurora Pons Porrata y Leonel Ruiz Miyares Ambos me brindaron apoyo, consejos e ideas importantes para llevar adelante este trabajo. En especial, quiero agradecer a Aurora Pons Porrata por permitirme seguir trabajando con ella en este maravilloso mundo de la investigación, por siempre confiar en mi, y sobre todo, por enseñarme con su ejemplo que cada día podemos ser mejores. A mis compañeros de CERPAMID y DATYS los cuales han hecho posible que guarde muy buenos recuerdos de mis primeros años de trabajo. Muy especialmente quiero agrader a Tamara, Yunior, Adrian y Henry, mis amigos en todo momento. A mis padres les estoy profundamente agradecida por su inmenso cariño y su apoyo constante. Ellos son la fuente que me inspira a ser cada día mejor. A todos, muchas gracias. i

Resumen Debido al gran volumen de información existente en la actualidad se hace necesario desarrollar técnicas de Minería de Textos para ayudar a los usuarios a procesarla. Para esto se requiere de un conjunto de herramientas básicas del Procesamiento de Lenguaje Natural, entre las que se encuentran los etiquetadores morfológicos, los cuales son herramientas capaces de asignarle a cada palabra de un documento textual la categoría gramatical que le corresponde de acuerdo al contexto en que ésta aparece. Este trabajo se centra en la construcción de un etiquetador morfológico para el idioma español adaptado a las características propias del español de Cuba que garantice su integración con otras herramientas de análisis del lenguaje natural. En el trabajo se propone un modelo híbrido para el etiquetado que se basa en los Modelos Ocultos de Markov combinados con diversas heurísticas, diccionarios y varias técnicas de suavizado. Los experimentos se realizaron sobre dos corpus pertenecientes a dominios diferentes del conocimiento: Legal y Prensa para los cuales se obtuvo una precisión entre 95.6 % y 97.6 %, resultados que se consideran satisfactorios. Además, en la comparación realizada con dos etiquetadores para el español ampliamente utilizados en la actualidad: el TreeTagger y el FreeLing, se alcanzaron resultados superiores. ii

Abstract Because of the great amount of information that exists nowadays, it is necessary to develop Text Mining techniques to help users to process it. With this purpose, a set of basic tools for Natural Language Processing is required, such as morphological taggers, that is, tools which are able to provide the grammatical category for each word in a text document, according to the context in which it appears. This work focuses on the construction of a morphological tagger for the Spanish language adapted to the particular characteristics of the Cuban variant of Spanish which can be integrated with other natural language analysis tools. In this work, a hybrid model for tagging based on Hidden Markov Models combined with many heuristics, dictionaries and smoothing techniques is proposed. The experiments were carried out over two corpora containing documents from different knowledge domains: Legal and Press, for which precision values between 95.6 % and 97.6 % were obtained. In our opinion, the proposal method yields encourage results. Besides, our tagger outperformed two of the Spanish taggers which are more widely used nowadays: TreeTagger and FreeLing. iii

Índice general Introducción 1 1. Principales aproximaciones al etiquetado morfológico 5 1.1. Sistemas deductivos basados en el conocimiento............... 6 1.2. Sistemas inductivos basados en técnicas de aprendizaje automático.... 8 1.2.1. Aprendizaje basado en ejemplos.................... 9 1.2.2. Aprendizaje basado en reglas de transformación........... 11 1.2.3. Modelos de Máxima Entropía..................... 13 1.2.4. Árboles de decisión........................... 14 1.2.5. Redes Neuronales Artificiales..................... 15 1.2.6. Modelos Ocultos de Markov...................... 16 1.3. Sistemas híbridos................................ 24 2. Descripción del etiquetador morfológico propuesto 26 2.1. Listado de etiquetas.............................. 26 2.2. Arquitectura del etiquetador.......................... 28 2.3. Descripción del segmentador.......................... 29 2.3.1. Reconocimiento de fechas y horas................... 31 2.3.2. Reconocimiento de números...................... 32 2.3.3. Reconocimiento de viñetas....................... 32 2.3.4. Reconocimiento de locuciones..................... 33 2.3.5. Reconocimiento de identificadores................... 34 2.3.6. Reconocimiento del fin de oración................... 34 2.4. Heurísticas empleadas............................. 35 iv

2.5. Proceso de desambiguación........................... 35 2.5.1. Técnicas de suavizado empleadas................... 36 2.5.2. Tratamiento de las palabras desconocidas............... 37 2.6. Lematizador................................... 39 3. Experimentos realizados 40 3.1. Entorno experimental.............................. 40 3.2. Análisis de la efectividad de los modelos propuestos............. 44 3.3. Análisis de adaptabilidad al dominio..................... 48 3.4. Comparación con otros etiquetadores..................... 50 Conclusiones 52 Referencias bibliográficas 53 Anexo I: Tablas de etiquetas por categorías 59 Anexo II: Emparejamiento de las etiquetas del FreeLing y del TreeTagger a las nuestras 64 v

Introducción En los últimos años, el volumen de información digital disponible ha crecido vertiginosamente. Nuevas informaciones son generadas a tal velocidad, que es imposible su análisis manual y su exploración efectiva. Como dijo Ronen Feldman el increíble crecimiento en los últimos años de la información disponible en fuentes en línea ha sido a la vez una bendición y una maldición (Feldman and Dagan, 1995). Se hace imprescindible el desarrollo de técnicas de Minería de Textos que permitan su procesamiento automático y análisis de forma eficiente. Por Minería de Textos se entiende todas aquellas técnicas que intentan descubrir conocimiento a partir de grandes volúmenes de información textual. Dicho conocimiento no tiene por qué aparecer de forma explícita en algún documento e incluso puede surgir de relacionar el contenido de varios de ellos (Kodratoff, 1999). Estas grandes colecciones de documentos, por lo general, están formadas por textos libres, escritos en lenguaje natural, como, por ejemplo, las noticias de periódicos en línea y los correos electrónicos, aunque también podrían formar parte los códigos fuentes, las redes de bibliotecas digitales, etc. Todas las tareas de Minería de Textos requieren de herramientas básicas del Procesamiento de Lenguaje Natural (PLN) para el análisis y la comprensión de los documentos textuales. El PLN se define como una parte fundamental de la Inteligencia Artificial y su principal objetivo es lograr un perfecto análisis y entendimiento de los lenguajes humanos por parte de las máquinas. El tratamiento automático de una lengua es un problema de gran complejidad donde intervienen diversas y complejas fuentes de conocimiento como: fonética, morfología, sintaxis, semántica, pragmática, entre otras. Aunque muchas de estas fuentes de información se pueden considerar independientes, en general, sin una estrecha interrelación entre ellas, no sería posible una correcta interpretación del significado de las palabras en un documento. No obstante, los sistemas de PLN tienden a dividirse en componentes más o menos independientes entre sí, permitiendo abordar el procesamiento de una oración a través de una serie de niveles de análisis. La modularidad permite que el sistema sea flexible y que cada nivel pueda ser abordado por la técnica más adecuada en cada caso. Los niveles en los que se divide el análisis de una oración son: Análisis morfológico-léxico: transforma la cadena de caracteres de entrada en una 1

secuencia de unidades léxicas significativas (o tokens) haciendo uso de diccionarios y de reglas morfológicas. Análisis sintáctico: analiza la secuencia de unidades léxicas, de acuerdo a una gramática o modelo previamente definido, y produce una representación de su estructura sintáctica, en forma de árbol sintáctico, relaciones de dependencia, etc. Análisis semántico: a partir de la representación sintáctica genera otra estructura que representa el significado o sentido de una oración. Esta estructura semántica puede ser una forma lógica, una estructura de huecos, etc. Análisis contextual o pragmático: a partir de la representación semántica y teniendo en cuenta las circunstancias del contexto genera la interpretación de la oración. Dentro del nivel Análisis morfológico-léxico se encuentran los etiquetadores morfológicos, herramientas que tienen como principal objetivo determinar la categoría morfológica correcta de cada palabra de un documento según el contexto dentro de la oración en que aparezca dicha palabra. Durante los últimos años se han desarrollado muchos etiquetadores morfológicos para casi todos los idiomas, siendo el inglés el más popular. La mayoría de ellos no están disponibles de forma gratuita y algunos sólo conceden licencias de investigación sin el código fuente. Sin embargo, existen varios grupos de investigación de diferentes universidades que han puesto a disposición de todos estas herramientas de forma gratuita y en algunos casos han proporcionado, además, su código fuente. No obstante, muchas veces el conjunto de etiquetas que ofrecen como salida no se adecua lo suficiente a la tarea en la que queremos emplearlos o su integración con otras herramientas no es factible porque no fueron concebidos con este fin. En otros casos, el entrenamiento del modelo se ha realizado sobre un dominio de conocimiento específico y no se brinda la posibilidad de entrenarlos en el área del conocimiento que más se adecue al trabajo en que será empleado. Dos de los etiquetadores morfológicos más usados en la actualidad y reportados con muy buenos resultados para el español son el TreeTagger (Schmid, 1994a) desarrollado por el Instituto de Lingüística Computacional de la Universidad de Stuttgart y el FreeLing (Carreras et al., 2004) del Centro de Investigación TALP de la Universidad Politécnica de Cataluña. El TreeTagger permite etiquetar textos escritos en alemán, inglés, francés, italiano, holandés, español, búlgaro, ruso, griego, portugués y chino. Además, sólo puede ser usado con licencia de investigación, permite ser entrenado y no se ofrece su código fuente. Por su parte, el FreeLing permite etiquetar textos en español, catalán e inglés. Es gratuito, con código abierto y permite ser entrenado. Existen diferencias entre el español que se habla en Cuba y el español que se habla en otros países de habla hispana. En sentido general, en Cuba existe una esencial homogeneidad lingüística. El sistema fonológico, el morfosintáctico y también el léxico son básicamente los mismos, sobre todo en el habla culta que es la que menos varía. En este sentido, podemos afirmar que las peculiaridades socioculturales que distinguen la sociedad 2

cubana contemporánea han impuesto una ascendente línea de integración idiomática nacional. Son el español, las lenguas del África subsahariana y la lengua de los indocubanos las tres corrientes lingüísticas que convergen en la formación de las características del español de Cuba, visibles por lo menos en el nivel léxico de la lengua. Ahora bien, podemos afirmar que en Cuba poseemos una modalidad de lengua española que toma al español estándar como norma lingüística. Entiéndase como español estándar aquel que se emplea en América de manera general. Con éste mantiene semejanzas y diferencias. Las diferencias están dadas fundamentalmente en el nivel léxico. Palabras de origen africano como: quimbombó, jubo, biyaya, fufú, sirimba, sambumbia, cachimba, guineo, conga, etc., enriquecen nuestra variante de lengua nacional conjuntamente con jobo, macana, tranca, fotuto, butaca, hayaca, cutara, manía, batey, cacique, ñata, sobaco, guanaja, guamo, caguairán, etc., que son de origen indio. Con respecto al nivel morfológico de la lengua, no hay diferencias notables con las otras variantes de español de otros países. Sin embargo, una peculiaridad morfológica pudiera ser mencionada: vos existe muy poco en Cuba, tú se usa en forma de confianza y usted cuando la relación requiere un trato cortés, formal y de respeto. Teniendo en cuenta las características propias del español de Cuba mencionadas, es de interés poder contar con un etiquetador morfológico apropiado, capaz de lidiar con estas peculiaridades. Con este fin nos propusimos construir un nuevo etiquetador morfológico enfocado principalmente al español de Cuba. En Cuba sólo tenemos como antecedente de este tipo de estudio el realizado en el Centro de Lingüística Aplicada de Santiago de Cuba, donde se desarrolló el etiquetador gramatical ETIPROCT (ETIquetador y PROcesador de Corpus Textuales) con resultados satisfactorios (Ruiz-Miyares, 2001). Sin embargo, el conjunto de etiquetas es limitado y no permite obtener la información morfológica ni el lema de cada palabra. Se define como lema a la forma canónica de una palabra. Una misma palabra podría tener más de un lema, por ejemplo, el lema de la palabra camino, es camino si ésta es un sustantivo o caminar si es un verbo. Este trabajo tiene como objetivo desarrollar un etiquetador morfológico multiplataforma para el idioma español adaptado a las características propias del español de Cuba que garantice su integración con otras herramientas de análisis del lenguaje natural, y realizar una análisis comparativo de nuestra propuesta con el TreeTagger y el FreeLing. La tesis está estructurada en una introducción, tres capítulos, las conclusiones y dos anexos. En el capítulo 1 Principales aproximaciones al etiquetado morfológico se explican los modelos más empleados en el etiquetado de documentos textuales, cuáles son sus presupuestos y las ventajas y desventajas de cada uno. El capítulo 2 Descripción del etiquetador morfológico propuesto describe las principales características del etiquetador que proponemos. En el capítulo 3 Experimentos realizados se describen algunas de las pruebas realizadas para medir la calidad de los diferentes modelos propuestos y determinar cuál es la variante adecuada para ser empleada en nuestro etiquetador. Finalmente, se dan las conclusiones de nuestro trabajo y las recomendaciones para el trabajo futuro. El 3

anexo I describe cada una de las etiquetas con su información morfológica asociada, las cuales constituyen la salida de nuestro etiquetador morfológico, y el anexo II se refiere al emparejamiento realizado de las etiquetas de salida del TreeTagger y del FreeLing con las etiquetas propuestas, para permitir su análisis comparativo. 4

Capítulo 1 Principales aproximaciones al etiquetado morfológico El análisis de cualquier documento textual requiere de un conjunto de herramientas básicas del PLN entre las que se encuentran los etiquetadores morfológicos. Estas herramientas solucionan uno de los principales problemas de ambigüedad del lenguaje natural: la ambigüedad gramatical, que viene dada porque una palabra puede tener asociada más de una categoría gramatical (sustantivo, adjetivo, verbo, etc.) en dependencia de la función que desempeña en la oración. Un ejemplo de palabra ambigua es bajo, ya que en dependencia del contexto en que aparezca puede hacer función de sustantivo, adjetivo, adverbio, preposición o verbo. Por ejemplo: Yo bajo con el hombre bajo a tocar el bajo bajo la escalera. verbo adj. sust. prep. Pon el volumen de la radio más bajo. adv. Por tanto, usando técnicas de desambiguación gramatical los etiquetadores morfológicos son los encargados de determinar para cada palabra su categoría gramatical correcta de acuerdo al contexto en que aparezca en la oración; además, la salida puede venir acompañada de la información morfológica (género, número, persona, etc.). Toda esta información se puede resumir en una sola etiqueta o part-of-speech (POS, en inglés), por ejemplo: (la, AF), donde A significa que es un artículo y F que su género es femenino; (baila, VIPPIP3S), donde V indica que es un verbo, I intransitivo, P pronominal, P en forma personal, I del modo indicativo, P tiempo presente, 3 tercera persona y S número singular. En lo que sigue, definiremos contexto como un conjunto de palabras o símbolos en una vecindad de la palabra o símbolo que se está analizando, la cual llamaremos palabra foco. 5

Los etiquetadores morfológicos son dependientes del idioma debido a que se apoyan en el contexto donde aparece la palabra que se desea etiquetar para determinar la categoría gramatical que le corresponde. Las construcciones gramaticales pueden variar mucho de un idioma a otro. Por ejemplo, en la oración en español Quiero darte el libro rojo, si la analizamos gramaticalmente obtenemos: (Quiero, verbo en forma personal), (darte, verbo en infinitivo con enclítico), (el, artículo), (libro, sustantivo común), (rojo, adjetivo) La misma oración escrita en inglés sería I want to give you the red book : (I, pronombre personal), (want, verbo en forma personal), (to give, verbo en infinitivo), (you, pronombre personal), (the, artículo), (red, adjetivo), (book, sustantivo común) Como se puede apreciar, el orden de las palabras dentro la oración no es el mismo. Además, los etiquetadores, en su mayoría, emplean información morfológica de las palabras para construir sus etiquetas de salida y dicha información pudiera ser diferente en dependencia del idioma. Otra característica que marca la dependencia de los etiquetadores al idioma para el cual fueron concebidos, es que generalmente se auxilian de conjuntos de diccionarios. Los etiquetadores morfológicos se pueden clasificar en tres grupos en dependencia de la forma que emplean para modelar el conocimiento: los deductivos basados en el conocimiento, los inductivos basados en técnicas de aprendizaje automático (o basados en corpus) y los híbridos (figura 1.1). En los primeros, también conocidos como aproximaciones lingüísticas, el conocimiento es modelado por expertos (lingüistas) utilizando formalismos gramaticales, generalmente en forma de reglas o restricciones. Los segundos consideran que el conocimiento se puede inferir a partir de la experiencia, por lo que construyen un modelo computacional del lenguaje a partir de ejemplos. Generalmente emplean métodos estocásticos o probabilísticos para modelar el conocimiento, aunque podrían emplearse otras técnicas. Estos métodos se pueden clasificar a su vez en supervisados o no supervisados, en dependencia si el conjunto de entrenamiento está anotado con información lingüística o no. Por último, los modelos híbridos combinan información estadística con reglas gramaticales construidas de forma manual o automática tratando de aprovechar las ventajas de los dos primeros enfoques. 1.1. Sistemas deductivos basados en el conocimiento Estos sistemas utilizan un conjunto de reglas de contexto con el objetivo de predecir o restringir el conjunto de categorías gramaticales de una palabra; por este motivo también se les conoce como sistemas basados en reglas. Estas reglas se definen manualmente por 6

Figura 1.1: Clasificación de los enfoques empleados en el etiquetado morfológico. especialistas y la cantidad puede variar desde unos pocos cientos hasta miles (Paulussen, 1992). Entre los primeros etiquetadores que se desarrollaron basados en esta aproximación, se puede mencionar el Computational Grammar Coder (Klein and Simmons, 1963) y el sistema TAGGIT (Greene and Rubin, 1971). Este último fue utilizado como un primer paso en la construcción de grandes corpus como el Brown (Francis and Kucera, 1982), aunque sólo pudo desambiguar el 77 % del mismo; el resto se hizo manualmente en un período de varios años. Otros trabajos en esta área son el de Koskenniemi, el cual empleó una aproximación basada en reglas implementada con una máquina de estados finitos (Koskenniemi, 1990) y el etiquetador DILEMA (Paulussen and Martin, 1992). El trabajo realizado por el grupo TOSCA de la Universidad de Nijmegen (van Halteren and Oostdijk, 1993), y más recientemente, el formalismo basado en Gramáticas de restricción (Constraint Grammar) (Karlsson, 1990) y su aplicación al etiquetado morfológico como es el caso del EngCG (Voutilainen, 1997), son considerados los más importantes en esta dirección. El formalismo de las Gramáticas de restricción también ha sido aplicado a otros idiomas además del inglés, como son el turco (Oflazer and Kuruöz, 1994) y el vasco (Aduriz et al., 1995). La principal ventaja de las aproximaciones lingüísticas es que construyen un modelo del lenguaje desde el punto de vista lingüístico, por lo que se pueden incluir muchas y complejas fuentes de información, difíciles de capturar de manera automática. Este hecho las hace más expresivas, por lo que en general, suelen proporcionar mejores prestaciones en tareas de desambiguación si se comparan con otro tipo de aproximaciones. Sin embargo, estos sistemas no funcionan de forma eficaz y robusta cuando se trata de aplicaciones de amplia cobertura que trabajan con grandes volúmenes de información sin ningún tipo de restricción (Molina, 2004). Otra limitación es que son muy costosos, debido a que son muy dependientes del idioma para el cual han sido diseñados, las reglas de contexto se deben 7

confeccionar manualmente y la casuística a considerar es muy grande; en muchas ocasiones se presentan situaciones que no habían sido contempladas. Todo esto dificulta mucho su portabilidad de una tarea a otra, y mucho más el paso de un idioma a otro. 1.2. Sistemas inductivos basados en técnicas de aprendizaje automático Estos sistemas consideran que el conocimiento lingüístico se puede inferir a partir de la experiencia a menudo recogida en corpus textuales; por eso son conocidos también como sistemas basados en corpus. Se clasifican en supervisados o no supervisados en dependencia de si los ejemplos que emplean durante su etapa de entrenamiento o aprendizaje contienen información lingüística o no. Las diferentes aproximaciones basadas en esta técnica se diferencian unas de otras en el método de aprendizaje y en la complejidad del modelo que construyen. A diferencia de los etiquetadores basados en el conocimiento, los basados en técnicas de aprendizaje automático pueden manipular gran cantidad de documentos textuales sin imponer restricción en cuanto a su dominio. Los sistemas inductivos se han aplicado con éxito en el etiquetado morfológico. Se conoce como corpus textual a una amplia colección de documentos textuales en la cual se debe recoger una muestra significativa del uso del idioma sobre el cual se desea trabajar. El valor de un corpus textual aumenta con la cantidad y calidad de la información recopilada, así como con la diversidad del dominio y el uso de los términos lingüísticos empleados en la colección. En la actualidad existe una gran cantidad de corpus para el inglés, entre los que podemos mencionar el WSJ (300 Mb de textos de inglés americano), el British National Corpus con 100 millones de palabras, el Penn Treebank que contiene 3 millones de palabras analizadas sintácticamente; para el castellano, el más importante es el CREA recopilado por la RAE (Màrquez et al., 1998a), disponible sólo para consultas en línea. Se conocen como etiquetadores supervisados aquellos que requieren que su data de entrenamiento se encuentre etiquetada con las categorías gramaticales para poder extraer de ellas las características representativas del idioma. Por lo general, el etiquetado de los corpus se realiza manualmente, lo cual es un trabajo costoso y que consume mucho tiempo. No obstante, siempre es menos costoso que la construcción de miles de reglas manualmente como ocurre en los sistemas deductivos, y no se corre el riesgo de que se queden sin considerar algunas estructuras gramaticales del dominio en que se desee trabajar. Por su parte, los etiquetadores no supervisados son aquellos que no requieren de un corpus etiquetado previamente, pero necesitan de métodos matemático-computacionales sofisticados para obtener la información requerida en el etiquetado. La ventaja de los etiquetadores supervisados radica en la obtención de coeficientes estadísticos consistentes. Cuanto más amplio sea el corpus textual etiquetado, más fiables resultan los cálculos estadísticos posteriores. Por otro lado, los etiquetadores no supervisa- 8

dos reducen drásticamente el tiempo de entrenamiento, pero sus resultados no tienen la alta fiabilidad de los supervisados (van Guilder, 1995). Existen muchos métodos inductivos que han sido empleados con éxito para resolver el problema de la desambiguación gramatical, entre ellos podemos mencionar el aprendizaje basado en ejemplos, el aprendizaje basado en reglas de transformación, los modelos de máxima entropía, los árboles de decisión, las redes neuronales y los modelos de Markov. 1.2.1. Aprendizaje basado en ejemplos Al aprendizaje basado en ejemplos (Memory-based Learning, MBL) también se le conoce por basado en similitud, basado en memoria, etc. Es un método supervisado que basa su funcionamiento en el principio de similitud. Los ejemplos se representan como vectores de valores de rasgos asociados a una categoría gramatical. La regla del k-vecino más cercano es un caso particular de MBL. Durante el entrenamiento, el conjunto de ejemplos (conjunto de entrenamiento) se presenta de forma incremental al clasificador y se almacena en memoria. Durante la etapa de prueba, la clasificación de una nueva observación X se realiza utilizando una función de similitud, mediante la cual se obtienen los k ejemplos más similares a la nueva observación. Finalmente, la clase de X es la clase más frecuente entre los ejemplos más similares obtenidos (Daelemans et al., 1996). El rendimiento de los sistemas basados en memoria depende en gran medida de la distancia (o la medida de similitud) empleada. La medida de distancia más sencilla se muestra en la ecuación 1.1, donde X = (x 1, x 2,..., x n ) y Y = (y 1, y 2,..., y n ) son ejemplos a ser comparados y δ (x i, y i ) es la distancia entre los valores del i-ésimo rasgo de X y Y. (X, Y ) = n δ (x i, y i ) (1.1) i=1 La distancia entre dos valores se puede calcular según la ecuación 1.2 (Aha et al., 1991). δ (x i, y i ) = { 0 si xi = y i 1 en otro caso (1.2) Esta medida se conoce como IB1. En la misma, todos los rasgos que describen a un ejemplo se consideran igualmente importantes para el problema de la clasificación, pero esto no se cumple siempre. Daelemans propone pesar cada rasgo con su ganancia de información, es decir, con un número que expresa la cantidad promedio de reducción de la entropía del conjunto de entrenamiento cuando se conoce el valor del rasgo (ecuación 1.7). A esta nueva ecuación se le conoce como IB-IG. La entropía de la información del conjunto de entrenamiento (D) es igual al número de 9

bits de información necesario para conocer la categoría dado un ejemplo. Ésta se calcula mediante la ecuación 1.3, donde p i (la probabilidad para la categoría c i ) se estima por su frecuencia relativa en el conjunto de entrenamiento. H(D) = i p i log 2 p i (1.3) Por cada rasgo, conocido su valor, se calcula cuál es su ganancia de información. Para esto, se calcula la entropía de información promedio para este rasgo y se substrae de la entropía de la información del conjunto de entrenamiento. Para calcular la entropía de información promedio para un rasgo (ecuación 1.4), se toma la entropía de información promedio del conjunto de entrenamiento restringido a cada posible valor del rasgo. La expresión D [f=v] se refiere a los ejemplos en el conjunto de entrenamiento que tienen el valor v para el rasgo f, V f es el conjunto de los posibles valores para el rasgo f y v V f. Finalmente, D es el número de ejemplos en el conjunto de entrenamiento. H(D [f] ) = H(D [f=vi ]) D [f=vi] D v i V f (1.4) Una desventaja de esta ecuación es que tiende a favorecer a los rasgos con muchos valores. Esto se puede rectificar normalizando la ganancia de información de un rasgo, es decir, dividiendo éste por el número de bits requeridos para determinar el rasgo (el cual depende de su número de valores). split info(f) = D [f=vi] D v i V f log 2 D [f=vi ] D (1.5) La ganancia de información del rasgo f se obtiene con la ecuación 1.6, y se usa como el peso para el rasgo durante el cálculo de la distancia. G(f) = H(D) H(D [f] ) split info(f) (1.6) Finalmente, la distancia de la ecuación 1.1 se modifica para tener en cuenta el peso asociado a cada rasgo de la siguiente forma: (X, Y ) = n G (f i ) δ (x i, y i ) (1.7) i=1 El aprendizaje basado en ejemplos requiere mucho espacio en memoria para almacenar todos los ejemplos vistos durante la etapa de entrenamiento. Por otro lado, el proceso de 10

clasificación presenta un excesivo costo computacional, ya que cada instancia a ser clasificada se debe comparar con todos los ejemplos almacenados. Sin ninguna optimización, el método resultaría excesivamente costoso. El formalismo más ampliamente utilizado para la representación de los ejemplos son los árboles de decisión. Daelemans propone el algoritmo IGTree (Daelemans et al., 1996) para optimizar tanto la representación, comprimiendo cada ejemplo base mediante una estructura de árbol, como la clasificación, la cual se ve muy favorecida por la estructura elegida. En el etiquetado morfológico, los rasgos que representan a cada palabra dependen de si ésta es conocida o no. Una palabra se considera conocida si apareció durante la etapa de entrenamiento. El vector de rasgos para las palabras conocidas contiene: la categoría gramatical desambiguada de las dos palabras precedentes a la palabra foco, la clase de ambigüedad de la palabra foco y la clase de ambigüedad de la palabra posterior a la palabra foco. Para las palabras desconocidas los rasgos del vector son: la categoría gramatical de la palabra precedente a la palabra foco, la primera letra y el sufijo (3 últimas letras) de la palabra foco y la clase de ambigüedad de la palabra posterior a la palabra foco. 1.2.2. Aprendizaje basado en reglas de transformación En 1992, Eric Brill (Brill, 1992) introdujo el formalismo de aprendizaje basado en reglas de transformación guiado por el error (Transformation-Based Error-Driven learning, TBL), el cual es un modelo supervisado que consiste en el aprendizaje de un conjunto de reglas que tienen en cuenta un conjunto limitado de rasgos. Con este método se reducen las limitaciones más comunes de los sistemas basados en reglas; los sistemas que emplean este método son más robustos y obtienen las reglas de forma automática. Además, se plantea que presenta algunas ventajas sobre los modelos estocásticos ya que requieren almacenar menos información y las reglas que construyen son más comprensibles que grandes tablas estadísticas. Por este motivo resulta más fácil la implementación de mejoras y su portabilidad de un conjunto de etiquetas a otro, o de un dominio a otro. Estos sistemas trabajan reconociendo y corrigiendo automáticamente sus deficiencias, y de ese modo mejorando incrementalmente sus prestaciones. Este formalismo ha sido aplicado al etiquetado morfológico (Brill, 1992). El proceso de etiquetado consta de varios pasos importantes. Como primer paso, se le asigna a cada palabra su categoría gramatical más probable, la cual se estima a partir de un gran corpus anotado y no tiene en cuenta el contexto en el cual aparece dicha palabra. Este etiquetado inicial incorpora dos heurísticas para mejorar su prestación, las cuales están orientadas a trabajar con las palabras no vistas en el corpus de entrenamiento. La primera heurística consiste en considerar como nombre propio las palabras que comienzan con mayúsculas y como nombre común al resto. En la segunda, se le asigna la categoría gramatical más frecuente de las palabras que terminan con las mismas tres letras que la palabra desconocida. Como segundo paso, se compara la salida del etiquetador con las categorías gramaticales correctas del corpus de referencia obteniéndose una lista de los errores cometidos. 11

La lista está formada por tuplas de la forma < tag a, tag b, number >, indicando el número de veces que se cometió el error de asignarle a una palabra la categoría tag a cuando la correcta era tag b. A partir de este listado de errores se construyen las reglas y se ordenan de forma tal que al aplicarlas se minimice el error, mejorando lo más posible la calidad del etiquetador. Este proceso se repite iterativamente hasta que las mejoras estén por debajo de cierto umbral. Las reglas tienen la forma: Si una palabra tiene categoría gramatical a y su contexto es C, entonces asignarle la categoría gramatical b Si una palabra tiene categoría gramatical a y sus propiedades léxicas son P, entonces asignarle la categoría gramatical b Si una palabra tiene categoría gramatical a y una palabra en la región R tiene propiedades léxicas P, entonces asignarle la categoría gramatical b Un ejemplo de este tipo de regla para el inglés es: Cambiar la categoría infinitivo por preposición si una palabra está etiquetada como infinitivo y la siguiente como artículo El proceso de etiquetado de nuevos datos comienza con el etiquetado básico, y luego, aplica las reglas aprendidas en el orden definido en la fase de aprendizaje. Por lo general, se entrena al etiquetador con el 90 % del corpus etiquetado (corpus de entrenamiento). El 5 % del corpus se usa como corpus de referencia y el 5 % restante, como corpus de prueba. Unos años más tardes, Brill propone algunas extensiones a este paradigma (Brill, 1994). Éstas incluyen la lexicalización del etiquetador, mejores heurísticas para el etiquetado de las palabras desconocidas y la asignación de las k-mejores categorías gramaticales por palabra. La lexicalización adiciona transformaciones contextuales que tengan en cuenta a la palabra propiamente y no sólo a las categorías gramaticales como se venía haciendo tradicionalmente. Un ejemplo de este tipo de reglas para el inglés sería: Cambiar la categoría gramatical preposición por adverbio si la palabra situada dos posiciones a la derecha es as Con el propósito de mejorar la precisión del etiquetado de las palabras desconocidas, se construyeron reglas enfocadas en este propósito. De manera general, este nuevo modelo de reglas tiene en cuenta la presencia de determinados caracteres en las palabras, así como, los sufijos, los prefijos y la palabra que resulta de la eliminación de algunos caracteres al inicio o al final de la palabra desconocida. Las reglas contextuales sufren algunas modificaciones con el objetivo de permitir dar más de una categoría gramatical por palabra. 12

1.2.3. Modelos de Máxima Entropía El modelo de máxima entropía (Maximum Entropy, ME) es un modelo estadístico supervisado que tiene como objetivo maximizar la entropía de una distribución de probabilidad sujeta a ciertas restricciones. Este modelo debe ser consistente con los eventos observados durante el entrenamiento satisfaciendo las restricciones impuestas y no asume ningún conocimiento acerca de los eventos no vistos en el entrenamiento. La aplicación más relevante de este modelo al etiquetado morfológico fue desarrollada por Ratnaparkhi (Ratnaparkhi, 1996). El modelo de probabilidad se define como el par H C, donde H es el conjunto de posibles palabras y categorías gramaticales del contexto o historia y C es el conjunto de categorías gramaticales permisibles. La probabilidad de una historia h junto con una categoría gramatical c se define como: p (h, c) = θµ n j=1 α f j(h,c) j donde θ es una constante de normalización, {µ, α 1, α 2,..., α n } son los parámetros del modelo y {f 1, f 2,..., f n } son las características o rasgos que toman los valores 0 ó 1. A cada rasgo f j le corresponde un parámetro α j. El valor de un rasgo para predecir una clase c viene determinado por el contexto o historia h. Los parámetros del modelo se seleccionan de forma que se maximice la probabilidad de los datos de entrenamiento para la distribución p y se obtienen aplicando el algoritmo Escalado Iterativo Generalizado (Generalized Iterative Scaling) (Darroch and Ratcliff, 1972). La historia h i definida para la palabra foco w i, si es una palabra conocida, se define como: h i = {w i, w i 1, w i 2, w i+1, w i+2, c i 1, c i 2 } esto es: la palabra foco, las dos palabras que le preceden y suceden, y las categorías gramaticales de las dos palabras que le preceden. Si la palabra foco es desconocida no se tiene en cuenta la palabra propiamente dicha, pero sí la información morfológica relacionada con ella, que puede ser prefijos, sufijos, si contiene guiones, caracteres en mayúscula, números, entre otras. Una palabra se considera desconocida si aparece menos de 10 veces en el corpus de entrenamiento. Por ejemplo, dada la oración: Los pueblos aborígenes son los más afectados Art Sust. común Adj Verb Art Adv Adj El vector de rasgos para la palabra son, si la consideramos una palabra conocida sería: h i = {w i = son; w i 1 = aborígenes; w i 2 = pueblos; w i+1 = los; w i+2 = más; c i 1 = Adj ; c i 2 = Sust. común} 13

Pero si lo que se desea etiquetar es la palabra aborígenes, suponiendo que es una palabra desconocida, el vector de rasgos sería: h i = {w i 1 = pueblos; w i 2 = los; w i+1 = son; w i+2 = los; c i 1 = Sust. común; c i 2 = Art; prefijo (w i ) = a; prefijo (w i ) = ab; prefijo (w i ) = abo; prefijo (w i ) = abor; sufijo (w i ) = s; sufijo (w i ) = es; sufijo (w i ) = nes; sufijo (w i ) = enes} En este ejemplo se consideró un cardinal de hasta 4 caracteres para los prefijos y sufijos; esta cantidad puede variar en dependencia de cuánto se desee considerar. Un rasgo f j, dado (h i, c i ), debe codificar toda la información que pueda ayudar a predecir c, tal como la ortografía de la palabra, etc. Por ejemplo: { 1 si wi = el y c f j (h i, c i ) = i = Art 0 en otro caso que indica que f j toma el valor 1 si en la historia h i la palabra w i es el y está etiquetada como un artículo (Art). El proceso de etiquetado requiere de una búsqueda para enumerar las secuencias de categorías gramaticales candidatas y selecciona como respuesta aquella cuya probabilidad sea mayor. El algoritmo de búsqueda empleado se le conoce como Beam Search (Colás-Pasamontes, 2001). Este proceso se realiza básicamente mediante un algoritmo de poda basado en la programación dinámica que en cada paso considera las secuencias candidatas con mayor probabilidad. 1.2.4. Árboles de decisión Los árboles de decisión (Decision Tree) representan reglas de clasificación para determinar a qué clase pertenece un objeto de cierto dominio dentro de un conjunto de clases mutuamente excluyentes. En el ámbito del etiquetado morfológico, las clases son las diferentes categorías gramaticales. Los árboles de decisión se construyen automáticamente a partir de los datos de entrenamiento y el proceso de clasificación de un ejemplo nuevo consiste en recorrer dicho árbol desde el nodo raíz hasta un nodo hoja, en el cual se representa la clase a asignar. Algunas veces los árboles de decisión definen una probabilidad de distribución sobre el conjunto de clases; en estos casos se denominan árboles de decisión estadísticos. Estas probabilidades usualmente se estiman a partir de las frecuencias relativas, incluyendo además, algunos tipos de suavizado con el objetivo de obtener mejores estimaciones para los eventos menos representados (Màrquez, 1999). La inducción es la tarea de construir el árbol a partir de un conjunto de entrenamiento; a la familia de los algoritmos de inducción usualmente se le conoce como TDIDT (por su nombre en inglés, Top-Down Induction of Decision Trees). El algoritmo más ampliamente empleado es C4.5 (Quinlan, 1993). Relacionado con el etiquetado morfológico, Màrquez (Màrquez, 1999) propone no emplear los árboles de decisión estadísticos como clasificadores directos, sino incorporarlos como un mó- 14

Figura 1.2: Fragmento de un árbol de decisión. dulo estadístico dentro de algoritmos más complejos. Esta inclusión se puede llevar a cabo bajo diferentes representaciones internas: árboles de decisión, reglas con pesos, restricciones con pesos, etc., en dependencia del tipo de algoritmo de etiquetado que se vaya a emplear. En el TreeTagger (Schmid, 1994a) se estiman las probabilidades de transición usando un árbol de decisión binario (ver figura 1.2). La probabilidad de un trigrama dado (probabilidad de que una categoría gramatical se le asigne a una palabra teniendo en cuenta las dos anteriormente asignadas) se determina recorriendo el árbol desde la raíz hasta que se encuentra un nodo hoja. Por ejemplo, si quisiéramos determinar la probabilidad de que una palabra sea un sustantivo (Sust) si las palabras que le preceden son un artículo (Art) y un adjetivo (Adj ), P (Sust Art, Adj), lo primero es preguntar si la palabra que precede es Adj ; en caso de que la respuesta sea afirmativa se sigue por el camino Sí. Lo próximo es preguntar si la palabra ubicada dos posiciones a la izquierda es un Art; si la respuesta es nuevamente positiva, se llega a un nodo hoja, donde se encuentra que Sust con un 70 % es la categoría gramatical con mayor probabilidad de las posibles a ser asignadas. El árbol de decisión automáticamente determina el tamaño apropiado del contexto que se usará para estimar las probabilidades de transición. En los posibles contextos no sólo se consideran trigramas, bigramas o unigramas, sino también, otros tipos de contexto como por ejemplo: (c 1 = Adj y c 2 Sust y c 2 Prep) donde c i indica la categoría gramatical de la palabra que se encuentra i posiciones a la izquierda de la palabra que se desea etiquetar. Muchos otros investigadores han empleado los árboles de decisión al etiquetado de textos, como por ejemplo (Màrquez et al., 1998a) y (Orphanos et al., 1999). 1.2.5. Redes Neuronales Artificiales Las redes neuronales artificiales (Artificial Neural Networks) son modelos que basan su funcionamiento en la interacción entre un gran número de simples unidades de procesamiento (neuronas), conectadas unas a otras formando una red. Cuando una neurona se activa, provoca que 15

neuronas vecinas se activen también, proporcionando que el nivel de actividad de la neurona sea lo suficientemente alto; por tanto, los enlaces que conectan a la neurona activada con sus vecinas adquieren un peso más fuerte que el resto de los enlaces. El conocimiento se almacena en las redes neuronales en forma de pesos que se asocian a cada enlace entre neuronas. Cuando una entrada se presenta, la salida que se produce depende de cómo dicha entrada se propaga a través de la red. Por lo tanto, el entrenamiento consiste en calcular el peso correcto para cada enlace. Un ejemplo de algoritmo de aprendizaje para el cálculo de los pesos en una red multicapas es el algoritmo de retropropagación de los errores (backpropagation) (Haykin, 1999). Cuando las redes neuronales se entrenan correctamente adquieren la habilidad de generalización, esto es, son capaces de generar salidas correctas incluso cuando la entrada nunca antes había sido vista. Las redes neuronales han sido aplicadas con éxito al etiquetado morfológico de textos. Schmid (Schmid, 1994b) presenta un etiquetador basado en una red perceptrón multicapas que emplea backpropagation como método de entrenamiento. La entrada a la red comprende toda la información que se conoce sobre la palabra actual, las a palabras que le anteceden, y las b que le siguen. Es decir, por cada categoría gramatical c j y cada a + 1 + b palabras en el contexto, existe un valor de activación act ij que representa la probabilidad de que la palabra i tenga la categoría c j. En la capa de salida de la red, cada neurona se corresponde con una de las categorías gramaticales que el sistema esté considerando. Durante el entrenamiento, la red aprende a activar la neurona que representa a la categoría correcta y a desactivar las otras, por lo tanto, la activación más alta se corresponde con la categoría correcta para la palabra que se esté procesando en cada momento. Ma (Ma et al., 1999) construye una red perceptrón de 3-capas con entrada elástica. Primeramente, el contexto se considera tan grande como sea posible en aras de elevar la fidelidad del etiquetado. Luego, la longitud del contexto se reduce gradualmente si no se obtiene una respuesta única debido a la insuficiencia de los datos de entrenamiento. Marques (Marques et al., 2007) introduce una nueva forma de usar las redes neuronales, la cual consiste en enseñarla a que aprenda excepciones, las que se les adicionan en forma de reglas. Por cada regla se adicionan neuronas a una capa oculta de forma tal que solamente se activa si y sólo si la precondición de la regla se cumple. Entre otros trabajos que emplean las redes neuronales artificiales al etiquetado morfológico se pueden mencionar (Roth and Zelenko, 1998) para el inglés, (Maruf and Lua, 1996) para el chino y (Nemec, 2004) para el checo. 1.2.6. Modelos Ocultos de Markov Los modelos ocultos de Markov (Hidden Markov Models, HMM) son un método estocástico que permite modelar procesos aleatorios cuyas propiedades pueden variar en el tiempo. La teoría de los modelos de Markov fue desarrollada inicialmente por Andrei A. Markov (1913) y su primera aplicación fue de propósito lingüístico: modelar la secuencia de letras en los textos de la literatura rusa. Pero es a finales de los años 60 cuando Baum desarrolló la teoría actual de 16

los HMM, y a comienzos de los 70 cuando se utilizó en aplicaciones reales, en concreto, sistemas de reconocimiento del habla implementados por Baker (1975) en CMU y por Jelinek (1976) en IBM. 1.2.6.1. Procesos de Markov de tiempo discreto El modelo de Markov se puede definir como un conjunto de estados conectados por transiciones que tienen la propiedad de que la ley de probabilidad del desarrollo futuro del proceso depende sólo del estado y no de cómo llegó el proceso a dicho estado (Parzen, 1971). Consideremos un sistema que en cada instante de tiempo se encuentra en un determinado estado s i perteneciente al conjunto S = {s 1, s 2,..., s N } donde N es la cantidad de estados del modelo. Regularmente, transcurrido un espacio de tiempo discreto, el sistema cambia de estado (posiblemente volviendo al mismo), de acuerdo con un conjunto de probabilidades de transición asociadas a cada uno de los estados del modelo. Los instantes de tiempo asociados a cada cambio de estado se denotan como t = 1, 2,..., T. El resultado de este proceso estocástico es una secuencia T de observaciones Ô = (o 1o 2... o T ). En general, una descripción probabilística completa del sistema requeriría la especificación del estado actual, así como de todos los estados precedentes (Graña, 2000). Sin embargo, las cadenas de Markov presentan dos características muy importantes: 1. Propiedad del horizonte limitado. La probabilidad de estar en un estado depende de un número limitado de estados predecesores. En general, una cadena de Markov de orden n es la que utiliza n estados previos para predecir el siguiente estado. Por ejemplo, para el caso de las cadenas de Markov de tiempo discreto de primer orden tenemos que: P (s t s t 1, s t 2,..., s 1 ) = P (s t s t 1 ) La expresión P (s t s t 1 ) es lo que se conoce como probabilidad de transición entre los estados del modelo; en este caso representa la probabilidad de transición del estado s t 1 al s t. 2. Propiedad del tiempo estacionario. La probabilidad de transición entre dos estados no depende del instante de tiempo, por lo tanto, las probabilidades de transición se pueden representar mediante una matriz A = {a ij } donde: a ij = P (s j s i ), 1 i, j N son independientes del tiempo, pero con las restricciones estocásticas estándar: a ij 0, 1 i, j N N a ij = 1, j=1 1 i N Sin embargo, es necesario especificar también el vector Π = (π 1, π 2,..., π N ), que almacena la probabilidad que tiene cada uno de los estados de ser el estado inicial: N π i = 1, π i 0, 1 i N i=1 17

A un proceso estocástico que satisface estas características se le puede llamar un modelo de Markov observable, porque su salida es el conjunto de estados por los que pasa en cada instante de tiempo, y cada uno de estos estados se corresponde con un suceso observable. 1.2.6.2. Extensión a los modelos ocultos de Markov Hasta ahora se han considerado modelos de Markov en los cuales cada estado se corresponde de manera determinista con un único suceso observable, es decir, la salida en un estado dado no es aleatoria, sino que es siempre la misma. Esta modelación puede resultar demasiado restrictiva a la hora de ser aplicada a problemas reales. Una extensión al concepto original de modelos de Markov permitiría considerar aquellos casos en los cuales la observación es una función probabilística del estado. Como resultado se obtiene el modelo oculto de Markov, (HMM por sus siglas en inglés), el cual es un modelo doblemente estocástico, ya que uno de los procesos no se puede observar directamente (se encuentra oculto), sino que se puede observar a través de otro conjunto de procesos estocásticos, los cuales producen la secuencia de observaciones. Definición 1.1 Un HMM se caracteriza por la 5-tupla (S, O, π, A, B), donde: 1. S = {s 1, s 2,..., s N } es el conjunto de estados. 2. O = {o 1, o 2,..., o M } es el conjunto de las observaciones. 3. π = {π 1, π 2,..., π N } es la probabilidad de que un estado s i sea el estado inicial. 4. A = {a ij } es la probabilidad de transición del estado s i al estado s j. 5. B = {b i (o k )} es la probabilidad de que el modelo emita la observación o k estando en el estado s i. b i (o k ) = P (o k s i ), b i (o k ) 0, 1 i N, 1 k M M (b i (o k )) = 1, 1 i N k=1 Este conjunto de probabilidades se conoce con el nombre de probabilidades de emisión o probabilidades de observación. En el caso del etiquetado morfológico se tiene: Consideramos como instante de tiempo t a la posición que ocupa cada palabra dentro de la oración. Cada estado s i tiene asociada una categoría gramatical c i, y el número de estados, N, coincide con el número de categorías gramaticales. El conjunto de observaciones O es el diccionario. Cada o k es una palabra del diccionario. Una secuencia de observaciones Ô = (o 1, o 2,..., o T ) es una oración formada por T palabras. 18