Uso de cadenas de Markov para la desambiguación morfológica y su aplicación al castellano

Transcripción

1 Uso de cadenas de Markov para la desambiguación morfológica y su aplicación al castellano JOSÉ LUIS TRIVIÑO RODRIGUEZ RAFAEL MORALES BUENO FRANCISCO TRIGUERO RUÍZ JOSÉ LUIS PÉREZ DE LA CRUZ MOLINA Universidad de Málaga RESUMEN: El problema de la desambiguación morfológica es la elección del análisis morfológico correcto para una palabra dentro del contexto de una frase entre todos los análisis morfológicos válidos para esta palabra. El uso de cadenas de Markov ha constituido un método sencillo y eficaz para el cálculo de la dependencia del análisis con el contexto de la frase y, por tanto, para la desambiguación morfológica. En este informe se describe tanto el entrenamiento y cálculo de la matriz de transición de una cadena de Markov como su uso para la desambiguación en sus dos modalidades: a partir de texto etiquetado y a partir de texto sin etiquetar mediante modelos de Markov ocultos (HMM). 1INTRODUCCIÓN El inglés es donde más tiempo se lleva estudiando el análisis morfológico de las palabras mediante el ordenador. En este idioma, las palabras tienen una única forma poco relacionada con la clase gramatical a la que pertenecen debido a su escasa riqueza flexiva. Esto ha hecho que los esfuerzos por realizar un análisis morfológico automático se hayan basado en el estudio de la palabra dentro del entorno de la frase más que en contemplar la palabra de forma aislada. De esta forma, todos los análisis válidos para una palabra se obtienen a partir de un diccionario léxico. Dentro del diccionario se almacena cada palabra junto a todos sus posibles análisis. La elección del análisis correcto para la palabra dentro del contexto de la frase de entre todos los posibles asignados en el diccionario léxico para esa palabra constituye el verdadero problema del análisis morfológico de textos en inglés. A esta elección del análisis correcto en función del contexto se denomina desambiguación morfológica. En cambio en el español ocurre todo lo contrario, ya que la mayor flexibilidad de este idioma no hace tan dependiente la clase gramatical de una palabra con su contexto. De esta forma aparecen las dos siguientes líneas de desarrollo de análisis morfológico del español: Métodos basados en la morfología en dos niveles descrita por Koskenniemi (Koskenniemi 1983): "Analizador morfológico del Español" (Triviño 1993), "Using a morphological analyzer to teach theoretical morphology" (Klanvas 1991: ) y "A morphological processor for Spanish implemented in prolog" (Moreno y Goñi 1995: ). Métodos basados en el aprendizaje automático: "A study of english word category prediction based on neural networks" (Nakamura y Shikanom 1989: ) y "SEAM: Sistema Experto para Análisis Morfológico" (Triviño y Calle 1997). Sin embargo, una vez realizado el análisis de la palabra fuera del contexto de la frase, en la mayoría de los casos este proceso produce más de un etiquetado posible para la palabra. De esta forma, se hace necesario un proceso desambiguador posterior similar al realizado para textos en inglés que, en función del contexto de la palabra, seleccione el etiquetado correcto entre todos los posibles para esa palabra. A continuación se analizará uno de los modelos más utilizados para la desambiguación morfológica, esto es, el análisis probabilístico de secuencias de etiquetas mediante un modelo matemático basado en cadenas de Markov, descrito entre otros por Merialdo (Merialdo 1994: ). El uso de cadenas de Markov permite estudiar la probabilidad de un determinado análisis en

2 función de los precedentes, tomando como correcto aquel con mayor probabilidad. En función de la probabilidad que se maximiza existen dos tipos diferentes de etiquetado probabilístico: tomar la secuencia de etiquetas más probable para la frase (Viterbi Tagging) y tomar las etiquetas más probables para cada palabra dentro de la frase (Maximum Likelihood Tagging). El cálculo del modelo se puede realizar mediante entrenamiento a partir de un texto previamente etiquetado o bien mediante un modelo inicial impreciso calculado a partir del método anterior y un refinamiento del modelo de Markov oculto (HMM) a partir de texto sin etiquetar. A continuación, en la sección dos, se definirá el modelo matemático de cadena de Markov que permitirá estudiar el problema del etiquetado como función matemática y su formulación en términos probabilísticos para, posteriormente, describir el modelo triclásico para la desambiguación morfológica basado en cadenas de Markov y los métodos de entrenamiento del mismo. Por último se expondrán los resultados experimentales obtenidos y la aplicación al castellano de estos métodos, finalizando con una series de conclusiones obtenidas a partir de estos resultados. 2ANÁLISIS DE TEXTOS MEDIANTE UN MODELO PROBABILÍSTICO. 2.1Formulación probabilística Para el estudio probabilístico de la desambiguación morfológica resulta adecuado el modelo matemático formado por Cadenas de Markov y definido de la siguiente forma: Definición. Una Cadena de Markov es una fuente de información en la que, la probabilidad de aparición de cada símbolo, solo depende de un número finito m de símbolos que le han precedido y del tiempo. A m se le llama el orden de la cadena. Definición. En un instante t, se define el estado de una fuente de Markov de orden m como la cadena formada por los m símbolos precedentes. Habrá como máximo n m estados posibles. Donde n es el número de símbolos del alfabeto. Una cadena de Markov de orden m viene definida por un conjunto finito de estados E={e 0, e 1,..., e M} y un conjunto de probabilidades de transición π ij(t), definidas por: ( t) = Pr{ E( t + 1) = e E( t) = e } π ij j i donde E(t) es una variable aleatoria temporal que toma sus valores en E en cada instante de tiempo. Este modelo permite la formulación probabilística del problema de análisis, para lo cual supondremos que las alineaciones son generadas por un modelo probabilístico de acuerdo a una distribución de probabilidades: Pr(W,T) En este caso, dependiendo del criterio elegido para la evaluación, el análisis óptimo es el siguiente: Para una evaluación en el nivel de frase (Viterbi Tagging), elegiremos la secuencia de etiquetas más probable para una frase: φ( W) = T / T, Pr( T W) Pr( T / W) T cumple ademas: T, Pr(W, T ) Pr(W, T) Para evaluación en el nivel de palabra (Maximum Likelihood Tagging), elegiremos el análisis más probable para cada palabra en la frase: φ( W) = t / t,pr( t = t W) Pr( t = t W) t, i i i t cumple ademas Pr( W, T ) Pr( W, T) T : ti = t T: ti = t Donde φ(w) i es el análisis dado a la palabra Wi por la función de análisis φ en el contexto de la frase W. 2

3 Es interesante notar que el método más comúnmente usado es Viterbi tagging (Church 1989: ) a pesar de que no es el método óptimo para la evaluación a nivel de palabra. Las razones para esta preferencia en su uso son: Es más simple de implementar que ML tagging y requiere menos computación (aunque ambos tengan la misma complejidad asintótica). Viterbi tagging proporciona una mejor interpretación para las frases, lo cual es lingüísticamente aceptable. ML tagging puede producir secuencias de análisis que son lingüísticamente imposibles (debido a que la elección de un análisis depende de todos los contextos tomados juntos). Sin embargo, en las experiencias desarrolladas por Merialdo, se observó que Viterbi y ML tagging producen resultados de similar rendimiento. 2.2El modelo triclásico El modelo triclásico supone una simplificación del modelo matemático probabilístico con objeto de facilitar el estudio del mismo. Para ello partiremos de la siguiente expresión: n i 1 1 i 1 i 1 i i 1 1 i 1 i 1 i= 1 Pr( W, T) = Pr( W W T... W T T ) p( T W T... W T ) El modelo triclásico está basado en las siguientes aproximaciones: La probabilidad de un análisis depende sólo de los últimos dos análisis (Cadena de Markov de orden 2): Pr( Ti W1T 1... Wi 1T i 1) = h( Ti Ti 2Ti 1) La probabilidad de una palabra depende sólo de su análisis: Pr( Wi WT i 1... Wi 1T i 1Ti ) = k( Wi Ti ) Con objeto de definir completamente el modelo es necesario especificar los valores de las probabilidades h y k. Para ello es posible utilizar dos tipos diferente de entrenamiento: Entrenamiento de frecuencia relativa (RF). Si disponemos de cierta cantidad de texto analizado podemos calcular el número de veces N(w,t) que una palabra dada w aparece con el análisis t, y el número de veces N(t 1,t 2,t 3 ) que la secuencia (t 1,t 2,t 3 ) aparece en el texto. Podemos también estimar las probabilidades h y k mediante el cálculo de las frecuencias relativas a los correspondiente sucesos Entrenamiento de máxima probabilidad (Maximum Likelihood) realizado mediante el algoritmo Forward Backward (FB). Este problema corresponde con el entrenamiento de un modelo de Markov oculto. Una solución conocida a este problema es el Forward Backward (FB) o Baum Welch algorithm (Baum y Eagon 1967: ), el cual construye iterativamente una secuencia de modelos que mejoran la probabilidad de los datos de entrenamiento. La ventaja de este enfoque es que no requiere texto analizado para el entrenamiento, pero supone que el modelo correcto es aquel en el que los análisis son usados para conseguir una predicción mejor de la secuencia de palabras. 2.3Resultados experimentales A continuación se muestran los resultados experimentales obtenidos por Merialdo (Merialdo 1994: ) para los dos entrenamientos anteriormente descritos. Esta experiencia se realizó sobre textos en lengua inglesa procedentes de "treebank". Estos textos estaban formados por frases (aproximadamente un millón de palabras). Datos de entrenamiento Número de errores % de análisis correctos (frases) (palabras) ,0 El porcentaje de análisis correctos es relativamente alto, sin embargo hay que considerar que: 3

4 Más de la mitad de las palabras del texto tienen un único análisis posible, por lo que no es posible cometer ningún error al analizarlas. Aproximadamente un cuarto de las palabras del texto tienen sólo dos posibles análisis, por lo que la probabilidad de asignar el análisis correcto es del 50%. 3APLICACIÓN AL CASTELLANO Aunque es posible la aplicación directa del modelo triclásico para la desambiguación morfológica de textos en castellano, la riqueza flexiva de este lenguaje plantea varias dificultades de índole práctica. Una de las mayores dificultades viene producida por el aumento del número de etiquetas posibles para el análisis. En el análisis de textos en castellano hay que considerar, además de la clase gramatical de la palabra (nombre, adjetivo, etc.), otros accidentes gramaticales como son el género, número, tiempo verbal, etc. Debido a que los algoritmos de etiquetado Viterbi Tagging y Maximum Likelihood Tagging estan diseñados para generar una única cadena de etiquetas, es necesario combinar estos nuevos atributos con la clase gramatical para formar un conjunto de nuevas etiquetas. La combinación de las etiquetas de los diferentes atributos de una palabra (clase, género, etc.) aumenta considerablemente el número de etiquetas posibles en el proceso de análisis. Esto provoca un aumento del número de estados de la cadena de Markov necesaria para el análisis, pasando de 72 2 = estados para el inglés a = estados para el español, lo cual supone un importante incremento tanto de requisitos computacionales como de capacidad de almacenamiento. 4CONCLUSIONES Como puede observarse, el uso de cadenas de Markov permite desarrollar algoritmos de desambiguación morfológica relativamente sencillos en base a una teoría probabilística que, si bien no alcanza una efectividad del 100%, obtienen resultados aceptables. Por otro lado, el uso de modelos de Markov ocultos (HMM) permite entrenar el algoritmo sin necesidad de una gran cantidad de texto etiquetado difícil de conseguir salvando, de este modo, el inconveniente de otros algoritmos de aprendizaje supervisado como pueden ser las redes neuronales. Sin embargo, el mayor inconveniente del uso de cadenas de Markov para la desambiguación morfológica viene dado por el límite superior de acierto intrínseco al método, ya que se pretende emular un sistema no probabilístico como es el lenguaje natural mediante un modelo probabilístico. En principio, esta límite superior podría mejorarse aumentando el orden de la cadena de Markov haciendolo superior a 2 (utilizado en el modelo triclásico). Sin embargo esto plantearía problemas de cálculo al aumentar exponencialmente el número de estados e incluso puede llegar a disminuir el número de acierto para ciertas construcciones sintácticas. 5REFERENCIAS 1. Baum, L. E. y Eagon, J. A. (1967): "An inequality with application to statistical estimation for probabilistic functions of Markov processes and to a model for ecology", en Bulletin of the American Mathematicians Society 73, Church, Kenneth W. (1989). "A stochastic parts program noun phrase parser for unrestricted text", en IEEE Proceeding of the ICASSP, Glasgow, Klanvans, Judith L. y Chodorow, Martin S. (1991): "Using a morphological analyzer to teach theoretical morphology", en Computers and the Humanities 25: Koskenniemi, Kimmo (1983): "Two level morphology: a general computational model for word form recognition and production", en Publication 11, Department of General Linguistics, University of Helsinki, Helsinki, Findland. 4

5 5. Merialdo, Bernard (1994): "Tagging english text with a probabilistic model", en Computers and Humanities 20(2), Moreno, Antonio y Goñi, José M. (1995, septiembre): "A morphological processor for Spanish implemented in prolog", en Proceedings of the Joint Conference on Declarative Programming, GULP PRODE 95, Marina di Vietri, Italy: Nakamura, M. y Shikanom K. (1989): "A study of english word category prediction based on neural networks", en IEEE Proceedings of the ICASSP, Glasgow: Triviño, José L. (1993): Analizador morfológico del español, Proyecto fin de carrera. Dept. Lenguajes y Ciencias de la Computación, Universidad de Málaga, España. 9. Triviño, José L. y Calle, Javier (1997): "SEAM (Sistema Experto para Análisis Morfológico)", en Interlingüística 7. 5