Clases de palabras y POS tagging

Transcripción

1 Clases de palabras y POS tagging. raul.gutierrez@correounivalle.edu.co april, 2012

2 Introducción al POS tagging

3 PARTS-OF-SPEECH (POS)(clase de la palabra) Tipos de POS: sustantivo, verbo, pronombre, preposición, adverbio, conjunción, participio y artículo, etc. La lista de POS son llamados tagsets que tiene más clases de palabras, por ejemplo; 45 para PTB (Marcus, 1993), 87 para Brown corpus (Francis, 1979) y 146 para el tagset C7 (Garside-1997). Los significados de POS; clases de palabras, clases morfológicas o tags léxicos. El POS es usado también en stemming para la recuperación de información, conociendo el POS de una palabras se pueden conocer los afijos. Part-of-Speech (parte de la oración) o tagging Es el proceso de asignar una (POS) parte de la oración u otra clase sintáctica para cada palabra en un corpus.

4 Tagset de PTB The/DT grand/jj jury/nn commented/vbd on/in a/dt number/nn of/in other/jj topics/nns./. There/EX are/vbp 70/CD children/nns there/rb

5 Tweet Tweet NLP- Carnegie Mellon el cual es un tokenizador y tageador para tweets, los tweets POS fueron anotados manualmente, el corpus de tweet para PoS tagged es un Tweebank sobre el corpus de Owoputi. El corpus es entrenado por un MEMMM tagger. Otro tagger para twitter es el que usa gate el cual es una versión aumentada del tagger de stanford y usa CRFs. Tiene una precisión del 91% java -jar twitie tag.jar models/gate-en-twitter.model {input file}

6 Tagset de Twokenize

7 Ambigüedad de tags Las palabras frecuentemente tienen más de un POS tag: bajo El niño bajo y la niña alta = ADJ Los niños corren bajo la escalera = CONJ Mick Jagger no toca el bajo en el grupo Kiss = SUS La persiana se bajo = VERB El problema de POS tagging es determinar el POS tag para una particular instancia de la palabra.

8 El corpus Brown

9 Tipos de tageadores 1 Tageadores basados en reglas (rule-based taggers): Generalmente involucran una gran base de datos de reglas de desambiguación manuscritas las cuales especifican el orden de los POS o categorías. 2 Tageadores estocásticos (Stochastic taggers): generalmente resuelven ambiguedades usando corpus de entrenamiento para calcular la probabilidad de una palabra dada. Los más importantes; (HMMs, Maximum entropy tagging, CRFs). 3 Tageadores basados en transformaciones (transformation-based tagger ) o tageador de Brill (Brill Tagger). Está basado en reglas y tiene un componente de aprendizaje automático, donde las reglas son automáticamente inducidas desde un corpus de entrenamiento tageado.

10 Tageador basado en reglas: EngCG tagger EngCG ENGTWOL usa un analizador morfológico de dos niveles con stems en inglés y retorna todos los posibles POS. En EngCG ENGTWOL cada palabra es anotada con características morfológicas y sintácticas. EngCG aplica restricciones de manera negativa Diccionario de ejemplo de ENGTWOL

11 Paso 1. Tageo de ENGTWOL Ejecuta las palabras a través de un FST analizador morfológico para obtener el POS y su información morfológica. Eje: Pavlov had shown that salivation... Pavlov had shown that salivation PAVLOV N NOM SG PROPER HAVE V PAST VFIN SVO HAVE PCP2 SVOO SVO SV SHOW PCP2 SVOO SVO SV ADV PRON DEM SG DET CENTRAL DEM SG CS N NOM SG

12 ENGTWOL Tagging: Paso 2 Aplicar las restricciones negativas: Regla adverbial that La siguiente regla elimina todas la lecturas de that excepto el sentido del ADV. Eliminar todas las lecturas de that excepto que no este seguido de la siguiente forma that odd. Karlsson, F., Voutilainen, A., Heikkil a, J., and Anttila, A. (Eds.). (1995b). Constraint Grammar: A Language- Independent System for Parsing Unrestricted Text. Mouton de Gruyter, Berlin.

13 Transformation-Based (Brill) Tagging Combina los sistemas basados en reglas y el tageo estocástico Los sistemas de reglas son usados para especificar los tags Como en el enfoque estocástico se entrenan conjuntos de reglas usando corpus etiquetados para encontrar el mejor desempeño de las reglas Las reglas son entrenadas desde conjunto de datos (datasets) Input: Corpus anotado Diccionario (con las mayores frecuencias de tags)

14 Arquitectura del etiquetador de Brill Etiquetador léxico: Etiqueta inicialmente cada palabra con la etiqueta más probable o una etiqueta igual para todos (pueden ser estimadas del corpus). Etiquetador de palabras desconocidas: Intenta etiquetarlas con base en prefijos y sufijos. Regla=descripción de contexto + regla de reescritura (reemplazo etiquetas) Reglas: Si la etiqueta actual es A y los últimos caracteres son X, reemplazar la etiqueta por B. Etiquetador contextual: Aplica en orden una serie de reglas contextuales inferidas a partir del corpus de entrenamiento. Reglas: Cambia A por B si la anterior palabra está etiquetada con C Cambia el adjetivo femenino plural por el adjetivo masculino plural si la anterior etiqueta es X

15 Un ejemplo de reglas de tranformación Estas reglas de transformación alteran la etiqueta de una palabra de X a Y si y sólo si : 1 La palabra no fue vista en el corpus de entrenamiento ó 2 La palabra fue vista etiquetada con Y al menos una vez en el corpus de entrenamiento. Muchas relaciones, entre palabras y palabras anteriores o entre etiquetas y la siguiente palabra, si TAG= NN y caracter final de palabra= s entonces TAG= NNS-MP Convertir palabras en otras si palabra-comienza= En y palabra siguiente= consecuencia entonces inserte palabra= En consecuencia Insertar palabras en otras palabras if palabra-comienza= del then inserte palabra= de and TAG actual= IN and inserte en palabra siguiente= el and inserte en TAG siguiente= DA-MS

16 Ejemplo de una regla de aplicación TBL Etiqueta de las palabras con su más probable tag Ejemplo: race ocurrencias en el Brown corpus P(NN race) =.02, P (NN T O) = P(VB race) =.98, P (V B T O) = 0.83 Secretariat/NNP is/vbz expected/vbn to/to race/nn tomorrow/nn Entonces TBL aplica la siguiente regla Cambie NN por VB cuando el tag previo es TO Secretariat/NNP is/vbz expected/vbn to/to race/nn tomorrow/nn se reescribe como Secretariat/NNP is/vbz expected/vbn to/to race/vb tomorrow/nn

17 Modelos estadísticos Cadenas Ocultas de Markov (HMMS) (Cutting [CKPS92]) Modelos de Máxima Entropía (MEMMs) (Adwait Raatnaparakhi [Rat98]) Conditional Random Fields (CRFs) (Fei Sha and Fernando Pereira) [SP03]) Aplicaciones Stanford Log-Linear Part-Of-Speech Tagger (Maximum Entropy POS tagger) Tweet POS tagger (Carnegie Mellon) -CRFs POS tagger -freeling HMMs

18 N-gramas Cuál es la probabilidad de una palabra w dada alguna historia h o P (w h)? Sea h: la vida es color de y deseamos saber la probabilidad de que la próxima palabra sea rosa: P (rosa La vida es color de ) Se puede computar esta probabilidad estimando conteos de frecuencia relativa: P (rosa La vida es color de) = C(La vida es color de rosa) C(La vida es color de)!!!!sobre grandes corpus se puede calcular el conteo de palabras y estimar la probabilidad!!!!

19 N-gramas Predicción de palabras Se puede predecir una palabra (word prediction) con modelos probabilísticos llamados modelos de N-gramas, los cuales predicen la próxima palabra desde las palabras N 1 anteriores. Entonces P (W ) o P (w n w 1, w 2... w n 1 ) es un modelo del lenguaje Probabilidad condicional P (B A) = P (A, B)/P (A) Reescribiendo Más variables: P (A, B) = P (A)P (B A) P (A, B, C, D) = P (A)P (B A)P (C A, B)P (D A, B, C) Regla de la cadena en general: P (x 1, x 2,..., x n ) = P (x 1 )P (x 2 x 1 )P (x 3 x 1, x 2 )... P (x n x 1, x 2,..., x n 1 )

20 Regla de la cadena aplicada en secuencia de palabras Podemos calcular la probabilidad de una secuencia entera como P (X 1 X n ): P (X 1 X n ) = P (X 1 )P (X 2 X 1 )P (X 3 X1 2 ) P (X n X n 1 n = P (X k X1 k 1 ) k=1 Aplicando la regla de la cadena a palabras, nos queda: P (w1 n ) = P (w 1 )P (w 2 w 1 )P (w 3 w1) 2 P (w n w n 1 n = P (w k w1 k 1 ) k=1 1 ) P(la vida es color de rosa)=p(la) P(vida la) P(es la vida) P(color la vida es) P(de la vida es color) P(rosa la vida es color de) 1 )

21 Regla de la cadena aplicado a la probabilidad conjunta P (w 1 w 2... w n ) = P (w i w 1 w 2... w i 1 ) Bigramas La intuición del modelo de N-gramas es que en lugar de computar la probabilidad de una palabra dada su historia, se aproximará la historia con sus últimas palabras En lugar de Aproximamos P (rosa La vida es color de) P (rosa de)

22 Modelo de bigramas Modelo de bigrama Se aproxima la probabilidad de una palabra, dada todas las anteriores palabras P (w n w1 n 1 ) usando solamante la probabilidad condicional de la palabra precedente P (w n w n 1 ) Suposición de Markov La probabilidad de una palabra depende solamente de la palabra anterior y no de la anterior cadena larga. P (w n w n 1 1 ) P (w n w n 1 ) Dada la suposición del bigrama se calcula la probabilidad de una secuencia así: n P (w1 n ) = P (w k w k 1 ) k=1

23 Estimación de máxima verosimilitud MLE (Maximum Likelihood Estimation) Como estimar estos bigramas o las probabilidades de los N-gramas? MLE es la más simple y más intuitiva manera de estimar probabilidades; usando información del corpus y normalización Se puede calcular la probabilidad de una palabra w n dada una palabra previa w n 1 usando el concepto de P (w n w n 1 ) = C(w n 1, w n ) C(w n 1 ) Un ejemplo para calcular algunos bigramas del siguiente corpus:

24 Sequence labeling problem, or a tagging problem La entrada al modelo de PoS tag es una secuencia de palabras o sentencia x 1... x n La secuencia del tag o secuencia de estado es de la misma longitud y 1... y n Secuencia de entrada; n = 5 y x 1 =el, x 2 = niño, x 3 =vió, x 4 =al x 5 =gato Secuencia de tag; y 1 =DA, x 2 = S, x 3 =V, x 4 =DA x 5 =S Asumimos que hay un conjunto de entrenamiento, (x (i), y (i) ) para i = 1... m, donde cada x (i) es una sentencia x (i) 1... x(i) n i cada y (i) es una sentencia tag y (i) 1... y(i) n i Po lo tanto cada x (i) j de entrenamiento. es la j-ésima palabra en el i-ésimo ejemplo y

25 Problema de POS tagging POS tagging como un problema de aprendizaje supervisado Usando un conjunto de entrenamiento (x (i), y (i) ) para i = 1... n, entonces X es el conjunto de secuencias x 1... x n, y Y sería el conjunto de todos las secuencias de tags y 1... y n. La tarea es encontrar encontrar una función f : X Y que mapee las sentencias de entrada a las sentencias de etiquetas. Una función f(x) es un modelo condicional definido por la probabilidad condicional p(y x) para cualquier par x, y. Los parámetros del modelo son estimados desde el conjunto de entrenamiento. Dado un nuevo ejemplo de testeo x, la salida del modelo es: f(x) =argmax y Y p(y x)

26 Etiquetadores estocásticos (HMMs Cadenas Ocultas de Markov) Objetivo de POS tagging usando HMMs Del universo de secuencias de tags, deseamos elegir la secuencia de tags la cual es la más probable dada la secuencia de observación de n palabras w n 1. Es decir, deseamos de todas las secuencias de n tags t n 1 ; la única secuencia de tags tal que P (t n 1 w n 1 ) es la más alta. t n 1 =argmax P (t n 1 w1 n ) t n 1 t n 1 significa estimar la secuencia correcta de tags, donde la función argmax x g(x) significa que la x tal que g(x) es maximizada. En pocas palabras Para una secuencia de tags t n 1 dada una secuencia de palabras w n 1 no sabemos como calcular P (t n 1 w n 1 ).

27 Bayesiano Por regla de Bayes: P (y x) = P (x y)p (y) P (x) Por tanto sustituyendo en t n 1 nos queda: t n P (w1 n t n 1 )P (t n 1 ) 1 =argmax t n P (w n 1 1 ) Podemos eliminar P (w n 1 ) dado que se va a elegir una nueva secuencia de tags es decir P (t n 1 ) y no una nueva secuencia de observaciones, por lo tanto, P (w n 1 ) no cambia para cada secuencia de tags, así que tenemos: t n 1 =argmax P (w1 n t n 1 )P (t n 1 ) t n 1

28 Argumento máximo El argumento máximo La más probable secuencia de tags t n 1 dada alguna cadena de palabras w n 1 puede ser computada como el producto de dos probabilides para cada secuencia de tags, eligiendo la secuencia de tags para el cual el producto es el máximo. t n 1 =argmax t n 1 likelihood prior {}}{{}}{ P (w1 n t n 1 ) P (t n 1 ) 1 Prior probability es la probabilidad anterior de la secuencia P (t n 1 ) 2 Likelihood, probabilidad de la cadena de palabras P (w n 1 t n 1 ) Esto es duro de calcular!

29 Inclusión de los HMMs La primera suposición es la probabilidad de una palabra que aparece y es dependiente de su propio tag POS. Esto es idependiente de otras palabras alrededor de esa misma palabra y de los tags alrededor P (w n 1 t n 1 ) n P (w i t i ) La segunda suposición es la probabilidad de un tag apareciendo el cual es solamante dependiente solamante del anterior tag, el bigrama de suposición es: P (t n 1 ) i=1 n P (t i t i 1 ) i=1 Entonces el tageador bigrama es: t n 1 =argmax P (t n 1 w1 n ) argmax t n 1 t n 1 n P (w i t i )P (t i t i 1 ) i=1

30 Máxima Verosimilitud (MV) Por ejemplo, P (NN DT ) tomada de un corpus es el número de veces que vemos NN después de DT, fuera de las veces que vemos a DT. Se puede definir una medida de máxima verosimilitud o relación de recuentos de una probalidad de transición de un tag tomando un corpus etiquetado de POS tags. P (t i t i 1 ) = C(t i 1, t i ) C(t i 1 ) En PTB, el tag DT ocurre veces y de estos DT es seguido por NN veces. Es decir, la probabilidad en términos de la MV es la siguiente: P (NN DT ) = C(DT, NN) C(DT ) = 56, , 454 =.49 Esta es la probabilidad de obtener un sustantivo común después de un determinante.

31 HMMs en POS tagging Para estimar el MLE de una palabra w 1 con su tag t i desde un corpus: P (w i t i ) = C(t i, w i ) C(t i ) En el TreeBank Brown corpus, el tag VBZ ocurre 21,627 veces, y VBZ es el tag para el verbo is 10,073 veces. P (is V BZ) = C(V BZ, is) C(V BZ) = 10, , 627 =.47 Los determinantes son más probables que precedan a los adjetivos y sustantivos, secuencias como: ese/dt vuelo/nn and el/dt sombrero/nn amarillo/jj P (NN/DT ) y P (JJ DT ) son más altas pero P (DT JJ) es baja Los supuestos independientes: un POS tag que este ocurriendo es idependiente del evento de cualquier otro POS tag ocurrido excepto el inmediatamente previo POS tag.

32 Cálculo de probabilidad de las dos secuencias Probabilidad de la secuencia a) t 6 1 = P (Secretariat NNP )P (NNP ) P (is V BZ)P (V BZ NNP ) = P (expected V BN)P (V BN V BZ) P (to T O)P (T O V BN) = P (race V B)P (V B T O) P (tomorrow NR)P (NR V B) Probabilidad de la secuencia b) t 6 2 = P (Secretariat NNP )P (NNP ) P (is V BZ)P (V BZ NNP ) = P (expected V BN)P (V BN V BZ) P (to T O)P (T O V BN) = P (race NN)P (NN T O) P (tomorrow NR)P (NR NN) t 6 > t 6

33 P (NN T O) = P (V B T O) =.83 P (race NN) =.00057, P (NR V B) =.0027 P (race V B) =.00012, P (NR NN) =.0012 Multiplicando las probabilidades léxicas con las probabilidades de secuencia de tags: P (V B T O)P (NR V B)P (race V B) = P (NN T O)P (NR NN)P (race NN) =

34 Es más probable race como verbo

35 Cadenas de Markov Transición entre estados Las cadenas de Markov son autómatas finitos probabilísticos en la cual la secuencia de entrada únicamente determina por cuales estados del autómata debe pasar. Sea P (t i t i 1 ) la probabilidad de transición o probabilidad a priori

36 Cadenas Ocultas de Markov HMMs Por qué las cadenas de Markov no son apropiadas para el POS tagging? En un modelo de Markov normal, el estado es visible directamente para el observador por lo que las probabilidaes de transición entre estados son los únicos parámetros. En un HMM, el estado no es visible directamente, sino que sólo lo son las variables influidas en el estado. Cada estado tiene una distribución de probabilidad sobre los posibles símbolos de salida. Cadenas ocultas de Markov Las HMMs nos permiten hablar acerca de ambos de los eventos observados (como palabras que vemos en la entrada) y los eventos ocultos (como los POS tags) que son considerados factores causales en nuestro modelo probabilístico.

37 Formalización de las HMMs

38 HMMs

39 Algoritmo de Viterbi la primera tabla es a i,j que son las probabilidades de transición entre los estados ocultos (parts-of-speech) y la segunda tabla b i (o t ) probabilidades de observación de las palabras dadas el tag. P (P P SS V B) =

40 Viterbi El algoritmo primero crea N estados, donde la primera columna corresponde a la observación de la primera palabra i. Para cada estado q j en el tiempo t el valor de v t (j), el tiempo t hace referencia a cada una de las columnas de la grilla cuando va transcurriendo sobre cada observación o t N v t (j) = [ max v t 1(i)a ij ]b j (o t ) i=1 Los tres factores de la ecuación son: 1 v t 1(i) el camino previo de Viterbi desde el paso del tiempo anterior. Donde i recorre los estados y t recorre las observaciones. 2 a ij La probabilidad de transición del estado previo q i al estado actual q j 3 b j(o t) Probabilidad del estado de observación del símbolo de observación o t dado el actual estado j

41

42

43

44

45 Modelos discriminativos y generativos Modelos discriminativos Llamados modelos condicionales modela la dependencia de una variable no obervable y sobre una variable observable x, es decir, se modela la p(y x) en la cual se predice y desde x, esta probabilidad es calculada directamente sin pasos intermedios. Modelo generativos Los modelos generativos aprenden de un modelo de probabilidad conjunta, p(x, y), de entrada x y etiqueta y y hace la predicción usand la regla de Bayes para calcular p(y x) y luego escoge la etiqueta más probable y.

46 HMMS y MEMMs (Sequence labeling) El grafo representa las dos suposiciones de Markov P (w n t n )P (t n t n 1 ) La actual observación solamante depende de su actual estado Encuentra parámetros para maximizar P (X, Y ) (Generativo)

47 HMMS y MEMMs (Sequence Labeling) Las funciones de transición y observaciones son reemplazadas por una sola función P (t n t n 1, w n ) La actual observación puede depender también del estado anterior Encuentra parámetros para maximizar P (X Y ) (Discriminativo)

48 CRFs (Sequence Labeling) Encuentra parámetros para maximizar P (Y X, Y,... Z) (Discriminativo)

49 HMMs y trigramas Los tageadores de HMMs usan un poco más de historia, sea la probabilidad del tag dependiendo sólo del tag anterior P (t n 1 ) n P (t i t i 1 ) i=1 Sea la posibilidad del tag dependiendo de los dos tags anteriores: Finalmente, P (t n 1 ) n P (t i t i 1, t i 2 ) i=1 t n 1 =argmax P (t n 1 w1 n ) argmax t n 1 t n 1 n [ P (w i t i )P (t i t i 1, t i 2 )]P (t n+1 t n ) i=1 Uso de boundary sentence t n+1, t n

50 Data sparsity due to combination t i 2, t i 1, t 1 El problema de sparsity se resuelve interpolando unigramas, bigramas y trigramas: ˆP (t i t i 1, t i 2 ) = C(t i 2, t i 1, t i ) C(t i 2, t i 1 ) Duro!!!!! pueden no haber combinaciones t i 2, t i 1, t 1 ˆP (t i t i 1 ) = C(t i 1, t i ) C(t i 1 ) ˆP (t i ) = C(t i) C(N) Se estima una interpolación lineal para calcular la probabilidad del trigramas y evitar la escases de la combinación t i 2, t i 1, t 1 P (t i t i 1, t i 2 ) = λ 1 ˆP (ti t i 1, t i 2 ) + λ 2 ˆP (ti t i 1 ) + λ 3 ˆP (ti ) Se requiere que λ 1 + λ 2 + λ 3 = 1, y se calculan los λs usando deleted interpolation con borrado de trigramas

51 Palabras desconocidas La mayoría de los algoritmo de palabras desconocidas hacen uso de información morfológica. P (w i t i ) = P (palabra desconcida t i ) P (capital t i ) P (finales/hyph t i ) Derivaciones finales e inflexaciones: -ed, -s, -ing, -ion, al, ive, Las capitalizaciones pueden ser en la sentencia inicial (+/-, capitalización, +/-) y las las hipenatizaciones ca-sarumba, navega-ción Otro modelo, calcula para cada sufijo de longitud i la probabilidad del tag dado el sufijo. P (t i l n i+1... l n )

52 CRFs y PoS tagging La última columna representa la verdadera etiqueta que va a ser entrenada por el CRF Training: crf learn template file train file model file Testing: crf test -m model file test files >> output.txt La precisión, recall y F1 es medido con el conlleval.pl: perl conlleval.pl -r -o NOEXIST < output1.txt con espacio (uno) en blanco o también perl conlleval.pl -d, -r < output1.csv si no se quiere el dato relevante NOEXIST y las columnas van separadas con coma

53 Accuracy, precision, recall, F1 Predicted Positivo Negativo Actual-gold Positivo tp f n Negativo f p tn fp (falso positivo o Tipo de error I): Casos negativos que fueron incorrectamente clasificados como positivos. fn (falso negativo o Tipo de error II): Casos positivos que fueron incorrectamente clasificados como negativos.

54 Medidas de desempeño Recall es la proporción de casos positivos que fueron correctamente identificados. R = tp tp + fn Precision inidica la proporción de buena predicción para los positivos. tp P = tp + fp Accuracy AC = tp + tn tn + tp + fp + fn Finalmente, F-measure o F 1 -measure es la media armónica de la precision y el recall F 1 = 2 P R P + R

55 Ejemplo de CRF con POS-tagging El conjunto de entrenamiento sólo tiene la cadena y su respectivo tag de Ancora En el template sólo va definido el CRF-lineal de la observación Se quiere clasificar dos conjuntos: uno de anotado para ver la precisión y el otro para simplemente anotarlo con la sola caractística de observación

56 Ejemplo sobre POS tagging

57 Recursos en la web Demos on-line: Freeling (multilingüe, gallego y castellano) Centro de Tecnologías y Aplicaciones del Lenguaje y de Habla. Univ. Politéctica de Cataluña: Cognitive Computation Group, Univ. of Illinois at Urbana- Champaigh: view/p OS CST s POS tagger (Brill adaptado): Centre for Language Technology, Univ. of Copenhagen: Descargas: Freeling: ttp://devel.cpl.upc.edu/freeling/ downloads?order=time&desc=1 CST s POS tagger (Brill adaptado): TnT tagger and Brill tagger entrenados para el español: TreeTagger (multilingüe, español incl.): uni-muenchen.de/ schmid/tools/treetagger/

58 Doug Cutting, Julian Kuppiec, Jan Pedersen, and Penelope Sibun. A practical part-of-speech tagger. Xerox Palo Alto Research Center, Adwait Ratnaparkhi. A maximum entropy model for part-of-speech tagging. University of Pensylvania, Fei Sha and Fernando Pereira. Shallow parsing with conditional random fields. University of Pensylvania, 2003.