Modelos de Markov Ocultos (HMM)

Transcripción

1 Modelos de Markov Ocultos (HMM) Miguel A. Alonso Jorge Graña Jesús Vilares Departamento de Computación, Facultad de Informática, Universidade da Coruña Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 1 )/ 43

2 Índice 1 Procesos de Markov de tiempo discreto Cadenas de Markov Modelos de Markov Ocultos 2 Elementos de un HMM 3 Cálculo de la probabilidad de una observación Procedimiento hacia adelante Procedimiento hacia atrás 4 Cálculo de la secuencia de estados más probable Algoritmo de Viterbi 5 Estimación de parámetros no supervisada Algoritmo de Baum-Welch 6 Estimación de parámetros supervisada Suavizado de los prámetros 7 Tratamiento de las palabras desconocidas Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 2 )/ 43

3 Procesos de Markov de tiempo discreto Cadenas de Markov Cadenas de Markov Estados Q = {1, 2,...,N}, Instantes de tiempo t = 1, 2,...,T a22 2 a11 a21 a32 a33 1 a51 a13 a41 a35 a45 3 a a55 a54 a44 Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 3 )/ 43

4 Propiedades Procesos de Markov de tiempo discreto Cadenas de Markov Propiedad del horizonte limitado Una cadena de Markov de orden n es la que utiliza n estados previos para predecir el siguiente estado. Para cadenas de orden 1, n = 1: P(q t = j q t 1 = i, q t 2 = k,...) = P(q t = j q t 1 = i) Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 4 )/ 43

5 Propiedades Procesos de Markov de tiempo discreto Cadenas de Markov Propiedad del tiempo estacionario P(q t = j q t 1 = i) es independiente del tiempo. Matriz A = {a ij } de probabilidades de transición independientes del tiempo: a ij = P(q t = j q t 1 = i) = P(j i), 1 i, j N, a ij 0, i, j, N a ij = 1, i. j=1 Vector π = {π i } de probabilidad de ser el estado inicial: π i = P(q 1 = i), π i 0, 1 i N, N π i = 1. i=1 Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 5 )/ 43

6 Procesos de Markov de tiempo discreto Ejemplo de cadena de Markov Cadenas de Markov 0,4 0,6 0,2 A = {a ij } = 0, 4 0, 3 0, 3 0, 2 0, 6 0, 2 0, 1 0, 1 0, 8 π i = 1 3, 1 i ,3 0,3 0,2 0,1 3 0,1 0,8 Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 6 )/ 43

7 Procesos de Markov de tiempo discreto Cadenas de Markov Probabilidad de observar una secuencia de estados T 1 P(o 1, o 2,...,o T ) = π o1 t=1 a oto t+1 = P(q 1 = o 1 )P(q 2 = o 2 q 1 = o 1 )P(q 3 = o 3 q 2 = o 2 )...P(q T = o T q T 1 = o T 1 ) En el ejemplo, la probabilidad de observar la secuencia de estados nublado-soleado-nublado-lluvia (2, 3, 2, 1): P(2, 3, 2, 1) = P(2)P(3 2)P(2 3)P(1 2) = π 2 a 23 a 32 a 21 = 1 0, 2 0, 1 0, 2 3 = 0, Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 7 )/ 43

8 Procesos de Markov de tiempo discreto Modelos de Markov Ocultos Modelos de Markov Ocultos En las cadenas de Markov cada estado se corresponde de manera determinista con un único suceso observable En los HMM la observación es una función probabiĺıstica del estado. Los HMM son un modelo doblemente estocástico, ya que uno de los procesos no se puede observar directamente (está oculto), sino que se puede observar sólo a través de otro conjunto de procesos estocásticos, los cuales producen la secuencia de observaciones. Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 8 )/ 43

9 Ejemplo de HMM Procesos de Markov de tiempo discreto Modelos de Markov Ocultos 0,4 0,6 casa 0,6 casa 0,2 0,2 paseo 0,1 paseo 0, ,3 cafe 0,3 0,1 0,3 0,2 0,1 cafe 0,3 casa 0,1 3 paseo 0,7 cafe 0,2 0,8 Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 9 )/ 43

10 Procesos de Markov de tiempo discreto Otro ejemplo de HMM Modelos de Markov Ocultos Urna 1 Urna 2 Urna 3 Urna N P(color 1) = b 11 P(color 1) = b 21 P(color 1) = b P(color 1) = b N1 P(color 2) = b 12 P(color 2) = b 22 P(color 2) = b P(color 2) = b N2 P(color 3) = b 13 P(color 3) = b 23 P(color 3) = b P(color 3) = b N3.. P(color M) = b 1M P(color M) = b 2M P(color M) = b 3M... P(color M) = b NM.. Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 10 )/ 43

11 Procesos de Markov de tiempo discreto Relación con etiquetación Modelos de Markov Ocultos Bolas = palabras Urnas = etiquetas Secuencia de bolas observadas = frase Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 11 )/ 43

12 H = (π, A, B) Elementos de un HMM Q es el conjunto de estados {1, 2,...,N}. El estado actual en el instante de tiempo t se denota q t. (instante de tiempo = posición de cada palabra). V es el conjunto de los sucesos observables {v 1, v 2,...,v M }. (M= tamaño del diccionario; cada v k es una palabra distinta). Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 12 )/ 43

13 H = (π, A, B) Elementos de un HMM π = {π i } es la distribución de probabilidad del estado inicial π i = P(q 1 = i), π i 0, 1 i N N π i = 1. i=1 A = {a ij } es la distribución de probabilidad de las transiciones entre estados a ij = P(q t = j q t 1 = i) = P(j i), 1 i, j N, 1 t T N a ij = 1, j=1 i. Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 13 )/ 43

14 H = (π, A, B) Elementos de un HMM B = {b j (v k )} es el conjunto de probabilidades de emisión, la distribución de probabilidad de los sucesos observables b j (v k ) = P(o t = v k q t = j) = P(v k j), b j (v k ) 0, 1 j N, 1 k M, 1 t T M b j (v k ) = 1, k=1 j Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 14 )/ 43

15 Elementos de un HMM Preguntas fundamentales Dados O = (o 1,o 2,...,o T ) y µ = (π,a,b) cómo calcular de una manera eficiente P(O µ)? (la probabilidad de la secuencia O dado el modelo µ) Dados O = (o 1,o 2,...,o T ) y µ = (π,a,b) cómo elegir la secuencia de estados S = (q 1,q 2,...,q T ) óptima? (la secuencia de estados que mejor explica la de observaciones) Dado O = (o 1,o 2,...,o T ) cómo estimar los parámetros del modelo µ que maximizan P(O µ)? (el modelo que mejor explica los datos observados) Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 15 )/ 43

16 Cálculo de la probabilidad de una observación Solución ineficiente para P(O µ) Entrada: O = (o 1, o 2,...,o T ) y µ = (π, A, B) Enumerar todas las posibles secuencias de estados de longitud T Existen N T secuencias distintas S = (q 1, q 2,...,q T ) P(S µ) = π q1 a q1 q 2 a q2 q 3...a qt 1 q T T P(O S, µ) = P(o t q t, µ) = b q1 (o 1 )b q2 (o 2 )...b qt (o T ) t=1 P(O, S µ) = P(S µ)p(o S, µ) P(O µ) = S P(S µ) P(O S, µ) Ineficiencia: (2T 1)N T multiplicaciones y N T 1 sumas Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 16 )/ 43

17 Cálculo de la probabilidad de una observación Procedimiento hacia adelante Procedimiento hacia adelante α t (i) = P(o 1, o 2,...,o t, q t = i µ), 1 Inicialización: α 1 (i) = π i b i (o 1 ), 1 i N. 2 Recurrencia: [ N ] α t+1 (j) = α t (i)a ij b j (o t+1 ), t = 1, 2,...,T 1, 1 j N. i=1 3 Terminación: Eficiencia: O(N 2 T) operaciones P(O µ) = N α T (i). i=1 Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 17 )/ 43

18 Cálculo de la probabilidad de una observación Procedimiento hacia adelante (a) Detalle de la secuencia de operaciones necesarias para el cálculo de α t+1 (j) (b) Enrejado de T observaciones y N estados (a) (b) Observaciones o1 o2 o3 1 1 a1j ot 2 a2j ot a3j j bj(ot+1) Estados 3 anj N t t+1 α t (i) α t+1 (j) N T Tiempo Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 18 )/ 43

19 Cálculo de la probabilidad de una observación Procedimiento hacia atrás Procedimiento hacia atrás β t (i) = P(o t+1, o t+2,...,o T q t = i, µ), 1 Inicialización: 2 Recurrencia: β T (i) = 1, 1 i N N β t (i) = a ij β t+1 (j)b j (o t+1 ), t = T 1, T 2,...,1, 1 i N j=1 3 Terminación: P(O µ) = Eficiencia: O(N 2 T) operaciones N β 1 (i)π i b i (o 1 ) i=1 Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 19 )/ 43

20 Cálculo de la probabilidad de una observación Procedimiento hacia atrás Detalle de la secuencia de operaciones necesarias para el cálculo de β t+1 (j) ot+1 ai1 1 b1(ot+1) ai2 2 b2(ot+1) i ai3 3 b3(ot+1) ain N bn(ot+1) t t+1 β t (i) βt+1 (j) Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 20 )/ 43

21 Cálculo de la secuencia de estados más probable Solución ineficiente para P(S O, µ) Selección de los estados que son individualmente más probables en cada instante de tiempo γ t (i) = P(q t = i O, µ) = P(q t = i, O µ) P(O µ) = P(q t = i, O µ) N P(q t = j, O µ) j=1 Reconstrucción de la secuencia más probable: = α t(i)β t (i) N α t (j)β t (j) j=1 q t = arg max 1 i N [γ t(i)], 1 t T Inconsistencia: podría ocurrir que dos estados i y j aparecieran contiguos en la secuencia óptima aún cuando a ij = 0 Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 21 )/ 43

22 Cálculo de la secuencia de estados más probable Algoritmo de Viterbi Solución eficiente para P(S O, µ): el algoritmo de Viterbi δ t (i) = max q 1,q 2,...,q t 1 P(q 1, q 2,...,q t 1, q t = i, o 1, o 2,...,o t µ), δ t (i) almacena la probabilidad del mejor camino que termina en el estado i, teniendo en cuenta las t primeras observaciones [ δ t+1 (j) = max 1 i N δ t(i)a ij ] b j (o t+1 ) La secuencia de estados se construye a través de una traza, que se almacena en las variables ψ t (j), que recuerda el argumento que maximizó esta ecuación para cada instante t y para cada estado j. Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 22 )/ 43

23 Cálculo de la secuencia de estados más probable Algoritmo de Viterbi 1 Inicialización: 2 Recurrencia: [ δ t+1 (j) = δ 1 (i) = π i b i (o 1 ), 1 i N. max 1 i N δ t(i)a ij ] b j (o t+1 ), t = 1, 2,...,T 1, 1 j N. ψ t+1 (j) = arg max 1 i N δ t(i)a ij, t = 1, 2,...,T 1, 1 j N. 3 Terminación: q T = arg max 1 i N δ T(i). 4 Construcción hacia atrás de la secuencia de estados: q t = ψ t+1 (q t+1), t = T 1, T 2,...,1. Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 23 )/ 43

24 Cálculo de la secuencia de estados más probable Algoritmo de Viterbi Observaciones v1 v1 v1 v1 v2 v2 v1 v2 1 Estados Tiempo Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 24 )/ 43

25 Cálculo de la secuencia de estados más probable Algoritmo de Viterbi Ejemplo de funcionamiento del algoritmo de Viterbi Dado el modelo µ = (π, A, B) con Q = {1, 2, 3}, V = {v 1, v 2 }, π = 0, 25 0, 50 0, 25 A = 0, 25 0, 25 0, , 25 0, 75 0, 50 0, 50 0 B = 0, 50 0, 50 0, 25 0, 75 0, 75 0, 25 los cálculos para encontrar la secuencia de estados más probable dada la observación O = (v 1, v 1, v 1, v 1, v 2, v 2, v 1, v 2 ) de longitud T = 8 son δ 1 (1) = π 1 b 1 (v 1 ) = (0, 25)(0, 50) δ 1 (2) = π 2 b 2 (v 1 ) = (0, 50)(0, 25) δ 1 (3) = π 3 b 3 (v 1 ) = (0, 25)(0, 75) Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 25 )/ 43

26 Cálculo de la secuencia de estados más probable Algoritmo de Viterbi Ejemplo de funcionamiento del algoritmo de Viterbi Dado el modelo µ = (π, A, B) con Q = {1, 2, 3}, V = {v 1, v 2 }, π = 0, 25 0, 50 0, 25 A = 0, 25 0, 25 0, , 25 0, 75 0, 50 0, 50 0 B = 0, 50 0, 50 0, 25 0, 75 0, 75 0, 25 los cálculos para encontrar la secuencia de estados más probable dada la observación O = (v 1, v 1, v 1, v 1, v 2, v 2, v 1, v 2 ) de longitud T = 8 son δ 2 (1) = max [δ 1 (1) a 11, δ 1 (2) a 21, δ 1 (3) a 31 ] b 1 (v 1 ) = (0, 25) (0, 50) 2 (0, 75) ψ 2 (1) = 3 δ 2 (2) = max [δ 1 (1) a 12, δ 1 (2) a 22, δ 1 (3) a 32 ] b 2 (v 1 ) = (0, 25) 2 (0, 50) (0, 75) ψ 2 (2) = 3 δ 2 (3) = max [δ 1 (1) a 13, δ 1 (2) a 23, δ 1 (3) a 33 ] b 3 (v 1 ) = (0, 25) (0, 50) (0, 75) 2 ψ 2 (3) = 2 Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 25 )/ 43

27 Cálculo de la secuencia de estados más probable Algoritmo de Viterbi Ejemplo de funcionamiento del algoritmo de Viterbi Dado el modelo µ = (π, A, B) con Q = {1, 2, 3}, V = {v 1, v 2 }, π = 0, 25 0, 50 0, 25 A = 0, 25 0, 25 0, , 25 0, 75 0, 50 0, 50 0 B = 0, 50 0, 50 0, 25 0, 75 0, 75 0, 25 los cálculos para encontrar la secuencia de estados más probable dada la observación O = (v 1, v 1, v 1, v 1, v 2, v 2, v 1, v 2 ) de longitud T = 8 son δ 3 (1) = max [δ 2 (1) a 11, δ 2 (2) a 21, δ 2 (3) a 31 ] b 1 (v 1 ) = (0, 25) (0, 50) 3 (0, 75) 2 ψ 3 (1) = 3 δ 3 (2) = max [δ 2 (1) a 12, δ 2 (2) a 22, δ 2 (3) a 32 ] b 2 (v 1 ) = (0, 25) 2 (0, 50) 2 (0, 75) 2 ψ 3 (2) = 3 δ 3 (3) = max [δ 2 (1) a 13, δ 2 (2) a 23, δ 2 (3) a 33 ] b 3 (v 1 ) = (0, 25) (0, 50) 3 (0, 75) 2 ψ 3 (3) = 1 Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 25 )/ 43

28 Cálculo de la secuencia de estados más probable Algoritmo de Viterbi Ejemplo de funcionamiento del algoritmo de Viterbi Dado el modelo µ = (π, A, B) con Q = {1, 2, 3}, V = {v 1, v 2 }, π = 0, 25 0, 50 0, 25 A = 0, 25 0, 25 0, , 25 0, 75 0, 50 0, 50 0 B = 0, 50 0, 50 0, 25 0, 75 0, 75 0, 25 los cálculos para encontrar la secuencia de estados más probable dada la observación O = (v 1, v 1, v 1, v 1, v 2, v 2, v 1, v 2 ) de longitud T = 8 son δ 4 (1) = max [δ 3 (1) a 11, δ 3 (2) a 21, δ 3 (3) a 31 ] b 1 (v 1 ) = (0, 25) (0, 50) 5 (0, 75) 2 ψ 4 (1) = 3 δ 4 (2) = max [δ 3 (1) a 12, δ 3 (2) a 22, δ 3 (3) a 32 ] b 2 (v 1 ) = (0, 25) 2 (0, 50) 4 (0, 75) 2 ψ 4 (2) = 3 δ 4 (3) = max [δ 3 (1) a 13, δ 3 (2) a 23, δ 3 (3) a 33 ] b 3 (v 1 ) = (0, 25) (0, 50) 4 (0, 75) 3 ψ 4 (3) = 1 Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 25 )/ 43

29 Cálculo de la secuencia de estados más probable Algoritmo de Viterbi Ejemplo de funcionamiento del algoritmo de Viterbi Dado el modelo µ = (π, A, B) con Q = {1, 2, 3}, V = {v 1, v 2 }, π = 0, 25 0, 50 0, 25 A = 0, 25 0, 25 0, , 25 0, 75 0, 50 0, 50 0 B = 0, 50 0, 50 0, 25 0, 75 0, 75 0, 25 los cálculos para encontrar la secuencia de estados más probable dada la observación O = (v 1, v 1, v 1, v 1, v 2, v 2, v 1, v 2 ) de longitud T = 8 son δ 5 (1) = max [δ 4 (1) a 11, δ 4 (2) a 21, δ 4 (3) a 31 ] b 1 (v 2 ) = (0, 25) (0, 50) 6 (0, 75) 3 ψ 5 (1) = 3 δ 5 (2) = max [δ 4 (1) a 12, δ 4 (2) a 22, δ 4 (3) a 32 ] b 2 (v 2 ) = (0, 25) (0, 50) 5 (0, 75) 4 ψ 5 (2) = 3 δ 5 (3) = max [δ 4 (1) a 13, δ 4 (2) a 23, δ 4 (3) a 33 ] b 3 (v 2 ) = (0, 25) 2 (0, 50) 6 (0, 75) 2 ψ 5 (3) = 1 Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 25 )/ 43

30 Cálculo de la secuencia de estados más probable Algoritmo de Viterbi Ejemplo de funcionamiento del algoritmo de Viterbi Dado el modelo µ = (π, A, B) con Q = {1, 2, 3}, V = {v 1, v 2 }, π = 0, 25 0, 50 0, 25 A = 0, 25 0, 25 0, , 25 0, 75 0, 50 0, 50 0 B = 0, 50 0, 50 0, 25 0, 75 0, 75 0, 25 los cálculos para encontrar la secuencia de estados más probable dada la observación O = (v 1, v 1, v 1, v 1, v 2, v 2, v 1, v 2 ) de longitud T = 8 son δ 6 (1) = max [δ 5 (1) a 11, δ 5 (2) a 21, δ 5 (3) a 31 ] b 1 (v 2 ) = (0, 25) 2 (0, 50) 7 (0, 75) 3 ψ 6 (1) = 1 δ 6 (2) = max [δ 5 (1) a 12, δ 5 (2) a 22, δ 5 (3) a 32 ] b 2 (v 2 ) = (0, 25) 2 (0, 50) 5 (0, 75) 5 ψ 6 (2) = 2 δ 6 (3) = max [δ 5 (1) a 13, δ 5 (2) a 23, δ 5 (3) a 33 ] b 3 (v 2 ) = (0, 25) 2 (0, 50) 5 (0, 75) 5 ψ 6 (3) = 2 Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 25 )/ 43

31 Cálculo de la secuencia de estados más probable Algoritmo de Viterbi Ejemplo de funcionamiento del algoritmo de Viterbi Dado el modelo µ = (π, A, B) con Q = {1, 2, 3}, V = {v 1, v 2 }, π = 0, 25 0, 50 0, 25 A = 0, 25 0, 25 0, , 25 0, 75 0, 50 0, 50 0 B = 0, 50 0, 50 0, 25 0, 75 0, 75 0, 25 los cálculos para encontrar la secuencia de estados más probable dada la observación O = (v 1, v 1, v 1, v 1, v 2, v 2, v 1, v 2 ) de longitud T = 8 son δ 7 (1) = max [δ 6 (1) a 11, δ 6 (2) a 21, δ 6 (3) a 31 ] b 1 (v 1 ) = (0, 25) 2 (0, 50) 7 (0, 75) 5 ψ 7 (1) = 3 δ 7 (2) = max [δ 6 (1) a 12, δ 6 (2) a 22, δ 6 (3) a 32 ] b 2 (v 1 ) = (0, 25) 3 (0, 50) 6 (0, 75) 5 ψ 7 (2) = 3 δ 7 (3) = max [δ 6 (1) a 13, δ 6 (2) a 23, δ 6 (3) a 33 ] b 3 (v 1 ) = (0, 25) 2 (0, 50) 5 (0, 75) 7 ψ 7 (3) = 2 Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 25 )/ 43

32 Cálculo de la secuencia de estados más probable Algoritmo de Viterbi Ejemplo de funcionamiento del algoritmo de Viterbi Dado el modelo µ = (π, A, B) con Q = {1, 2, 3}, V = {v 1, v 2 }, π = 0, 25 0, 50 0, 25 A = 0, 25 0, 25 0, , 25 0, 75 0, 50 0, 50 0 B = 0, 50 0, 50 0, 25 0, 75 0, 75 0, 25 los cálculos para encontrar la secuencia de estados más probable dada la observación O = (v 1, v 1, v 1, v 1, v 2, v 2, v 1, v 2 ) de longitud T = 8 son δ 8 (1) = max [δ 7 (1) a 11, δ 7 (2) a 21, δ 7 (3) a 31 ] b 1 (v 2 ) = (0, 25) 2 (0, 50) 7 (0, 75) 7 ψ 8 (1) = 3 δ 8 (2) = max [δ 7 (1) a 12, δ 7 (2) a 22, δ 7 (3) a 32 ] b 2 (v 2 ) = (0, 25) 2 (0, 50) 6 (0, 75) 8 ψ 8 (2) = 3 δ 8 (3) = max [δ 7 (1) a 13, δ 7 (2) a 23, δ 7 (3) a 33 ] b 3 (v 2 ) = (0, 25) 3 (0, 50) 8 (0, 75) 5 ψ 8 (3) = 1 q8 = 2 y al reconstruir hacia atrás la secuencia de estados obtenemos S = (2, 3, 1, 3, 2, 2, 3, 2) Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 25 )/ 43

33 Cálculo de la secuencia de estados más probable Algoritmo de Viterbi El algoritmo de Viterbi aplicado a la etiquetación palabra 1 palabra 2 palabra 3 palabra T preposición adjetivo adjetivo numeral etiqueta 0 etiqueta 0 sustantivo preposición adverbio pronombre sustantivo verbo sustantivo verbo Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 26 )/ 43

34 Cálculo de la secuencia de estados más probable Algoritmo de Viterbi Viterbi para HMM de orden 2 (trigramas) 1 Inicialización: δ 1 (i) = π i b i (o 1 ), 1 i N. 2 Recurrencia: [ δ t+1 (j, k) = δ 2 (i, j) = δ 1 (i)a ij b j (o 2 ), 1 i, j N. max 1 i N δ t(i, j)a ijk ] b k (o t+1 ), t = 2, 3,...,T 1, 1 j, k ψ t+1 (j, k) = arg max 1 i N δ t(i, j)a ijk, t = 2, 3,...,T 1, 1 j, k N. 3 Terminación: (qt 1, q T ) = arg max δ T(j, k). 1 j,k N 4 Construcción hacia atrás de la secuencia de estados: q t = ψ t+2 (q t+1, q t+2), t = T 2, T 3,...,1. Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 27 )/ 43

35 Cálculo de la secuencia de estados más probable Algoritmo de Viterbi Algoritmo de Viterbi con logaritmos y sumas 0 Preproceso: π i = log (π i ), ã ij = log (a ij ), b i (o t ) = log [b i (o t )] 1 Inicialización: δ 1 (i) = log [δ 1 (i)] = π i + b i (o 1 ), 1 i N. 2 Recurrencia: [ ] δ t+1 (j) = log[δ t+1 (j)] = max [ δ t (i)+ã ij ] + b j (o t+1 ), t = 1, 2,...,T 1 i N ψ t+1 (j) = arg max 1 i N [ δ t (i)+ã ij ], t = 1, 2,...,T 1, 1 j N. 3 Terminación: q T = arg max δ T (i). 1 i N 4 Construcción hacia atrás de la secuencia de estados: q t = ψ t+1 (q t+1), t = T 1, T 2,...,1. Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 28 )/ 43

36 Estimación de parámetros no supervisada Estimación de parámetros Encontrar un modelo µ = (π, A, B) que maximice P(O µ) Estimación no supervisada Estimación supervisada Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 29 )/ 43

37 Estimación de parámetros no supervisada Algoritmo de Baum-Welch Estimación no supervisada: Algoritmo de Baum-Welch El algoritmo de Baum-Welch es un caso especial del algoritmo EM (Expectation-Maximization, maximización de la esperanza) ξ t (i, j) = P(q t = i, q t+1 = j O, µ) es la probabilidad de estar en el estado i en el instante t y en el estado j en el instante t + 1 ξ t (i, j) = P(q t = i, q t+1 = j, O µ) P(O µ) = α t(i)a ij b j (o t+1 )β t+1 (j) P(O µ) = α t (i)a ij b j (o t+1 )β t+1 (j). N N α t (k)a kl b l (o t+1 )β t+1 (l) k=1 l=1 Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 30 )/ 43

38 Estimación de parámetros no supervisada Algoritmo de Baum-Welch ot ot i aij bj(ot+1) j 3 N a t (i) b (j) t+1 N t 1 t t+1 t+2 Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 31 )/ 43

39 Estimación de parámetros no supervisada Algoritmo de Baum-Welch Retomamos γ t (i) y lo relacionamos con ξ t (i, j): γ t (i) = N ξ t (i, j). j=1 Interpretación: T 1 t=1 T 1 t=1 γ t (i) = número esperado de transiciones desde el estado i ξ t (i, j) = número esperado de transiciones desde el estado i al estado j Utilizando estas fórmulas, se puede dar un método general para reestimar los parámetros de un HMM. Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 32 )/ 43

40 Estimación de parámetros no supervisada Algoritmo de Baum-Welch π i = frecuencia esperada de estar en el estado i en el el instante 1 = γ 1 (i) ā ij = no esperado de transiciones desde el estado i al estado j n o esperado de transiciones desde el estado i = T 1 t=1 T 1 ξ t (i, j) γ t (i) t=1 b j (v k ) = no esperado de veces en el estado j observando el símbolo v k n o esperado de veces en el estado j = T t=1 γ t(j) tal que o t = v k T t=1 γ t(j) Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 33 )/ 43

41 Estimación de parámetros no supervisada Algoritmo iterativo Algoritmo de Baum-Welch Definimos un modelo incial µ = (π, A, B) Calculamos µ = ( π, Ā, B) mediante las ecuaciones de la transparencia anterior Reemplazamos µ por µ y repetimos la reestimación de los parámetros un cierto número de veces, hasta que no se aprecie ninguna ganancia significativa entre P(O µ) y P(O µ) Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 34 )/ 43

42 Problemas Estimación de parámetros no supervisada Algoritmo de Baum-Welch Muy sensible a las condiciones de inicialización del modelo Una inicialización incorrecta puede llevar a un máximo local Solución para π y A: estimación inicial equiprobable ligeramente modificada Solución para B: Método de Jelinek, regla de Bayes suponiendo que todas las etiquetas que aparecen en el diccionario para una palabra dada son equiprobables Método de Kupiec, agrupa las palabras en clases de ambigüedad Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 35 )/ 43

43 Estimación de parámetros supervisada Estimación de parámetros supervisada Corpus etiquetado Estimación de máxima verosimilitud (maximum likelihood) π i = no de frases que comienzan por etiqueta t i n o de frases a ij = C(ti t j ) C(t i ) b j (w k ) = C(wk t j ) C(t j ) Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 36 )/ 43

44 Estimación de parámetros supervisada Técnicas de suavizado (smoothing) Suavizado de los prámetros Los fenómenos que no aparecen en el corpus de entreniento dan lugar a ceros: necesidad de suavizar los parámetros. Generalmente el suavizado es lo que marca la diferencia de rendimiento entre etiquetadores probabiĺısticos. Suavizado de Laplace (add-one) Descuento de Good-Turing Interpolación Backoff Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 37 )/ 43

45 Estimación de parámetros supervisada Suavizado de Laplace (add-one) Suavizado de los prámetros Añadir 1 a todas las cuentas P(x) = C(x) N donde x es un token (palabra, etiqueta, bigrama (de palabras o etiquetas), trigrama,...) y N es el numero total de tokens en el texto P Laplace (x) = C(x) + 1 N + V donde V es el tamaño del vocabulario de tokens Alternativamente C N (x) = (C(x) + 1) N + V Inconveniente: Si V es grande y/o N pequeño deriva demasiada masa de probabilidad a tokens con pocas o ninguna apariciones Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 38 )/ 43

46 Estimación de parámetros supervisada Suavizado de Good-Turing Suavizado de los prámetros Usa las cuentas de los tokens que han sido observados una sola vez para estimar la cuenta de aquellos que nunca han sido observados Generaliza este razonamiento a los tokens observados c veces N c es el número de tokens (etiquetas, bigramas,...) con cuenta c: N c = x:c(x)=c Reemplaza la cuenta c por la cuenta suavizada c 1 c = (c + 1) N c+1 N c En la práctica se aproxima N 0 mediante N, sólo se usa c para valores pequeños de c y se usan aproximaciones para el caso de que N c+1 = 0 Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 39 )/ 43

47 Interpolación Estimación de parámetros supervisada Suavizado de los prámetros P(z x, y) = λ 1 P(z x, y) + λ 2 P(z y) + λ 3 P(z) λ i = 1 Problema: calcular valores adecuados para λ i i Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 40 )/ 43

48 Backoff Estimación de parámetros supervisada Suavizado de los prámetros P (z x, y) if C(x, y, z) > 0 P katz (z x, y) = α(x, y) P katz (z y) else if C(y, z) > 0 P (z) otherwise { P P katz (z y) = (z y) if C(y, z) > 0 α(y) P katz (z) otherwise donde los P son probabilizadas suavizadas al estilo Good-Turing y los valores de los α deben ser calculados para garantizar que la masa total de probabilidad sea 1. Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 41 )/ 43

49 Tratamiento de las palabras desconocidas Tratamiento de las palabras desconocidas Las probabilidades de emitir una palabra deconocida l 1...l n con etiqueta t se determinana en función de sus terminaciones P(l n i+1,...,l n t) = P(l n i+1,...,l n )P(t l n i+1,...,l n ) P(t) P(t l n i+1,...,l n ) = ˆp(t l n i+1,...,l n ) + θ i P(t l n i+2,...,l n ) 1 + θ i ˆp(t l n i+1,...,l n ) = C(t, l n i+1,...,l n ) C(l n i+1,...,l n ) Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 42 )/ 43

50 Tratamiento de las palabras desconocidas Árbol de sufijos Las etiquetas posibles para cada sufijo se determinan a partir del árbol de letras de los sufijos Miguel A. Alonso, Jorge Graña, Jesús Vilares (Departamento Modelos de de Markov Computación, Ocultos (HMM) Facultad de Informática, Universidade da Coruña 43 )/ 43