Maestría en Bioinformática Probabilidad y Estadística: Clase 13

Maestría en Bioinformática Probabilidad y Estadística: Clase 13 Gustavo Guerberoff gguerber@fing.edu.uy Facultad de Ingeniería Universidad de la República Mayo de 2010

Contenidos 1 Hidden Markov Models (HMM): Continuación Algoritmo de Viterbi 1 Método de Baum-Welch

Hidden Markov Models (HMM) Un HMM queda especificado por: Una cadena de Markov con espacio de estados E y matriz de transición P. El alfabeto de símbolos emitidos: A. La matriz de emisión de símbolos: B. El estado inicial de la cadena: π. Denotamos con O = o 1, o 2, o 3..., o T a una secuencia de longitud T de símbolos observados, y con Q = i 1, i 2, i 3..., i T a la correspondiente secuencia oculta de estados de la cadena.

i 1 i 2 i 3... i T o 1 o 2 o 3 o T Recordemos que la probabilidad conjunta para cada par (Q, O) es: P(Q, O) = π i1 b i1 (o 1 ) p i1 i 2 b i2 (o 2 )... p it 1 i T b it (o T ). En la clase anterior vimos un algoritmo (el algoritmo forward) que permite calcular de manera eficiente P(O) = Q P(O Q)P(Q), para una secuencia de símbolos observados, O.

Algoritmo de Viterbi Veremos a continuación un algoritmo (el algoritmo de Viterbi) que permite obtener de manera eficiente una secuencia de estados ocultos Q que maximiza P(Q O). Recordemos que: P(Q O) = P(Q, O) P(O) y observemos que P(O) es independiente de la secuencia Q, de manera que: argmax Q P(Q O) = argmax Q P(Q, O). El algoritmo de Viterbi se divide en dos partes: en primer lugar se obtiene el valor máximo de P(Q, O) y posteriormente se construye explícitamente un maximizador.

Parte A: Cálculo de máx Q P(Q, O). Para cada tiempo t (1 t T ) y para cada estado i E se introducen las siguientes cantidades: δ t (i) = con δ 1 (i) = P(i 1 = i, o 1 ). máx P(i 1, i 2,..., i t 1, i t = i, o 1, o 2,..., o t ), i 1,i 2,...,i t 1 Observación: Notar que: máx Q P(Q, O) = máx δ T (i). i E Veremos ahora cómo se calculan las variables {δ t (i)} de manera inductiva en t.

Paso inicial: (t = 1) Para cada i E calculamos: δ 1 (i) = π i b i (o 1 ). Paso inductivo: (t t + 1) Para cada j E y t = 1, 2,..., T 1 se cumple: δ t+1 (j) = máx i 1,i 2,...,i t P(i 1, i 2,..., i t, i t+1 = j, o 1, o 2,..., o t, o t+1 ) = máx máx P(i 1, i 2,..., i t = i, o 1, o 2,..., o t ) p ij b j (o t+1 ) i E i 1,i 2,...,i t 1 [ ] = máx δ t(i) p ij b j (o t+1 ) i E

Parte B: Cálculo del maximizador. Una vez que se han obtenido las cantidades {δ t (i)} se construye una secuencia maximizadora Q 0 = i 0 1, i0 2, i0 3..., i0 T procediendo de atrás hacia adelante de la siguiente manera: i 0 T = argmax i E δ T (i). i 0 t = argmax i E δ t (i) p i i 0 t+1, para cada t = 1, 2,..., T 1. El algoritmo de Viterbi proporciona una manera eficiente y sencilla de computar la secuencia de estados más probable para una secuencia de observaciones. Para poder aplicar el algoritmo es necesario conocer las probabilidades de transición de la cadena, las probabilidades de emisión y el estado inicial. A continuación veremos cómo estimar estos parámetros a partir de una secuencia de observaciones.

Suponemos que tenemos un conjunto de datos que han sido generados por un HMM con una cierta topología determinada (esto es, se conocen la cantidad de estados de la cadena de Markov oculta y la estructura del grafo de esa cadena). A partir de las observaciones queremos estimar los parámetros de la cadena: las componentes del estado inicial (π i ), las componentes de la matriz de transición (p ij ) y las componentes de la matriz de emisión (b i (a)). Un posible abordaje sería buscar el conjunto de parámetros que maximiza la función de verosimilitud para los datos observados. Como hay muchos parámetros en juego este abordaje se torna poco viable. A continuación veremos un algoritmo eficiente para obtener un juego de parámetros que maximizan localmente la verosimilitud.

Método de Baum-Welch Notación: O es una secuencia observada (o una familia de secuencias observadas) generada por un HMM. λ = (P, B, π) es el conjunto de parámetros que queremos estimar a partir de las observaciones. Idea del método de Baum-Welch: Se proponen valores iniciales para los parámetros: λ (in) = (P (in), B (in), π (in) ). Estos valores pueden elegirse con distribución uniforme o puede usarse cierta información a priori. A partir de estos valores y de las observaciones se recalculan los parámetros, obteniendo: λ (out) = (P (out), B (out), π (out) ).

Los nuevos parámetros aumentan la verosimilitud: P(O λ (out) ) P(O λ (in) ), con igualdad si y sólo si λ (out) = λ (in). Se repite el procedimiento hasta alcanzar un máximo local de la verosimilitud o hasta que las diferencias entre los parámetros recalculados en dos pasos sucesivos sean despreciables. A continuación veremos cómo se recalculan los parámetros a partir de los valores iniciales.

A partir de las observaciones y de λ (in) se construyen las siguientes cantidades: = proporción esperada de veces en las que el estado inicial es i, dado O, π (out) i p (out) ij = E(N ij O) E(N i O), b (out) i (a) = E(N i(a) O) E(N i O), donde N ij es el número de veces en que i t = i e i t+1 = j para algún t; N i es el número de veces en que i t = i para algún t; y N i (a) es el número de veces en que i t = i y se emite el símbolo a para algún t. Todas estas cantidades aleatorias no se observan directamente. Veremos ahora cómo se calculan los valores esperados de manera eficiente.

Cálculo de los valores esperados: La clave para obtener las cantidades anteriores de manera eficiente consiste en calcular: ξ t (i, j) = P(i t = i, i t+1 = j O), para cada i, j E y para cada t. Usando la definición de probabilidad condicional: ξ t (i, j) = P(i t = i, i t+1 = j, O). P(O) Las probabilidades del lado derecho se calculan usando los parámetros λ (in) = (P (in), B (in), π (in) ). P(O) se calcula, como vimos la clase pasada, usando las variables forward para los parámetros iniciales, α (in) (t, i).

Por otra parte: P(i t = i, i t+1 = j, O) = α (in) (t, i) p (in) ij donde: β(t, i) = P(o t+1, o t+2,..., o T i t = i), b (in) j (o t+1 ) β (in) (t + 1, j), i E, t = 1, 2,..., T 1, son las variables backward, que se computan de manera inductiva usando un algoritmo análogo al algoritmo forward (ver, por ejemplo, Ewens y Grant: Statistical Methods in Bioinformatics).

Una vez que se han calculado las cantidades ξ t (i, j), para cada t y para cada i, j E, se calculan los valores esperados que definen las cantidades (π (out) i, p (out) ij, b (out) i (a)) de la siguiente manera: E(N ij O) = t ξ t(i, j). E(N i O) = t j E ξ t(i, j). E(N i (a) O) = t:o t =a j E ξ t(i, j).

Resumiendo: A partir de los valores iniciales de los parámetros, λ (in), se obtienen los parámetros recalculados, λ (out). Los parámetros recalculados son más verosímiles que los iniciales. Se repite este procedimiento un número suficiente de veces hasta tener garantías de que se ha llegado a las proximidades de un máximo local de la función de verosimilitud. Hay paquetes estadísticos que realizan estos cálculos y proporcionan buenos estimadores para los parámetros.