Maestría en Bioinformática Probabilidad y Estadística: Clase 13

Documentos relacionados
Bases Formales de la Computación: Sesión 3. Modelos Ocultos de Markov

Maestría en Bioinformática Probabilidad y Estadística: Clase 1

Maestría en Bioinformática Probabilidad y Estadística: Clase 3

ANÁLISIS DE FRECUENCIA (CURVAS INTENSIDAD DURACIÓN - FRECUENCIA) Y RIESGO HIDROLÓGICO

EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD)

Modelos Estocásticos I Tercer Examen Parcial Respuestas

El Algoritmo E-M. José Antonio Camarena Ibarrola

Determinación del tamaño de muestra (para una sola muestra)

Estadística Descriptiva

1.1 CASO DE ESTUDIO: JUEGO DE CRAPS

Teorema Central del Límite (1)

INTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)

CONTENIDOS. 1. Procesos Estocásticos y de Markov. 2. Cadenas de Markov en Tiempo Discreto (CMTD) 3. Comportamiento de Transición de las CMTD

Simulación I. Investigación Operativa, Grado en Estadística y Empresa, 2011/12

Tema 9: Contraste de hipótesis.

Análisis de datos Categóricos

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

TEMA 3. Algunos modelos de probabilidad de tipo discreto. 3.1 Al finalizar el tema el alumno debe conocer...

Conjunto R 3 y operaciones lineales en R 3

Tema 5. Muestreo y distribuciones muestrales

Cálculo de bisección inversa mediante mínimos cuadrados

1 Método de la bisección. 1.1 Teorema de Bolzano Teorema 1.1 (Bolzano) Contenido

El Juego como Problema de Búsqueda

PROCESOS ESTOCÁSTICOS

Objetivos. Aprender a construir gráficos p y/o np. Aprender a construir gráficos c y u. Cuando usarlos. Epígrafes

Generación de variables aleatorias continuas Método de la transformada inversa

Algoritmos para determinar Caminos Mínimos en Grafos

Tema 8: Contraste de hipótesis

Contrastes de hipótesis paramétricos

Fundamentos Matemáticos de la Ingeniería. Tema 4: Diagonalización de matrices. Curso

Introducción a los códigos compresores

Generación de variables aleatorias continuas Método de rechazo

CAPÍTULO 4 TÉCNICA PERT

Simulación. Problema del jardinero. Modelo de stock aleatorio. Camino crítico.

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Tablas de frecuencias con datos agrupados

Modelos Estadísticos de Crimen

Tema 2: Estadísticos. Bioestadística. U. Málaga. Tema 2: Estadísticos 1

1. (F, +) es un grupo abeliano, denominado el grupo aditivo del campo.

PROBABILIDAD Y ESTADÍSTICA

Rectas y Planos en el Espacio

Cálculo de Probabilidades II Preguntas Tema 1

Ejercicios de Variables Aleatorias

EIE SISTEMAS DIGITALES Tema 8: Circuitos Secuenciales (Síntesis) Nombre del curso: Sistemas Digitales Nombre del docente: Héctor Vargas

Departamento de Matemáticas, CCIR/ITESM. 9 de febrero de 2011


Masas estelares. Estrellas binarias

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

Máquinas de Turing IIC3242. IIC3242 Máquinas de Turing 1 / 42

Expresiones Regulares y Derivadas Formales

Métodos Estadísticos Multivariados

RESOLUCIÓN DE SISTEMAS MEDIANTE DETERMINANTES

LECTURA 01: LA DISTRIBUCIÓN NORMAL GENERAL. LA DISTRIBUCIÓN NORMAL ESTÁNDAR (PARTE I). TEMA 1: LA DISTRIBUCION NORMAL GENERAL.

Fundamentos de Estadística y Simulación Básica

Estadística Descriptiva. SESIÓN 11 Medidas de dispersión

Procesos estocásticos

EXPERIMENTO ALEATORIO

ALGORITMOS GENÉTICOS: ALGUNOS RESULTADOS DE CONVERGENCIA

Unidad IV: Distribuciones muestrales

Tensores cartesianos.

Ejercicios T2 y T3.- DISTRIBUCIONES MUESTRALES Y ESTIMACIÓN PUNTUAL

Sistem as de ecuaciones lineales

OPTIMIZACIÓN VECTORIAL

MODELADO Y SIMULACIÓN. Febrero de Primera semana

Derivadas Parciales (parte 2)

Modelos de input-output y cadenas de Markov

6.4. APLICACIÓN DE REDES NEURONALES EN EL CÁLCULO DE LA TASA DE CONTORNEAMIENTOS Velocidad de retorno del rayo con distribución uniforme

Interferencia Luminosa: Experiencia de Young

LISTA DE SÍMBOLOS. Capítulo 2 EJEMPLOS Y TEORIA DE LAS VIBRACIONES PARAMÉTRICAS 2.1 Introducción T - Periodo Ω - Frecuencia a- parámetro b- parámetro

Conocer la forma de analizar las Medidas de Tendencia Central de una distribución con OpenOffice Calc.

1.1. Distribución exponencial. Definición y propiedades

Generación de Variables Aleatorias. UCR ECCI CI-1453 Investigación de Operaciones Prof. M.Sc. Kryscia Daviana Ramírez Benavides

EJERCICIOS del TEMA 3: Lenguajes independientes del contexto

Tema 2: Teorema de estructura de los grupos abelianos finitamente generados.

Introducción a la Programación Dinámica. El Problema de la Mochila

Cadenas de Markov y aplicaciones en biología computacional. Alex Sánchez. Departament d Estadística U.B. 1. Estadística i Bioinformàtica

Práctica 5 Cálculo integral y sus aplicaciones

Convertir un AFND a un AFD

Sistemas de ecuaciones lineales dependientes de un parámetro

Estimación de un modelo de ecuaciones simultáneas usando el software econométrico Gretl

MANUAL DE USO PROGRAMA SENSIBAR

Robusticidad de los Diseños D-óptimos a la Elección. de los Valores Locales para el Modelo Logístico

Teoría de grafos y optimización en redes

Funciones de Clase C 1

Desempeño de Medidas de Riesgo sobre Distribuciones de Valores Extremos

Tema 1: Números naturales. Sistemas de numeración

Teoría de errores -Hitogramas

Sistemas de ecuaciones no lineales

Notas sobre el teorema minimax

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Eliminación de cuantificadores

Un número natural distinto de 1 es un número primo si sólo tiene dos divisores, él mismo y la unidad.

Problemas Prueba de significación de la hipótesis nula Vicente Manzano-Arrondo, 2013

Clustering para la inicialización de HMM en RAH. Jorge Luis Guevara Díaz

1. Lección 9 - Continuidad y Derivabilidad

Tema 8: Introducción a la Teoría sobre Contraste de hipótesis

Análisis Probit. StatFolio de Ejemplo: probit.sgp

ALGORITMO MINIMAX. o Nodo: Representa una situación del juego. o Sucesores de un nodo: Situaciones del juego a las que se

Práctica N o 8 Desigualdades Válidas - Algoritmos de Planos de Corte - Algoritmos Branch & Cut

Modelos de probabilidad. Modelos de probabilidad. Modelos de probabilidad. Proceso de Bernoulli. Objetivos del tema:

Transcripción:

Maestría en Bioinformática Probabilidad y Estadística: Clase 13 Gustavo Guerberoff gguerber@fing.edu.uy Facultad de Ingeniería Universidad de la República Mayo de 2010

Contenidos 1 Hidden Markov Models (HMM): Continuación Algoritmo de Viterbi 1 Método de Baum-Welch

Hidden Markov Models (HMM) Un HMM queda especificado por: Una cadena de Markov con espacio de estados E y matriz de transición P. El alfabeto de símbolos emitidos: A. La matriz de emisión de símbolos: B. El estado inicial de la cadena: π. Denotamos con O = o 1, o 2, o 3..., o T a una secuencia de longitud T de símbolos observados, y con Q = i 1, i 2, i 3..., i T a la correspondiente secuencia oculta de estados de la cadena.

i 1 i 2 i 3... i T o 1 o 2 o 3 o T Recordemos que la probabilidad conjunta para cada par (Q, O) es: P(Q, O) = π i1 b i1 (o 1 ) p i1 i 2 b i2 (o 2 )... p it 1 i T b it (o T ). En la clase anterior vimos un algoritmo (el algoritmo forward) que permite calcular de manera eficiente P(O) = Q P(O Q)P(Q), para una secuencia de símbolos observados, O.

Algoritmo de Viterbi Veremos a continuación un algoritmo (el algoritmo de Viterbi) que permite obtener de manera eficiente una secuencia de estados ocultos Q que maximiza P(Q O). Recordemos que: P(Q O) = P(Q, O) P(O) y observemos que P(O) es independiente de la secuencia Q, de manera que: argmax Q P(Q O) = argmax Q P(Q, O). El algoritmo de Viterbi se divide en dos partes: en primer lugar se obtiene el valor máximo de P(Q, O) y posteriormente se construye explícitamente un maximizador.

Parte A: Cálculo de máx Q P(Q, O). Para cada tiempo t (1 t T ) y para cada estado i E se introducen las siguientes cantidades: δ t (i) = con δ 1 (i) = P(i 1 = i, o 1 ). máx P(i 1, i 2,..., i t 1, i t = i, o 1, o 2,..., o t ), i 1,i 2,...,i t 1 Observación: Notar que: máx Q P(Q, O) = máx δ T (i). i E Veremos ahora cómo se calculan las variables {δ t (i)} de manera inductiva en t.

Paso inicial: (t = 1) Para cada i E calculamos: δ 1 (i) = π i b i (o 1 ). Paso inductivo: (t t + 1) Para cada j E y t = 1, 2,..., T 1 se cumple: δ t+1 (j) = máx i 1,i 2,...,i t P(i 1, i 2,..., i t, i t+1 = j, o 1, o 2,..., o t, o t+1 ) = máx máx P(i 1, i 2,..., i t = i, o 1, o 2,..., o t ) p ij b j (o t+1 ) i E i 1,i 2,...,i t 1 [ ] = máx δ t(i) p ij b j (o t+1 ) i E

Parte B: Cálculo del maximizador. Una vez que se han obtenido las cantidades {δ t (i)} se construye una secuencia maximizadora Q 0 = i 0 1, i0 2, i0 3..., i0 T procediendo de atrás hacia adelante de la siguiente manera: i 0 T = argmax i E δ T (i). i 0 t = argmax i E δ t (i) p i i 0 t+1, para cada t = 1, 2,..., T 1. El algoritmo de Viterbi proporciona una manera eficiente y sencilla de computar la secuencia de estados más probable para una secuencia de observaciones. Para poder aplicar el algoritmo es necesario conocer las probabilidades de transición de la cadena, las probabilidades de emisión y el estado inicial. A continuación veremos cómo estimar estos parámetros a partir de una secuencia de observaciones.

Suponemos que tenemos un conjunto de datos que han sido generados por un HMM con una cierta topología determinada (esto es, se conocen la cantidad de estados de la cadena de Markov oculta y la estructura del grafo de esa cadena). A partir de las observaciones queremos estimar los parámetros de la cadena: las componentes del estado inicial (π i ), las componentes de la matriz de transición (p ij ) y las componentes de la matriz de emisión (b i (a)). Un posible abordaje sería buscar el conjunto de parámetros que maximiza la función de verosimilitud para los datos observados. Como hay muchos parámetros en juego este abordaje se torna poco viable. A continuación veremos un algoritmo eficiente para obtener un juego de parámetros que maximizan localmente la verosimilitud.

Método de Baum-Welch Notación: O es una secuencia observada (o una familia de secuencias observadas) generada por un HMM. λ = (P, B, π) es el conjunto de parámetros que queremos estimar a partir de las observaciones. Idea del método de Baum-Welch: Se proponen valores iniciales para los parámetros: λ (in) = (P (in), B (in), π (in) ). Estos valores pueden elegirse con distribución uniforme o puede usarse cierta información a priori. A partir de estos valores y de las observaciones se recalculan los parámetros, obteniendo: λ (out) = (P (out), B (out), π (out) ).

Los nuevos parámetros aumentan la verosimilitud: P(O λ (out) ) P(O λ (in) ), con igualdad si y sólo si λ (out) = λ (in). Se repite el procedimiento hasta alcanzar un máximo local de la verosimilitud o hasta que las diferencias entre los parámetros recalculados en dos pasos sucesivos sean despreciables. A continuación veremos cómo se recalculan los parámetros a partir de los valores iniciales.

A partir de las observaciones y de λ (in) se construyen las siguientes cantidades: = proporción esperada de veces en las que el estado inicial es i, dado O, π (out) i p (out) ij = E(N ij O) E(N i O), b (out) i (a) = E(N i(a) O) E(N i O), donde N ij es el número de veces en que i t = i e i t+1 = j para algún t; N i es el número de veces en que i t = i para algún t; y N i (a) es el número de veces en que i t = i y se emite el símbolo a para algún t. Todas estas cantidades aleatorias no se observan directamente. Veremos ahora cómo se calculan los valores esperados de manera eficiente.

Cálculo de los valores esperados: La clave para obtener las cantidades anteriores de manera eficiente consiste en calcular: ξ t (i, j) = P(i t = i, i t+1 = j O), para cada i, j E y para cada t. Usando la definición de probabilidad condicional: ξ t (i, j) = P(i t = i, i t+1 = j, O). P(O) Las probabilidades del lado derecho se calculan usando los parámetros λ (in) = (P (in), B (in), π (in) ). P(O) se calcula, como vimos la clase pasada, usando las variables forward para los parámetros iniciales, α (in) (t, i).

Por otra parte: P(i t = i, i t+1 = j, O) = α (in) (t, i) p (in) ij donde: β(t, i) = P(o t+1, o t+2,..., o T i t = i), b (in) j (o t+1 ) β (in) (t + 1, j), i E, t = 1, 2,..., T 1, son las variables backward, que se computan de manera inductiva usando un algoritmo análogo al algoritmo forward (ver, por ejemplo, Ewens y Grant: Statistical Methods in Bioinformatics).

Una vez que se han calculado las cantidades ξ t (i, j), para cada t y para cada i, j E, se calculan los valores esperados que definen las cantidades (π (out) i, p (out) ij, b (out) i (a)) de la siguiente manera: E(N ij O) = t ξ t(i, j). E(N i O) = t j E ξ t(i, j). E(N i (a) O) = t:o t =a j E ξ t(i, j).

Resumiendo: A partir de los valores iniciales de los parámetros, λ (in), se obtienen los parámetros recalculados, λ (out). Los parámetros recalculados son más verosímiles que los iniciales. Se repite este procedimiento un número suficiente de veces hasta tener garantías de que se ha llegado a las proximidades de un máximo local de la función de verosimilitud. Hay paquetes estadísticos que realizan estos cálculos y proporcionan buenos estimadores para los parámetros.