Bases Formales de la Computación: Sesión 3. Modelos Ocultos de Markov

Documentos relacionados
Autómatas Deterministas. Ivan Olmos Pineda

Teorema Central del Límite (1)

Clasificación de sistemas

Simulación I. Investigación Operativa, Grado en Estadística y Empresa, 2011/12

Computabilidad y Lenguajes Formales: Autómatas de Pila

Tema 5 Algunas distribuciones importantes

Límites y continuidad de funciones reales de variable real

PROCESOS ESTOCÁSTICOS

El Autómata con Pila: Transiciones

Contrastes de hipótesis paramétricos

Autómatas Mínimos. Encontrar el autómata mínimo. Universidad de Cantabria. Introducción Minimización de Autómatas Deterministas Resultados Algoritmo

13. Utilizar la fórmula del término general y de la suma de n términos consecutivos

Capítulo 4. Lógica matemática. Continuar

Kolmogorov y la teoría de la la probabilidad. David Nualart. Academia de Ciencias y Universidad de Barcelona

Máquinas Secuenciales, Autómatas y Lenguajes. Tema 3.1: Autómatas Finitos Deterministas

PROGRAMACION CONCURRENTE Y DISTRIBUIDA

Modelos Estocásticos I Tercer Examen Parcial Respuestas

Probabilidad II Algunas distribuciones notables. Antonio Cuevas Departamento de Matemáticas Universidad Autónoma de Madrid

Tema 2 Introducción a la Programación en C.

Algebra lineal y conjuntos convexos

INSTITUCIÓN EDUCATIVA GABRIEL TRUJILLO CORREGIMIENTO DE CAIMALITO, PEREIRA

Ayudantía N 9. Problema 1. Considere la siguiente matriz de transición. 1/2 1/2 0 1/3 1/3 1/3

Variables aleatorias unidimensionales

Tema 4. Probabilidad Condicionada

Contraste de hipótesis Tema Pasos del contraste de hipótesis. 1.1 Hipótesis estadísticas: nula y alternativa. 1.3 Estadístico de contraste

INTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)

TALLER 1 DE ALGEBRA LINEAL Y GEOMETRÍA INGENIERÍA AMBIENTAL - UNIVERSIDAD DE CÓRDOBA FACTORIZACIÓN LU Y CADENAS DE MARKOV

5 Autómatas de pila 5.1 Descripción informal. 5.2 Definiciones

CONTENIDOS. 1. Procesos Estocásticos y de Markov. 2. Cadenas de Markov en Tiempo Discreto (CMTD) 3. Comportamiento de Transición de las CMTD

Algunas Distribuciones Continuas de Probabilidad. UCR ECCI CI-1352 Probabilidad y Estadística Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Equivalencia Entre PDA y CFL

Funciones y Condicionales Introducción a la Programación

Límites de funciones de varias variables.

4. NÚMEROS PSEUDOALEATORIOS.

Algunos conceptos básicos de Trigonometría DEFINICIÓN FIGURA OBSERVACIONES. Nombre y definición Figura Característica


ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

Tema: Autómata de Pila

Métodos, Algoritmos y Herramientas

Análisis de Decisiones II. Tema 17 Generación de números al azar. Objetivo de aprendizaje del tema

Proyecto. Tema 6 sesión 2: Generación de Rectas, Circunferencias y Curvas. Geometría Analítica. Isidro Huesca Zavaleta

Unidad 4. Autómatas de Pila

Maestría en Bioinformática Probabilidad y Estadística: Clase 1

Los Métodos de Valoración Indirecta (Costo De Viaje)

ESTRUCTURA DEL EXAMEN DE MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES II PARA ALUMNOS DE BACHILLERATO

y cualquier par (x, y) puede escalarse, multiplicarse por un número real s, para obtener otro vector (sx, sy).

Métodos directos para resolver sistemas de ecuaciones lineales

Fundamentos de Ciencias de la Computación Trabajo Práctico N 2 Lenguajes Libres del Contexto y Sensibles al Contexto Segundo Cuatrimestre de 2002

Ingeniería de Sistemas. Teoría de colas y juegos

Maestría en Bioinformática Probabilidad y Estadística: Clase 3

PRUEBAS DE ACCESO A LA UNIVERSIDAD L.O.G.S.E

Conceptos básicos estadísticos

ALGORITMOS GENÉTICOS: ALGUNOS RESULTADOS DE CONVERGENCIA

Introd. al Pens. Científico Nociones básicas de la lógica ClasesATodaHora.com.ar

Unidad V. 5.1 Recta tangente y recta normal a una curva en un punto. Curvas ortogonales.

Redes bayesianas temporales para reconocimiento de escenarios

MATEMÁTICAS APLICADAS A LAS C.C. SOCIALES

Representación en el espacio de estado. Sistemas Control Embebidos e Instrumentación Electrónica UNIVERSIDAD EAFIT

COLEGIO HELVETIA PROGRAMA DE MATEMÁTICAS GRADO ONCE

Departamento de Matemáticas. ITAM Programación lineal (+ extensiones). Objetivos y panorama del c

Modelización por medio de sistemas

Ruta más Corta con una sóla Fuente de Inicio (Single-Source Shortest Paths) DR. JESÚS A. GONZÁLEZ BERNAL CIENCIAS COMPUTACIONALES INAOE

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

TEMA 1. MATRICES, DETERMINANTES Y APLICACIÓN DE LOS DETERMINANTES. CONCEPTO DE MATRIZ. LA MATRIZ COMO EXPRESIÓN DE TABLAS Y GRAFOS.

Expresiones Regulares y Derivadas Formales

Problemas métricos. 1. Problemas afines y problemas métricos

MODELADO Y SIMULACIÓN. Febrero de Primera semana

Teoría de Lenguajes. Clase Teórica 7 Autómatas de Pila y Lenguajes Independientes del Contexto Primer cuartimestre 2014

Introducción al Cálculo Numérico

Algoritmos. Medios de expresión de un algoritmo. Diagrama de flujo

Teorías del aprendizaje

4.12 Ciertos teoremas fundamentales del cálculo de probabilidades

Superficies paramétricas

ESTRUCTURA DE LINEAS DE ESPERA

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

Matemáticas 2.º Bachillerato. Intervalos de confianza. Contraste de hipótesis

INFERENCIA ESTADISTICA

5 DISTRIBUCIONES BINOMIAL Y DE POISSON

Distribuciones de probabilidad

Generación de variables aleatorias continuas Método de la transformada inversa

Análisis en Forma Estratégica: Juegos Estáticos I

Inducción en definiciones y demostraciones AUTÓMATAS Y LENGUAJES FORMALES PRELIMINARES MATEMÁTICOS. Números naturales. Inducción matemática

Tema 14: Sistemas Secuenciales

3 Curvas alabeadas. Solución de los ejercicios propuestos.

Introducción a los códigos compresores

MÓDULO 1: GESTIÓN DE CARTERAS

CAPÍTULO 4 TÉCNICA PERT

Radiactividad Medicina Nuclear (1993) Radioterapia y Radiodiagnóstico (2008) Facultad de Ingeniería, UNER

Repaso de conceptos de álgebra lineal

2. SEÑALES Y SISTEMAS DISCRETOS EN EL TIEMPO. Una señal puede ser definida como una portadora física de información. Por ejemplo,

LECTURA 01: LA DISTRIBUCIÓN NORMAL GENERAL. LA DISTRIBUCIÓN NORMAL ESTÁNDAR (PARTE I). TEMA 1: LA DISTRIBUCION NORMAL GENERAL.

Dirección Financiera II Universidad de León. Curso

III Verano de Probabilidad y Estadística Curso de Procesos de Poisson (Víctor Pérez Abreu) Lista de Ejercicios

TECNICO SUPERIOR EN INFORMÁTICA EMPRESARIAL MÓDULO INTRUCCIONAL

PRECALCULO INSTITUTO TECNOLÒGICO DE LAS AMÈRICAS CARRERA DE TECNÓLOGO EN MECATRONICA. Precálculo. Nombre de la asignatura: MAT-001

Métodos para escribir algoritmos: Diagramas de Flujo y pseudocódigo

TEORÍA DE AUTÓMATAS Y LENGUAJES FORMALES Grado en Ingeniería Informática Online, Curso Universidad Rey Juan Carlos

PAU Madrid. Matemáticas II. Año Examen modelo. Opción A. Ejercicio 1. Valor: 2 puntos.

Clustering para la inicialización de HMM en RAH. Jorge Luis Guevara Díaz

Transcripción:

Bases Formales de la Computación: Sesión 3. Prof. Gloria Inés Alvarez V. Departamento de Ciencias e Ingeniería de la Computación Pontificia Universidad Javeriana Cali Periodo 2008-2

Contenido 1 Introducción 2 Cadenas de Markov La Propiedad de Markov 3 Problema 1 Aplicaciones Problema 2 Aplicaciones

Introducción Introducción Un Hidden Markov Model (HMM) es una función de probabilidad de un modelo de Markov. Su primer uso fue en lingüística, modelando secuencias de letras en literatura rusa. sin embargo, fueron diseñados como un método general. Los HMM han sido la parte del modelamiento estadístico que más se aplica en los sistemas de reconocimiento de habla modernos. Hoy dia siguen siendo la técnica más exitosa y la más usada para varias tareas, por ejemplo, para el problema POS (Parts of speech tagging).

Introducción Construcción de Modelos de Señales La mayoría de los sistemas producen una salida observable que puede ser caracterizada como una señal. Un problema muy importante es el de modelar un sistema a partir de las señales que emite. Porque esto permite obtener una descripción teórica del sistema mediante la cual se puede aprender a procesar las señales para obtener una salida deseada del sistema. Ejemplo: eliminación de ruido y distorsión. El modelo permite aprender sobre el sistema que emite las señales. Porque se comportan supremamente bien en la práctica.

Introducción Clases de Modelos de Señales Modelos Deterministas: se basan en una propiedad específica y conocida del sistema a modelar. Por ejemplo, el comportamiento se modela mediante una señal seno. Sólo se necesita determinar o estimar unos pocos parámetros: amplitud, frecuencia, fase. Modelos Estadísticos: se busca caracterizar únicamente las propiedades estadísticas de la señal. HMM pertenecen a esta clase. La hipótesis de base es que el proceso se puede modelar como un proceso aleatorio paramétrico y que los parámetros se pueden estimar de forma precisa.

Introducción Los primeros trabajos fueron de Baum y sus colegas a finales de la década de 1960 y principios de los 70 s. Se implementaron para aplicaciones de procesamiento de habla por Baker y Jelinek en los laboratorios de IBM en 1970. Sólo se entendieron y aplicaron ampliamente hasta finales de los 80 s.

Cadenas de Markov Cadenas de Markov Definición Un proceso de Markov es un proceso estocástico que sirve para representar secuencias de variables aleatorias no independientes entre sí. Es decir, donde la probabilidad del siguiente estado sobre una secuencia completa depende de estados previos al estado actual. Por ejemplo, si la variable aleatoria consiste en contar los libros que hay en la biblioteca, entonces saber cuántos libros hay hoy puede servir para calcular cuántos habrá mañana y no es necesario saber cuántos había hace una semana o hace un año. Es decir, que los elementos futuros en la secuencia son condicionalmente independientes de los pasados, dado el elemento presente.

Cadenas de Markov La Propiedad de Markov La Propiedad de Markov Definición Sea X = {X 1,...,X T } una secuencia de variables aleatorias que toman valores en un conjunto finito S = {s 1,...,s N } que se llama el espacio de estados. Entonces, las propiedades de Markov son: Horizonte limitado: P(X t+1 = s k X 1,...,X t ) = P(X t+1 = s k X t ) Invariante en el tiempo P(X t+1 = s k X 1,...,X t ) = P(X 2 = s k X 1 ) Si X cumple estas dos propiedades, se dice que X es una cadena de Markov o que tiene la propiedad de Markov.

Cadenas de Markov La Propiedad de Markov Ejemplo de Cadena de Markov 0.4 0.6 0.3 Lluvioso Nublado 0.2 0.3 0.1 0.1 0.2 Soleado A = 0,4 0,3 0,3 0,2 0,6 0,2 0,1 0,1 0,8 Π = ( 0,25 0,25 0,5 ) 0.8

Cadenas de Markov La Propiedad de Markov Preguntas que se pueden responder Cuál es la probabilidad de la secuencia: LSLSLSN? P(X 1...,X T ) = Π X1 T 1 t=1 A[X t,x t + 1] Cuál es la probabilidad de tener el mismo clima por d días? P(O M,q 1 = i) = P(O,q 1 = i M)/P(q 1 = i) = Π[i](A[i,i]) d 1 (1 A[i,i])/Π[i] = (A[i,i]) d 1 (1 A[i,i]) = p i (d) p i (d) = dp i (d) = d=1 1 1 A[i,i]

En las cadenas de Markov, las señales observadas corresponden a los estados del modelo. En los modelos ocultos de Markov no se conoce la secuencia de estados por la que pasa el modelo, sino una función probabiĺıstica de ella.

Ejemplo de Modelo Oculto de Markov 0.7 0.5 0.3 EC 0.5 EP La máquina vende: CocaCola,PremioRojo y Nestea. ( ) 0,6 0,1 0,3 B = 0,1 0,7 0,2 Cuando la máquina está en el estado CocaCola tiende a entregar una CocaCola, independientemente de lo que el usuario haya solicitado y análogamente cuando está en el estado PremioRojo.

Uso del Modelo Cual es la probabilidad de que la máquina expenda la secuencia Nestea, PremioRojo si la máquina empieza en el estado CocaCola? Se deben considerar todos los caminos en el modelo que conducen a esa secuencia. Hay cuatro posibilidades: 1 EC EC 0,7 0,3 0,7 0,1 2 EC EP 0,7 0,3 0,3 0,1 3 EP EC 0,3 0,3 0,5 0,7 4 EP EP 0,3 0,3 0,5 0,7 Sumando estas opciones se obtiene la probabilidad de la secuencia que es 0,084

Definición Un modelo oculto de Markov es una tupla M = {S,Σ,A,B,Π} donde: S es un conjunto finito de estados. Σ es un conjunto finito de símbolos. A es la matriz de probabilidades de transición entre estados de S. A[i,j] es P(X t+1 = Sj X t = s i ) B es la matriz de probabilidad de emisión de símbolos de Σ. B[j,k] es B[j,k] = P(O t = k X t = s j ) Π es el vector de probabilidades iniciales. Π[i] es P(X 1 = S i ) Se denota una secuencia de estados X = (X 1,...,X T+1 ) donde X t : S {1,...,N} y una secuencia de observaciones O = (o 1,...,o T ) con o T Σ

Los tres problemas fundamentales en HMM 1 Problema de evaluación de la probabilidad (o verosimilitud) de una secuencia de observaciones dado un HMM. 2 Problema de determinación de la secuencia más probable de estados. 3 Problema de ajuste de los parámetros del modelo para que den mejor cuenta de las señales observadas.

Problema 1 Problema de Evaluación Definición Dada una secuencia de observaciones O 1,...,O T y un modelo de Markov M = (A,B,Π), cómo calcular eficientemente P(O M), la probabilidad de la secuencia dado el modelo? El problema de evaluación tiene particular interés cuando se desea elegir entre varios modelos posibles, ya que se puede elegir aquel que mejor explique una secuencia de observaciones

Problema 1 Solución al Problema de Evaluación La solución directa consiste en extender todos los caminos de longitud T, calcular la probabilidad de cada uno y sumarlas. El costo es exponencial, porque en el peor caso desde cada estado se puede ir a N estados, es decir, que habría N T caminos distintos y en cada camino se hacen 2T cálculos para obtener la probabilidad. Este costo no es aceptable en la práctica: con N = 5 y T = 100 el costo sería del orden de 10 72. Existe una manera más eficiente de resolver el problema, que se basa en la definición de la variable forward: α t (i) = P(O 1,...,O t,x t = s i M)

Problema 1 Definición de la Variable Forward α t (i) es la probabilidad de haber observado la secuencia parcial O 1,...,O t y encontrarse en el tiempo t en el estado s i, dado el modelo M. α t (i) se puede calcular inductivamente: Caso base: α 1 (i) = Π[i]B[i, ( O 1 ], 1 i N N ) Caso general: α t+1 (j) = i=1 α t(i)a[i, j] B[j, O t+1 ] con 1 t T 1 y 1 j N Terminación: P(O M) = N i=1 α T(i)

Aplicaciones Aplicación en Reconocimiento de Habla En el reconocimiento de palabras aisladas se puede aplicar HMM Se selecciona el vocabulario de trabajo Se eligen las unidades básicas de reconocimiento: fonemas, sílabas,... Se construye un HMM especializado en reconocer cada palabra, que es una secuencia de observaciones, donde cada observación corresponde a una unidad básica Al recibir una secuencia de observaciones desconocida, se alimentan con ella todos los HMM y se elige como la palabra reconocida la representada por el modelo que explique la secuencia de observaciones con máxima probabilidad.

Aplicaciones Esquema del Modelo Conceptual λ1 Calculo de probabilidad λ2 Calculo de P(O λ2) probabilidad S Analisis de caracteristicas LPC O Seleccionar Maximo λν Calculo de probabilidad

Aplicaciones Definición de la Variable Backward β t (i) es la probabilidad de observar la secuencia parcial O t+1,...,o T y encontrarse en el tiempo t en el estado s i, dado el modelo M. β t (i) se puede calcular inductivamente: Caso base: β T (i) = 1, 1 i N Caso general: β t (i) = N j=1 A[i, j]b[j, O t+1]β t+1 (j) con t = T 1, T 2,...1 y 1 j N

Problema 2 Problema 2: Determinación de la secuencia de estados más probable Dependiendo del criterio de optimalidad elegido pueden haber varias secuencias de estados más probables, dada una secuencia de observaciones y un modelo. El criterio más utilizado consiste en elegir la secuencia de estados que maximiza P(S O,M). Esto da orígen al algoritmo conocido como Algoritmo de Viterbi. Para hacer el cálculo se utiliza la variable δ t (i). δ t (i) = máx P(X 1,...,X t = i,o 1,...,O t M) X 1,...,X t 1

Problema 2 Algoritmo de Viterbi Donde δ t (i) es la más alta probabilidad que se obtiene a lo largo de un camino, hasta el tiempo t, que da cuenta de las primeras t observaciones y termina en el estado s i Para poder encontrar la secuencia precisa de estados, es necesario almacenar el estado que maximiza la función δ t (i) en cada momento, esto se almacena en la variable ψ t (j).

Problema 2 Algoritmo de Viterbi Inicialización: Recursión: δ 1 (i) = Π[i]B[i,O i ],1 i N ψ 1 (i) = 0 δ t (i) = máx (δ t 1(i)A[i,j])B[j,O t ],con2 t Ty1 i N 1 i N ψ t (i) = argmax 1 i N (δ t 1 (i)a[i,j]),con2 t Ty1 i N Terminación: p = máx 1 i N (δ T(i)) q T Obtención del camino: = argmax 1 i N(δ T (i)) q T = ψ t+1 (q t+1)t = T 1,T 2,...,1

Aplicaciones Aplicación en Procesamiento de Lenguaje Natural El problema de etiquetamiento mediante categorías sintácticas se puede resolver mediante HMMs Dado un HMM, es posible asociar a cada palabra de una oración la categoría sintáctica que le corresponde Cada palabra es una observación, por lo tanto la oración es una secuencia de observaciones Cada estado es una categoría sintáctica Mediante el algoritmo de Viterbi se puede establecer la secuencia de estados, es decir la secuencia de categorías sintácticas que con mayor probabilidad explica la secuencia de observaciones