Perfiles y modelos ocultos de Markov

Documentos relacionados
Alineamiento de pares de secuencias

CAPÍTULO 4 TÉCNICA PERT

Teorema Central del Límite (1)

Centro Asociado Palma de Mallorca. Tutor: Antonio Rivero Cuesta

Autómatas Deterministas. Ivan Olmos Pineda

Fundamentos de Ciencias de la Computación Trabajo Práctico N 2 Lenguajes Libres del Contexto y Sensibles al Contexto Segundo Cuatrimestre de 2002

DOGMA CENTRAL DE LA BIOLOGIA

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

1.1 CASO DE ESTUDIO: JUEGO DE CRAPS

Denotamos a los elementos de la matriz A, de orden m x n, por su localización en la matriz de la

c). Conceptos. Son los grupos o conceptos que se enlistan en las filas de la izquierda de la tabla

MODULO VIII. Semana 1 ASPECTOS DE EVALUACIÓN FINANCIERA, ECONÓMICA, SOCIAL Y AMBIENTAL.

Dos matrices son iguales cuando tienen la misma dimensión y los elementos que ocupan el mismo lugar en ambas son iguales

LECTURA 01: LA DISTRIBUCIÓN NORMAL GENERAL. LA DISTRIBUCIÓN NORMAL ESTÁNDAR (PARTE I). TEMA 1: LA DISTRIBUCION NORMAL GENERAL.

Generación de Variables Aleatorias. UCR ECCI CI-1453 Investigación de Operaciones Prof. M.Sc. Kryscia Daviana Ramírez Benavides

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

Una base de datos de Access puede estar conformada por varios objetos, los más comunes son los siguientes:

DOT PLOT: VISUALIZACIÓN DE LA SIMILITUD ENTRE DOS SECUENCIAS

FUNCIONES EXPONENCIAL Y LOGARÍTMICA

Calculemos inicialmente el logaritmo en base 10 de las siguientes potencias de 10:

Desde los programas más simples escritos en un lenguaje de programación suelen realizar tres tareas en forma secuencial.

Tercera práctica de REGRESIÓN.

Replicación del ADN - Replicación de la doble hélice: Biosíntesis de ADN en células procariotas y

Introducción a los códigos compresores

Flujo de información en la célula

Medidas de dispersión

FUNCIONES EXPONENCIALES y LOGARITMICAS FUNCIONES EXPONENCIALES

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Límites y continuidad de funciones reales de variable real

Aritmética de Enteros

Más sobre las series geométricas. 1. Derivación de series geométricas elementales

Tema 2. Descripción Conjunta de Varias Variables

Representación de números enteros: el convenio exceso Z

Un momento concreto. Tiene que ver con el uso de los sentidos para captar las características de la persona, objeto, evento o situación.

SISTEMAS DE NUMERACION

Búsqueda de usuario. Relación tutor/tutorado. Reporte de interacción tutor-tutorado. Reporte socioeconómico

CONTENIDOS. 1. Procesos Estocásticos y de Markov. 2. Cadenas de Markov en Tiempo Discreto (CMTD) 3. Comportamiento de Transición de las CMTD

IES DIONISIO AGUADO LA FUNCION LOGARITMO

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

TEMA 1. MATRICES, DETERMINANTES Y APLICACIÓN DE LOS DETERMINANTES. CONCEPTO DE MATRIZ. LA MATRIZ COMO EXPRESIÓN DE TABLAS Y GRAFOS.

Preparación para Álgebra 1 de Escuela Superior

Ejercicio 2. Sean A, B dos sucesos tales que P (A) = 0 4, P (B) = 0 65 y P ( (A B) (A B) ) = Hallar P (A B).

GUION TÉCNICO AUDIO. El Conjunto De Los Números Reales. realidad, es una ciencia resultado de más de 4 mil años de

Series aritméticas. ó La suma de los primeros n términos en una serie se representa por S n. . Por ejemplo: S 6

Álgebra Lineal Ma1010

PROGRAMACION CONCURRENTE Y DISTRIBUIDA

Diagnóstico de fallas en circuitos digitales

Sistemas Electrónicos Digitales

Modelos de PERT/CPM: Probabilístico

Combinatoria : nuevas tendencias e interacciones

SISTEMAS DE NUMERACION

Tutorial MT-b1. Matemática Tutorial Nivel Básico. Elementos básicos de Aritmética

Alineamientos de Secuencias. CeCalCULA - C.P.T.M. Mérida. Venezuela.

Variables aleatorias

LA NUEVA BIOTECNOLOGÍA

Árboles Filogenéticos. BT7412, CC5702 Bioinformática Diego Arroyuelo. 2 de noviembre de 2010

UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro)

4. NÚMEROS PSEUDOALEATORIOS.

MATEMATICA GRADO 9 II PERIODO PROF. LIC. ESP. BLANCA NIEVES CASTILLO R. CORREO: cel

MEDIDAS DE TENDENCIA CENTRAL

MATEMÁTICAS II CC III PARCIAL

Función logarítmica (parte 1)

Conferencia clase. Al desacoplar las ecuaciones se tiene. Sistemas de ecuaciones diferenciales lineales usando álgebra lineal

Unidad II. 2.1 Concepto de variable, función, dominio, condominio y recorrido de una función.

Algoritmos Genéticos. Introducción a la Robótica Inteligente. Álvaro Gutiérrez 20 de abril de

Tema 4: Probabilidad y Teoría de Muestras

Computación Aplicada. Universidad de Las Américas. Aula virtual de Computación Aplicada. Módulo de Excel 2013 LIBRO 7

Qué es el db? db = 10 log 10 (Ps / Pe) (1)

Alianza para el Aprendizaje de Ciencias y Matemáticas

Herramientas de Programación. M.C. Juan Carlos Olivares Rojas

Conceptos básicos estadísticos

El método simplex 1. 1 Forma estándar y cambios en el modelo. 2 Definiciones. 3 Puntos extremos y soluciones factibles básicas. 4 El método simplex.

TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN

CIDE, SA. RIF: J NIT: MODELO FUNCIONAL

Algebra lineal y conjuntos convexos

Análisis de datos Categóricos

Open Office Calc. Elaboración de una tabla de valores de las áreas de la distribución normal

Cómo Calcular la Demanda de Compra de Inmuebles

Objetivo. Qué vamos a usar en el curso?

EL TEOREMA DEL CAMBIO DE BASE DE LOGARITMOS: UNA

Modelos Estocásticos I Tercer Examen Parcial Respuestas

Distancia focal de una lente convergente (método del desplazamiento) Fundamento

3.1. Administración de la medición y de la información estratégica:

A. Menéndez Taller CES 15_ Confiabilidad. 15. Confiabilidad

Clasificación de sistemas

CAPÍTULO 4: VARIABLES Y RAZONES

Unidad 2: Ecuaciones, inecuaciones y sistemas.

UNIDAD 8 INECUACIONES. Objetivo general.

ESTRUCTURA Y TECNOLOGÍA DE COMPUTADORES I CAPÍTULO III ARITMÉTICA Y CODIFICACIÓN

Estudio de fallas asimétricas

Matriz de Insumo - Producto

DUPLICACION DEL ADN. Dra Carmen Aída Martínez

Cálculo de bisección inversa mediante mínimos cuadrados

SISTEMAS DE ECUACIONES LINEALES

3. ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS

lasmatemáticas.eu Pedro Castro Ortega materiales de matemáticas

UNIDAD III NÚMEROS FRACCIONARIOS

Matemáticas Financieras. Sesión 3 Intereses

INSTITUCIÓN EDUCATIVA GABRIEL TRUJILLO CORREGIMIENTO DE CAIMALITO, PEREIRA

Transcripción:

Perfiles y modelos ocultos de Markov Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas 13 de junio del 2013 Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 1 / 41

1 Introducción 2 Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Usos de la matriz de puntuación de posiciones específicas 3 Perfiles Introducción Construcción de perfiles (PSI-BLAST) Un ejemplo del uso de perfiles 4 Modelos de Markov Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 2 / 41

Introducción Introducción Los alineamientos múltiples de secuencias se pueden usar para identificar secuencias relacionadas, mediante la construcción de modelos estadísticos como son las matrices de puntuación de posiciones específicas (PSSMs), los perfiles y los modelos ocultos de Markov (HMMs) Estos modelos reflejan información acerca de la frecuencia de los residuos de aminoácidos y nucleótidos en un alineamiento múltiple Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 3 / 41

Introducción Introducción El modelo no solamente captura las frecuencias observadas de los residuos sino que también predice las frecuencias de caracteres o residuos no observados Otro propósito de estos modelos es permitir emparejamientos parciales al realizar una búsqueda en una base de datos. Con lo cual se incrementa la sensibilidad de las búsquedas, y por tanto es posible detectar miembros distantes de una misma familia de secuencias Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 4 / 41

Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple 1 Introducción 2 Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Usos de la matriz de puntuación de posiciones específicas 3 Perfiles Introducción Construcción de perfiles (PSI-BLAST) Un ejemplo del uso de perfiles 4 Modelos de Markov Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 5 / 41

Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Cálculo de la PSSM para un alineamiento múltiple Una matriz de puntuación de posiciones específicas (PSSM, position-specific scoring matrix) es una tabla que contiene información posicional de los aminoácidos o nucleótidos en un alineamiento múltiple de secuencias en el cual no hay huecos En una PSSM se asume la independencia entre las posiciones en el alineamiento, de manera que cada posición se calcula de manera independiente de los símbolos que haya en otras posiciones Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 6 / 41

Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Cálculo de la PSSM para un alineamiento múltiple Para construir la PSSM se comienza por llenar la matriz con las frecuencias de cada residuo en cada una de las columnas 1 2 3 4 5 6 Secuencia 1 A T G T C G Secuencia 2 A A G A C T Secuencia 3 T A C T C A Secuencia 4 C G G A G G Secuencia 5 A A C C T G 1 2 3 4 5 6 Freq. Total Prom. A 0.6 0.6 0.4 0.2 0.30 T 0.2 0.2 0.4 0.2 0.2 0.20 G 0.2 0.6 0.2 0.6 0.27 C 0.2 0.4 0.2 0.6 0.23 Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 7 / 41

Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Cálculo de la PSSM para un alineamiento múltiple El siguiente paso consiste en normalizar los valores dividiéndolos entre la frecuencia total promedio 1 2 3 4 5 6 A 2.0 2.0 1.33 0.67 T 1.0 1.0 2.0 1.0 1.0 G 0.74 2.22 0.74 2.22 C 0.87 1.74 0.87 2.61 Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 8 / 41

Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Cálculo de la PSSM para un alineamiento múltiple El paso final es convertir los valores anteriores en valores probabilísticos, tomando el logaritmo en base 2 de los valores 1 2 3 4 5 6 A 1.0 1.0 0.41-0.58 T 0.0 0.0 1.0 0.0 0.0 G -0.43 1.15-0.43 1.15 C -0.2 0.8-0.2 1.38 Un puntaje positivo representa un emparejamiento de residuos idénticos o similares, mientras que un puntaje negativo representa un emparejamiento de una región no conservada Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 9 / 41

Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Cálculo de la PSSM para un alineamiento múltiple La PSSM proporciona una descripción cuantitativa del grado de conservación en cada posición de un alineamiento múltiple Debido a esto, la matriz construida puede ser considerada como un representante del grupo de secuencias relacionadas Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 10 / 41

Matrices de puntuación de posiciones específicas Usos de la matriz de puntuación de posiciones específicas 1 Introducción 2 Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Usos de la matriz de puntuación de posiciones específicas 3 Perfiles Introducción Construcción de perfiles (PSI-BLAST) Un ejemplo del uso de perfiles 4 Modelos de Markov Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 11 / 41

Matrices de puntuación de posiciones específicas Usos de la matriz de puntuación de posiciones específicas Usos de la matriz de puntuación de posiciones específicas El modelo probabilístico dado por la PSSM puede ser usado como una secuencia para realizar búsquedas y alineamientos en bases de datos También puede ser usado para probar el grado en el cual una secuencia particular encaja en el grupo de secuencias descrito por la PSSM Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 12 / 41

Matrices de puntuación de posiciones específicas Usos de la matriz de puntuación de posiciones específicas Usos de la matriz de puntuación de posiciones específicas Por ejemplo, dada la matriz anterior, es posible saber el grado en el cual la nueva secuencia AACTCG se ajusta a la matriz El cálculo consiste en sumar los valores probables de la secuencia en las posiciones respectivas de la matriz 1 2 3 4 5 6 A 1.0 1.0 0.41-0.58 T 0.0 0.0 1.0 0.0 0.0 G -0.43 1.15-0.43 1.15 C -0.2 0.8-0.2 1.38 Suma de puntajes = 1.0 + 1.0 + 0.8 + 1.0 + 1.38 + 1.15 = 6.33. Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 13 / 41

Matrices de puntuación de posiciones específicas Usos de la matriz de puntuación de posiciones específicas Usos de la matriz de puntuación de posiciones específicas En este caso el puntaje total para la secuencia AACTCG es 6.33, y debido a que los valores en la matriz son logaritmos en base 2 se tiene que el puntaje total dice que es 2 6.33 = 80.4489 veces más probable que la secuencia dada se ajuste a la matriz por similitud que por suerte (ramdom chance) Con el resultado anterior se puede concluir que la nueva secuencia puede ser clasificada como un miembro de la familia de las secuencias alineadas Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 14 / 41

Perfiles Introducción 1 Introducción 2 Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Usos de la matriz de puntuación de posiciones específicas 3 Perfiles Introducción Construcción de perfiles (PSI-BLAST) Un ejemplo del uso de perfiles 4 Modelos de Markov Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 15 / 41

Introducción Perfiles Introducción A menudo los alineamientos múltiples de secuencias tienen huecos de longitud variable. Cuando las penalizaciones por abrir y extender huecos son incluidas en la construcción de las matrices de puntuación de posiciones específicas entonces se está construyendo un perfil En otras palabras, un perfil es una PSSM con información de penalización de inserciones y eliminaciones para una familia de secuencias Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 16 / 41

Introducción Perfiles Introducción Los perfiles son usados en las búsquedas en bases de datos para encontrar secuencias homólogas remotas, o dicho de otra forma, para detectar relaciones distantes entre secuencias (específicamente proteínas). Estas relaciones distantes pueden llevar a útiles conclusiones biológicas Una herramienta para construir perfiles de alineamientos globales es PSI-BLAST (Position-specific iterated BLAST). Este programa construye perfiles y realiza búsquedas en forma iterativa Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 17 / 41

Perfiles Construcción de perfiles (PSI-BLAST) 1 Introducción 2 Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Usos de la matriz de puntuación de posiciones específicas 3 Perfiles Introducción Construcción de perfiles (PSI-BLAST) Un ejemplo del uso de perfiles 4 Modelos de Markov Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 18 / 41

Perfiles Construcción de perfiles (PSI-BLAST) Construcción de perfiles (PSI-BLAST) 1 Primero se usa una proteína de consulta para realizar una búsqueda normal con BLASTP, con lo cual se generan los primeros resultados con cierta similitud 2 Los resultados con mayor similitud son usados para construir un alineamiento múltiple, a partir del cual un perfil es creado 3 El perfil es entonces usado en una nueva búsqueda para identificar otros miembros de la misma familia que puedan coincidir con el perfil 4 Cuando se detectan nuevas secuencias similares, éstas son combinadas con el alineamiento múltiple previo para generar un nuevo perfil, el cual es usado en una nueva búsqueda en la base de datos 5 El proceso es repetido hasta que no se encuentre otra secuencia similar Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 19 / 41

Perfiles Construcción de perfiles (PSI-BLAST) Construcción de perfiles (PSI-BLAST) Los perfiles hacen de PSI-BLAST una estrategia de búsqueda muy sensible para detectar débiles pero significativas similitudes entre secuencias Se ha estimado que un enfoque basado en perfiles es capaz de identificar tres veces más secuencias homólogas que el BLAST regular Sin embargo, la alta sensibilidad de PSI-BLAST puede causar baja selectividad debido a los falsos-positivos generados en la construcción del perfil Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 20 / 41

Perfiles Construcción de perfiles (PSI-BLAST) Construcción de perfiles (PSI-BLAST) Una solución parcial a este problema es realizar una cantidad limitada de iteraciones, en vez de iterar hasta converger (que sucede cuando una búsqueda ya no encuentra más secuencias similares) Típicamente de tres a cinco iteraciones de PSI-BLAST son suficientes para encontrar la mayoría de las secuencias homólogas distantes Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 21 / 41

Perfiles Un ejemplo del uso de perfiles 1 Introducción 2 Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Usos de la matriz de puntuación de posiciones específicas 3 Perfiles Introducción Construcción de perfiles (PSI-BLAST) Un ejemplo del uso de perfiles 4 Modelos de Markov Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 22 / 41

Perfiles Un ejemplo del uso de perfiles Un ejemplo del uso de perfiles La enzima celular ADN polimerasa juega un papel clave en la síntesis de ADN, pues es la enzima que añade los nucleótidos (hasta 1000 por segundo) al la hebra molde del ADN que se va a copiar En los organismos eucariotas ésta función es llevada a cabo por la proteína llamada PCNA, mientras que en los procariotas tales como la bacteria E. Colli, la misma función es realizada por la polimerasa de ADN β-subunit Como realizan funciones similares sus estructuras cristalinas son semejantes, como se muestra a continuación: Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 23 / 41

Perfiles Un ejemplo del uso de perfiles Un ejemplo del uso de perfiles Figura: La imagen fue tomada de la página: http://www.ncbi.nlm.nih.gov/books/nbk2590/ [Chapter 10 PSI-BLAST Tutorial]. A la derecha se muestra la estructura de la E. Colli ADN polimerasa β-subunit, mientras que a la izquierda se encuentra la estructura de la PCNA humana. Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 24 / 41

Perfiles Un ejemplo del uso de perfiles Un ejemplo del uso de perfiles Aunque realizan la misma función y tienen estructuras cristalinas semejantes, éstas proteínas son distantes en cuanto a similitud, de tal modo que el BLAST convencional no detecta una similitud entre ellas. Sin embargo, esta similitud distante si es identificada por PSI-BLAST Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 25 / 41

Modelos de Markov 1 Introducción 2 Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Usos de la matriz de puntuación de posiciones específicas 3 Perfiles Introducción Construcción de perfiles (PSI-BLAST) Un ejemplo del uso de perfiles 4 Modelos de Markov Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 26 / 41

Modelos de Markov Modelos de Markov Un modelo de Markov, también conocido como cadena de Markov, describe una secuencia de eventos que ocurren uno tras otro en secuencia. Cada evento determina la probabilidad del siguiente evento Una cadena de Markov puede verse como un proceso que se mueve en una dirección de un estado al siguiente con una cierta probabilidad, la cual es conocida como la probabilidad de transición Un ejemplo de un modelo de Markov es el cambio de la señal en un semáforo, ya que el estado de la señal actual depende del estado de la previa Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 27 / 41

1 Introducción 2 Matrices de puntuación de posiciones específicas Cálculo de la PSSM para un alineamiento múltiple Usos de la matriz de puntuación de posiciones específicas 3 Perfiles Introducción Construcción de perfiles (PSI-BLAST) Un ejemplo del uso de perfiles 4 Modelos de Markov Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 28 / 41

Las secuencias biológicas funcionales típicamente vienen en familias que a lo largo de la evolución han mantenido la misma función o una muy relacionada. Por lo tanto, identificar que una secuencia pertenece a una familia, a menudo permite inferir su funcionalidad Al igual que los perfiles, los modelos ocultos de Markov (HMM) son utilizados para modelar características estadísticas de toda una familia de secuencias El modelo estadístico dado por el HMM es usado para buscar en las bases de datos secuencias relacionadas con la familia modelada Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 29 / 41

Formalmente un HMM está definido por los siguientes cuatro componentes: 1 Un alfabeto de símbolos emitidos Σ 2 Un conjunto de estados Q, cada uno de los cuales emite un símbolo del alfabeto Σ 3 Una matriz de probabilidad de transición de estados A = (a kl ) de dimensiones Q Q, la cual describe la probabilidad de cambiar al estado l cuando el HMM se encuentra en el estado k 4 Una matriz de probabilidad de emisión E = (e k (b)) con dimensiones Q Σ que describe la probabilidad de emitir el símbolo b durante el paso en el cual el HMM está en el estado k Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 30 / 41

Para obtener información acerca de cómo están relacionadas las secuencias de una familia se hace un alineamiento múltiple de ellas Las probabilidades de emisión y de transición en un HMM se establecen de manera que capturen información específica acerca de cada posición en un alineamiento múltiple de una familia entera Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 31 / 41

Considérese el siguiente fragmento de 10 columnas del alineamiento global de 7 secuencias de globinas. HBA_HUMAN... V G A H A G E Y... HBB_HUMAN... V N V D E V... MYG_PHYCA... V E A D V A G H... GLB3_CHITP... V K G D... GLB5_PETMA... V Y S T Y E T S... LGB2_LUPLU... F N A N I P K H... GLB1_GLYDI... I A G A D N G A G V... Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 32 / 41

La topología básica del HMM consiste en tener tres estados por cada columna del alineamiento múltiple, excepto para las columnas en la que más de la mitad de sus elementos son huecos, como las columnas 4 y 5 del ejemplo anterior 1 Estados de emparejamiento M, modelan la distribución de las letras en la correspondiente columna del alineamiento global 2 Estados de inserción I, modelan la inserción de letras aleatorias entre dos posiciones de un alineamiento 3 Estados de eliminación D, modelan la eliminación de símbolos en el alineamiento Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 33 / 41

En esta representación las transiciones de estado a estado proceden de izquierda a derecha a través de varios caminos que representan todas las posibles combinaciones de emparejamientos, inserciones y eliminaciones para generar un alineamiento (27 estados en total) Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 34 / 41

Ahora se procede a calcular las probabilidades de emisión y de transición de cada estado. Lo cual se hace en base al número de veces que cada transición y cada emisión es usada cuando el conjunto de secuencias alineadas es pasada una a una por el modelo En términos formales las probabilidades de transición y de emisión se asignan de acuerdo a estas expresiones: A kl a kl = Σ l A kl y e k (a) = E k(a) Σ a E k (a) donde k y l son índices de estados, a kl y e k son las probabilidades de transición y emisión respectivamente, y A kl y E k son las correspondientes frecuencias (de transición y de emisión) Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 35 / 41

Cuando en la fase de entrenamiento se dispone de un número de grande de secuencias se obtendrá una estimación consistente de las probabilidades Sin embargo, cuando las secuencias disponibles son pocas puede darse el caso que algunas transiciones o emisiones no se usen Esto hará que sus probabilidades al final del entrenamiento sean cero, y que por tanto no se usen en el futuro El método más simple para evitar probabilidades de cero es agregar 1 a cada frecuencia Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 36 / 41

HBA_HUMAN... V G A H A G E Y... HBB_HUMAN... V N V D E V... MYG_PHYCA... V E A D V A G H... GLB3_CHITP... V K G D... GLB5_PETMA... V Y S T Y E T S... LGB2_LUPLU... F N A N I P K H... GLB1_GLYDI... I A G A D N G A G V... Por ejemplo, para el alineamiento múltiple anterior las frecuencia de aparición en la primera columna son: V con 5, F e I con 1, y de los restantes 17 residuos con 0 Al agregar 1 a cada frecuencia se tiene que ahora la frecuencia de aparición de V es 6, de F y de I es 2, y del resto es 1 Con estos datos se determina que e M1 (V ) = 6/27, e M1 (F) = e M1 (I) = 2/27, e M1 (a) = 1/27 para los otros residuos a diferentes de V, F e I Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 37 / 41

HBA_HUMAN... V G A H A G E Y... HBB_HUMAN... V N V D E V... MYG_PHYCA... V E A D V A G H... GLB3_CHITP... V K G D... GLB5_PETMA... V Y S T Y E T S... LGB2_LUPLU... F N A N I P K H... GLB1_GLYDI... I A G A D N G A G V... De manera similar se tiene que en la columna 1 hay 6 transiciones del estado de emparejamineto M 1 al siguiente, 1 transición a un estado de eliminación y 0 transiciones a un estado de inserción Sumando 1 a cada frecuencia se obtiene a M1 M 2 = 7/10, a M1 D 1 = 2/10 y a M1 I 1 = 1/10 Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 38 / 41

Aunque los estados de inserción adquieren sus probabilidades de emisión y transición en base a estas frecuencias, para hacer más preciso el modelo se asignan las probabilidades de transición a MI, a IM y a II de tal forma que log(a MI ) + log(a IM ) sea igual a la penalización por abrir un heuco, y log(a II ) sea igual a la penalización por extenderlo, y la probabilidad de emisión como e Ij (a) = p(a), donde p(a) es la frecuencia de aparición del símbolo a en todas las secuencias Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 39 / 41

Para obtener el puntaje de una secuencia x con el HMM se utilizan las ecuaciones de Viterbi Se define vj M (i) como el puntaje logarítmico de probabilidad de la mejor trayectoria para emparejar x 1... x i con el HMM terminando con x i emitido por el estado M j v I j (i) y v D (i) se definen de manera similar j Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 40 / 41

v M j (i) = log e M j (x i ) p(x i ) v I j (i) = log e I j (x i ) v D j + max p(x i ) + max (i) = max vj 1 M (i 1) + log(a M j 1,M j ) vj 1 I (i 1) + log(a I j 1,M j ) vj 1 D (i 1) + log(a D j 1,M j ) v M j (i 1) + log(a Mj,I j ) v I j (i 1) + log(a I j,i j ) v D j (i 1) + log(a Dj,I j ) v M j 1 (i) + log(a M j 1,D j ) v I j 1 (i) + log(a I j 1,D j ) v D j 1 (i) + log(a D j 1,D j ) Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013 41 / 41