Modelos de Markov ocultos Predicción de genes. Alex Sánchez i Mireia Vilardell. Departament d Estadística U.B. 1. Estadística i Bioinformàtica

Modelos de Markov ocultos Predicción de genes i Mireia Vilardell Departament d Estadística U.B. Estadística i Bioinformàtica Esquema del tema Introducción: Genes y predicción de genes Predicción con modelos tradicionales: Glimmer, geneid Predicción con HMM (1): Conceptos básicos Extensiones del modelo: SemiHMM y Genscan Comparación de programas de predicción Departament d Estadística U.B. 1

1. Introducción 1.1. El problema de la identificación de genes El problema de la identificación de los genes se puede describir como el problema de deducir la secuencia de aminoácidos codificada por una determinada región de ADN Es un problema difícil pero muy relevante puesto que... Es necesario para anotar los datos procedentes de los proyectos de secuenciación Ayuda a entender los mecanismos implicados en la codificación decodificación de la información biológica El problema es más simple en organismos inferiores (procariotas) que en los superiores (eucariotas) cuya estructura genómica es más compleja Departament d Estadística U.B. 2 Figura 1: Modelos de transcripción y traslación en procariotas y eucariotas Departament d Estadística U.B. 3

1.2. Estructura de los genes en procariotas El genoma de los procariotas ( sin nucleo celular ) suele ser rico en genes: El 80 % 90 % de la secuencia es codificante De forma simplificada un gen procariota es una secuencia de codones que Empieza con un codon de inicio, (ATG), Continua con un número múltiplo de tres de nucleótidos Acaba con un codon de stop (TAA/TAG/TGA) Departament d Estadística U.B. 4 Figura 2: Un gen procariota Departament d Estadística U.B. 5

1.3. Estructura de los genes en eucariotas En los organismos superiores los genes no son ni contínuos ni contiguos Los genes suelen estar fragmentados en cierto número de fragmentos codificantes conocidos como exones separados por grandes fragmentos no codificantes conocidos como intrones. Existen una diversidad de señales, algunas más claras que otras, que es preciso localizar e identificar para la predicción de los genes Departament d Estadística U.B. 6 Figura 3: Estructura de un gen eucariota Departament d Estadística U.B. 7

1.4. Las señales de especificación de los genes Durante el camino del ADN a la secuencia de aminoácidos los genes son ensamblados por un proceso en tres etapas conocido como splicing Durante este proceso se eliminan los intrones antes de traducir el ADN a proteínas Distintas señales que indican como debe actuar la maquinaria celular que regula el proceso se hallan codificadas en la secuencia original del ADN 1. En la transcripcion intervienen elementos promotores y señales de fin de transcripción 2. En el splicing participan los sitios dadores y aceptores 3. En la traducción intervienen los codones de iniciación ode parada Departament d Estadística U.B. 8 Figura 4: De la secuencia de ADN a la de Aminoácidos Departament d Estadística U.B. 9

2. Predicción de genes (1) 2.1. Predicción en procariotas El problema principal suele ser identificar cual de dos o más pautas abiertas de lectura contiene un gen (se supone que sólo una) Una pauta abierta de lectura es una secuencia de codones que empieza con un codon de inicio (ATG) y acaba en un codon de stop (TAA / TAG / TGA) sin que haya ningún otro codon de stop entre ellos Existen señales de inicio y final que es preciso identificar y distinguir del ruido de fondo Departament d Estadística U.B. 10 2.2. Predicciónconmodelosdemarkov El programa GeneMark, (Borodovsky et al., 1993) utiliza cadenas de Markov de orden 5 para identificar genes microbianos. Esto representa analizar 2 codones cada vez Los genomas bacterianos suelen ser lo bastante largos como para proporcionar buenos estimadores de 4 6 = 4096 probabilidades de transición necesarias Un modelo de orden ocho seria preferible, pero el número de probabilidades a estimar es excesivo Departament d Estadística U.B. 11

ALgoritmo simplificado de GenMark De forma simplificada el algoritmo que utiliza GeneMark es el siguiente: 1. Entrenar un modelo de orden 5 con genes conocidos (=pautas de lectura largas, hits en bases de datos) 2. Entrenar un modelo de orden 0 como modelo nulo 3. Puntuar cada pauta abierta de lectura siguiendo las 6 posibles pautas de lectura (3 forward, 3backward) 4. Si la pauta de lectura con mayor puntuación es la pauta abierta, llamésele un gen 5. Si hay pautas abiertas superpuestas puntúese las regiones superpuestas separadamente. Departament d Estadística U.B. 12 2.3. Predicción en eucariotas (1) Identificacion de genes mediante señales Un método habitual de predicción consiste en: Construir un conjunto de exones potenciales, identificados a traves de señales de inicio/aceptores ydedonores/stop Puntuarlos mediante un modelo estadístico apropiado Ensamblar los genes mediante programación dinámica Se elegirán como candidatos aquellos genes cuya puntuación total sea más elevada Departament d Estadística U.B. 13

2.4. Modelos estadísticos de puntuación En análisis de secuencias biológicas son comunes los sistemas de puntuación en donde se compara la puntuación que se asigna a una secuencia bajo un modelo concreto con la que le asigna un modelo nulo o background. Por motivos computacionales dichas puntuaciones suelen expresarse como logaritmos de razones de verosimilitudes ( log-likelihood ratios scores, LLR scores o LODs ) Aparecen sistemas de puntuación basados en LLRs en: Matrices PAM o BLOSUM Identificación de islas CpG Identificación de motivos mediante matrices de pesos posicionales (PWM) Departament d Estadística U.B. 14 2.5. El sistema de puntuación de geneid El programa de predicción de genes geneid utiliza LLRs en la puntuación de los exones potenciales Un gen, concebido como una sucesión de exones e intrones alternados, puede representarse de forma simplificada como: S = e 1 i 1 e 2 i 2 e 3 i 3 e 4 i 4...e N Sea e i = s i 1s i 2s i 3...s i n i un exon potencial que consta de tres partes diferenciadas: } {{ } e ia :Inicio/Aceptor } {{ } e im :P arte codificante } {{ } e id :Stop/Donor geneid puntua cada parte separadamente utilizando un modelo para los extremos y otro para la parte codificante. Departament d Estadística U.B. 15

Modelo de puntuación de un exon Sea e ia el punto de inicio o un acceptor site y e id el punto de stop o un donor site. El exon potencial se puntua: = L E (e i )=L A (e ia )+L D (e id )+L M (e i ) n A n D A s i j j + D s i j j + LI l ( n ) i 5 e i1..,5 + LF l ( ) e ij...j+5, j=1 j=1 j=1 L A (e ia )yl D (e id ) son las puntuaciones de los extremos del exon, que se obtienen mediante LLRs basados en matrices de pesos posicionales para los sitios dadores o aceptores L M (e i ) es el potencial de codificación, que se calcula mediante un modelo de Markov de orden 5 Departament d Estadística U.B. 16 2.6. Modelo de puntuación (1) Sitios aceptores y donores El calculo L A (e ia )yl D (e id ) esta basado en matrices de pesos posicionales A s i j j,d s i j j son elementos de esta PWM, determinadas a partir de secuencias en las que se conocen las posiciones de los genes (y por tanto de los aceptores, donores, y sitios de start y stop). Se definen como: A ij =log P ij A Q A, (respectivament, D ij,b ij ) ij Departament d Estadística U.B. 17

Matrices de pesos posicionales Pij A (respectivamente, P ij D, P ij B ) representan la probabilidad de observar el nucleótido i (i A, C, T, G) en la posición j (j 3, 2,..., 5) en un acceptor site (respectivament, donor o start),yportantoseestimaapartirdelafrecuenciarelativa de nucleótids i que ocupen la posición j en los acceptor sites reales, es decir conocidos (respectivament, donor o start). Q A ij (respectivamente, QD ij, QS ij ) representan la probabilidad de observar el nucleótido i (i A, C, T, G) en la posición j (j 3, 2,..., 5) entorno de cualquier dinucleótido AG (respectivament GT para los donors o AT G para los start codons). Representa pues el modelo nulo, o más exactamente background. Departament d Estadística U.B. 18 Figura 5: Matrices de pesos posicionales Departament d Estadística U.B. 19

Modelo de puntuación (2) Potencial de codificación El potencial de codificación consta de dos componentes: F j (h) =F j (s 1 s 2 s 3 s 4 s 5 s 6 ) es la probabilidad (de transición) de observar dentro de un exon el hexámero h = s 1 s 2 s 3 s 4 s 5 s 6 con el nucleótido s 1 en la posición j (j =1, 2, 3 correspondiente a las tres posibles pautas de lectura) suponiendo que s 1 se encuentre en la posición j en el pentámero s 1 s 2 s 3 s 4 s 5. I j (p) es la probabilidad inicial para cada pentámero p en cada posición dentro de los exones para las pautas de lectura 1,2,3. F 0 (h) ii 0 (p) son las probabilidades de transición iniciales correspondientes a los intrones Departament d Estadística U.B. 20 Ensamblado de los genes El modelo anterior permite puntuar cada uno de los posibles exones de un gen Como las señales son muy débiles el número de exones potenciales es muy alto, la mayoria de ellos superpuestos entre si Para escoger un conjunto óptimo que configura un gen se utiliza un algoritmo de programación dinámica que realiza el ensamblado maximizando la suma de las puntuaciones de conjuntos de exones compatibles con un gen (i.e. sin superposición, sin stop codons en medio etc...) Departament d Estadística U.B. 21

Departament d Estadística U.B. 22 Figura 6: El número de exones potenciales es muy alto Departament d Estadística U.B. 23

3. Predicción de genes con MOM Los MOM resultan especialmente adecuados para la predicción de genes por su capacidad para modelizar estructuras gramaticales, es decir, estructuras en las que aparecen restricciones relativas al tipo de elementos que las constituyen al orden en que aparecen estos elementos Los genes tienen una estructura gramatical sencilla: No se trata tan sólo de conjuntos de caracteres (nucleótidos), palabras (exones /intrones) o frases (genes): Hay una estructura en el sentido que ciertas expresiones no tienen sentido, no son posibles. Por ejemplo, en genes eucariotas 1. Las frases nunca acaban en un intron 2. Un exon nunca sigue a otro exon Departament d Estadística U.B. 24 3.1. MOM para predicción de genes procariotas Los genes procariotas tienen una gramática particularmente sencilla Codon de inicio Region codificante Codon de parada Un MOM para predecir genes de tal tipo deberá contemplar estados para los tres tipos de regiones Departament d Estadística U.B. 25

Figura 7: Un MMO para genes procariotas Departament d Estadística U.B. 26 3.2. MOM para predicción de genes eucariotas La estructura de los genes eucariotas es compleja. De forma simplificada contempla Codon de inicio Region codificante: Un cierto número de exones ( 1) e intrones ( 0) terminados por un exón Codon de parada Los MOM desarrollados para genes eucariotas suelen constar de varios modelos encadenados, unos para modelizar las señales de inicio o finalización y otros para la región codificante. Departament d Estadística U.B. 27

Figura 8: Para los sitios aceptores se construye un MMO sencillo. Excepto en casos raros el intron acaba con un AG, sombreado. El modelo contemplará no tan sólo estos dos nucleótidos con probabilidades de emisión 1, sino 16 bases anteriores y tres bases siguientes. Puesto que no hay huecos el modelo será equivalente a una matriz de pesos. Departament d Estadística U.B. 28 Departament d Estadística U.B. 29

Figura 9: Para las regiones codificantes se construye otro MMO. Los estados uno, dos y tres del modelo representan respectivamente el primer, segundo y tercer codon Cualquier región codificante puede ser representada por este modelo porque del estado tres se puede volver al uno En la parte inferior se muestra un modelo sencillo en el que los tres primeros estados coinciden con un codon de inicio, los tres siguientes con el modelo de región codificante de la parte superior y los tres últimos con un codon de parada (solo se muestra uno de los tres posibles estados de parada) Departament d Estadística U.B. 30 Figura 10: Los modelos se encadenan en un modelo general. Una x indica un estado para DNA no codificante y una c un estado para DNA codificante (solo se muestra uno de los tres posibles estados de parada) Departament d Estadística U.B. 31

Figura 11: Un modelo combinado que contempla el splicing Departament d Estadística U.B. 32 3.3. Identificación de genes con MMO Los MMO como los anteriores implican una estructura determinada para el gen Una secuencia que no cumpla las restricciones impuestas recibirá probabilidad cero bajo este modelo Si se desea localizar los genes en un fragmento de genoma Aplicar el algoritmo de Viterbi a la secuencia Identificar como genes aquellas sucesiones de observaciones del camino más probable que cumplan las reglas gramaticales impuestas por el modelo: ATG Ex Int Ex Int... TAA Fin Departament d Estadística U.B. 33

Figura 12: Predicción de genes: Dada una secuencia observada la predicción del gen se obtiene aplicaandole el Algoritmo de Viterbi Departament d Estadística U.B. 34 En la practica Los MMO que se utilizan en los programas reales de predicción de genes son mucho más complejos que el ejemplo anterior. 1. VEIL utiliza un modelo simple con muchos estados 2. HMMGene Utiliza CHMM: MMO con clases 3. Genie usa GHMM: MMO generalizados: Los estados del modelo general son, a su vez MMO completos 4. GENSCAN (Burge & Karlin) usa SHMM: MMO con capacidad de incluir la longitud de los exones e intrones... Departament d Estadística U.B. 35