Modelos de Markov ocultos Predicción de genes. Alex Sánchez i Mireia Vilardell. Departament d Estadística U.B. 1. Estadística i Bioinformàtica

Documentos relacionados
Tema 1: Breve Lección de biología (2)

Predicción computacional de genes (Gene finding)

Existen dos tipos de genes en el genoma humano: codificantes de proteínas y codificantes de ARN.

Cadenas de Markov en la Investigación del Genoma

Modelos de Markov ocultos Profile HMM. Alex Sánchez. Departament d Estadística U.B. 1. Estadística i Bioinformàtica. MMO en Biologia Computacional

Maestría en Bioinformática Probabilidad y Estadística: Clase 13

Predicción de Genes. Jesús Alejandro Hernández Mejía. Cinvestav-Zacatenco. 2 de Julio de 2013

Introducción a los Modelos de Markov ocultos. Alex Sánchez. Departament d Estadística U.B. 1. Estadística i Bioinformàtica

Usando Modelos de Markov para buscar genes

Tema V: Regulación génica

GENE FINDING El problema de identificar genes en secuencias de DNA

Perfiles y modelos ocultos de Markov

UTILIZACIÓN DE MODELOS DE INTERPOLACIÓN DE MARKOV PARA LA

DOGMA CENTRAL DE LA BIOLOGÍA MOLECULAR (Francis Crick 1970) (Excepción de la transcriptasa inversa) ADN Transcripción ARN traducción PROTEINAS

Cadenas de Markov y aplicaciones en biología computacional. Alex Sánchez. Departament d Estadística U.B. 1. Estadística i Bioinformàtica

EXAMEN DE LA PRIMERA PARTE (30%) NOMBRE CÓDIGO FECHA. El examen consta de un total de 20 puntos y el tiempo máximo para contestar es de 1 hora.

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA

Ácidos nucleicos. 3ª y 4ª Parte: Transcripción y traducción I & II. Tema 12 de Biología NS Diploma BI Curso

Tecnología de ADN recombinante. Técnicas fundamentales: - Restricción - Clonado - Hibridización -PCR

Curso de Inteligencia Artificial

Proceso conservativo (El ADN utilizado va a permanecer intacto) y selectivo (se selecciona la parte de información genética que se transcribe)

Genes. Estructura. Promotores. Intrones y exones. Pseudogenes. Genética 1 er Curso. Facultad de Medicina TEMA 0-2

Traducción en Procariotas. en los procariotas la traducción se produce junto con la transcripción

Examen de Teoría de (Introducción al) Reconocimiento de Formas

LA TRANSCRIPCIÓN El paso de la información del ADN al ARN. Realizado por José Mayorga Fernández

El Dogma Central de la Biología Molecular v.1. Manuel J. Gómez Laboratorio de Bioinformática Centro de Astrobiología INTA- CSIC

Elementos de control de la expresión génica en ADN eucariota: el promotor. Elementos iniciadores de la transcripción (promotores) en el ADN eucariota

Cadenas de Markov Ocultas

TRANSCRIPCIÓN CONCEPTO DE OPERÓN Y PROMOTOR. González Pérez Ana Karen Robledo Sarmiento Danely

Por regla general, las búsquedas con BLAST obedecen a uno de estos dos objetivos:

Genética 1 er Curso CONCEPTOS

SISTEMAS DE NUMERACIÓN

Qué es un gen? Helen Pearson : Genetics: What is a gene? (Nature 441, )

TRADUCCION SINTESIS DE PROTEÍNAS

315 M/R Versión 1 Integral 1/ /1 UNIVERSIDAD NACIONAL ABIERTA VICERRECTORADO ACADÉMICO ÁREA INGENIERÍA

ÁRBOLES FILOGENÉTICOS

Una población es el conjunto de todos los elementos a los que se somete a un estudio estadístico.

EVOLUCIÓN Y GENÉTICA Fernando Tuya, Departamento Biología, Planta 1, oficina b-107,

Biotecnología. Anotación de genes. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

A qué da lugar el mensaje del ADN?

GLOSARIO DE ANÁLISIS DE REDES SOCIALES

Características e importancia del código genético

Introducción a la Bioinformática Gene prediction

descripción del argumento identificador tipo longitud condición restricción

Microbiología Clínica Tema 4: Transmisión de la información genética

Muchas de las células eucariotas son especializadas: el ser humano tiene más de 200 tipos de células.

DEL ADN A LAS PROTEÍNAS

Unidad 1 Números. Los números naturales son aquellos que se utilizan para contar los elementos de un conjunto.

Tecnología del ADN recombinante.

Evolución de secuencias de DNA

PROBLEMAS MATEMATICOS EN SEXTO DE EDUCACIÓN PRIMARIA. (2006/2007: Comienzo del curso)

REGRESIÓN LINEAL CON SPSS

Aplicaciones de la programación

Procesamiento de voz - Reconocimiento de voz II

2. La figura representa un segmento de la fibra básica de cromatina.

Instituto tecnológico de Minatitlán. Investigación de operaciones Ing. Erika Lissette Minaya mortera Unidad 3: programación no lineal

SÍNTESIS DE PROTEÍNAS

PRÁCTICA 1. Mediciones

Análisis genético mediante secuenciación masiva. Biocomputación Grado en Bioquímica

REPLICACIÓN DEL ADN. Procesos de replicación, transcripción y traducción.

Expresión del material hereditario. Regulación en procariontes. Regulación en Eucariontes.

Biotecnología de células procarióticas. Profesor: Javier Cabello Schomburg, MS

Colegio Beato Carlos Manuel Rodríguez Departamento de Matemáticas. Mapa curricular Algebra I 8 vo grado

TRABAJOS PRÁCTICOS DE BIOLOGÍA C

Herramientas de Bioinformática en NGS

Introducción. Reversibilidad de la diferenciación. Experiencias

Tema 7.- Genética Molecular. Biología y Geología 4º ESO: Genética Molecular

Estadística de secuencias genómicas. Rodrigo Santamaría

Modelos de input-output y cadenas de Markov

REPRESENTACIÓN SÍMBOLICA DE UNIONES SOLDADAS UNE-EN ISO 2553:2014

Pasos en el Método Simplex

REFUERZO DE BIOLOGÍA 4º ESO: TEMA 1, 2 Y Nombra las principales partes de la siguiente célula procariota indicando sus funciónes.

Introducción a la Bioinformática

F.I.G.: Experimento de Volkin and Astrachan, 1956

Introducción a las imágenes digitales. Segunda parte

APLICACIÓN DE ÁRBOLES BINARIOS

Diferencia entre Procariotas y Eucariotas

TRANSCRIPCION Y TRADUCCION

1. Cuál es el complemento cromosómico diploide de la especie?: a. 2n=3 b. n=3 c. n=6 d. 2n=6

Tema II: Programación Lineal

DaVinciTEXTIL. Codificación de artículos

CUESTIONES DE SELECTIVIDAD GENÉTICA MOLECULAR 1. REPLICACION DEL ADN

SÍNTESIS DE PROTEINAS DEL ADN A LAS PROTEÍNAS

EJEMPLO DE SIMPLEX PARA PROBLEMA DE PROGRAMACIÓN LINEAL CASO DE MAXIMIZAR Prof.: MSc. Julio Rito Vargas Avilés

Representación de números enteros: el convenio complemento a uno

Revisión de opción múltiple- Genes

TEMA 3: Expresión Génica

11 knúmero de publicación: kint. Cl. 6 : C12N 15/54 DE PATENTE EUROPEA


Dogma central de la Biología Molecular. Replicación ADN. Transcripción ARN. Traducción. Proteínas

Los fenómenos psicológicos (por ejemplo, la comunicación verbal) se puede analizar desde distintos puntos de vista:

EJERCICIOS PAU (Castilla y León) Fuente:

Conversión Analógica a Digital

Acido ribonucleico RNA En RNA U aparea con A

CURSOSO. Aritmética: Númerosnaturalesyenteros. Númerosracionalesyfraciones. MATEMÁTICAS. AntonioF.CostaGonzález

Tema 11: Intervalos de confianza.

II. SECCIONES PRINCIPALES Figura1: Partes principales de un Informe Técnico

SERIE INFORMES TÉCNICOS Nº. 2 / 93 UTILIZACIÓN DE LA ESPECTROSCOPIA EN EL INFRARROJO CERCANO PARA EL ANÁLISIS DE FORRAJES Y MATERIAS PRIMAS

Transcripción:

Modelos de Markov ocultos Predicción de genes i Mireia Vilardell Departament d Estadística U.B. Estadística i Bioinformàtica Esquema del tema Introducción: Genes y predicción de genes Predicción con modelos tradicionales: Glimmer, geneid Predicción con HMM (1): Conceptos básicos Extensiones del modelo: SemiHMM y Genscan Comparación de programas de predicción Departament d Estadística U.B. 1

1. Introducción 1.1. El problema de la identificación de genes El problema de la identificación de los genes se puede describir como el problema de deducir la secuencia de aminoácidos codificada por una determinada región de ADN Es un problema difícil pero muy relevante puesto que... Es necesario para anotar los datos procedentes de los proyectos de secuenciación Ayuda a entender los mecanismos implicados en la codificación decodificación de la información biológica El problema es más simple en organismos inferiores (procariotas) que en los superiores (eucariotas) cuya estructura genómica es más compleja Departament d Estadística U.B. 2 Figura 1: Modelos de transcripción y traslación en procariotas y eucariotas Departament d Estadística U.B. 3

1.2. Estructura de los genes en procariotas El genoma de los procariotas ( sin nucleo celular ) suele ser rico en genes: El 80 % 90 % de la secuencia es codificante De forma simplificada un gen procariota es una secuencia de codones que Empieza con un codon de inicio, (ATG), Continua con un número múltiplo de tres de nucleótidos Acaba con un codon de stop (TAA/TAG/TGA) Departament d Estadística U.B. 4 Figura 2: Un gen procariota Departament d Estadística U.B. 5

1.3. Estructura de los genes en eucariotas En los organismos superiores los genes no son ni contínuos ni contiguos Los genes suelen estar fragmentados en cierto número de fragmentos codificantes conocidos como exones separados por grandes fragmentos no codificantes conocidos como intrones. Existen una diversidad de señales, algunas más claras que otras, que es preciso localizar e identificar para la predicción de los genes Departament d Estadística U.B. 6 Figura 3: Estructura de un gen eucariota Departament d Estadística U.B. 7

1.4. Las señales de especificación de los genes Durante el camino del ADN a la secuencia de aminoácidos los genes son ensamblados por un proceso en tres etapas conocido como splicing Durante este proceso se eliminan los intrones antes de traducir el ADN a proteínas Distintas señales que indican como debe actuar la maquinaria celular que regula el proceso se hallan codificadas en la secuencia original del ADN 1. En la transcripcion intervienen elementos promotores y señales de fin de transcripción 2. En el splicing participan los sitios dadores y aceptores 3. En la traducción intervienen los codones de iniciación ode parada Departament d Estadística U.B. 8 Figura 4: De la secuencia de ADN a la de Aminoácidos Departament d Estadística U.B. 9

2. Predicción de genes (1) 2.1. Predicción en procariotas El problema principal suele ser identificar cual de dos o más pautas abiertas de lectura contiene un gen (se supone que sólo una) Una pauta abierta de lectura es una secuencia de codones que empieza con un codon de inicio (ATG) y acaba en un codon de stop (TAA / TAG / TGA) sin que haya ningún otro codon de stop entre ellos Existen señales de inicio y final que es preciso identificar y distinguir del ruido de fondo Departament d Estadística U.B. 10 2.2. Predicciónconmodelosdemarkov El programa GeneMark, (Borodovsky et al., 1993) utiliza cadenas de Markov de orden 5 para identificar genes microbianos. Esto representa analizar 2 codones cada vez Los genomas bacterianos suelen ser lo bastante largos como para proporcionar buenos estimadores de 4 6 = 4096 probabilidades de transición necesarias Un modelo de orden ocho seria preferible, pero el número de probabilidades a estimar es excesivo Departament d Estadística U.B. 11

ALgoritmo simplificado de GenMark De forma simplificada el algoritmo que utiliza GeneMark es el siguiente: 1. Entrenar un modelo de orden 5 con genes conocidos (=pautas de lectura largas, hits en bases de datos) 2. Entrenar un modelo de orden 0 como modelo nulo 3. Puntuar cada pauta abierta de lectura siguiendo las 6 posibles pautas de lectura (3 forward, 3backward) 4. Si la pauta de lectura con mayor puntuación es la pauta abierta, llamésele un gen 5. Si hay pautas abiertas superpuestas puntúese las regiones superpuestas separadamente. Departament d Estadística U.B. 12 2.3. Predicción en eucariotas (1) Identificacion de genes mediante señales Un método habitual de predicción consiste en: Construir un conjunto de exones potenciales, identificados a traves de señales de inicio/aceptores ydedonores/stop Puntuarlos mediante un modelo estadístico apropiado Ensamblar los genes mediante programación dinámica Se elegirán como candidatos aquellos genes cuya puntuación total sea más elevada Departament d Estadística U.B. 13

2.4. Modelos estadísticos de puntuación En análisis de secuencias biológicas son comunes los sistemas de puntuación en donde se compara la puntuación que se asigna a una secuencia bajo un modelo concreto con la que le asigna un modelo nulo o background. Por motivos computacionales dichas puntuaciones suelen expresarse como logaritmos de razones de verosimilitudes ( log-likelihood ratios scores, LLR scores o LODs ) Aparecen sistemas de puntuación basados en LLRs en: Matrices PAM o BLOSUM Identificación de islas CpG Identificación de motivos mediante matrices de pesos posicionales (PWM) Departament d Estadística U.B. 14 2.5. El sistema de puntuación de geneid El programa de predicción de genes geneid utiliza LLRs en la puntuación de los exones potenciales Un gen, concebido como una sucesión de exones e intrones alternados, puede representarse de forma simplificada como: S = e 1 i 1 e 2 i 2 e 3 i 3 e 4 i 4...e N Sea e i = s i 1s i 2s i 3...s i n i un exon potencial que consta de tres partes diferenciadas: } {{ } e ia :Inicio/Aceptor } {{ } e im :P arte codificante } {{ } e id :Stop/Donor geneid puntua cada parte separadamente utilizando un modelo para los extremos y otro para la parte codificante. Departament d Estadística U.B. 15

Modelo de puntuación de un exon Sea e ia el punto de inicio o un acceptor site y e id el punto de stop o un donor site. El exon potencial se puntua: = L E (e i )=L A (e ia )+L D (e id )+L M (e i ) n A n D A s i j j + D s i j j + LI l ( n ) i 5 e i1..,5 + LF l ( ) e ij...j+5, j=1 j=1 j=1 L A (e ia )yl D (e id ) son las puntuaciones de los extremos del exon, que se obtienen mediante LLRs basados en matrices de pesos posicionales para los sitios dadores o aceptores L M (e i ) es el potencial de codificación, que se calcula mediante un modelo de Markov de orden 5 Departament d Estadística U.B. 16 2.6. Modelo de puntuación (1) Sitios aceptores y donores El calculo L A (e ia )yl D (e id ) esta basado en matrices de pesos posicionales A s i j j,d s i j j son elementos de esta PWM, determinadas a partir de secuencias en las que se conocen las posiciones de los genes (y por tanto de los aceptores, donores, y sitios de start y stop). Se definen como: A ij =log P ij A Q A, (respectivament, D ij,b ij ) ij Departament d Estadística U.B. 17

Matrices de pesos posicionales Pij A (respectivamente, P ij D, P ij B ) representan la probabilidad de observar el nucleótido i (i A, C, T, G) en la posición j (j 3, 2,..., 5) en un acceptor site (respectivament, donor o start),yportantoseestimaapartirdelafrecuenciarelativa de nucleótids i que ocupen la posición j en los acceptor sites reales, es decir conocidos (respectivament, donor o start). Q A ij (respectivamente, QD ij, QS ij ) representan la probabilidad de observar el nucleótido i (i A, C, T, G) en la posición j (j 3, 2,..., 5) entorno de cualquier dinucleótido AG (respectivament GT para los donors o AT G para los start codons). Representa pues el modelo nulo, o más exactamente background. Departament d Estadística U.B. 18 Figura 5: Matrices de pesos posicionales Departament d Estadística U.B. 19

Modelo de puntuación (2) Potencial de codificación El potencial de codificación consta de dos componentes: F j (h) =F j (s 1 s 2 s 3 s 4 s 5 s 6 ) es la probabilidad (de transición) de observar dentro de un exon el hexámero h = s 1 s 2 s 3 s 4 s 5 s 6 con el nucleótido s 1 en la posición j (j =1, 2, 3 correspondiente a las tres posibles pautas de lectura) suponiendo que s 1 se encuentre en la posición j en el pentámero s 1 s 2 s 3 s 4 s 5. I j (p) es la probabilidad inicial para cada pentámero p en cada posición dentro de los exones para las pautas de lectura 1,2,3. F 0 (h) ii 0 (p) son las probabilidades de transición iniciales correspondientes a los intrones Departament d Estadística U.B. 20 Ensamblado de los genes El modelo anterior permite puntuar cada uno de los posibles exones de un gen Como las señales son muy débiles el número de exones potenciales es muy alto, la mayoria de ellos superpuestos entre si Para escoger un conjunto óptimo que configura un gen se utiliza un algoritmo de programación dinámica que realiza el ensamblado maximizando la suma de las puntuaciones de conjuntos de exones compatibles con un gen (i.e. sin superposición, sin stop codons en medio etc...) Departament d Estadística U.B. 21

Departament d Estadística U.B. 22 Figura 6: El número de exones potenciales es muy alto Departament d Estadística U.B. 23

3. Predicción de genes con MOM Los MOM resultan especialmente adecuados para la predicción de genes por su capacidad para modelizar estructuras gramaticales, es decir, estructuras en las que aparecen restricciones relativas al tipo de elementos que las constituyen al orden en que aparecen estos elementos Los genes tienen una estructura gramatical sencilla: No se trata tan sólo de conjuntos de caracteres (nucleótidos), palabras (exones /intrones) o frases (genes): Hay una estructura en el sentido que ciertas expresiones no tienen sentido, no son posibles. Por ejemplo, en genes eucariotas 1. Las frases nunca acaban en un intron 2. Un exon nunca sigue a otro exon Departament d Estadística U.B. 24 3.1. MOM para predicción de genes procariotas Los genes procariotas tienen una gramática particularmente sencilla Codon de inicio Region codificante Codon de parada Un MOM para predecir genes de tal tipo deberá contemplar estados para los tres tipos de regiones Departament d Estadística U.B. 25

Figura 7: Un MMO para genes procariotas Departament d Estadística U.B. 26 3.2. MOM para predicción de genes eucariotas La estructura de los genes eucariotas es compleja. De forma simplificada contempla Codon de inicio Region codificante: Un cierto número de exones ( 1) e intrones ( 0) terminados por un exón Codon de parada Los MOM desarrollados para genes eucariotas suelen constar de varios modelos encadenados, unos para modelizar las señales de inicio o finalización y otros para la región codificante. Departament d Estadística U.B. 27

Figura 8: Para los sitios aceptores se construye un MMO sencillo. Excepto en casos raros el intron acaba con un AG, sombreado. El modelo contemplará no tan sólo estos dos nucleótidos con probabilidades de emisión 1, sino 16 bases anteriores y tres bases siguientes. Puesto que no hay huecos el modelo será equivalente a una matriz de pesos. Departament d Estadística U.B. 28 Departament d Estadística U.B. 29

Figura 9: Para las regiones codificantes se construye otro MMO. Los estados uno, dos y tres del modelo representan respectivamente el primer, segundo y tercer codon Cualquier región codificante puede ser representada por este modelo porque del estado tres se puede volver al uno En la parte inferior se muestra un modelo sencillo en el que los tres primeros estados coinciden con un codon de inicio, los tres siguientes con el modelo de región codificante de la parte superior y los tres últimos con un codon de parada (solo se muestra uno de los tres posibles estados de parada) Departament d Estadística U.B. 30 Figura 10: Los modelos se encadenan en un modelo general. Una x indica un estado para DNA no codificante y una c un estado para DNA codificante (solo se muestra uno de los tres posibles estados de parada) Departament d Estadística U.B. 31

Figura 11: Un modelo combinado que contempla el splicing Departament d Estadística U.B. 32 3.3. Identificación de genes con MMO Los MMO como los anteriores implican una estructura determinada para el gen Una secuencia que no cumpla las restricciones impuestas recibirá probabilidad cero bajo este modelo Si se desea localizar los genes en un fragmento de genoma Aplicar el algoritmo de Viterbi a la secuencia Identificar como genes aquellas sucesiones de observaciones del camino más probable que cumplan las reglas gramaticales impuestas por el modelo: ATG Ex Int Ex Int... TAA Fin Departament d Estadística U.B. 33

Figura 12: Predicción de genes: Dada una secuencia observada la predicción del gen se obtiene aplicaandole el Algoritmo de Viterbi Departament d Estadística U.B. 34 En la practica Los MMO que se utilizan en los programas reales de predicción de genes son mucho más complejos que el ejemplo anterior. 1. VEIL utiliza un modelo simple con muchos estados 2. HMMGene Utiliza CHMM: MMO con clases 3. Genie usa GHMM: MMO generalizados: Los estados del modelo general son, a su vez MMO completos 4. GENSCAN (Burge & Karlin) usa SHMM: MMO con capacidad de incluir la longitud de los exones e intrones... Departament d Estadística U.B. 35