P ( D H) Curso Fundamental de Inferencia Filogenética. Tema: Inferencia Filogenética con Máxima Verosimilitud

Documentos relacionados
1/19/11! Taller Latinoamericano de Evolución Molecular! 2011! Criterios de Optimización II! Máxima Verosimilitud!

Lección 3. Modelos de evolución molecular. Transiciones. Transversiones. Transiciones. Inferencia filogenética Mutación y substitución

= " G. = 0.25 ) b. En los modelos más complejos: cuatro frecuencias diferentes, una para cada nucleótido (" A = " T # " G # " C # " T

Pablo Vinuesa 2007, 1

1/26/11! Taller Latinoamericano de Evolución Molecular! 2011! Relojes Moleculares:! Fechación de Clados con Datos Moleculares! EL RELOJ MOLECULAR!

Filogenias. Charles Darwin (1859)

INTRODUCCIÓN MATERIALES Y METODOS

EVALUACION DEL EFECTO DE LA EVOLUCIÓN HETEROGENEA SITIO- ESPECIFICA SOBRE LA RECONSTRUCCIÓN FILOGENETICA MEDIANTE PARSIMONIA

LAB 1 LAB 1/2. Estadística descriptiva. Pruebas de neutralidad. Mismatch distribution. Tajima Fu MacDonald-Kreitman

MAXIMA PARSIMONIA EN LA INFERENCIA FILOGENÉTICA DE SECUENCIAS DE ADN

Pablo Vinuesa 2008, 1

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA. Evolución Molecular y Filogenia

La teoría de coalescencia

2008 Pablo Vinuesa, 1

SILABO. UNIVERSIDAD RICARDO PALMA Facultad de Ciencias Biológicas Año Académico 2012 Semestre académico 2012-II I. DATOS GENERALES

Darwin: la evolución es descendencia con modificación

Curso de Evolución 2017 Facultad de Ciencias Montevideo, Uruguay

TEMA 2.1. Breve introducción a las técnicas y métodos de reconstrucción filogenética

Herramientas moleculares

Modelos de sustitución de nucleótidos* (y otros modelos).

Método de Hennig. Método alternativo. 1) Definir la raíz (escogiendo grupo externo) 1) Identificar caracteres informativos

EFECTO DE BASES AMBIGUAS EN LA RESOLUCION DE LAS FILOGENIAS. Laura Rocío Forero Moreno

ESTRATEGIAS DE SELECCIÓN DEL MODELO DE SUSTITUCIÓN NUCLEOTÍDICA VERSUS EL NÚMERO DE TAXA. Johana Alexandra Dulcey Ulloa,

Consenso: Hoy 3 temas. 2- evaluando los resultados. evolucion.fcien.edu.uy/sistematica/sistematica.htm

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica

Procesos estocásticos Sesión 9. Cadenas de Markov a tiempo continuo

PRACTICA XI: ALINEAMIENTO POR TRADUCCION INVERSA Y ANALISIS FILOGENETICO POR EL CRITERIO DE DISTANCIAS

Tema 4: Alineamiento Múltiple y Filogenias (3)

PRÁCTICA I. Ejercicios Teóricos

El virus de la gripe. Análisis bioinformático

Caracteres moleculares

Selección de distribuciones de probabilidad

2008 Pablo Vinuesa, 1

Selección Natural y Evolución

Lección 4. Métodos filogenéticos

TEMA 4 Modelos discretos elementales. Ecuaciones en diferencias

Lección 10. Aplicaciones filogenéticas en epidemiogía

El modelo de azar proporcional: la regresión de Cox

INTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)

ÁRBOLES FILOGENÉTICOS

Economía Aplicada. Modelos con variables dependiente binarias. Departamento de Economía Universidad Carlos III de Madrid

Algunas Distribuciones Continuas de Probabilidad. UCR ECCI CI-1352 Probabilidad y Estadística Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Modelos de mutación y filogenética molecular. Bioinformática, Kevin Yip-CSE-CUHK (Universidad china de Hong-Kong)

Construcción y análisis de árboles filogenéticos. Antonio Gómez Tato

Filogenias. Inferencia filogenética

Grado en Matemáticas

INDICE 1. Qué es la Estadística? 2.Descripción de Datos: Distribuciones de Frecuencia y Presentación Gráfica

Análisis de datos Categóricos

CUERPO TÉCNICO, OPCION ESTADISTICA

TEMA 3.- EL ANALISIS ESTADISTICO DE LA INFORMACION (MODELIZACION) DIFERENTES TIPOS DE PROCEDIMIENTOS ESTADISTICOS

CI 41C HIDROLOGÍA HIDROLOGÍA PROBABILÍSTICA

Preparación de los datos de entrada

Clase 2. Introducción a la Sistemática Cladística

Formulario. Estadística Administrativa. Módulo 1. Introducción al análisis estadístico

Tema 6: Introducción a la Inferencia Bayesiana

Contenido. 2 Probabilidad 9. Prefacio. 1 Introducci6n a la estadfstica y al an;!llisis de datos

Análisis de extremos

ANÁLISIS DE REGRESIÓN

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Aplicaciones de apoyo al diagnóstico médico. Identificación de objetos amigos y enemigos. Identificación de zonas afectadas por un desastre natural.

Elvira Mayordomo y Jorge Álvarez. Marzo - Abril de 2016

INDICE. Prólogo a la Segunda Edición

Pruebas para evaluar diferencias

Maestría en Bioinformática Probabilidad y Estadística: Clase 13

Elementos para la estimación de una tabla de mortalidad de inválidos

Teoría de colas. Modelado y Análisis de Redes de Telecomunicaciones. IIE - Facultad de Ingeniería

Estadística Bayesiana

Tema 6. Estimación puntual

LIMITES O INTERVALOS DE CONFIANZA LUIS FRANCISCO HERNANDEZ CANDELARIA ATENCIA ROMERO

Taller Latinoamericano de Evolución Molecular y Filogenética. Junio 22 - Julio 3, Centro de Ciencias Genómicas, UNAM. Relojes Moleculares

Elementos de probabilidad e inferencia estadística en el seguro

Microeconometría. Karoll GOMEZ Segundo semestre 2017

13.Teoría de colas y fenómenos de espera

Método bayesiano bootstrap y una aplicación en la estimación del percentil 85 en ingeniería de tránsito

Distribuciones Muestrales e Intervalos de Confianza

Ensayos de consolidación (2)

Andrea Bayancela Espinel Coordinación y edición: Eugenio Paladines y David Villamar

JUEGO DE BASKETBALL. Repaso de Distribuciones de Probabilidad Discretas y Continuas

Tema 6: Introducción a la inferencia estadística

TEMA 5. Modelos para Datos de Conteo

Tema I. Introducción. Ciro el Grande ( A.C.)

Unidad Temática 2: Unidad 5 Estadística Inferencial Temas 10 y 11

MÉTODOS PARA ESTIMAR PARÁMETROS FENOTÍPICOS Y GENÉTICOS DE LA DESCENDENCIA

Teorema Central del Límite (1)

TEMA 3.5. Obtención de árboles mediante el método de inferencia bayesiana

Introducción a la Simulación

Marcel Goic

Teoría neutral de la evolución molecular

Fecha de elaboración: 2003 Fecha de última actualización: F1232 Probabilidad y Estadística 1/9

12.Teoría de colas y fenómenos de espera

Diseño de experimentos

Modelos de suavizado, aditivos y mixtos

Procesos estocásticos

EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD)

Genómica comparada. Brown 2002, págs

Biología Molecular y Filogenia en Micología

Planificaciones Probabilidad y Estadística B. Docente responsable: GRYNBERG SEBASTIAN PABLO. 1 de 6

Prueba de Hipótesis. Bondad de Ajuste. Tuesday, August 5, 14

Transcripción:

urso Fundamental de Inferencia Filogenética ema: Inferencia Filogenética con Máxima Verosimilitud, UNM Junio, 7 Prof. Susana Magallón IB, UNM Método paramétrico MXIM VEROSIMILIUD (ML) EN L INFERENI FILOENEI Uso de matriz de taxa por caracteres discretos Utiliza un criterio de optimización para elegir árboles tributos: Permite explorar los datos y los modelos de substitución Permite adecuado aprovechamiento de información de secuencias Proporciona estimados de filogenia con poca varianza Es robusto a violaciones de supuestos de modelos Permite incorporar conocimiento sobre substitución molecular en la inferencia filogenética MXIM VEROSIMILIUD (ML) EN L INFERENI FILOENEI Utiliza un criterio de optimización para elegir árboles riterio de optimización: Máxima Verosimilitud Probabilidad de los datos dada una hipótesis P ( D H) MXIM VEROSIMILIUD (ML) EN L INFERENI FILOENEI avalli-sforza & Edwards (967) - frecuencias génicas avalli-sforza, L.L. and.w.f. Edwards. 967. Phylogenetic analysis: model and estimation procedures. Evolution 3:55-57, and merican Journal of Human enetics 9:33-57. Felsenstein (98) - secuencias de nucleótidos Felsenstein, J. 98. Evolutionary trees from DN sequences: a maximum likelihood approach. Journal of Molecular Evolution 7:368-376. Datos (D): - secuencias de nucleótidos - secuencias de aminoácidos Hipótesis (H): - árbol (topología) - longitud de ramas - parámetros del modelo de substitución Kishino et al. (99), dachi & Hasegawa (99) - secuencias de aminoácidos Kishino, H.,. Miyata and M. Hasegawa. 99. Maximum likelihood inference of protein phylogeny and the origin of chloroplasts. Journal of Molecular Evolution 3:5-6. dachi, J. and M. Hasegawa. 99. MOLPHYL: Programs for molecular phylogenetics I - PROML: maximum likelihood inference of phylogeny. omputer Science Monographs, No. 7. Institute of Statistical Mathematics, okyo. MXIM VEROSIMILIUD (ML) EN L INFERENI FILOENEI ESIMION DE ESDOS EN NODOS INERNOS omparación con otros Métodos Similitud con métodos de distancia e inferencia Bayesiana: - métodos paramétricos (uso explícito de un modelo de substitución) Similitud con parsimonia (MP): - uso directo de la matriz original de datos (taxa por caracteres) - uso de un criterio de optimización para elegir entre árboles

ESIMION DE ESDOS EN NODOS INERNOS ESIMION DE ESDOS EN NODOS INERNOS Nodos ncestrales con Parsimonia Nodos ncestrales con Máxima Verosimilitud probabilidad de cambio MEDIION DE L VEROSIMILIUD (L) DE UN RBOL URVS DE VEROSIMILIUD omparación de combinaciones de: - topología - longitudes de ramas - valores de los parámetros del modelo de substitución que maximicen globalmente la probabilidad de los datos (secuencias de nu, aa, etc.) Procedimiento iterativo, por ejemplo: (a) Proponer una topología (b) signar valores a los parámetros del modelo de substitución (c) Modificar las longitudes de ramas hasta encontrar aquellas que maximicen la probabilidad de los datos bajo la topología y los valores de parámetros fijos (d) Se mide la L del árbol * (e) Se repite desde (b) (f) Se repite desde (a) (g) Se elige la combinación global con mayor L Verosimilitud (L) Valor del parámetro LULO DE L VEROSIMILIUD (L) DE UN RBOL () lineamiento j N [] [] [3] [4] () rbol no enrraizado 3 (4) álculo de la L del sitio j L(j) = Prob + Prob + + Prob + + Prob L OMO LORIMO NURL. L. lnl <. 4 (3) rbol enrraizado arbitrariamente 3 4 (5) L total = producto de las Ls de cada sitio " N L = L() L() L(N) = L( j) j= (5) (6) (6) L total = producto de las Ls de cada sitio N lnl = lnl() + lnl() + + L(N) = " lnl( j) j=

MODELOS SELEION DE MODELOS eneralidad: Describe las características comunes de un proceso en diferentes entidades. Exploración de datos: Permite elección de un modelo con un buen ajuste a los datos Flexibilidad: Introducen flexbilidad al incluír parámetros que son relevantes en el proceso modelado. Parámetros: (a) Selección de parámetros - Incluir parámetros relevantes - Evitar parámetros superfluos (b) Especificación de los valores de los parámetros Prueba de ociente de Verosimilitudes (Likelihood Ratio est): Evalua significancia de la diferencia en L entre modelos anidados -(lnl - lnl ) = -ln(l /L ) riterio de Información de kaike (I): ontrarresta el incremento de L en un modelo mas complejo mediante una penalización por la inclusión de parámetros adicionales MODELOS DE SUBSIUION DE NULEOIDOS MRIZ DE SS INSNNES Describen el proceso de cambio de una base i a una j en un sitio Modelos Markovianos homogéneos µ(aπ c + bπ + cπ ) µaπ µbπ µcπ µgπ µ(gπ + dπ + eπ ) µdπ µeπ µhπ µiπ µ(hπ + iπ + fπ ) µfπ históricos: La probabilidad de cambio de i a j en un sitio no depende de la base en ese sitio antes de estar i. µjπ µkπ µlπ µ(jπ + kπ + lπ ) Las probabilidades de substitución son constantes en todo el árbol µ = tasa de substitución instantánea a, b, c,..., l = tasa de substitutción relativa µa, µb,..., µl = parámetros de tasa π, π, π, π = frecuencias de las bases MRIZ DE SS INSNNES MRIZ DE SS INSNNES Modelo eneral emporal Reversible (R) µ(aπ c + bπ + cπ ) µaπ µbπ µcπ µa µb µc µgπ µ(gπ + dπ + eπ ) µdπ µeπ µhπ µiπ µ(hπ + iπ + fπ ) µfπ R = µa µd µe µb µd µf µc µe µf µjπ µkπ µlπ µ(jπ + kπ + lπ ) µ(aπ c + bπ + cπ ) µaπ µbπ µcπ R = µa µb µc µg µd µe µh µi µf Π = π π π µaπ µ(aπ + dπ + eπ ) µdπ µeπ µbπ µdπ µ(bπ + dπ + fπ ) µfπ µj µk µl π µcπ µeπ µfπ µ(cπ + eπ + fπ ) 3

MRIZ DE SS INSNNES Modelo HKY85 ti tv MRIZ DE SS INSNNES ti tv Modelo KP ti: -; - b = e = κ tv: -; -; -; - a = c = d = f = ti: -; - b = e = κ tv: -; -; -; - a = c = d = f = π = π = π = π =.5 µ(aπ c + bπ + cπ ) µπ µkπ µπ ( + κ) κ µπ µ(aπ + dπ + eπ ) µπ µkπ ( + κ) κ µkπ µπ µ(bπ + dπ + fπ ) µπ κ ( + κ) µπ µkπ µπ µ(cπ + eπ + fπ ) κ ( + κ) MRIZ DE SS INSNNES Modelo J a = b = = f = π = π = π = π =.5 res tipos de substitución: (ti, y dos clases de tv) SOS ESPEILES DEL R R Igual frecuencia de bases rn SYM Dos tipos de substitución: (ti y tv) res tipos de substitución: (ti, y dos clases de tv) 3() 3() 3() HKY85 Un tipo de substitución F8 Igual frecuencia de bases KP K3S Dos tipos de substitución: (ti y tv) 3() Igual frecuencia de bases Un tipo de substitución J MODELOS DE SUBSIUION DE OROS IPOS DE DOS Proteínas MODELOS DE SUBSIUION DE OROS IPOS DE DOS odones Matriz de cambio de x Modelo de Poisson - Supuestos: - igual frecuencia de todos los aminoácidos - igual tasa de cambio entre los aminoácidos Modelo Proporcional de Hasegawa y Fujiwara (993): - admite frecuencias desiguales Modelo de Dayhoff (Kishino et al., 99; dachi and Hasegawa, 99) - análogo al R; utiliza tasa de substitución empírica de Dayhoff Retienen toda la información de las secuencias de nucleótidos, sin los problemas derivados de la degeneración del código genético Matriz de cambio de 6 x 6 Modelos: Muse and aut (994) oldman and Yang (994) Modelo J (Jones et al., 99) - actualización del modelo de Dayhoff. 4

OROS PRMEROS Variación de asas entre Sitios DISRIBUION MM Parámetro relevante en la substitución de nucleótidos Modelaje del parámetro: (a) Una tasa de substitución propia para cada sitio (b) signación de categorías funcionales a diferentes sitios - asa diferente a as, as y 3as posiciones del codón - Distribución de tasas entre sitios como una distribución gamma FORM DE L DISRIBUION MM = parámetro de forma OROS PRMEROS Sitios Invariables ierto porcentaje de los sitios no admite cambios Puede combinarse con diferentes tasas entre sitios variables: - % de sitios invariables - sitios variables: distribución de tasas como en una distribución gamma < < Versión discreta de la distribución amma - División del área bajo la curva en n sectores iguales - La media de cada sector representa todas las tasas dentro de ese sector ENIS DE ESIMION FILOENEI ON MXIM VEROSIMILIUD Estimación simultánea de topología, longitudes de ramas y parámetros de substitución. Es posible introducir algunos de los parámetros anteriores, a partir de información previa independiente Método de aproximación sucesiva: (a) obtener una topología adecuada (e.g., con MP o J) (b) estimar parámetros de substitución en topología disponible, con base en modelo con alto ajuste (c) realizar búsqueda de ML de toplogía usando modelo con alto ajuste, fijando los parámetros de substitución (d) re-estimar parámetros en la topología obtenida (e) etc., hasta lograr una estabilización de topología y parámetro de substitución 5