Taller Latinoamericano de Evolución Molecular y Filogenética. Junio 22 - Julio 3, Centro de Ciencias Genómicas, UNAM

Documentos relacionados
1/19/11! Taller Latinoamericano de Evolución Molecular! 2011! Criterios de Optimización II! Máxima Verosimilitud!

P ( D H) Curso Fundamental de Inferencia Filogenética. Tema: Inferencia Filogenética con Máxima Verosimilitud

MAXIMA PARSIMONIA EN LA INFERENCIA FILOGENÉTICA DE SECUENCIAS DE ADN

1/19/11! Modelos de Sustitución y Selección de Modelos! Taller Latinoamericano de Evolución Molecular! 2011! 1. Distancias!

EFECTO DE LA ELECCIÓN DEL MODELO EVOLUTIVO A PARTIR DE DATOS SIMULADOS SOBRE LA TOPOLOGIA OBTENIDA EN MR BAYES.

ANÁLISIS DE LA PRUEBA DE APROXIMACIÓN NO SESGADA (AU) EN COMPARACIÓN CON OTRAS PRUEBAS PARA LA SELECCIÓN DEL ÁRBOL ÓPTIMO BASADO EN VALORES-P

Lección 3. Modelos de evolución molecular. Transiciones. Transversiones. Transiciones. Inferencia filogenética Mutación y substitución

UNA MEJOR RESOLUCION: ARBOLES DE ESPECIES O DATOS CONCATENADOS (EVIDENCIA TOTAL)? Angie Tamara Guevara

UNIVERSIDAD VERACRUZANA (Maestría en Ciencias Biológicas) DATOS GENERALES. Nombre del Curso. Sistemática Filogenética PRESENTACIÓN GENERAL

Maestría en Bioinformática Probabilidad y Estadística: Clase 13

Más caracteres moleculares mejoran la resolución de las topologías en el Análisis Bayesiano? Nadia Jimena Rojas Lozada,

Filogenias. Charles Darwin (1859)

Efectos de los alineamientos

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica

El método de máxima verosimilitud (ML) Introducción a la inferencia de filogenias moleculares (II) ML en filogenias (I) ML en filogenias (III)

INTRODUCCIÓN MATERIALES Y METODOS

El modelo de azar proporcional: la regresión de Cox

Lección 4. Métodos filogenéticos

SILABO. UNIVERSIDAD RICARDO PALMA Facultad de Ciencias Biológicas Año Académico 2012 Semestre académico 2012-II I. DATOS GENERALES

INFORMACIÓN FALTANTE Y/O CONFUSA EN VARIABLES DISCRETAS DE LA ENCUESTA PERMANENTE DE HOGARES (EPH)

Darwin: la evolución es descendencia con modificación

Curso de Evolución 2017 Facultad de Ciencias Montevideo, Uruguay

TEMA 2.1. Breve introducción a las técnicas y métodos de reconstrucción filogenética

b. Universidad Nacional-Sede Medellín

Pablo Vinuesa 2008, 1

Modelos de mutación y filogenética molecular. Bioinformática, Kevin Yip-CSE-CUHK (Universidad china de Hong-Kong)

FILOGEOGRAFÍA Y FILOGENIA MOLECULAR

Construcción y análisis de árboles filogenéticos. Antonio Gómez Tato

La teoría de coalescencia

Análisis de extremos

Diseños D-óptimos bayesianos para modelos lineales heteroscedásticos

1/26/11! Taller Latinoamericano de Evolución Molecular! 2011! Relojes Moleculares:! Fechación de Clados con Datos Moleculares! EL RELOJ MOLECULAR!

Curso de Inteligencia Artificial

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA. Evolución Molecular y Filogenia

Búsqueda en espacio de estados

CONGRUENCIA METODOLOGICA EN LOS ANALISIS FILOGENETICOS A PARTIR DE ALINEAMIENTO Y RECONSTRUCCION. Katherine Cuadros

FACULTAD DE CIENCIAS NATURALES DEPARTAMENTO DE CIENCIAS BIOLÓGICAS

El virus de la gripe. Análisis bioinformático

Filogenias. Inferencia filogenética

Curso de Postgrado y Actualización, FCNyM. Introducción a los métodos para la reconstrucción filogenética probabilística con datos moleculares

(x) = 1 si P (Y = 1 X = x) P (Y = 0 X = x) P (Y = 0 X = x) > P (Y = 1 X = x) P (X = x Y = 0)P (Y = 0) > P (X = x Y = 1)P (Y = 1)

ES EL JACKNIFE UNA ALTERNATIVA VIABLE AL BOOTSTRAP? Silvia Ximena Barrios

2008 Pablo Vinuesa, 1

Inferencia Estadística

Análisis de datos Categóricos

TEST DE RAZÓN DE VEROSIMILITUD GENERALIZADA

Modelos de Markov Ocultos (HMM)

Econometría Avanzada FLACSO 2014

Lección 9. Constrastes filogenéticos

Modelos Gráficos Probabilistas L. Enrique Sucar INAOE. Sesión 5: Modelos Ocultos de Markov

Caracteres moleculares

Cadenas de Markov Ocultas

Análisis Estadístico en Simulaciones. UCR ECCI CI-1453 Investigación de Operaciones Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Evolución de secuencias de DNA

EFECTO DE BASES AMBIGUAS EN LA RESOLUCION DE LAS FILOGENIAS. Laura Rocío Forero Moreno

Auxiliar 9. MNL y MLE. Daniel Olcay. 21 de octubre de 2014 IN4402. Daniel Olcay (IN4402) Auxiliar 9 21 de octubre de / 13

Pablo Vinuesa 2008, 1

Resumen. Recordemos que una cópula es una función C : I 2 I tal que: C(u 2, v 2 ) C(u 2, v 1 ) C(u 1, v 2 ) + C(u 1, v 1 ) 0. (2)

Caracteres moleculares

Elvira Mayordomo y Jorge Álvarez. Marzo - Abril de 2016

Pablo Vinuesa 2007, 1

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA. Alineamiento múltiple de secuencias

USO DEL FILTRO DE KALMAN PARA ESTIMAR LA TENDENCIA DE UNA SERIE

Estadística Bayesiana

Paquete de R: isocir

Clase 2. Introducción a la Sistemática Cladística

Contrastando Hipótesis después de la Estimación Probit

INFERENCIA BAYESIANA. Antonio López Universitat de València. ESTADÍSTICA ESPACIAL EN EPIDEMIOLOGÍA Y MEDIO AMBIENTE Burjassot, Primavera de 2004

INTERVALOS DE CONFIANZA BOOTSTRAP BAJO INCUMPLIMIENTO DE SUPUESTOS EN REGRESIONES SPLINES PENALIZADAS

COMPARACIÓN DE TRES MÉTODOS DE REGRESIÓN LINEAL USANDO PROCEDIMIENTOS DE SIMULACIÓN

Factorización de Árboles de Probabilidad

Grado en Matemáticas

SIMULACION. Urna 1. s(x) h(x) Urna 2. s(x) Dado. Urna /6 2 1/6 3 1/6 4 1/6 5 1/6 6 1/6 Dado 1 1/6 2 1/6 3 1/6 4 1/6 5 1/6 6 1/6

PRACTICA XI: ALINEAMIENTO POR TRADUCCION INVERSA Y ANALISIS FILOGENETICO POR EL CRITERIO DE DISTANCIAS

4ta. Práctica. Búsqueda en árbol con contrincante: MiniMax con poda Alfa-Beta. Inteligencia Artificial Prácticas 2004/2005

Objetivos. Introducción a la inferencia de filogenias moleculares (I) Árboles filogenéticos. Bifurcaciones y multifurcaciones

CLASIFICACIÓN CON VARIABLES DISCRETAS OBSERVADAS CON ERROR Y CON VARIABLES CONTINUAS

EVALUACION DEL EFECTO DE LA EVOLUCIÓN HETEROGENEA SITIO- ESPECIFICA SOBRE LA RECONSTRUCCIÓN FILOGENETICA MEDIANTE PARSIMONIA

Búsqueda en espacio de estados

donde ε es la variable aleatoria de media 0 y f(x) es una relación que tiene la siguiente expresión:

Programación Dinámica

Comparación de intervalos de confianza para el coeficiente de correlación

Alineamiento múltiple de secuencias

Perfiles y modelos ocultos de Markov

Herramientas moleculares

Comparación de dos métodos de aprendizaje sobre el mismo problema

Análisis de esquemas de manejo de restricciones en optimización global.

Modelos del Lenguaje. Qué es un ML? Modelos basados en N-gramas Modelos basados en Gramáticas Propuesta de T.D

UNLPam - Fac. Cs. Econ. y Jur.

Búsqueda en línea y Búsqueda multiagente

ESTRATEGIAS DE SELECCIÓN DEL MODELO DE SUSTITUCIÓN NUCLEOTÍDICA VERSUS EL NÚMERO DE TAXA. Johana Alexandra Dulcey Ulloa,

Redes Bayesianas (3) Carlos Hurtado L. Depto. de Ciencias de la Computación, Universidad de Chile

Calculo del tiempo de vida con datos de degradación MC. Manuel Jesús Reyes Méndez (ITCJ) 1, Dr. Manuel A. Rodríguez Medina (ITCJ)

Carteras minoristas. árbol de decisión. Ejemplo: Construcción de un scoring de concesión basado en un DIRECCIÓN GENERAL DE SUPERVISIÓN

EVALUACIÓN EN APRENDIZAJE. Eduardo Morales y Jesús González

BIBLIOTECA REMIGIO FIORE FORTEZZA OFM. CAP.

Programación Dinámica

Transcripción:

Taller Latinoamericano de Evolución Molecular y Filogenética Junio 22 - Julio 3, 2009 Centro de Ciencias Genómicas, UNM Máxima Verosimilitud como Criterio de Inferencia Filogenética Prof. Susana Magallón Instituto de Biología, UNM s.magallon@ibiologia.unam.mx Junio 25, 2009

Máxima Verosimilitud (Maximum Likelihood - ML) como una técnica estadística R.. Fisher: Fisher, R.. 1912. On the absolute criterion for fitting frequency curves. Messenger of Mathematics 41:155-160. Fisher, R.. 1921. On the probable error of a coefficient correlation deduced from a small sample. Metron 1:3-32. Fisher, R.. 1922. On the mathematical foundations of theoretical statistics. Philosophical Transactions of the Royal Society of London, 222:309-369.

Máxima Verosimilitud (Maximum Likelihood - ML) como una técnica estadística R.. Fisher: Fisher, R.. 1912. On the absolute criterion for fitting frequency curves. Messenger of Mathematics 41:155-160. Fisher, R.. 1921. On the probable error of a coefficient correlation deduced from a small sample. Metron 1:3-32. Fisher, R.. 1922. On the mathematical foundations of theoretical statistics. Philosophical Transactions of the Royal Society of London, 222:309-369. Definición: P ( D H ) Probabilidad de los datos dada una hipótesis Ejemplo: un promedio es un estimado de máxima verosimilitud de la media en una distribución normal.

Máxima Verosimilitud en la inferencia filogenética. W. F. Edwards y L. L. Cavalli-Sforza (frecuencias génicas): Edwards,.W.F. and L.L. Cavalli-Sforza. 1964. Reconstruction of evolutionary trees. Pages 67-76, in Phenetic and Phylogenetic Classification (V.H. Heywood and J. McNeil, eds.). Systematics ssociation Publ. No. 6, London. Cavalli-Sforza, L.L. and.w.f. Edwards. 1967. Phylogenetic analysis: model and estimation procedures. Evolution 32:550-570; merican Journal of Human Genetics 19:233-257. J. Neyman; R. L. Kashyab and S. Subas (secuencias de nucleótidos): Neyman, J. 1971. Molecular studies of evolution: a source of novel statistical problems. Pages 1-27, in Statistical Decision Theory and Related Topics (S.S. Gupta and J. Yackel, eds.). cademic Press, New York. Kashyab, R.L. and S. Subas. 1974. Statistical estimation of parameters in a phylogenetic tree using a dynamic model of the substitutional process. J. Theoretical Biology 47:75-101. Joseph Felsenstein (secuencias de nucleótidos): Felsenstein, J. 1973a. Maximum-likelihood estimation of evolutionary trees from continuous characters. merican Journal of Human Genetics 25:471-492. (modificaciones a método de Edwards y Cavalli-Sforza, y algoritmo de poda) Felsenstein, J. 1973b. Maximum likelihood and minimum-steps methods for estimating evolutionary trees from data on discrete characters. Systematic Zoology 22:240-249. (cálculo de la verosimilitud de un árbol, y algoritmo de poda) Felsenstein, J. 1981. Evolutionary trees from DN sequences: a maximum likelihood approach. Journal of Molecular Evolution 17:368-376. (método práctico para cálculo de L de árbol, con un número pequeño de secuencias)

Máxima Verosimilitud en la inferencia filogenética H. Kishino et al.; J. dachi and M. Hasegawa (secuencias de aminoácidos): Kishino, H., T. Miyata and M. Hasegawa. 1990. Maximum likelihood inference of protein phylogeny and the origin of chloroplasts. Journal of Molecular Evolution 31:151-160. dachi, J. and M. Hasegawa. 1992. MOLPHYL: Programs for molecular phylogenetics I - PROTML: maximum likelihood inference of phylogeny. Computer Science Monographs no. 27. Institute of Statistical Mathematics, Tokyo. Contribución de Joseph Felsenstein: Simplificación de método propuesto por Edwards y Cavalli-Sforza (1964) para caracteres cuantitativos (frecuencias génicas). - Edwards y Cavalli-Sforza deseaban estimar un gran número de parámetros del árbol, incluyendo secuencia de ancestros y el fenotipo de todos los individuos. - Singularidades que impedían calculo de verosimilitud. - Método de Felsenstein: Circunscripción a secuencia de eventos de especiación: - Fórmula de Verosimilitud para la estimación de la topología del árbol, y de los tiempos de ramificación, que carece de singularidades. lgoritmo de Poda (Pruning lgorithm) - Método práctico que facilita el cálculo de la verosimilitud (L) de un árbol.

Máxima Verosimilitud en la inferencia filogenética P M ( D T ) Probabilidad de obtener los datos (D) dado el árbol (T), bajo un modelo (M) Datos (D): rbol (T): Modelo (M): secuencias de nucleótidos topología Probabilidad de transición secuencias de aminoácidos longitud de ramas secuencias de codones caracteres morfológicos tributos de Estimados de ML: * Consistencia: convergen en el valor correcto del parámetro estimado. * Eficiencia: tienen una varianza muy pequeña alrededor del valor correcto del parámetro estimado. Permite explorar los datos y los modelos de sustitución. Permite un aprovechamiento adecuado de la información de las secuencias. Es robusto a violaciones de supuestos del modelo. Similitud con Máxima Parsimonia (MP): Método basado en un criterio de optimización. Uso directo de la matriz de taxa por caracteres. Similitud con Inferencia Bayesiana (IB): Métodos paramétricos - ML es parte fundamental de la IB.

ESTIMCION DE ESTDOS EN NODOS INTERNOS α 1 2 γ β C G

ESTIMCION DE ESTDOS EN NODOS INTERNOS Nodos ncestrales con Parsimonia α 2 1 CG γ β C G

ESTIMCION DE ESTDOS EN NODOS INTERNOS Nodos ncestrales con Máxima Verosimilitud α 2 1 γ β probabilidad de cambio C G

Estimación Filogenética con Máxima Verosimilitud (1) Cómo calcular la verosimilitud de un árbol? (a) Procedimiento exhaustivo (b) lgoritmo de Poda (c) Verosimilitud como logaritmo natural (2) Cómo encontrar el rbol de Máxima Verosimilitud? (a) Método exhaustivo (b) Búsquedas heurísticas (c) Estrategias empíricas

Ingredientes (1) Secuencias alineadas (matriz con m taxa por n sitios) (2) rbol con longitudes de rama (3) Modelo de sustitución Matriz de Probabilidad de Transición P ij (t) Matriz P(t) para modelo HKY85 P ij (t) Probabilidad de que el estado j exista al final de una rama de longitud t, dado que el estado inicial de la rama es i. La longitud t refleja el número esperado de sustituciones a lo largo de la rama.

Supuestos: (1) El proceso de sustitución es independiente en diferentes sitios. (2) El proceso de sustitución es independiente en diferentes linajes. Procedimiento: (1) Obtener la verosimilitud de cada sitio. Se obtiene sumando las probabilidades de tener cada estado de carácter en cada nodo interno en un arbol enrraizado arbitrariamente. Estas probabilidades se obtenen de la Matriz de Probabilidad de Transiciones P(t). (2) Obtener la verosimilitud total del árbol. Se obtiene multiplicando la verosimilitud de todos los sitios.

Verosimilitud de un sitio = Suma de probabilidad de cada una de las posibles combinaciones de nucleótidos en todos los nodos interiores C C t C 2 t 4 t 1 y t 3 w G t 5 t 7 t 6 z x t 8 Prob (D (i) T) = Prob (, C, C, C, G, x, y, z, w T) x y z w Prob (D (i) T) = Prob(x) Prob(y x, t 6 ) Prob( y, t 1 ) Prob(C y, t 2 ) Prob(z x, t 8 ) Prob(C z, t 3 ) Prob(w z, t 7 ) Prob(C w, t 4 ) Prob(G w, t 5 )

Verosimilitud del árbol = Producto de la verosimilitud de todos los sitios L = Prob (D T) = Prob (D (i) T) D (i) = datos en el sitio i L total (L de todo el árbol) Multiplicación de la L de cada uno de los sitios (desde 1 hasta n)

Procedimiento exhaustivo (1) lineamiento 1 j n [1] C G G C C G T T T C [2] C G C C C T C T C [3] C G G T G T T C [4] C G G T G C C T G C (4) Cálculo de la L del sitio j L(j) = Prob C C G + Prob C C G C + + Prob C C G G (2) rbol no enrraizado 1 3 + + Prob C C C G T T 2 4 (3) rbol enrraizado arbitrariamente * Probabilidad de cambio de un nucleótido por otro está determinada por la Matriz de Transición P(t) 1 C (5) 2 C 3 4 G P(t) = e Qt = P - (t) P -C (t) P -G (t) P -T (t) P C- (t) P C-C (t) P C-G (t) P C-T (t) P G- (t) P G-C (t) P G-G (t) P G-T (t) P T- (t) P T-C (t) P T-G (t) P T-T (t) (6)

Procedimiento exhaustivo (1) lineamiento 1 j N [1] C G G C C G T T T C [2] C G C C C T C T C [3] C G G T G T T C [4] C G G T G C C T G C (2) rbol no enrraizado 1 3 (4) Cálculo de la L del sitio j L(j) = Prob C C G + Prob C C G C + + Prob C C G G C + + Prob C C G T T 2 4 (3) rbol enrraizado arbitrariamente 1 C 2 C 3 4 G (5) L total = producto de las Ls de cada sitio " L = L(1) L(2) L(n) = L( j) N j=1 (5) (6) (6) La L de cada sitio, y la L total, son expresadas como log natural lnl = lnl(1) + lnl(2) + + L(N) = lnl( j) N " j=1

L COMO LOGRITMO NTURL 0.0 L 1.0 lnl < 0.0 1

Procedimiento exhaustivo Número de cálculos necesarios para obtener la verosimilitud de cada sitio: (n = número de taxa terminales; n - 1 = número de nodos internos) sustitución de nucleótidos: 4 n-1 sustitución de aminoácidos: 20 n-1 sustitución de codones: 61 n-1

lgoritmo de Poda (Pruning lgorithm) Idea básica: Identificar factores comunes, y calcularlos sólo una vez. (Regla de anidamiento, o Regla de Horner) 1996 - Gonnet & Benner Peeling algorithm ; Hilden (1970), Elston & Stewart (1971), Heuch & Li (1972) 1819, 1830 - William Horner 1820 - Teophilus Holdred S. XVII - XVIII - Isaac Newton 1303 - Zhu Shijie Método de Programación Dinámica

lgoritmo de Poda (Pruning lgorithm) Felsenstein, J. 1973a. Maximum-likelihood estimation of evolutionary trees from continuous characters. merican Journal of Human Genetics 25:471-492. (modificaciones a método de Edwards y Cavalli-Sforza, y algoritmo de poda) Felsenstein, J. 1973b. Maximum likelihood and minimum-steps methods for estimating evolutionary trees from data on discrete characters. Systematic Zoology 22:240-249. (cálculo de la verosimilitud de un árbol, y algoritmo de poda) Felsenstein, J. 1981. Evolutionary trees from DN sequences: a maximum likelihood approach. Journal of Molecular Evolution 17:368-376. (método práctico para cálculo de L de árbol, con un número pequeño de secuencias)

lgoritmo de Poda (Pruning lgorithm) B (k) C (l) (i) Se basa en la VEROSIMILITUD CONDICIONL La verosimilitud condicional L(x j = i) de que un nodo tenga un estado i es el producto de la verosimilitud de que el estado i en de origen a los estados en B y C. Los elementos para calcular la verosimilitud condicional de i en son: (1) Rama -B - La probabilidad P ik (v B ) de que el estado i cambie a k en la rama -B. Esta probabilidad es obtenida de la matriz P(t). - La verosimilitud L(x Bj = K) de que B tenga al estado k, sumada sobre todos los valores de k. Si B es un nodo terminal, k es conocida: Se le asigna una probabilidad = 1 al estado observado, y una probabilidad = 0 a los otros estados posibles. Si B es un nodo interno, la verosimilitud de cada uno de los posibles estados de k debe ser calculada. (2) Rama -C - La probabilidad P il (v C ) de que el estado i cambie a k en la rama -C. - La verosimilitud L(x Cj = l) de que B tenga al estado l, sumada sobre todos los valores de l. (3) Probabilidad previa de cada estado posible en el nodo raíz (π i )

lgoritmo de Poda (Pruning lgorithm) C C G T G a c b e d f

lgoritmo de Poda (Pruning lgorithm) L (i) =(0, 1, 0, 0) (0, 1, 0, 0) (1, 0, 0, 0) (0, 0, 1, 0) (0, 0, 0, 1) (0, 0, 1, 0) C C G T G a c b e d f (1) Obtener valores de L (i) en las puntas del árbol. Datos observados. signar Prob = 1 a estado observado, y Prob = 0 a estados no observados.

lgoritmo de Poda (Pruning lgorithm) L (i) =(0, 1, 0, 0) (0, 1, 0, 0) (1, 0, 0, 0) (0, 0, 1, 0) (0, 0, 0, 1) (0, 0, 1, 0) C C G T G a c b e d f L im L jn (2) Proceder hacia abajo, calculando la probabilidad de nodos internos en los que todos sus descendientes sean nodos terminales. Usar método descrito anteriormente.

lgoritmo de Poda (Pruning lgorithm) L (i) =(0, 1, 0, 0) (0, 1, 0, 0) (1, 0, 0, 0) (0, 0, 1, 0) (0, 0, 0, 1) (0, 0, 1, 0) C C G T G a c b e d f L im L jn (3) Una vez obtenidas las verosimilitudes condiconales (L im y L jn ) de nodos internos, ignorar sus nodos terminales descendientes. Proseguir hacia la base, utilizando las verosimilitudes condicionales de nodos internos para calcular aquellas de nodos mas profundos.

lgoritmo de Poda (Pruning lgorithm) L (i) =(0, 1, 0, 0) (0, 1, 0, 0) (1, 0, 0, 0) (0, 0, 1, 0) (0, 0, 0, 1) (0, 0, 1, 0) C C G T G a c b e d f L im L jn L ko (4) Continuar descendiendo en el árbol.

lgoritmo de Poda (Pruning lgorithm) L (i) =(0, 1, 0, 0) (0, 1, 0, 0) (1, 0, 0, 0) (0, 0, 1, 0) (0, 0, 0, 1) (0, 0, 1, 0) C C G T G a c b e d f L im L jn L ko (4) Continuar descendiendo en el árbol.

lgoritmo de Poda (Pruning lgorithm) L (i) =(0, 1, 0, 0) (0, 1, 0, 0) (1, 0, 0, 0) (0, 0, 1, 0) (0, 0, 0, 1) (0, 0, 1, 0) C C G T G a c b e d f L im L jn L ko L lp (4) Continuar descendiendo en el árbol.

lgoritmo de Poda (Pruning lgorithm) L (i) =(0, 1, 0, 0) (0, 1, 0, 0) (1, 0, 0, 0) (0, 0, 1, 0) (0, 0, 0, 1) (0, 0, 1, 0) C C G T G a c b e d f L im L jn L ko L lp (4) Continuar descendiendo en el árbol.

lgoritmo de Poda (Pruning lgorithm) L (i) =(0, 1, 0, 0) (0, 1, 0, 0) (1, 0, 0, 0) (0, 0, 1, 0) (0, 0, 0, 1) (0, 0, 1, 0) C C G T G a c b e d f L im L jn L ko L lp L 0 (i) (5) Continuar descendiendo en el árbol, hasta llegar al nodo raíz. La verosimilitud condicional obtenida para este nodo (L 0 (i) )corresponde a la verosimilitud del árbol (L).

lgoritmo de Poda (Pruning lgorithm) L (i) =(0, 1, 0, 0) (0, 1, 0, 0) (1, 0, 0, 0) (0, 0, 1, 0) (0, 0, 0, 1) (0, 0, 1, 0) C C G T G a c b e d f L im L jn L ko L lp L 0 (i) Procedimiento: Por cada sitio, es calculado n-1 veces (número de nodos internos). Por cada nodo interno, hay 4 cálculos (número de edos. de carácter). Cada cálculo es el producto de 2 términos. Cada término es la suma de 4 productos. p (n-1) b2 p = num. sitios n = num. taxa b = num. bases

mbigüedad y Error L (i) =(0, 1, 0, 0) (1, 1, 1, 1) (1, 0, 1, 0) (0, 0, 1, 0) (0, 1, 0, 1) (0, 0, 1, 0) C N R G Y G a c b e d f Las verosimilitudes no son probabilidades: - no necesitan sumar 1 - no es la probabilidad de diferentes resultados. Verosimilitud: probabilidad de una misma observación, dados diferentes eventos.

Cómo encontrar el árbol de Máxima Verosimilitud? Objetivo: Encontrar la combinación de longitudes de ramas que resulta en la mas alta L para una topología dada, y evaluar el espacio de topologías, para encontrar aquella que, con las longitudes de ramas que le hacen tener la mas alta L, representa el árbol de ML. Procedimiento exhaustivo: Dado el modelo de sustitución, 1. Iniciar con una topología, y valores de los parámetros del modelo determinados. 2. Encontrar las longitudes de rama que maximizan la L de la topologia y el modelo. Estas se obtienen mediante un procedimiento iterativo complejo (método de Newton-Raphson, y otros). 3. Calcular la verosimilitud (L) de esa combinación de topología, longitudes de ramas, y valores de los parámetros del modelo. 4. Hacer una pequeña modificación a alguno de los parámetros no especificados (topología o parámetros del modelo. Optimizar longitudes de rama. Calcular la L. 5. Repetir el procedimiento, hasta encontrar la combinación de topología, valores de parámetros y longitudes de rama con mayor L global.

Cómo encontrar el árbol de Máxima Verosimilitud? Objetivo: Encontrar la combinación de longitudes de ramas que resulta en la mas alta L para una topología dada, y evaluar el espacio de topologías, para encontrar aquella que, con las longitudes de ramas que le hacen tener la mas alta L, representa el árbol de ML. La realidad: lgoritmo de poda ayuda mucho para obtener las longitudes de rama que confieren a una topología su mas alta L. Sin embargo, no contribuye la evaluación de todas las posibles topologías. (Problema compartido con otros métodos de criterio de optimización). Búsquedas heurísticas: Iniciar la búsqueda usando una topología al azar(*). Esperar que nos lleve a la identificación de la Máxima Verosimilitud, y no a un óptimo local. Es posible que existan óptimos locales, o múltiples máximos. Empiricamente, rara vez han sido observados. Steel (1994) encontró múltiples máximos para una topología. Chor et al. (2000): técnicas para buscar bases de datos con múltiples máximos. Rogers & Swofford (1999): simulaciones que sugieren que la presencia de múltiples máximos es rara.

Cómo encontrar el árbol de Máxima Verosimilitud? Objetivo: Encontrar la combinación de longitudes de ramas que resulta en la mas alta L para una topología dada, y evaluar el espacio de topologías, para encontrar aquella que, con las longitudes de ramas que le hacen tener la mas alta L, representa el árbol de ML. Estrategia Empírica: *** No elijas una topología al azar para inicial la exploración del espacio, sino inicia con un estimado razonable (e.g., un árbol de distancia o de máxima parsimonia). 1. Dada una topología razonable, estima la combinación de longitudes de ramas y valores de parámetros del modelo que den la L mas alta. 2. Utilizando los valores de parámetros estmados en (1), estima la topología y longitudes de ramas con la mas alta verosimilitud. 3. Si la nueva topología es diferente a la incial, repite desde el paso 1, hasta convergir.