P ( D H) Curso Fundamental de Inferencia Filogenética. Tema: Inferencia Filogenética con Máxima Verosimilitud

urso Fundamental de Inferencia Filogenética ema: Inferencia Filogenética con Máxima Verosimilitud, UNM Junio, 7 Prof. Susana Magallón IB, UNM Método paramétrico MXIM VEROSIMILIUD (ML) EN L INFERENI FILOENEI Uso de matriz de taxa por caracteres discretos Utiliza un criterio de optimización para elegir árboles tributos: Permite explorar los datos y los modelos de substitución Permite adecuado aprovechamiento de información de secuencias Proporciona estimados de filogenia con poca varianza Es robusto a violaciones de supuestos de modelos Permite incorporar conocimiento sobre substitución molecular en la inferencia filogenética MXIM VEROSIMILIUD (ML) EN L INFERENI FILOENEI Utiliza un criterio de optimización para elegir árboles riterio de optimización: Máxima Verosimilitud Probabilidad de los datos dada una hipótesis P ( D H) MXIM VEROSIMILIUD (ML) EN L INFERENI FILOENEI avalli-sforza & Edwards (967) - frecuencias génicas avalli-sforza, L.L. and.w.f. Edwards. 967. Phylogenetic analysis: model and estimation procedures. Evolution 3:55-57, and merican Journal of Human enetics 9:33-57. Felsenstein (98) - secuencias de nucleótidos Felsenstein, J. 98. Evolutionary trees from DN sequences: a maximum likelihood approach. Journal of Molecular Evolution 7:368-376. Datos (D): - secuencias de nucleótidos - secuencias de aminoácidos Hipótesis (H): - árbol (topología) - longitud de ramas - parámetros del modelo de substitución Kishino et al. (99), dachi & Hasegawa (99) - secuencias de aminoácidos Kishino, H.,. Miyata and M. Hasegawa. 99. Maximum likelihood inference of protein phylogeny and the origin of chloroplasts. Journal of Molecular Evolution 3:5-6. dachi, J. and M. Hasegawa. 99. MOLPHYL: Programs for molecular phylogenetics I - PROML: maximum likelihood inference of phylogeny. omputer Science Monographs, No. 7. Institute of Statistical Mathematics, okyo. MXIM VEROSIMILIUD (ML) EN L INFERENI FILOENEI ESIMION DE ESDOS EN NODOS INERNOS omparación con otros Métodos Similitud con métodos de distancia e inferencia Bayesiana: - métodos paramétricos (uso explícito de un modelo de substitución) Similitud con parsimonia (MP): - uso directo de la matriz original de datos (taxa por caracteres) - uso de un criterio de optimización para elegir entre árboles

ESIMION DE ESDOS EN NODOS INERNOS ESIMION DE ESDOS EN NODOS INERNOS Nodos ncestrales con Parsimonia Nodos ncestrales con Máxima Verosimilitud probabilidad de cambio MEDIION DE L VEROSIMILIUD (L) DE UN RBOL URVS DE VEROSIMILIUD omparación de combinaciones de: - topología - longitudes de ramas - valores de los parámetros del modelo de substitución que maximicen globalmente la probabilidad de los datos (secuencias de nu, aa, etc.) Procedimiento iterativo, por ejemplo: (a) Proponer una topología (b) signar valores a los parámetros del modelo de substitución (c) Modificar las longitudes de ramas hasta encontrar aquellas que maximicen la probabilidad de los datos bajo la topología y los valores de parámetros fijos (d) Se mide la L del árbol * (e) Se repite desde (b) (f) Se repite desde (a) (g) Se elige la combinación global con mayor L Verosimilitud (L) Valor del parámetro LULO DE L VEROSIMILIUD (L) DE UN RBOL () lineamiento j N [] [] [3] [4] () rbol no enrraizado 3 (4) álculo de la L del sitio j L(j) = Prob + Prob + + Prob + + Prob L OMO LORIMO NURL. L. lnl <. 4 (3) rbol enrraizado arbitrariamente 3 4 (5) L total = producto de las Ls de cada sitio " N L = L() L() L(N) = L( j) j= (5) (6) (6) L total = producto de las Ls de cada sitio N lnl = lnl() + lnl() + + L(N) = " lnl( j) j=

MODELOS SELEION DE MODELOS eneralidad: Describe las características comunes de un proceso en diferentes entidades. Exploración de datos: Permite elección de un modelo con un buen ajuste a los datos Flexibilidad: Introducen flexbilidad al incluír parámetros que son relevantes en el proceso modelado. Parámetros: (a) Selección de parámetros - Incluir parámetros relevantes - Evitar parámetros superfluos (b) Especificación de los valores de los parámetros Prueba de ociente de Verosimilitudes (Likelihood Ratio est): Evalua significancia de la diferencia en L entre modelos anidados -(lnl - lnl ) = -ln(l /L ) riterio de Información de kaike (I): ontrarresta el incremento de L en un modelo mas complejo mediante una penalización por la inclusión de parámetros adicionales MODELOS DE SUBSIUION DE NULEOIDOS MRIZ DE SS INSNNES Describen el proceso de cambio de una base i a una j en un sitio Modelos Markovianos homogéneos µ(aπ c + bπ + cπ ) µaπ µbπ µcπ µgπ µ(gπ + dπ + eπ ) µdπ µeπ µhπ µiπ µ(hπ + iπ + fπ ) µfπ históricos: La probabilidad de cambio de i a j en un sitio no depende de la base en ese sitio antes de estar i. µjπ µkπ µlπ µ(jπ + kπ + lπ ) Las probabilidades de substitución son constantes en todo el árbol µ = tasa de substitución instantánea a, b, c,..., l = tasa de substitutción relativa µa, µb,..., µl = parámetros de tasa π, π, π, π = frecuencias de las bases MRIZ DE SS INSNNES MRIZ DE SS INSNNES Modelo eneral emporal Reversible (R) µ(aπ c + bπ + cπ ) µaπ µbπ µcπ µa µb µc µgπ µ(gπ + dπ + eπ ) µdπ µeπ µhπ µiπ µ(hπ + iπ + fπ ) µfπ R = µa µd µe µb µd µf µc µe µf µjπ µkπ µlπ µ(jπ + kπ + lπ ) µ(aπ c + bπ + cπ ) µaπ µbπ µcπ R = µa µb µc µg µd µe µh µi µf Π = π π π µaπ µ(aπ + dπ + eπ ) µdπ µeπ µbπ µdπ µ(bπ + dπ + fπ ) µfπ µj µk µl π µcπ µeπ µfπ µ(cπ + eπ + fπ ) 3

MRIZ DE SS INSNNES Modelo HKY85 ti tv MRIZ DE SS INSNNES ti tv Modelo KP ti: -; - b = e = κ tv: -; -; -; - a = c = d = f = ti: -; - b = e = κ tv: -; -; -; - a = c = d = f = π = π = π = π =.5 µ(aπ c + bπ + cπ ) µπ µkπ µπ ( + κ) κ µπ µ(aπ + dπ + eπ ) µπ µkπ ( + κ) κ µkπ µπ µ(bπ + dπ + fπ ) µπ κ ( + κ) µπ µkπ µπ µ(cπ + eπ + fπ ) κ ( + κ) MRIZ DE SS INSNNES Modelo J a = b = = f = π = π = π = π =.5 res tipos de substitución: (ti, y dos clases de tv) SOS ESPEILES DEL R R Igual frecuencia de bases rn SYM Dos tipos de substitución: (ti y tv) res tipos de substitución: (ti, y dos clases de tv) 3() 3() 3() HKY85 Un tipo de substitución F8 Igual frecuencia de bases KP K3S Dos tipos de substitución: (ti y tv) 3() Igual frecuencia de bases Un tipo de substitución J MODELOS DE SUBSIUION DE OROS IPOS DE DOS Proteínas MODELOS DE SUBSIUION DE OROS IPOS DE DOS odones Matriz de cambio de x Modelo de Poisson - Supuestos: - igual frecuencia de todos los aminoácidos - igual tasa de cambio entre los aminoácidos Modelo Proporcional de Hasegawa y Fujiwara (993): - admite frecuencias desiguales Modelo de Dayhoff (Kishino et al., 99; dachi and Hasegawa, 99) - análogo al R; utiliza tasa de substitución empírica de Dayhoff Retienen toda la información de las secuencias de nucleótidos, sin los problemas derivados de la degeneración del código genético Matriz de cambio de 6 x 6 Modelos: Muse and aut (994) oldman and Yang (994) Modelo J (Jones et al., 99) - actualización del modelo de Dayhoff. 4

OROS PRMEROS Variación de asas entre Sitios DISRIBUION MM Parámetro relevante en la substitución de nucleótidos Modelaje del parámetro: (a) Una tasa de substitución propia para cada sitio (b) signación de categorías funcionales a diferentes sitios - asa diferente a as, as y 3as posiciones del codón - Distribución de tasas entre sitios como una distribución gamma FORM DE L DISRIBUION MM = parámetro de forma OROS PRMEROS Sitios Invariables ierto porcentaje de los sitios no admite cambios Puede combinarse con diferentes tasas entre sitios variables: - % de sitios invariables - sitios variables: distribución de tasas como en una distribución gamma < < Versión discreta de la distribución amma - División del área bajo la curva en n sectores iguales - La media de cada sector representa todas las tasas dentro de ese sector ENIS DE ESIMION FILOENEI ON MXIM VEROSIMILIUD Estimación simultánea de topología, longitudes de ramas y parámetros de substitución. Es posible introducir algunos de los parámetros anteriores, a partir de información previa independiente Método de aproximación sucesiva: (a) obtener una topología adecuada (e.g., con MP o J) (b) estimar parámetros de substitución en topología disponible, con base en modelo con alto ajuste (c) realizar búsqueda de ML de toplogía usando modelo con alto ajuste, fijando los parámetros de substitución (d) re-estimar parámetros en la topología obtenida (e) etc., hasta lograr una estabilización de topología y parámetro de substitución 5