2008 Pablo Vinuesa, vinuesa@ccg.unam.mx http://www.ccg.unam.mx/~vinuesa 1



Documentos relacionados
Pablo Vinuesa 2008, 1

Funciones en Excel (II)

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

Programación I: Funciones y módulos

PROYECTO MEDICINA PERSONALIZADA PARA EL CÁNCER INFANTIL CÁNCER INFANTIL. Javier Alonso

Correspondencias entre taxonomías XBRL y ontologías en OWL Unai Aguilera, Joseba Abaitua Universidad de Deusto, EmergiaTech

Construcción de árboles filogenéticos

Líneas de espera. Introducción.

Modelos y Bases de Datos

7. Conclusiones. 7.1 Resultados

5. Experimentos y Resultados

DIAGRAMA DE CLASES EN UML

Uruguay en PISA Primeros resultados en Ciencias, Matemática y Lectura del Programa Internacional de Evaluación de Estudiantes.

Capítulo 1 CAPÍTULO 1-INTRODUCCIÓN-

CAPÍTULO 1: INTRODUCCIÓN. El presente capítulo muestra una introducción al problema de Optimizar un Modelo de

GERENCIA DE INTEGRACIÓN

Programación Lineal Entera

Estructuras de Control - Diagrama de Flujo

La calidad de los datos ha mejorado, se ha avanzado en la construcción de reglas de integridad.

Su éxito se mide por la pertinencia y la oportunidad de la solución, su eficacia y eficiencia.

PARTE 3 ECUACIONES DE EQUIVALENCIA FINANCIERA T E M A S

Administración de Empresas. 11 Métodos dinámicos de evaluación de inversiones 11.1

Pablo Vinuesa 2007, 1

Programa para el Mejoramiento de la Enseñanza de la Matemática en ANEP Proyecto: Análisis, Reflexión y Producción. Fracciones

Centro de Capacitación en Informática

SISTEMAS DE ECUACIONES LINEALES

LABORATORIO Nº 2 GUÍA PARA REALIZAR FORMULAS EN EXCEL

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones

Análisis y cuantificación del Riesgo

Manual de Operaciones del Club Aéreo del Personal de BancoEstado.

Métodos generales de generación de variables aleatorias

CASO PRÁCTICO DISTRIBUCIÓN DE COSTES

Resolución de Problemas

Actividades para mejoras. Actividades donde se evalúa constantemente todo el proceso del proyecto para evitar errores y eficientar los procesos.

Centro de Capacitación en Informática

Instituto Politécnico Nacional Escuela Superior de Cómputo. Modelos de ubicación. M. En C. Eduardo Bustos Farías

MODELOS DE RECUPERACION

CAPÍTULO III MARCO TEÓRICO. Cada día cambian las condiciones de los mercados debido a diferentes factores como: el

Metodología de cálculo del Índice de Tasa de Cambio Real (ITCR) de Colombia

MICROECONOMÍA II PRÁCTICA TEMA III: MONOPOLIO

Clase 3. Caracteres: codificación y optimización

FASES DEL PROCESO DE RESOLUCIÓN DE PROBLEMAS


TEMA 3: EN QUÉ CONSISTE?

NÚMEROS NATURALES Y NÚMEROS ENTEROS

Ecuación ordinaria de la circunferencia

NemoTPV SAT Manual de usuario 1. NemoTPV SAT APLICACIÓN DE GESTIÓN DE SERVICIO TÉCNICO PARA PUNTOS DE VENTA DE EUSKALTEL

Como se mencionó en la parte de la teoría, no existe consenso en cuanto a la

Selectividad Septiembre 2013 OPCIÓN B

Figura 1 Abrir nueva hoja de cálculo

Curso de implantación 2009/2010

Propiedad Colectiva del Código y Estándares de Codificación.

SÍNTESIS Y PERSPECTIVAS

CONCEPTOS Y CRITERIOS DE LOS INDICADORES DE CALIDAD

LECCION 2 FORMULAS Y FUNCIONES

TEMA 3 PROFESOR: M.C. ALEJANDRO GUTIÉRREZ DÍAZ 2 3. PROCESAMIENTO DE CONSULTAS DISTRIBUIDAS

Los costos de las prácticas de MIP

10. La organización de las niñas y de los niños Criterios para la organización de las niñas y de los niños

352<(&72$/)$781,1*±$0(5,&$/$7,1$ &$55(5$6%$6$'$6(1&203(7(1&,$6,17(*5$&,21'(2&+2$5($618(9$6

ÍNDICE DISEÑO DE CONTADORES SÍNCRONOS JESÚS PIZARRO PELÁEZ

Matrices Invertibles y Elementos de Álgebra Matricial

Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA FORMULACIÓN Y EVALUACIÓN DEL PROYECTO: BLUMEN: CENTRO DE ESTIMULACIÓN TEMPRANA Y PROBLEMAS DE APRENDIZAJE

CLASIFICACIÓN NO SUPERVISADA

Elementos requeridos para crearlos (ejemplo: el compilador)

Modernización de los sistemas de alturas existentes en América Latina y el Caribe

Métodos Heurísticos en Inteligencia Artificial

Universidad Nacional de Quilmes Ing. en Automatización y Control Industrial Cátedra: Visión Artificial Agosto de 2005

UNIVERSIDAD DE ATACAMA

MUESTREO TIPOS DE MUESTREO

EXPLORAR RELACIONES NUMÉRICAS EN LAS TABLAS DE MULTIPLICAR

NOMBRE: FECHA DE NACIMIENTO: ESCUELA: PAÍS: Número de código: Instrucciones:

CONEXIÓN EN MOTORES ELÉCTRICOS DE INDUCCIÓN TRIFÁSICOS CON ROTOR TIPO JAULA DE ARDILLA HASTA 600 VOLTIOS

Experimento 6 LAS LEYES DE KIRCHHOFF. Objetivos. Teoría. Figura 1 Un circuito con dos lazos y varios elementos

Boletín Mensual Programa Autismo Teletón

ETSIINGENIO 2009 DIBUJO DE GRAFOS MEDIANTE ALGORITMOS GENÉTICOS

Ciudad de México, Septiembre 27 de 2013.

Recomendaciones generales para excavaciones de pilotes

Informe de Visitas y Pasantías

Sistemas de Generación de Energía Eléctrica HIDROLOGÍA BÁSICA. Universidad Tecnológica De Pereira

Beatriz Galán Luque Natividad Adamuz-Povedano Universidad de Córdoba

HABILIDADES COGNITIVAS

UNIDAD 4 PROCESOS DE MARKOV

1.0 Juegos en Forma Extensiva

ANALISIS MULTIVARIANTE

PROGRAMA DE CERTIFICACIÓN DE ORGANIZACIONES SALUDABLES - PCOS GUÍA BÁSICA DE ATENCIÓN DE EMERGENCIAS. PROGRAME SALVE UNA VIDA.

1. PLANTEAMIENTO DEL PROBLEMA. 1.1 Descripción del problema

TEORÍA DE JUEGOS. 1 Definiciónes y Conceptos Básicos. 1.1 Definición: 1.2 Elementos de un juego. 1.3 Representación de un juego.

5. Actividades. ACTIVIDAD No. 1

Sumario. Vicki James Noviembre de 2013

GESTIÓN Y CONTROL DEL DESARROLLO E IMPLANTACIÓN DE APLICACIONES

Diseño de una estrategia tecnológica de Customer Relationship Management (CRM) para la empresa BPM de México. CAPITULO 6

Dirección de Evaluación de la Calidad Educativa

SISTEMA EXPERTO ONCOCIN

Intervalo para la media (caso general)

Programa de Criminología UOC

Estructuras de Control - Diagrama de Flujo

Dirección de Operaciones

Marketing. Satisfacción del cliente desde adentro hacia fuera Rubén Roberto Rico Definición de Marketing Interno Alineación interna y externa

Programa de Agua Compartida en la Ciudad de Hermosillo

Transcripción:

ema : Parsimonia y algoritmos de búsqueda de Intro iol Filogenética - Lic iotecnología enómica, Univ utónoma de Nuevo León, Introducción a la Inferencia Filogenética y Evolución Molecular - Junio 00, Fac C iológicas - UNL Pablo Vinuesa (vinuesa@ccgunammx) Centro de Ciencias enómicas-unm, México http://wwwccgunammx/~vinuesa/ odo el material del curso lo puedes descargar desde: http://wwwccgunammx/~vinuesa/unl0 ema : Criterios de optimización I Parsimonia y algoritmos de búsqueda de La (máxima) parsimonia como criterio de optimización Diferentes implementaciones de parsimonia en filogenética Un ejercicio de inferencia filogenética bajo parsimonia estándar (de Fitch) Métodos de búsqueda de (exhaustivos y heurísticos) Islas de Prácticas PUP* (máxima) parsimonia: involucra la identificación de la(s) topología(s) con la menor longitud total del árbol, es decir, que requiere(n) el menor número de cambios evolutivos (transformaciones en estados de caracter) para explicar las diferencias observadas entre OUs (Kluge & Farris 99; Farris, 90; Fitch, 9) Justificación filosófica - La cuchilla de Ockham : la hipótesis es aquella que requiere el menor número de suposiciones ( elimínese todo lo prescindible ), es decir, favorecemos a la hipótesis más simple e ha sugerido en un marco conceptual Popperiano que la parsimonia es el único método consistente con un marco hipotético-deductivo de contraste de hipótesis El modelo de MP se justifica en filogenética dado que: ) se asume que los cambios de estado de caracter (sustituciones) son poco frecuentes y ) no se puede conocer con exactitud el camino evolutivo de dichos cambios, por lo que se busca maximizar la similitud evolutiva que se puede explicar como homóloga (por ancestría compartida) De esta manera se busca de minimizar la homoplasia (similitud no heredada directamente del ancestro), ya que las hipótesis de homoplasia (convergencia, evolución paralela ) pueden ser juzgadas como intentos ad hoc de explicar porqué determinados datos no encajan en una hipótesis evolutiva (árbol filogenético) particular Cualquier discusión sobre métodos de MP debe distinguir entre el criterio de optimización (árbol de longitud mínima bajo una serie de restricciones impuestas a los cambios posibles entre estados de caracter) y el algoritmo empleado para para buscar estos óptimos en el espacio de topologías posibles Los algoritmos de búsqueda se van ando con el tiempo y algunos puden quedar obsoletos, mientras que el criterio de MP está claramente establecido en ciencia desde hace mucho tiempo y ha perdurado en filogenética desde su implementación en esta disciplina por Edwards y Cavalli-forza en 9 (ver aspectos históricos tratados en el tema I) Porlo tantovamos a tratar dos puntos en este tema: - El criterio de optimización de (máxima) parsimonia (MP) - las estrategias de búsqueda exhaustivas y heurísticas empleadas en la actualidad por paquetes de inferencia filogenética tales como Phylip y PUP* 00 Pablo Vinuesa, vinuesa@ccgunammx http://wwwccgunammx/~vinuesa

ema : Parsimonia y algoritmos de búsqueda de El árbol de máxima parsimonia representa a la hipótesis evolutiva consistente con el camino evolutivo más corto que explica o conduce a los caracteres observados Para sets de datos complejos y con homoplasias se encuentra generalmente más de una topología de igual longitud (número de cambios en estado de caracter); estos son igualmente parsimoniosos y tienen el mismo score (L) e han desarrollado diversos métodos de MP para inferencia filogenética con el fin de poder analizar diferentes tipos de datos: - Parsimonia de Wagner: trabaja sobre caracteres multiestado ordenados <-> <-> C (cambio de a C require pasos) - Parsimonia (estándar) de Fitch: trabaja sobre caracteres multiestado desordenados (nt y aa) - Parsiminia (ponderada) generalizada: usa una matriz de pasos para dar mayor peso a tv que a ti - Parsimonia de Dollo: se emplea cuando existe asimetría en la probabilidad de evolución de estados de caracter (p ej caracteres de sitios de restricción: la pérdida es más probable que la ganancia paralela de un sitio de restricción) Intro iol Filogenética - Lic iotecnología enómica, Univ utónoma de Nuevo León, Métodos de reconstrucción filogenética Parsimonia Máxima parsimonia: dados dos, se prefiere el que requiere menos cambios en estados de caracter El método de máxima parsimonia (MP) considera cada sitio filogenéticamente informativo (Pi) el alineamiento (al menos pares de secuencias que compartan un polimorfismo distinto) Los sitios constantes (C) no son considerados y los singletones () no son Pars informativos El supuesto teórico (modelo de evolución) implícito al método es que el árbol más verosímil es aquel que requiere el mínimo número de sustituciones para explicar los datos del alineamiento El criterio de optimización de la MP es el de cambio o evolución mínima Para cada sitio del alineamiento el objetivo es reconstruir su evolución bajo la constricción de invocar el número mínimo de pasos evolutivos El número total de cambios evolutivos sobre un árbol de MP (longitud en pasos evolutivos del árbol) es simplemente la suma de cambios de estados de caracter (p ej sustituciones) de cada sitio variable Pi C Clases de sitios: Pi= Pars inform C= Constant = ingleton reconstrucciones para el sitio k L = Σ l i i= Parsimonia estándar (de Fitch) Ejercicio Parsimonia estándar (FICH) Pi C Clases de sitios: Pi= Pars inform C= Constante = ingletón reconstrucciones para el sitio Para el siguiente alineamiento: ) haz una clasificación de caracteres según el criterio de parsimonia estándar ( Fitch Parsimony ) lineamiento: No sitios : ; OUs (taxa) = En nuestro caso la topología # es la más parsimoniosa, puesto que demanda pasos menos que las topologías # y # Para cada sitio var del alineamiento el objetivo es reconstruir su evolución bajo la constricción de invocar el número mínimo de pasos evolutivos El número total de cambios evolutivos sobre un árbol (longitud en pasos evolutivos del árbol) es simplemente la suma de cambios de estados de caracter (p ej mutaciones) en cada sitio var de la matriz o alineamiento k Caracteres hizobium grobacterium inorhizobium radyrhizobium Constantes (C) ingletones () Variables Informativos (I) CC C CC CC C C CC C CC ICI I C = V = 9 = Pi = Σ L = Σ l i i= K = no de sitios; l = no sust (pasos) de cada sitio 00 Pablo Vinuesa, vinuesa@ccgunammx http://wwwccgunammx/~vinuesa

ema : Parsimonia y algoritmos de búsqueda de Intro iol Filogenética - Lic iotecnología enómica, Univ utónoma de Nuevo León, Ejercicio Parsimonia estándar (FICH) Ejercicio Parsimonia estándar (FICH) C) Dibuja las toplogías posibles para los OUs, indica cual es la topología más parsimoniosa de ellas y calcula la longitud de la misma C) Dibuja las toplogías posibles para los OUs e indica cual es la topología más parsimoniosa de ellas y calcula la longitud de la misma hizobium grobacterium inorhizobium radyrhizobium CC C CC CC C C * * * hizobium grobacterium inorhizobium radyrhizobium CC C CC CC C C * * * CC C CC ICI I Σ = =L I I I Σ= Σ= Σ= C C C NO Es el ML siempre consistente? ML tiende a ser inconsistente cuando el modelo seleccionado es incorrecto (presenta muy mal ajuste) La presencia de ramas largas puede ser un síntoma de un modelo con pobre ajuste - fuerte variación de tasas de sustitución entre sitios aut & Lewis 99 Mol iol Evol :- - cuando los sitios no evolucionan independientemente chöniger & von Haeseler 99 yst iol :- En general, ML es bastante robusto a violaciones de los supuestos - cada vez se tiene más claro qué factores evolutivos son los relevantes en distintos tipos de secuencias y se continúan desarrollando más y es modelos que consideran dichos factores para hacer la reconstrucción filogenética Métodos de búsqueda de Pasos lógicos de los métodos filogenéticos basados en criterios de optimización (MP, ML ) definir el criterio de optimización (descrito formalmente en una función objetiva) Construir un árbol de partida que contenga todos los OUs Emplar algoritmos de búsqueda que tratan de encontrar es bajo el criterio de optimizaci on escogido que el árbol actual o de partida Criterios de optimización Máxima parsimonia Máxima verosimilitud Evolución Mínima Mínimos cuadrados Estrategias de búsqueda Enumeración exhaustiva (n ) (exhaustive enumeration) amificación y límite (n ) (branch-and-bound) Decomposición en estrella (star decomposition) dición secuencial (stepwise addition) (Inter-)cambio de rama (branch swapping) Métodos exactos: garantizan encontrar la topología óptima Métodos heurísticos: no garantizan encontrar la topología óptima 00 Pablo Vinuesa, vinuesa@ccgunammx http://wwwccgunammx/~vinuesa

ema : Parsimonia y algoritmos de búsqueda de Intro iol Filogenética - Lic iotecnología enómica, Univ utónoma de Nuevo León, Métodos de búsqueda de -enumeración exhaustiva (n ) PUP* command: alltrees; Métodos exactos de búsqueda de -enumeración exhaustiva (n ) se añade el cuarto OU a cualquiera de las ramas empezamos con una topología trivial de OUs se añade el quinto OU a cualquiera de las ramas de las topologías con OUs obtenemos x = topol Métodos exactos de búsqueda de - branch and bound (n ) árbol obtenido por un método heurístico con puntuación MP de 9 pasos (límite o bound) X 9 99 X no alcanza 9 el límite PUP* command: bandb; l igual que la búsqueda exhaustiva, garantiza encontrar el árbol óptimo Métodos de búsqueda de I- el problema del número de topologías El número de topologías posibles incrementa factorialmente con cada nuevo taxon o secuencia que se añade al análisis No de no enraizados = (n-)!/ n- (n-) No de enraizados = (n-)!/ n- (n-) axa no enraiz* árb enraiz 0,9, 0,0,0,9, x0 0 x0 *por ej para sólo OUs tenemos,,0,, topologías - si pudiésemos evaluar x0 topol/seg necesitaríamos años y 9 meses para completar la búsqueda! El no de vogadro es ~ x0 (átomos/mol) egún la teor de la relatividad de la estructura del universo de Einstein, existen 0 0 átomos de H en el universo http://enwikipediaorg/wiki/observable_universe Por tanto se requieren de estrategias heurísticas de búsqueda cuando se emplean métodos basados en criterios de optimización y n > ~ 00 Pablo Vinuesa, vinuesa@ccgunammx http://wwwccgunammx/~vinuesa

ema : Parsimonia y algoritmos de búsqueda de Intro iol Filogenética - Lic iotecnología enómica, Univ utónoma de Nuevo León, -islas de En la mayor parte de los casos se emplean métodos heurísticos; - éstos comienzan con un árbol (aleatorio, NJ o de adición secuencial) para realizar intercambios de ramas (branch swappig) sobre esta topología inicial con el propósito de encontrar topologías de puntuación (según la func de objetividad) que la de partida estos métodos heurísticos no garantizan encontrar la topología óptima pero trabajan muy bien cuando se comparan con sets de datos de secs analizados mediante & El espacio de puede visualizarse como un paisaje con colinas de diversas alturas; cada pico representa un máximo local de score o puntuación (isla de ) Es recomendable hacer múltiples búsqudeas heuríst comenzando cada una desde una topología distinta para minimizar el riesgo de obtener un árbol ubicado en una isla topológica subóptima - adición secuencial (aleatorizada) Este método se usa con frecuencia para generar distintos semilla a partirde los cuales comenzar búsquedas heurísticas, partiendo de distintos puntos del espacio de PUP* command: hsearch; swap = no; - adición secuencial (aleatorizada) - decomposición de estrella El órden en el que se añaden los OUs puede cambiar los resultados Por ello suele repetirse varias veces, añadiendo OUs en cada ciclo de manera aleatorizada PUP* command: stardecomp; irveporlo tantopara iniciar distintas búsquedas heurísticas partiendo de topologías potencialmente diferences para una eficiente exploración del espacio de topologías (pero no adecuado como hipótesis evolutiva en sí misma) árbol estrella para N OU puntuación N(N-)/ modos de buscar pares hasta unir las (N-) posibles ramas internas NJ usa este método junto al criterio de evolución mínima una vez que OUs han sido unidos ya no pueden ser desacoplados más adelante; en esto difiere del algoritmo de adición secuencial sensible al orden en que se van uniendo los OUs; problema incrementa con el no de OUs no debe ser por tanto usado como método de búsqueda definitivo buena estrategia para producir iniciales que sean ados mediante otras estrategias heurísticas 00 Pablo Vinuesa, vinuesa@ccgunammx http://wwwccgunammx/~vinuesa

ema : Parsimonia y algoritmos de búsqueda de - intercambio de ramas (branch swapping) Intro iol Filogenética - Lic iotecnología enómica, Univ utónoma de Nuevo León, - intercambio de ramas (branch swapping) Intercambio entre vecinos más próximos (Nearest Neighbor Interchange, NNI) isección-reconexión de (ree isection-econection, ) - no es un método muy completo de reorganizar topologías PUP* cmmd: hsearch swap=nni start=stepwise addseq=random; -Este método evalúa muchas más topols que el NNI corte en una rama interna para generar sub se reconectan los dos sub en todas las posiciones posibles (ej: x = subarreglos en nuestro ejemplo se repite esta operación para reconectar el subárbol chico en las ramas terminales,, y del subárbol grande PUP* cmmd: hsearch swap=tbr start=stepwise addseq=random; - estrategias de búsqueda para muchos OUs n > eneralmente se combinan distintos tipos de búsquedas - es frecuente comenzar con (una o varias) topología generada por adición secuencial aleatorizada y arla mediante un - a veces se intercala una búsqueda NNI Una vez encontrada una topología en una ronda de branch-swapping, ésta sirve como topología de partida para nuevos rearreglos Por tanto es conveniente partir de buenos para minimizar el número de ciclos de branch swapping que se han de realizar para encontrar la topología localmente óptima Las topologías generadas por adición secuencial aleatorizada son generalmente suficientemente buenas para iniciar los ciclos de branch-swapping que permiten una exploración eficiente del espacio de topologías 00 Pablo Vinuesa, vinuesa@ccgunammx http://wwwccgunammx/~vinuesa