ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Y ANÁLISIS FILOGENÉTICO

Documentos relacionados
Búsqueda en parsimonia, consenso estricto y cálculo de IC e IR en TNT. utilizando script basado en lenguaje macro. Orlando Fuentes cód.

Relaciones filogenéticas del virus del SARS con los Coronavirus Laura Pachón, Víctor Parra, Leonel Rojas

Biología Evolutiva del Hombre

Mitochondrial DNA, D-Loop, Cyt-b, ATPase 8, hominid. ADN mitocondrial, D-Loop, Cyt b, ATPasa 8, homínido.

ÁRBOLES FILOGENÉTICOS

TEMA 3.2. Obtención de matrices: búsqueda de homologías, alineamiento

CÁTEDRA ZOOLOGÍA III VERTEBRADOS FCNYM - UNLP GUÍA DE TRABAJOS PRÁCTICOS TRABAJO PRÁCTICO Nº 17: DIVERSIDAD Y SISTEMÁTICA DE MAMMALIA (II).

tuberosus (Fairmaire & Germain)

Biología Molecular y Filogenia en Micología

Resumen. Introducción. Metodología

Universidad Autónoma de Baja California Sur

Índice de contenidos INTRODUCCIÓN... 1 OBJETIVOS... 5 HIPÓTESIS... 5 MARCO TEÓRICO Genes superpuestos... 6

Conferencia 4. Infraclase Eutheria (cont.)

Juan-Ramón Lacadena COLEGIO LIBRE DE EMÉRITOS

REPETICIONES EXACTAS EN EL GENOMA HUMANO:

EL ADN MITOCONDRIAL Y LAS RELACIONES FILOGENÉTICAS DE LOS ÚLTIMOS ESTADÍOS DEL GÉNERO HOMO

Diseño de un Procesador para el Alineamiento Global de Secuencias de DNA

Búsqueda de secuencias en Bases de Datos.

CONVENCIÓN SOBRE EL COMERCIO INTERNACIONAL DE ESPECIES AMENAZADAS DE FAUNA Y FLORA SILVESTRES

La radiación de los mamíferos

Alineamientos de Secuencias. CeCalCULA - C.P.T.M. Mérida. Venezuela.

Guía de actividades. Trabajo colaborativo 2

Reino: Eubacteria, Archaeobacteria, Protista, Fungi, Plantae, Animalia

Cohortes (en función de caracteres principalmente internos) Unguiculata Glires Mutica Ferungulata

DOT PLOT: VISUALIZACIÓN DE LA SIMILITUD ENTRE DOS SECUENCIAS

ELABORACIÓN DE FILOGENIAS MOLECULARES. Andrés Martínez Lage & Ana González Tizón. Departamento de Biología Celular y Molecular Universidade da Coruña

Método de Hennig. Método alternativo. 1) Definir la raíz (escogiendo grupo externo) 1) Identificar caracteres informativos

Revista. Resumen. Introducción

Fósiles Perdidos, Relojes Moleculares y el Origen de las Melastomataceae Introducción Métodos Renner et al. (2001) Morley & Dick (2003)

Filogenias. Jose Blanca COMAV institute bioinf.comav.upv.es

DIRECTRICES ETICAS Y LEGISLACIÓN PARA LA EXPERIMENTACIÓN CON ANIMALES DE LABORATORIO

Alineamiento de pares de secuencias

Introducción a la Bioinformática, práctica 3: Creación de árboles filogenéticos.

Genómica evolutiva humana

Fecha de elaboración: 14 de mayo de 2010 Fecha de última actualización: 27 de Mayo de 2010

Biología y Geología. La perpetuación de la vida. 1º Bachillerato. Manuel López Naval 1. Ciclo vital. Manuel López Naval

NOMBRE DE LA ASIGNATURA: Métodos Computacionales en Bioinformática

Introducción Genética

Departamento de Ecología y Evolución, Facultad de Ciencias UNIVERSIDAD DE LA REPÚBLICA

Informe final * del Proyecto DS006 Modelado de la distribución de las especies de mamíferos de México para un análisis GAP

INFORME SOBRE USOS DE ANIMALES EN EXPERIMENTACIÓN Y OTROS FINES CIENTÍFICOS, INCLUYENDO LA DOCENCIA EN

de los humanos La historia de la divergencia de los primates

GENÓMICA: Juan-Ramón Lacadena CONMEMORANDO EL X ANIVERSARIO DEL PROYECTO GENOMA HUMANO. Academia de Farmacia Reino de Aragón Zaragoza, 9 febrero 2012

Análisis filogenético. Desarollo de un trabajo final en base a secuencias de ADN para un curso de pregrado

Alineamiento local: búsqueda de homologías

BIOINFORMÁTICA. Vicente Arnau Llombart. Técnicas Avanzadas de Inteligencia Artificial.

Estructura del genoma humano: perspectivas en biomedicina. Julio Escribano Facultad de Medicina Universidad de Castilla-La Mancha

LA TOPOLOGIA ES LA MISMA. Algunos errores comunes de interpretación

Árboles Filogenéticos. BT7412, CC5702 Bioinformática Diego Arroyuelo. 2 de noviembre de 2010

Enfermedad Mendeliana. Búsqueda en bases de datos con proteínas homólogas. Clonaje in silico del gen. Gen candidato

Convenio europeo sobre la protección

Clasificación de organismos

EL ORIGEN DEL COMPORTAMIENTO HUMANO DANIEL TURBÓN CATEDRÁTICO DE LA UNIVERSIDAD DE BARCELONA

Bases de datos en Bioinformática. CeCalCULA - C.P.T.M. Mérida. Venezuela.

Familia multigénica: Dos o más loci con secuencias nucleotídicas similares que han derivado de una secuencia ancestral común

Práctica X: Genómica comparativa

Este documento enumera los diferentes tipos de Diagramas Matriciales y su proceso de construcción.

La teoría de coalescencia

Pronósticos Automáticos

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS (AMS) DE ADN MEDIANTE ALGORITMOS EN EL GENOMA DEL Helicobacter pylori

Guía para el examen de evolución

PCR EN TIEMPO REAL PARA LA DETECCIÓN CUANTITATIVA DE ADN BOVINO EN PIENSOS VEGETALES

Cloud Computing orientado a las filogenias datadas

Regeneración in vitro

3. MATERIALES Y MÉTODOS

Departamento de Ecología y Evolución, Facultad de Ciencias UNIVERSIDAD DE LA REPÚBLICA

GUÍA RÁPIDA DEL PROCESO DE IDENTIFICACIÓN Y ANÁLISIS FILOGENÉTICO DE RECURSOS GENÉTICOS, BASADO EN LA COMPARACIÓN DE SECUENCIAS DE ADN.

Transferencia horizontal en eucariotas

Implicancias en Salud Pública del Análisis Genómico de cepas de Mycobacterium tuberculosis sensible, MDR y XDR

Práctica 2: Alineamiento múltiple e Identificación y búsqueda de Motivos.

Los Orígenes de la VIDA. y Taxonomia

LISTA DE MAMIFEROS POR ESPECIE DEL TAMBOPATA EVALUACION

Redes bayesianas temporales para reconocimiento de escenarios

EL GENOMA HUMANO Introducción Recuerdo histórico Estructura del DNA Función del material genético Organización del genoma Proyecto Genoma Humano

Antropología biológica en la era genómica

Principio de Margalef y Ley de Kleiber: su consistencia con la segunda ley de la termodinámica y la deriva natural

Análisis in silico de lipocalinas de

GUÍA PARA EL USO DEL TNT

Proteoma mitocondrial de Saccharomyces cerevisiae

LEY 5/1995, DE 21 DE JUNIO, DE PROTECCIÓN DE LOS ANIMALES UTILI...

TÉCNICAS AVANZADAS EN MICROBIOLOGÍA

11. Concepto biológico de especie. Críticas y alternativas: conceptos filogenético, de reconocimiento, y de cohesión.

MAMÍFEROS INTRODUCCIÓN DIVERSIDAD DE ESPECIES CUAUHTÉMOC CHÁVEZ, GERARDO CEBALLOS, RURIK LIST, IRMA SALAZAR Y LETICIA A.

ISSN: RCCV VOL. 3 (2). 2009

Taller Latinoamericano de Evolución Molecular 2011 Centro de Ciencias Genómicas, UNAM Prof. Susana Magallón RELOJES MOLECULARES Y FECHACIÓN

Mamíferos. Herbívoros y Carnívoros

Título del proyecto: Filogeografìa de los ratones de montaña del grupo Peromyscus mexicanus en el norte de Centroamérica

XIII Jornadas Científicas de Biomedicina y Biotecnología Molecular XIII Biomedicine and Molecular Biotechnology Scientific Meetings

TEMA 3.3 Obtención de árboles filogenéticos mediante el método de máxima parsimonia

CUEVA NEGRA DEL ESTRECHO DEL QUÍPAR DE LA ENCARNACIÓN, CARAVACA DE LA CRUZ: CAMPAÑA DE Michael J. Walker FSA

GUIA Sitio del Suceso

CIENCIA Y VIDA COTIDIANA

Desarrollo de habilidades de pensamiento crítico y creativo.

RESUMEN DEL LIBRO DE TEORÍA DE LA LOCALIZACIÓN COMPARATIVA DE LA CORTEZA CEREBRAL EXPUESTA EN SUS PRINCIPOS EN BASE A LA ESTRUCTURA CELULAR 1

CAPITULO 6 SIMULACIONES Y RESULTADOS

Similitud de Secuencias: de un Par a Todas contra Todas

PROGRAMA ACADÉMICO NOMBRE DEL DOCENTE: CARMEN HELENA MORENO DURAN IDENTIFICACIÓN

Secuencia y estructura de la región control mitocondrial del roedor cubano Capromys pilorides (Rodentia: Capromyidae)

AGRADECIMIENTOS... VII RESUMEN... XIII RESUM... XV SUMMARY... XVII ABREVIATURAS... XIX ÍNDICE DE CONTENIDO... XXIII ÍNDICE DE FIGURAS...

Transcripción:

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Y ANÁLISIS FILOGENÉTICO Christian Rubén Vargas Cod:2030164 INTRODUCCIÓN Antes de que cualquier secuencia pueda ser utilizada para la reconstrucción filogenética, estas deben ser alineadas, siendo la calidad de este procedimiento un factor que afecta la calidad de la filogenia inferida (Yue, et al. 2009). Wong et al. (2008) analizaron secuencias nucleotidicas de siete especies de levadura con siete distintos programas de alineamiento y encontraron que el 46.2% de 1502 secuencias de genes ortólogos producían más de un árbol diferente dependiendo del proceso de alineamiento. Con base a lo anterior el objetivo de este trabajo es analizar la influencia del alineamiento múltiple de secuencias en el análisis de máxima verosimilitud. METODOLOGÍA Para el análisis se utilizó un set de de datos moleculares del gen mitocondrial ARNr 16s de varios mamíferos (tabla 1) seleccionados en el artículo de Hudelot et al (2003). Con estos datos se realizó un análisis inicial con 17 y otro con 50 taxa para evaluar la influencia del número de secuencias en un mismo alineamiento. Para el alineamiento múltiple de secuencias se utilizaron los programas Muscle 3.7 (Edgar, 2004), ClustalW2.0 (Larkin et al., 2007) y MAFFT 4.0 (Katoh & Toh, 2008). Posterior al alineamiento se buscó el modelo evolutivo más optimo con el programa Jmodeltest 0.1.1 (Posada, 2008) bajo el criterio de Akaike y se procedió a realizar el análisis de máxima verosimilitud con el programa PhyML 3.0 (Guindon & Gascuel, 2003) con 1000 y 100 (datos de 17 y 50 taxa respectivamente) replicas de análisis de bootstrap no paramétrico. Las topologías y los valores de bootstrap fueron comparadas entre los distintos tratamientos de datos y con respecto a los resultados obtenidos por Hudelot et al (2003)(fig. 4). RESULTADOS Y DISCUSIÓN Con el primer set de datos de 17 taxa se presentó una variación con respecto al modelo evolutivo seleccionado bajo el criterio de Akaike, ya que fue el modelo TIM2 + G el seleccionado para los alineamientos con MAFFT y MUSCLE y por otro lado el modelo GTR+G para el alineamiento realizado con ClustalW. Sin embargo, las tres topologías generadas con los diferentes programas (fig. 1, 2 y 3) coincidieron en las relaciones filogenéticas entre los taxa y con poca variación en los valores de bootstrap para la mayoría de los nodos. La diferencia con respecto al cálculo del modelo entre alineamientos también se vio cuando se utilizaron mas taxa ya que para los datos de ClustalW se encontró el modelo TVM+I+G y para los otros dos análisis fue GTR+I+G. En la figura 5 se observa el resultado del análisis de máxima verosimilitud de los datos alineados con MAFFT. En comparación al cladograma de la figura 4, en este análisis el grupo Dermoptera que es representado en todos los análisis por Cynocephalus variegatus forma un clado con el grupo Lemur catta y Nycticebus coucang los cuales se ubicaron por fuera de su grupo Primates. Cavia porcellus y Sciurus vulgaris aparecen por fuera de Rodentia, y este ultimo genero se ubica más cercano con los grupos Macroscelidea, Afrosoricida y Proboscidea. Episoriculus fumidus representante de Eulipotyphla aparece como hermano del grupo Primates. Otras diferencias subyacen en el grupo Cetartiodactyla donde aparece la agrupación de Hippopotamus amphibius y Bos taurus y a su vez Manis tetradactyla representante de Pholidota se ubica como hermano del grupo Carnivora. Dentro de Chriroptera tampoco se definió la agrupación de Chalinolobus tuberculatus y Artibeus jamaicencis.

De las diferencias encontradas entre el análisis de los datos alineados con ClustalW (fig. 6) y los resultados encontrados por Hudelot et al. (2003). cabe destacar que la relaciones internas del grupo Rodentia se rompen, y se rescata el mayor grupo con Microtus kikuchii, Mus musculus y Rattus norvegicus. El grupo Lagomorpha coincide con las relaciones internas pero aparece agrupado con Dermoptera y por otro lado dentro de Primates no se rescató la agrupación de Gorilla gorilla con Homo sapiens. También Chalinolobus tuberculatus perteneciente a Chiroptera se unió a Episoriculus fumidus y los demás taxa de Chiroptera formaron un grupo hermano con respecto al grupo Perissodactyla. Por último en el análisis de los datos alineados con MUSCLE (fig. 7) se rescató la mayor agrupación de Rodentia con excepción (al igual que los otros análisis) de Sciurus vulgaris. Con respecto a Primates Nycticebus coucang se separó y se ubicó como taxón hermano de Cynocephalus variegatus, y Lemur catta se ubicó como hermano del grupo Lagomorpha. Así mismo, Proboscidea se agrupó con Afrosoricida y al igual que con los datos alineados con MAFFT Eulipotyphla aparece como hermano del grupo Primates. En general con el alineamiento de MUSCLE se recuperaron mayor numero de grupos con relaciones internas que coinciden con los resultados de Hudelot et al. (2003). pero la relaciones entre los grupos fueron poco congruentes para los tres análisis. A parte de los grupos externos, Lagomorpha, Carnivora y Perissodactyla fueron los únicos grupos completamente resueltos internamente que coincidieron entre los todos los análisis y solo representan el 28% de los taxa analizados en el ingroup. En general estos tres programas tienen una estrategia de alineamiento progresivo pero también tienen características particulares. Estas diferencias se basan en que al alinear las secuencias se busca el alineamiento mínimo para una función o esquema de costos seleccionado (Eguiarte, 2007). Los esquemas de costos se centran en valores de extensión de gap, apertura de gap y valores de transición entre nucleótidos. La puntuación representa típicamente alguna función del número y posición de columnas que contiene bases idénticas, diferentes o gaps, siendo cada diferencia penalizada (Kumar & Filipski, 2007). En ClustalW por ejemplo encontramos valores por defecto de apertura de gap de 10, extensión de gap 0.2 y 0.5 en la transición de nucleótidos. En MAFFT se dan valores de 1.53 por la apertura de gap y 0.123 para la extensión. A su vez las características de las secuencias (numero de nucleótidos, regiones conservadas, numero de secuencias) utilizadas pueden demarcar una diferencia en los resultados como se observó con los dos tratamientos donde con pocos taxa no se observó diferencias tanto en la topología como en los valores de bootstrap pero al triplicar el número de secuencias para analizar las diferencias fueron evidentes. Qué podría ser un buen alineamiento para hacer un análisis filogenético? Una práctica generalizada es la combinación de un programa de alineamiento múltiple de secuencias (generalmente ClustalW) con un respectivo alineamiento o retoque manual en el cual en algunos casos se suprimen regiones ambiguas debido a las características implícitas en el proceso de secuenciación y disponibilidad en las bases de datos moleculares. Al respecto Wong et al. (2008) sugiere que descartar información de alineamientos ambiguos no es aconsejable ya que se pueden perder porciones de datos primarios altamente informativos y en algunos casos eventos de inserción y deleción son básicos para la información filogenética. Además cabe la duda acerca del patrón de repetibilidad que tiene un alineamiento manual. Con respecto al tiempo como parámetro de calidad de un alineamiento esté no fue relevante en este trabajo debido al tamaño del set de datos. La mayor exactitud en este trabajo es atribuida al alineamiento con MUSCLE en términos de número de grupos resueltos internamente y tomando como valor más cercano al valor real la hipótesis filogenética de Hudelot et al. (2003) que utilizó todo el genoma mitocondrial. En términos de precisión la herramienta de iteración para estos programas podría evitar caer en arboles guías incorrectos.

CONCLUSIÓNES Los alineamientos generados por los programas MUSCLE, ClustalW y MAFFT influenciaron en los análisis de máxima verosimilitud para el set de datos utilizado. Se encontraron tanto congruencias como diferencias entre los resultados obtenidos pero en general se evidencia que se pueden generar hipótesis filogenéticas diferentes. Las características de las secuencias y el set de datos en general aunado a las características de los programas y sus estrategias implícitas de alineamiento influencian en la calidad posterior del análisis filogenético.

BIBLIOGRAFÍA Edgar R. 2004. MUSCLE: a multiple sequence alignment method with reduced time and space complexity. BMC Bioinformatics. 5: 113. Eguarte, L. Souza, V & Aguirre, X. 2003. Ecología molecular. SEMANART. México. 592 p. Hudelot, C., Gowri-Shankar, V., Jow, H., Rattray, M. & HIggs, P. 2003, RNA-based phylogenetic methods: application to mammalian mitochondrial RNA sequences. Elsevier. 28:241-252. Katoh K. and Toh H. (2008) Recent developments in the MAFFT multiple sequence alignment program. Briefings in Bioinformatics 2008 9 :286-298. Kumar, S. & Filipski, A. 2007. Multiple sequence alignment: In pursuit of homologous DNA positions. Genome Res. 17: 12-135. Guindon S. & Gascuel, O. 2003. PhyML 3.0. Systematic Biology. 52: 696-704. Larkin M., Blackshields G., Brown N., Chenna R., McGettigan P., McWilliam H., Valentin F., Wallace I.., Wilm A., Lopez R., Thompson J., Gibson T. and Higgins D. 2007. ClustalW and ClustalX version 2. Bioinformatics 2007 23(21): 2947-2948. Posada D. 2008. jmodeltest: Phylogenetic Model Averaging. Molecular Biology and Evolution. 25: 1253-1256. Wong, K., Suchard, M & Huelsenbeck, J. 2008. Aligment uncertainty and genomic analysis. Science. Vol. 319. Yue, F. Shi, J & Tang, J. 2009. Simultaneous phylogeny reconstruction and multiple sequence aligment. BMC Bioinformatics. 10:S11.

ANEXOS Tabla 1 Taxa y codigos de acceso del GenBank OUTGROUP Ornithorynchidae Ornithorhynchus anatinus NC 000891 Tachyglossidae Tachyglossus aculeatus NC_003321 Didelphimorphia Didelphis virginiana NC_001610 Diprotodontia Macropus robustus NC_001794 INGROUP Afrosoricida Echinops telfairi NC_002631 Carnivora Arctocephalus forsteri NC_004023 Carnivora Canis familiaris NC_002008 Carnivora Felis catus NC_001700 Carnivora Halichoerus grypus NC_001602 Carnivora Odobenus rosmarus NC_004029 Carnivora Phoca vitulina NC_001325 Cetartiodactyla Balaenoptera musculus NC_001601 Cetartiodactyla Balaenoptera physalus NC_001321 Cetartiodactyla Bos taurus NC_001567 Cetartiodactyla Hippopotamus amphibius NC_000889 Cetartiodactyla Lama pacos NC_002504 Cetartiodactyla Physeter catodon NC_002503 Chiroptera Artibeus jamaicencis NC_002009 Chiroptera Chalinolobus tuberculatus NC_002626 Chiroptera Pteropus dasymallus NC_002612 Chiroptera Pteropus scapulatus NC_002619 Dermoptera Cynocephalus variegatus NC_001821 Eulipotyphla Episoriculus fumidus NC_003040 Lagomorpha Lepus europaeus NC_004028 Lagomorpha Ochotona collaris NC_003033 Lagomorpha Oryctolagus cuniculus NC_001913 Macroscelidea Macroscelides proboscideus NC_004026 Perissodactyla Ceratotherium simum NC_001808 Perissodactyla Equus asinus NC_001788 Perissodactyla Equus caballu NC_001640 Perissodactyla Rhinoceros unicornis NC_001779 Pholidota Manis tetradactyla NC_004027 Primates Cebus albifrons NC_002763 Primates Gorilla gorilla NC_001645 Primates Homo sapiens NC_001807 Primates Lemur catta NC_004025 Primates Macaca sylvanus NC_002764 Primates Nycticebus coucang NC_002765 Primates Pan paniscus NC_001644 Primates Pan troglodydes NC_001643 Primates Papio hamadryas NC_001992 Primates Hylobates lar NC_002082 Primates Pongo pygmaeus NC_001646 Proboscidea Loxodonta africana NC_000934 Rodentia Cavia porcellus NC_000884 Rodentia Mus musculus NC_001569 Rodentia Myoxus glis NC_001892 Rodentia Rattus norvegicus NC_001665 Rodentia Sciurus vulgaris NC_002369 Rodentia Microtus kikuchii NC_003041

Figura 1 Análisis de máxima verosimilitud (alineamiento con ClustalW2)

Figura 2 Análisis de máxima verosimilitud (alineamiento con MUSCLE 3.7)

Figura 3 Análisis de máxima verosimilitud (alineamiento con MAFFT 4.0)

Figura 4 Hipótesis filogenética Hudelot et al. (Análisis Bayesiano)

Figura 5 Análisis de máxima verosimilitud para 50 taxa (alineamiento MAFFT 4.0)

Figura 6 Análisis de máxima verosimilitud 50 taxa (alineamiento ClustalW 2.0)

Figura 7 Análisis de máxima verosimilitud 50 taxa (alineamiento MUSCLE 3.7)