ALINEAMIENTO MÚLTIPLE DE SECUENCIAS Y ANÁLISIS FILOGENÉTICO Christian Rubén Vargas Cod:2030164 INTRODUCCIÓN Antes de que cualquier secuencia pueda ser utilizada para la reconstrucción filogenética, estas deben ser alineadas, siendo la calidad de este procedimiento un factor que afecta la calidad de la filogenia inferida (Yue, et al. 2009). Wong et al. (2008) analizaron secuencias nucleotidicas de siete especies de levadura con siete distintos programas de alineamiento y encontraron que el 46.2% de 1502 secuencias de genes ortólogos producían más de un árbol diferente dependiendo del proceso de alineamiento. Con base a lo anterior el objetivo de este trabajo es analizar la influencia del alineamiento múltiple de secuencias en el análisis de máxima verosimilitud. METODOLOGÍA Para el análisis se utilizó un set de de datos moleculares del gen mitocondrial ARNr 16s de varios mamíferos (tabla 1) seleccionados en el artículo de Hudelot et al (2003). Con estos datos se realizó un análisis inicial con 17 y otro con 50 taxa para evaluar la influencia del número de secuencias en un mismo alineamiento. Para el alineamiento múltiple de secuencias se utilizaron los programas Muscle 3.7 (Edgar, 2004), ClustalW2.0 (Larkin et al., 2007) y MAFFT 4.0 (Katoh & Toh, 2008). Posterior al alineamiento se buscó el modelo evolutivo más optimo con el programa Jmodeltest 0.1.1 (Posada, 2008) bajo el criterio de Akaike y se procedió a realizar el análisis de máxima verosimilitud con el programa PhyML 3.0 (Guindon & Gascuel, 2003) con 1000 y 100 (datos de 17 y 50 taxa respectivamente) replicas de análisis de bootstrap no paramétrico. Las topologías y los valores de bootstrap fueron comparadas entre los distintos tratamientos de datos y con respecto a los resultados obtenidos por Hudelot et al (2003)(fig. 4). RESULTADOS Y DISCUSIÓN Con el primer set de datos de 17 taxa se presentó una variación con respecto al modelo evolutivo seleccionado bajo el criterio de Akaike, ya que fue el modelo TIM2 + G el seleccionado para los alineamientos con MAFFT y MUSCLE y por otro lado el modelo GTR+G para el alineamiento realizado con ClustalW. Sin embargo, las tres topologías generadas con los diferentes programas (fig. 1, 2 y 3) coincidieron en las relaciones filogenéticas entre los taxa y con poca variación en los valores de bootstrap para la mayoría de los nodos. La diferencia con respecto al cálculo del modelo entre alineamientos también se vio cuando se utilizaron mas taxa ya que para los datos de ClustalW se encontró el modelo TVM+I+G y para los otros dos análisis fue GTR+I+G. En la figura 5 se observa el resultado del análisis de máxima verosimilitud de los datos alineados con MAFFT. En comparación al cladograma de la figura 4, en este análisis el grupo Dermoptera que es representado en todos los análisis por Cynocephalus variegatus forma un clado con el grupo Lemur catta y Nycticebus coucang los cuales se ubicaron por fuera de su grupo Primates. Cavia porcellus y Sciurus vulgaris aparecen por fuera de Rodentia, y este ultimo genero se ubica más cercano con los grupos Macroscelidea, Afrosoricida y Proboscidea. Episoriculus fumidus representante de Eulipotyphla aparece como hermano del grupo Primates. Otras diferencias subyacen en el grupo Cetartiodactyla donde aparece la agrupación de Hippopotamus amphibius y Bos taurus y a su vez Manis tetradactyla representante de Pholidota se ubica como hermano del grupo Carnivora. Dentro de Chriroptera tampoco se definió la agrupación de Chalinolobus tuberculatus y Artibeus jamaicencis.
De las diferencias encontradas entre el análisis de los datos alineados con ClustalW (fig. 6) y los resultados encontrados por Hudelot et al. (2003). cabe destacar que la relaciones internas del grupo Rodentia se rompen, y se rescata el mayor grupo con Microtus kikuchii, Mus musculus y Rattus norvegicus. El grupo Lagomorpha coincide con las relaciones internas pero aparece agrupado con Dermoptera y por otro lado dentro de Primates no se rescató la agrupación de Gorilla gorilla con Homo sapiens. También Chalinolobus tuberculatus perteneciente a Chiroptera se unió a Episoriculus fumidus y los demás taxa de Chiroptera formaron un grupo hermano con respecto al grupo Perissodactyla. Por último en el análisis de los datos alineados con MUSCLE (fig. 7) se rescató la mayor agrupación de Rodentia con excepción (al igual que los otros análisis) de Sciurus vulgaris. Con respecto a Primates Nycticebus coucang se separó y se ubicó como taxón hermano de Cynocephalus variegatus, y Lemur catta se ubicó como hermano del grupo Lagomorpha. Así mismo, Proboscidea se agrupó con Afrosoricida y al igual que con los datos alineados con MAFFT Eulipotyphla aparece como hermano del grupo Primates. En general con el alineamiento de MUSCLE se recuperaron mayor numero de grupos con relaciones internas que coinciden con los resultados de Hudelot et al. (2003). pero la relaciones entre los grupos fueron poco congruentes para los tres análisis. A parte de los grupos externos, Lagomorpha, Carnivora y Perissodactyla fueron los únicos grupos completamente resueltos internamente que coincidieron entre los todos los análisis y solo representan el 28% de los taxa analizados en el ingroup. En general estos tres programas tienen una estrategia de alineamiento progresivo pero también tienen características particulares. Estas diferencias se basan en que al alinear las secuencias se busca el alineamiento mínimo para una función o esquema de costos seleccionado (Eguiarte, 2007). Los esquemas de costos se centran en valores de extensión de gap, apertura de gap y valores de transición entre nucleótidos. La puntuación representa típicamente alguna función del número y posición de columnas que contiene bases idénticas, diferentes o gaps, siendo cada diferencia penalizada (Kumar & Filipski, 2007). En ClustalW por ejemplo encontramos valores por defecto de apertura de gap de 10, extensión de gap 0.2 y 0.5 en la transición de nucleótidos. En MAFFT se dan valores de 1.53 por la apertura de gap y 0.123 para la extensión. A su vez las características de las secuencias (numero de nucleótidos, regiones conservadas, numero de secuencias) utilizadas pueden demarcar una diferencia en los resultados como se observó con los dos tratamientos donde con pocos taxa no se observó diferencias tanto en la topología como en los valores de bootstrap pero al triplicar el número de secuencias para analizar las diferencias fueron evidentes. Qué podría ser un buen alineamiento para hacer un análisis filogenético? Una práctica generalizada es la combinación de un programa de alineamiento múltiple de secuencias (generalmente ClustalW) con un respectivo alineamiento o retoque manual en el cual en algunos casos se suprimen regiones ambiguas debido a las características implícitas en el proceso de secuenciación y disponibilidad en las bases de datos moleculares. Al respecto Wong et al. (2008) sugiere que descartar información de alineamientos ambiguos no es aconsejable ya que se pueden perder porciones de datos primarios altamente informativos y en algunos casos eventos de inserción y deleción son básicos para la información filogenética. Además cabe la duda acerca del patrón de repetibilidad que tiene un alineamiento manual. Con respecto al tiempo como parámetro de calidad de un alineamiento esté no fue relevante en este trabajo debido al tamaño del set de datos. La mayor exactitud en este trabajo es atribuida al alineamiento con MUSCLE en términos de número de grupos resueltos internamente y tomando como valor más cercano al valor real la hipótesis filogenética de Hudelot et al. (2003) que utilizó todo el genoma mitocondrial. En términos de precisión la herramienta de iteración para estos programas podría evitar caer en arboles guías incorrectos.
CONCLUSIÓNES Los alineamientos generados por los programas MUSCLE, ClustalW y MAFFT influenciaron en los análisis de máxima verosimilitud para el set de datos utilizado. Se encontraron tanto congruencias como diferencias entre los resultados obtenidos pero en general se evidencia que se pueden generar hipótesis filogenéticas diferentes. Las características de las secuencias y el set de datos en general aunado a las características de los programas y sus estrategias implícitas de alineamiento influencian en la calidad posterior del análisis filogenético.
BIBLIOGRAFÍA Edgar R. 2004. MUSCLE: a multiple sequence alignment method with reduced time and space complexity. BMC Bioinformatics. 5: 113. Eguarte, L. Souza, V & Aguirre, X. 2003. Ecología molecular. SEMANART. México. 592 p. Hudelot, C., Gowri-Shankar, V., Jow, H., Rattray, M. & HIggs, P. 2003, RNA-based phylogenetic methods: application to mammalian mitochondrial RNA sequences. Elsevier. 28:241-252. Katoh K. and Toh H. (2008) Recent developments in the MAFFT multiple sequence alignment program. Briefings in Bioinformatics 2008 9 :286-298. Kumar, S. & Filipski, A. 2007. Multiple sequence alignment: In pursuit of homologous DNA positions. Genome Res. 17: 12-135. Guindon S. & Gascuel, O. 2003. PhyML 3.0. Systematic Biology. 52: 696-704. Larkin M., Blackshields G., Brown N., Chenna R., McGettigan P., McWilliam H., Valentin F., Wallace I.., Wilm A., Lopez R., Thompson J., Gibson T. and Higgins D. 2007. ClustalW and ClustalX version 2. Bioinformatics 2007 23(21): 2947-2948. Posada D. 2008. jmodeltest: Phylogenetic Model Averaging. Molecular Biology and Evolution. 25: 1253-1256. Wong, K., Suchard, M & Huelsenbeck, J. 2008. Aligment uncertainty and genomic analysis. Science. Vol. 319. Yue, F. Shi, J & Tang, J. 2009. Simultaneous phylogeny reconstruction and multiple sequence aligment. BMC Bioinformatics. 10:S11.
ANEXOS Tabla 1 Taxa y codigos de acceso del GenBank OUTGROUP Ornithorynchidae Ornithorhynchus anatinus NC 000891 Tachyglossidae Tachyglossus aculeatus NC_003321 Didelphimorphia Didelphis virginiana NC_001610 Diprotodontia Macropus robustus NC_001794 INGROUP Afrosoricida Echinops telfairi NC_002631 Carnivora Arctocephalus forsteri NC_004023 Carnivora Canis familiaris NC_002008 Carnivora Felis catus NC_001700 Carnivora Halichoerus grypus NC_001602 Carnivora Odobenus rosmarus NC_004029 Carnivora Phoca vitulina NC_001325 Cetartiodactyla Balaenoptera musculus NC_001601 Cetartiodactyla Balaenoptera physalus NC_001321 Cetartiodactyla Bos taurus NC_001567 Cetartiodactyla Hippopotamus amphibius NC_000889 Cetartiodactyla Lama pacos NC_002504 Cetartiodactyla Physeter catodon NC_002503 Chiroptera Artibeus jamaicencis NC_002009 Chiroptera Chalinolobus tuberculatus NC_002626 Chiroptera Pteropus dasymallus NC_002612 Chiroptera Pteropus scapulatus NC_002619 Dermoptera Cynocephalus variegatus NC_001821 Eulipotyphla Episoriculus fumidus NC_003040 Lagomorpha Lepus europaeus NC_004028 Lagomorpha Ochotona collaris NC_003033 Lagomorpha Oryctolagus cuniculus NC_001913 Macroscelidea Macroscelides proboscideus NC_004026 Perissodactyla Ceratotherium simum NC_001808 Perissodactyla Equus asinus NC_001788 Perissodactyla Equus caballu NC_001640 Perissodactyla Rhinoceros unicornis NC_001779 Pholidota Manis tetradactyla NC_004027 Primates Cebus albifrons NC_002763 Primates Gorilla gorilla NC_001645 Primates Homo sapiens NC_001807 Primates Lemur catta NC_004025 Primates Macaca sylvanus NC_002764 Primates Nycticebus coucang NC_002765 Primates Pan paniscus NC_001644 Primates Pan troglodydes NC_001643 Primates Papio hamadryas NC_001992 Primates Hylobates lar NC_002082 Primates Pongo pygmaeus NC_001646 Proboscidea Loxodonta africana NC_000934 Rodentia Cavia porcellus NC_000884 Rodentia Mus musculus NC_001569 Rodentia Myoxus glis NC_001892 Rodentia Rattus norvegicus NC_001665 Rodentia Sciurus vulgaris NC_002369 Rodentia Microtus kikuchii NC_003041
Figura 1 Análisis de máxima verosimilitud (alineamiento con ClustalW2)
Figura 2 Análisis de máxima verosimilitud (alineamiento con MUSCLE 3.7)
Figura 3 Análisis de máxima verosimilitud (alineamiento con MAFFT 4.0)
Figura 4 Hipótesis filogenética Hudelot et al. (Análisis Bayesiano)
Figura 5 Análisis de máxima verosimilitud para 50 taxa (alineamiento MAFFT 4.0)
Figura 6 Análisis de máxima verosimilitud 50 taxa (alineamiento ClustalW 2.0)
Figura 7 Análisis de máxima verosimilitud 50 taxa (alineamiento MUSCLE 3.7)