Modelos de sustitución de nucleótidos* (y otros modelos).

Documentos relacionados
Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

La teoría de coalescencia

Teorema Central del Límite (1)

Método de Hennig. Método alternativo. 1) Definir la raíz (escogiendo grupo externo) 1) Identificar caracteres informativos

Distribuciones muestrales. Distribución muestral de Medias

Tema 9: Contraste de hipótesis.

1/26/11! Taller Latinoamericano de Evolución Molecular! 2011! Relojes Moleculares:! Fechación de Clados con Datos Moleculares! EL RELOJ MOLECULAR!

Árboles Filogenéticos. BT7412, CC5702 Bioinformática Diego Arroyuelo. 2 de noviembre de 2010

Probabilidad y Estadística

UNIDAD 12.- Estadística. Tablas y gráficos (tema12 del libro)

en Enfermería del Trabajo

1. La Distribución Normal

INTEGRACIÓN NUMÉRICA

GLOSARIO ESTADÍSTICO. Fuente: Murray R. Spiegel, Estadística, McGraw Hill.

CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Tema 2. Regresión Lineal

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

Pruebas de Hipótesis-ANOVA. Curso de Seminario de Tesis Profesor QF Jose Avila Parco Año 2016

Modelos de dinámica de poblaciones aisladas Ecología (1861 y 1812) Grado de Biología y de Ciencias Ambientales. UMU

Medidas de tendencia central y dispersión

Tema 5. Muestreo y distribuciones muestrales

Desempeño de Medidas de Riesgo sobre Distribuciones de Valores Extremos

Conceptos básicos estadísticos

Aprendizaje Automatizado

POBLACIÓN Y MUESTRAS EN LA INVESTIGACIÓN

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

Teoría de la decisión

MAXIMOS Y MINIMOS RELATIVOS

La producción de acero en Monterrey N.L. (México) en millones de toneladas, durante el año de 1992 a partir del mes de enero se muestra en la tabla:

Cómo introducir Prueba de Hipótesis para una media, utilizando experimentos en el salón de clase.

Estadística Descriptiva

Tema 5 Algunas distribuciones importantes

Curso: POBLACIÓN Y DESARROLLO Conferencia 8

INDICE. Prólogo a la Segunda Edición

ÁRBOLES FILOGENÉTICOS

INVESTIGACIÓN DE MERCADOS

CONTENIDOS. 1. Procesos Estocásticos y de Markov. 2. Cadenas de Markov en Tiempo Discreto (CMTD) 3. Comportamiento de Transición de las CMTD

Conceptos Básicos de Inferencia

Ing. Eduardo Cruz Romero w w w. tics-tlapa. c o m

Unidad Temática 3: Probabilidad y Variables Aleatorias

4.1 Análisis bivariado de asociaciones

Contrastes de Hipótesis paramétricos y no-paramétricos.

Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO

ESTADÍSTICA INFERENCIAL

ESTADÍSTICA DESCRIPTIVA

SESION 12 LA DISTRIBUCIÓN BINOMIAL

CAPÍTULO I. INTRODUCCIÓN. Cuando se requiere obtener información de una población, y se desean obtener los mejores

Tablas de dispersión (hash tables)

ESTADÍSTICA SEMANA 3

UNIVERSIDAD AUTÓNOMA DE QUERÉTARO FACULTAD DE INGENIERÍA. práctica, Total: 85 Horas a la semana: 5 teoría: 4 prácticas: 1 Créditos:

GRÁFICOS DE CONTROL. Datos tipo atributo

Conceptos básicos de filogenética molecular

ACTIVIDAD 2: La distribución Normal

PATRONES DE DISTRIBUCIÓN ESPACIAL

Dar una introducción sobre la asignatura IO Familiarizar al estudiante con las características y aplicación del modelo de matriz de decisiones

Selección Natural y Evolución

Cifras significativas

EXPERIMENTO ALEATORIO

2 = 1 0,5 + = 0,5 c) 3 + = = 2

ALGUNAS CUESTIONES DESTACABLES EN INFERENCIA ESTADÍSTICA

Econometría II Grado en finanzas y contabilidad

FORMATO CONDICIONAL EN EXCEL

Capitulo 4. DECISIONES BAJO RIESGO TEORIA DE JUEGOS

Tema 1.- Correlación Lineal

3.1. Administración de la medición y de la información estratégica:

Autor: Mariano Morettini Profesor Adjunto

Unidad IV. Una variable aleatoria X es continua si su función de distribución es una función continua.

EJERCICIO COLABORATIVO SOBRE MUTACIÓN DE ADN MITOCONDRIAL EN PELO

Análisis de datos Categóricos

SISTEMÁTICA MOLECULAR

Jesús Eduardo Pulido Guatire, marzo Diagrama de Dispersión y Correlación Lineal Simple

Introducción a la unidad 4:

Distribución Muestral.

Prácticas de Ecología Curso 3 Práctica 1: Muestreo

DISTRIBUCIÓN N BINOMIAL

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

Pregunta 1. Pregunta 2. Pregunta 3. Pregunta 4. Pregunta 5. Pregunta 6. Pregunta 7. Comenzado el lunes, 25 de marzo de 2013, 17:24

I UNIDAD METODOLOGÍA: RECOLECCIÓN DE DATOS

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

Conferencia clase. Al desacoplar las ecuaciones se tiene. Sistemas de ecuaciones diferenciales lineales usando álgebra lineal

de Operaciones Área Académica: Sistemas Computacionales Tema: Tipos de Modelos en Investigación Profesor: I.S.C. Guadalupe Hernández Coca

Unidad 6. Análisis costo-volumen-utilidad. Objetivos específicos de aprendizaje

Lección 18: Utilidad de la estadística

GRÁFICOS DE CONTROL. Datos tipo atributo

Objetivos. Aprender a construir gráficos p y/o np. Aprender a construir gráficos c y u. Cuando usarlos. Epígrafes

CAPITULO XII PUENTES DE CORRIENTE ALTERNA

Concepto de Probabilidad

Indicadores de Gestión

Introducción a las Normas Internacionales de Contabilidad

MANUAL DE USO PROGRAMA SENSIBAR

Medidas descriptivas I. Medidas de tendencia central A. La moda

Probabilidad y Estadística

Medidas de centralización

Maestría en Bioinformática Probabilidad y Estadística: Clase 1

Análisis de datos en los estudios epidemiológicos III Correlación y regresión

Método de. Análisis de Fallas. Introducción. Por qué? Qué hace? Cómo lo realizo?

Proyecto PropULSA: Estadística y Probabilidad Breviario Académico

un conjunto cuyos elementos denominaremos vectores y denotaremos por es un espacio vectorial si verifica las siguientes propiedades:

Programación NO Lineal (PNL) Optimización sin restricciones

Transcripción:

Modelos de sustitución de nucleótidos* (y otros modelos). Borrador preliminar, esta NO es una versión final. Ricardo García-Sandoval Facultad de Ciencias, UNAM. r.garciasandoval@gmail.com Contenido 1. Introducción, qué hace diferente a un análisis paramétrico de uno no-paramétrico? 2. Qué elementos son relevantes para un modelo de sustitución de nucleótidos? 3. Cómo seleccionar el modelo adecuado? 4. Conclusión, los modelos son solamente para nucleótidos? (*los otros modelos)

1. Introducción, qué hace diferente a un análisis paramétrico de uno no-paramétrico? La filogenia entendida como la representación de las relaciones de parentesco entre las especies (resultado de la descendencia con modificación) constituye el marco de referencia por excelencia para reconocer patrones y estudiar los proceso que originan la diversidad biológica (Baum y Smith 2013). Al inferir la filogenia obtenemos información no solamente acerca de las relaciones entre las especies, sino también sobre la cantidad de cambios que se han acumulado desde el momento en que los linajes divergieron. Estos cambios acumulados son representados mediante la longitud de las ramas en un filograma. De esta forma, un filograma contiene información relativa a las relaciones entre las especies y los cambios que se han acumulado en los linajes desde el momento en que sucedió el evento de divergencia o especiación, tienen una topología (relaciones) y longitud de ramas (cambios acumulados). Esta información sobre la cantidad de cambio acumulado es empleada para poder estudiar otros fenómenos, como el tiempo en que ocurrieron los eventos de especiación (reloj molecular, Magallón en este manual), las características que podrían haber estado presentes en los ancestros de linajes actuales (reconstrucción de estados ancestrales, Pagel et al. 2004, Ronquist 2002), e inclusive el efecto de estos caracteres en el aumento o disminución de la tasa de diversificación en linajes específicos (estudio de innovaciones clave, Pyron & Burbrink 2013). La manera en que estos cambios acumulados son inferidos es una de las diferencias entre los métodos paramétricos (inferencia bayesiana y máxima verosimilitud) y los métodos no-paramétricos (parsimonia). Esto implica que en un filograma inferido con métodos paramétricos la longitud de las ramas es calculada de una manera diferente a como se hace con un método de parsimonia. Cuando el evento de divergencia en un linaje es relativamente reciente, los cambios calculados directamente a partir de la matriz de caracteres son un reflejo más o menos realista de la cantidad de cambios que se han acumulado, por ejemplo esperaríamos que esta fuera la situación si las especies estuviesen muy cercanamente emparentadas. Pero cuando el evento de divergencia es más lejano en el tiempo esperaríamos que se acumularan más cambios a mediada que transcurre más tiempo, hasta que en un punto la cantidad real de cambios quede en cierta forma enmascarada y no pueda ser calculada directamente de la matriz de caracteres. Esta situación es particularmente común en el caso de las secuencias de ADN. Cuando no es posible calcular la cantidad de cambios acumulada empleando únicamente la información de la matriz (debido a la cantidad de tiempo transcurrido) se debe recurrir algún tipo de herramienta meteorológica para poder inferirlos, estas herramientas constituyen los llamados métodos paramétricos y sustentan su inferencia en el empleo de modelos de sustitución. Estos modelos intentan

representar lo que sabemos acerca del proceso evolutivo, empleando distribuciones estadísticas para representarlo. Emplear estas distribuciones tiene la ventaja adicional de que conocemos en buena medida su comportamiento y propiedades y podemos describirlas con base en parámetros comunes, como podrían ser la media o la desviación estándar. Cabe señalar que si bien las distribuciones empleadas tienen su origen en la descripción de fenómenos estocásticos, esto no implica que debemos suponer que el proceso evolutivo es estocástico, de la misma forma que el empleo de métodos de parsimonia no implica considerar que la evolución es parsimoniosa. En lo general podemos pensar a la diversidad como el resultado de un proceso en el que las mutaciones generadas fundamentalmente al azar y las condiciones existentes en el ambiente interaccionan mediante diversos mecanismos, esto resulta en que la mutación se puede conservar y heredar o no. Esto es lo que Jacques L. Monod (1973) describió como el azar y la necesidad en el proceso evolutivo. Debido a que el proceso que generó la diversidad que observamos hoy en día es tan complejo y hay muchos detalles que desconocemos una manera eficiente de hacer inferencias sobre el es mediante el uso de distribuciones estocásticas, esto es, usamos estas distribuciones no porque pensamos que la evolución se comporta de esa forma, sino porque resultan ser una manera eficiente de generar inferencias confiables. Como se menciono previamente, la situación en que la cantidad de cambios acumulados ya no puede calcularse directamente de la matriz de caracteres es particularmente recurrente en el caso de las secuencias de ADN y esto es debido en parte a que solamente contamos con cuatro estados de carácter en este tipo de caracteres. En el caso de los análisis con aminoácidos los modelos son elaborados de manera distinta, debido al gran número de estados posibles, pero en este capítulo me referiré únicamente a los modelos nucleotídicos. Para explicar la dificultad de calcular los cambios en secuencias divergentes Paul Lewis (1988) ideó una ingeniosa metáfora empleando un estacionamiento para ejemplificar los cambios que suceden en un determinado sitio en una secuencia. Imagine usted un estacionamiento con los cajones bien delimitados y completamente ocupados, en la metáfora cada cajón corresponde a un sitio o posición en una secuencia. Los automóviles están pintados de cuatro colores solamente (verde, azul, rojo y amarillo), estos colores corresponden con las cuatro bases presentes en el ADN. Consideremos que es un momento del día muy concurrido y los cajones tienden a desocuparse y ocuparse de nuevo de manera más o menos constante cada 20 minutos. Al centrar nuestra atención en uno de los cajones observamos que en el minuto cero había un automóvil de color amarillo, pero al cabo de un par de horas el cajón habrá cambiado de automóvil en seis

ocasiones, que corresponderían con seis eventos de substitución en la secuencia, coincidentemente el cajón tiene de nuevo un automóvil de color amarillo en el cajón, aunque evidentemente no es el mismo automóvil pero para nosotros se ve igual. En el caso de contar solamente con información del minuto cero y del minuto 120 nos resultará imposible saber que han ocurrido seis eventos de substitución, porque no tendremos evidencia directa de los cambios. Si nuestro método de análisis solamente considera los cambios directamente cuantificables en la matriz de datos y no busca inferir aquellos que pudiesen haber ocurrido, entonces estaremos obteniendo un estimado incorrecto de los cambios que se han acumulado. Al comparar las secuencias de dos especies, la cantidad de cambios observable es referida como distancia-p y la distancia que representa los cambios totales (observables y no observables) corresponde con la distancia-d. Cuando las especies están cercanamente emparentadas ambas distancias corresponden en lo general, pero con el transcurrir del tiempo los cambios no observables se acumulan y la región se describe como saturada. Para poder inferir la distancia-d se requieren de métodos paramétricos que se apoyan en modelos de sustitución. Como se mencionó anteriormente, parte del atractivo de conocer la distancia-d reside en que es con base en ella que se sustentan diversas inferencias filogenéticas como el reloj molecular o la reconstrucción de estados ancestrales. 2. Qué elementos son relevantes para un modelo de sustitución de nucleótidos? Los modelos son una representación abstracta de la realidad, así que un buen modelo debe representar los elementos fundamentales de un proceso, permitiéndonos hacer inferencias bien sustentadas. Cada elemento relevante del proceso a modelar se incorpora a manera de un parámetro en el modelo, mientras más parámetros estén representados en el modelo esperaríamos que éste fuese más realista, al ser una descripción más detalla del proceso. Pero los modelos con demasiados parámetros tienden a ser difíciles de usar por la cantidad de esfuerzo de cómputo necesario, además de que el cálculo de cada parámetro tiene un cierta cantidad de error asociado, por lo que mientras más parámetros incluimos mayor será el error acumulado. Por lo tanto la selección adecuada del modelo a emplear es de gran importancia. Un modelo muy complejo será muy difícil de calcular y acarreará una mayor cantidad de error, pero un modelo muy simplista no será capaz de inferir algo significativo sobre el proceso que modela. Más adelante en este capítulo mencionaré las técnicas más frecuentes empleadas para sustentar la selección de un modelo. En el caso de los modelos de sustitución de nucleótidos el proceso que se intenta representar es precisamente el cambio de una base por otra, aunque aquí cabe señalar que representamos los cambios

entre bases y no su adición o pérdida, lo que implicaría considerar a las inserciones/deleciones como un estado adicional. No existe consenso acerca de considerar o no a las inserciones/deleciones como un quinto estado y (en el caso de considerarlas) tampoco hay consenso sobre como codificarlas, por lo que para el caso de los modelos de sustitución son muy pocos los que incorporan esta posibilidad. Para modelar el proceso de sustitución de las bases hay detalles que son de particular interés, como por ejemplo, si todos los cambios son igualmente probables o no, si la tasa con que suceden los cambios en una determinada posición de la secuencia es constante o no, si consideramos que algunas posiciones realmente se han mantenido sin cambios. Aquí se hace evidente que en contraste con los métodos no paramétricos (parsimonia), al emplear un modelo suponemos que todas las posiciones en un alineamiento son informativas, independientemente de si son variables o no. Para poder emplear el modelo como criterio de optimización al seleccionar hipótesis filogenéticas, los métodos paramétricos hacen uso de las cadenas de Markov, que son herramientas metodológicas que nos permiten evaluar la verosimilitud de una hipótesis (o su probabilidad posterior en el caso de las cadenas de Markov Montecarlo) explorando de manera eficiente el universo de hipótesis posibles. Para poder emplear las cadenas primeramente debemos centralizar la información de los parámetros que deseamos considerar en una matriz instantánea de sustitución (también llamada matriz Q) y convertirla mediante un proceso matemático en una matriz instantánea de probabilidad de transición [también llamada matriz P(t)]. Los detalles de como sucede esto pueden verse en el capítulo dedicado a análisis de máxima verosimilitud (Parra en este volumen) o en otros excelentes libros de texto (Felsenstein 2004, Yang 2014), en este capítulo me enfocaré en los procesos que intentamos reflejar y porque los consideramos relevantes para inferir la filogenia. En el caso de considerar que todos los cambios son igualmente probables, el tipo de modelo que estaríamos empleando es el JC69 (Jukes y Cantor 1969), en dónde un solo parámetro representa a todos los tipos de cambios. Este modelo es muy sencillo y relativamente fácil de aplicar, pero resulta poco informativo y poco realista. Por otro lado, si consideramos factible el suponer que las transiciones tiene una frecuencia diferente a las transversiones podemos asignar un parámetro diferente para cada tipo de cambio, cabe mencionar que al hacer esto no implica que un tipo de cambio sea más frecuente que el otro, simplemente permitimos que la frecuencia asuman un valor diferente y dejamos que sean los propios datos en el alineamiento los que indiquen la preponderancia de cada tipo de cambio. En ese caso el modelo resultante será el K80 (Kimura 1980) y empleamos dos parámetros para representar los dos diferentes tipos de cambios. Si deseamos que nuestro modelo sea más realista podemos considerar que cada tipo de cambio

tiene una frecuencia diferente, asignando en consecuencia un parámetro distinto para cada tipo de cambio, en ese caso el modelo es un GTR (Tavaré 1986) y tiene seis parámetros. Este es el máximo número de parámetros asociados a los tipos de cambios que podemos asignar dentro del esquema de modelos reversibles, esto es, modelos en los que los cambios se consideran igualmente probables en una dirección y en otra, por ejemplo considerar que un cambio de una adenina por una timina es igualmente probable que de una timina por una adenina. Este tipo de modelos (los reversibles) son los más empleados en la actualidad. Además de considerar parámetros que reflejen los tipos de cambio, otro elemento relevante es la frecuencia en que se encuentran las bases en el alineamiento. En un alineamiento es muy poco probable que las cuatro bases se encuentren en la misma proporción, esto es, es difícil encontrar ejemplos reales en que tenemos 25% de cada base exactamente, lo más común es que en los alineamientos las bases se encuentren en diferentes proporciones. Con base en esa observación empírica podemos suponer que la proporción en que se encuentra una base específica en el alineamiento afectará la frecuencia en que ocurren los cambios que la involucren. Por ejemplo, imaginemos un alineamiento en que la timina se encuentre en una proporción del 35% y la guanina en una proporción del 10%, cabría esperar que los cambios que involucren adquirir una guanina serán menos frecuentes ya que esta base se encuentra en una menor proporción y los cambios que impliquen adquirir una timina serán mas frecuentes ya que esa base se encuentra en mayor proporción (Figura 1). De esta manera el modelo tenderá a favorecer hipótesis que sean congruentes con estas proporciones. Un modelo que incorpora solamente diferentes tasas entre transiciones y transversiones como el K80 puede hacerse más realista si pondera esas tasas haciendo referencia a las proporciones de las bases, ese modelo se denomina HKY85 (Hasegawa et al. 1985). Una excelente revisión de la nomenclatura de los modelos y que parámetros los integran se puede encontrar en Yang (2014) y Yang y Rannala (2012). Un elemento adicional a considerar que resulta de gran importancia es la heterogeneidad de las tasas de cambio entre los sitios. Uno de los supuestos fundamentales de los análisis filogenéticos es la independencia entre los caracteres empleados, esto es, asumimos que cada carácter representa un pedazo independiente de evidencia para el análisis y el patrón de variación en cada columna de la matriz de datos se considera como independiente de los demás. En el caso de los alineamientos de secuencias de ADN asumimos que la variación dentro de cada columnas, es independiente de la que hay en las otras columnas, todos los modelos y métodos de inferencia paramétricos incorporan este supuesto. En un análisis paramétrico la implicación de independencia va más allá de solamente el patrón observado, ya que también es factible considerar que cada columna tiene una tasa de cambio diferente, esto es, cada

sitio en el alineamiento podría tener una velocidad de cambio diferente, o por lo menos es de esperarse que la tasa no sea la misma para todas las posiciones del alineamiento. Para incorporar la heterogeneidad de las tasas de cambio en el modelo deberíamos agregar un parámetro por cada columna, pero esto lo haría extremadamente complejo. Para evitar la necesidad de agregar demasiados parámetros se recurre a la incorporación de un solo parámetro, que representa a las tasas de variación, empleando como modelo de referencia una distribución tipo gamma, esto es, consideramos que el valor que toma la tasa en cada columna se distribuye con una forma semejante a la de la distribución gamma, por lo que tomamos un valor de esta distribución para representar la tasa en una columna, esta solución fue ideada por Yang (1994). Esta estrategia implicaría la necesidad de tener que derivar un valor específico para cada columna en la distribución, lo cual puede resultar computacionalmente demandante, para simplificar el procedimiento se divide la distribución en categorías (usualmente cuatro) y se obtiene un solo valor por cada categoría, a cada columna se le asigna el valor que tiene el mejor ajuste. La forma que tiene la distribución gamma se describe con el parámetro alfa, el cual refleja la heterogeneidad de tasas en el alineamiento, valores de alfa por debajo de 1 indican alta heterogeneidad, esto es, algunas regiones con muy alta variación y muchas otras con muy pocos cambios, valores por arriba de la unidad reflejan alineamientos comparativamente homogéneos. Con base en el parámetro gamma todos los sitios del alineamiento tendrán asignada una tasa de cambio, ya sea que el valor sea muy pequeño o muy alto el valor siempre será distinto de cero, esto es, consideramos que siempre han ocurrido cambios en todas las posiciones del alineamiento, lo cual excluye la posibilidad de alguna posición del alineamiento efectivamente no haya experimentado cambios durante la diversificación de ese linaje específico en esa posición particular. Para cubrir esta última posibilidad se puede incluir un parámetro adicional, el porcentaje de sitios invariantes, que precisamente representa la posibilidad de que algunos de estos sitios no hayan experimentado cambios. Algunos autores consideran que si la gamma cuenta con suficientes categorías, una de éstas puede tener un valor cercano a cero y en los hechos funcionar como un buen representante de los sitios invariantes, evitando la necesidad de adicionar otro parámetro. Independientemente de la aproximación que se use (más categorías para gamma o un parámetro para los sitios invariantes) se ha documentado que incorporar la heterogeneidad de las tasas, incrementa significativamente el buen desempeño de un modelo (Huelsenbeck y Rannala 2004). Por lo que debemos de tomar en cuenta que independientemente de si decidimos usar un parámetro extra para sitios invariantes o no, lo importante es incluir gamma en nuestro modelo.

3. Cómo seleccionar el modelo adecuado? Como se mencionó anteriormente, de manera simplista podríamos pensar que el modelo que incluye más parámetros resulta el más realista (por ejemplo GTR+gamma+sitios invariantes) y por tanto debería ser preferido por encima de los demás. Pero esto implicaría que incluyéramos más parámetros (que posiblemente no resulten necesarios), lo que conlleva a un mayor error asociado y requiere de un mayor esfuerzo computacional. Para seleccionar el modelo que mejor se ajusta a nuestros datos existen varias aproximaciones, pero en lo general derivan de una procedimiento básico. Partiendo de un árbol inicial obtenido por algún método se evalúa cada modelo y se comparan los resultados empleando algún criterio, por ejemplo con base en un árbol obtenido por distancias se calcula la verosimilitud de un conjunto de modelos y los valores obtenidos se comparan empleando una prueba de razón de verosimilitud jerarquizada, la cual compara pares de modelos que difieren en el nivel de complejidad (v.g. número de parámetros) evaluando si el aumento en la complejidad resulta en un incremento estadísticamente significativo del desempeño del modelo (medido en función de la verosimilitud). Si el aumento es significativo se acepta el modelo y se compara contra el siguiente nivel de complejidad. Esta prueba a pesar de lo atractiva que resulta ser por su simplicidad, tiene algunas desventajas como lo es el sesgo que tiene para aceptar modelos más complejos, en parte derivado de su estructura jerárquica. Existen otras alternativas que explícitamente penalizan el aumento en la complejidad como el criterio de información de Akaike, criterios basados en el desempeño al estimar algún parámetro de interés como la longitud de las ramas o el promediado de un conjunto de modelos que obtengan el mejor puntaje en la prueba. Una excelente descripción de los métodos de uso más frecuente fue escrita por Posada (2009). Las técnicas mencionadas previamente son más afines al ámbito de la estadística frecuentista, en tanto intentan obtener un solo modelo con valores para los parámetros específicos y con base en éste realizan la inferencia filogenética, pero en el caso de que la(el) investigadora(or) tenga interés en aprovechar las ventajas de la inferencia bayesiana una opción muy eficiente la constituye la selección de modelo con base en la técnica de salto reversible (Huelsenbeck et al. 2004). Esta técnica explora de entre más de 200 modelos reversibles, buscando aquellos que confieren la probabilidad posterior más alta para la hipótesis. Al final del análisis los modelos son visitados por una cadena de Markov en función de su probabilidad posterior y la(el) investigadora(or) puede revisar que tipo de modelo es el que tuvo mejor desempeño para emplearlo en subsecuentes análisis, como por ejemplo para un análisis de reloj molecular (Magallón en este mismo volumen).

4. Conclusión, los modelos son solamente para nucleótidos? (*los otros modelos) Los modelos paramétricos en general son descripciones simplificadas de fenómenos reales. En un modelo pretendemos representar los elementos fundamentales y determinantes del fenómeno y ajustar esta descripción a distribuciones estadísticas cuyo comportamiento ya conocemos. Esto genera la ventaja inmediata de poder sustentar inferencias del fenómeno, permitiéndonos evaluar hipótesis con referencia a un marco estadístico cuyo comportamiento conocemos y podemos explicar fácilmente. De la misma forma podemos emplear este mismo marco de referencia para estudiar cualquier otro tipo de fenómeno, en tanto seamos capaces de reconocer los elementos fundamentales en el proceso y podamos ajustarlos a las características propias (v.g. limitaciones) de una descripción paramétrica. Este es el caso del modelo desarrollados para datos categóricos (como por ejemplo morfología o comportamiento) por Lewis (2001), los modelos para estudiar la correlación de caracteres (Pagel y Meade 2006) o los desarrollados para inferir la historia de la distribución geográfica de un linaje (Ree et al. 2005), todos ellos son desarrollados con base en el mismo principio de representar diferentes componentes de procesos biológicos mediante parámetros de distribuciones bien conocidas. El hecho que las secuencias tiendan a saturarse al divergir es por si mismo un argumento poderoso para buscar un método que incorpore este fenómeno entre sus supuestos y si además nos permite sustentar inferencias adicionales con base en sus resultados (v.g. reloj molecular y las aplicaciones mencionadas previamente), se convierte en una herramienta inferencial muy poderosa. Las(os) investigadoras(es) contemporáneas(os) deben estar al tanto de la disponibilidad y ventajas de estos métodos, pero su uso debe ser un uso informado, con el fin de sacar el máximo provecho de estas herramientas. Agradecimientos. Agradezco al comité editorial de Manual por haberme invitado a escribir este texto, así como por su amable paciencia y disposición. Mariana del Olmo Ruiz y América Castañeda Sortibrán proporcionaron valiosa ayuda en diferentes versiones de este manuscrito.

Referencias Baum D.A., Smith S.D. 2013. Tree thinking. An introduction to phylogenetic biology. Greenwood Village: Roberts and Company Publishers. Felsenstein J. 2004. Inferring phylogenies. Sunderland: Sinauer. Hasegawa M., Kishino H., Yano T.A. 1985. Dating of the human ape splitting by a molecular clock of mitochondrial-dna. J. Mol. Evol. 22:160 174. Huelsenbeck J.P., Larget B., Alfaro M.E. 2004. Bayesian phylogenetic model selection using reversible jump Markov chain Monte Carlo. Mol. Biol. Evol. 21:1123 1133. Huelsenbeck J.P., Rannala B. 2004. Frequentist properties of Bayesian posterior probabilities of phylogenetic trees under simple and complex substitution models. Syst. Biol. 53:904 913. Jukes T. H., Cantor C. R. 1969. Evolution of protein molecules. In Mammalian Protein Metabolism, ed. H. H. Munro, Vol. III, pp. 21 132. New York: Academic Press. Kimura M. 1980. A simple method for estimating evolutionary rate of base substitutions through comparative studies of nucleotide sequences. J. Mol. Evol. 16:111 120. Lewis P.O. 1998. Maximum likelihood as an alternative to parsimony for inferring phylogeny using nucleotide sequence data. In: Soltis D.E., Soltis P.S., Doyle J.J., editors. Molecular Systematics of Plants. II. DNA Sequencing. Boston: Kluwer Academic Publishers. p. 132 163. Lewis P.O. 2001. A likelihood approach to estimating phylogeny from discrete morphological character data. Syst. Biol. 50:913 25. Monod, J. 1973. Le hasard et la nécessité: essai sur la philosophie naturelle de la biologie moderne. Éditions du Seuil, Paris. Pagel M., Meade A., Barker D. 2004. Bayesian estimation of ancestral character states on phylogenies. Syst. Biol. 53:673 684. Pagel M., Meade A. 2006. Bayesian analysis of correlated evolution of discrete characters by reversiblejump Markov chain Monte Carlo. Am. Nat. 167:808 825. Posada D. 2009. Selecting models of evolution. In: Lemey P., Salemi M., Vandamme A.-M., editors. The phylogenetic handbook. Cambridge: Cambridge University Press. p. 345 361.

Pyron R.A., Burbrink F.T. 2013. Phylogenetic estimates of speciation and extinction rates for testing ecological and evolutionary hypotheses. Trends Ecol. Evol. 28:729 736. Ree R.H., Moore B.R., Webb C.O., Donoghue M.J. 2005. A likelihood framework for inferring the evolution of geographic range on phylogenetic trees. Evolution. 59:2299 2311. Ronquist F. 2004. Bayesian inference of character evolution. Trends Ecol. Evol. 19:475 481. Tavaré S. 1986. Some probabilistic and statistical problems in the analysis of DNA sequences. Lect. Mathemat. Life Scis. 17:57 86. Yang Z. 1994. Maximum likelihood phylogenetic estimation from DNA sequences with variable rates over sites: approximate methods. J. Mol. Evol. 39:306 314. Yang Z. 2014. Molecular evolution. A statistical approach. Croydon: Oxford University Press. Yang Z., Rannala B. 2012. Molecular phylogenetics: principles and practice. Nat. Rev. Genet. 13:303 314.

Figura 1. Representación esquemática de tres diferentes modelos de sustitución. Cada flecha en el modelo representa un tipo de sustitución, el grosor de la flecha representa la frecuencia con que sucede el cambio y el tamaño de cada letra representa la frecuencia en que se encuentra cada una de las bases (Redibujado de Yang 2014).