LECCIÓN 4. Evaluación e interpretación de resultados en caracterización molecular. Lección 4 1

Documentos relacionados
DOT PLOT: VISUALIZACIÓN DE LA SIMILITUD ENTRE DOS SECUENCIAS

Andrés M. Pinzón Centro de Bioinformática Instituto de Biotecnología Universidad Nacional de Colombia

MARCADORES GENÉTICOS

Alineamiento múltiple de secuencias

Código de barras del ADN. Dra. Analía A. Lanteri División Entomología- Museo de La Plata

Análisis de la diversidad genética utilizando datos de marcadores moleculares: Módulo de aprendizaje Medidas de la diversidad genética

T4. Métodos para cuantificar la variación genética. Marcadores moleculares

TEMA 7 GENÉTICA DE POBLACIONES

MÉTODOS PARA ESTIMAR PARÁMETROS FENOTÍPICOS Y GENÉTICOS DE LA DESCENDENCIA

Deriva selección: Pob. grande, deriva pequeña. Estudios de simulación nos dan una idea del efecto de deriva en las poblaciones:

Introducción a la Bioinformática

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA. Alineamiento múltiple de secuencias

LA ENDOGAMIA. MODELO SIMPLE DE POBLACIÓN SUBDIVIDIDA

GENÉTICA CUANTITATIVA

Técnicas moleculares en ecología y biología de la conservación

LAB 1 LAB 1/2. Estadística descriptiva. Pruebas de neutralidad. Mismatch distribution. Tajima Fu MacDonald-Kreitman

Investigación en evolución

Ejercicio para detectar ligamiento y frecuencias de recombinación:

Genética de poblaciones

Reacción en cadena de la Polimerasa, sus aplicaciones y algunos elementos de ecología molecular. Polymerase Chain Reaction (PCR)

Trazabilidad de Mejillón chileno (Mytilus chilensis) usando marcadores microsatélites INTRODUCCIÓN

II. CARACTERIZACIÓN MEDIANTE MARCADORES MOLECULARES. EJERCICIO 6. Análisis genético de poblaciones con un marcador codominante.

Práctica 1: Alineamientos

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA. Evolución Molecular y Filogenia

Búsqueda de secuencias en Bases de Datos.

BÚSQUEDA DE SECUENCIAS PARECIDAS (Similarity search)

Tema 15: Alteraciones del. Procesos dispersivos

DÍA NACIONAL DEL MAÍZ

Tema 14: Genética de Poblaciones Población mendeliana Equilibrio Hardy-Weinberg

La teoría de coalescencia

7. La variabilidad en las poblaciones naturales y su medida. El principio de Hardy-Weinberg. Variación en caracteres cuantitativos.

MUTACION, MIGRACION Y DERIVA GENICA. Dra. Egle Villegas Castagnasso

8. Estructura poblacional y flujo génico. Estadísticos F. Equilibrios entre deriva y flujo génico.

EVOLUCIÓN. I. Objetivos. II. Introducción

GENÉTICA DE POBLACIONES Dra. Blanca Urzúa Orellana Departamento de Ciencias Básicas y Comunitarias. Facultad de Odontología, U. De Chile.

Unidad 2: Genética y herencia

Alineamiento de pares de secuencias

Genética de poblaciones

INTRODUCCIÓN POBLACIÓN IDEAL TAMAÑO EFECTIVO Y

Análisis de la biodiversidad genética de 68 accesiones de algodón Pima y Tanguis con SSRs

Marcadores Moleculares en Pollos. Gabriela. M. Iglesias, M.V. MSc

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA. Alineamiento de secuencias de genes/proteínas

Elvira Mayordomo y Jorge Álvarez. Marzo - Abril de 2016

Herencia y técnicas de biología molecular utilizadas en el diagnóstico de enfermedades hereditarias

LIGAMIENTO Y MAPEO GENICO

PEDRO JAVIER AZOR ORTIZ CONSERVACIÓN Y GESTIÓN SOSTENIBLE DE LA RAZA EQUINA MENORQUINA

Filogenias. Charles Darwin (1859)

GENÉTICA Y BIOTECNOLOGÍA MARINA Profesores Beatriz Camara (UTFSM) José Gallardo (PUCV) Doctorado en Biotecnología I Semestre 2015

Taller de Herramientas para Análisis de Secuencias (THAS)

07/10/2013. Diversos tipos: Sustitución: Ts = Pu x Pu ó Py x Py

HERENCIA CUANTITATIVA

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

TAXONOMÍA MOLECULAR. Dra. Alicia Luque CEREMIC

Alineamientos de múltiples secuencias. Rodrigo Santamaría

Gen. Locus. El lugar donde se localiza el gen en el cromosoma.

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA

Por regla general, las búsquedas con BLAST obedecen a uno de estos dos objetivos:

IDENTIFICACIÓN FORENSE

GENÉTICA DE LA CONSERVACIÓN. Biología de la Conservación

1. CONCEPTOS FUNDAMENTALES

Tema 27. LIGAMIENTO I

GUÍA RÁPIDA DEL PROCESO DE IDENTIFICACIÓN Y ANÁLISIS FILOGENÉTICO DE RECURSOS GENÉTICOS, BASADO EN LA COMPARACIÓN DE SECUENCIAS DE ADN.

TALLER (Evaluación 20 de abril). C E R T A A P R I N C I P I O D E S E G R E G A C I O N I

Sewall Wright. APAREAMIENTOS NO AL AZAR (apartamientos de la panmixia)

CLASIFICACIÓN, FILOGENIA, TAXONOMIA Y SISTEMÁTICA

CRUZAMIENTOS. Formación de nuevas razas

Aplicaciones guiadas: Blast. Genome Browsers.

Filogenias. Inferencia filogenética

TAXONOMÍA MOLECULAR TAXONOMÍA MOLECULAR

Bioinformática Clásica

Tipos de variación genética

Conceptos básicos de filogenética molecular

Biotecnología y bioinformática

Tema 13. Los caracteres cuantitativos. Genética CC.MM.

tuberosus (Fairmaire & Germain)

Endogamia Apareamiento no-aleatorio (consanguinidad) Luis Eguiarte, Valeria Souza, et al. Endogamia más extrema... autoferilización...

Definición:Bioinformática

Seminario VI. APLICACIONES DEL LIGAMIENTO

Genética de poblaciones

Técnicas de biología molecular utilizadas en el diagnóstico de enfermedades hereditarias

Mecanismo propuesto por Darwin en El Origen de las Especies (1859), para explicar la evolución de todas las formas de vida en la tierra:

INTRODUCCIÓN A LA GENÉTICA DE POBLACIONES

Fecha de elaboración: 12 de mayo de 2010 Fecha de última actualización: 27 de mayo de 2010

Curso de Evolución 2015 Facultad de Ciencias Montevideo, Uruguay

Niveles de Organización de la Materia Genética Mendeliana

PRINCIPIOS DE GENÉTICA CUANTITATIVA

UNIVERSIDAD AUTONOMA CHAPINGO PROGRAMA DE ASIGNATURA: BIO-642 ESTADÍSTICA GENÓMICA. Bio 642 Estadística Genómica

GENÉTICA CUANTITATIVA Y LAS BASES MOLECULARES DE LOS RASGOS MULTIFACTORIALES.

EL PROBLEMA DE LOS TRES PUNTOS

José Francisco Delgado Blas. Nerea de Andrés Fernández.

1 - Las poblaciones de ratón doméstico, Mus domesticus ubicadas en la provincia de

Utilizamos modelos matemáticos para conocer el modo por el cual un proceso es influenciado por variables fundamentales

06/05/2013 EQUILIBRIO DE HARDY-WEINBERG EQUILIBRIO DE HARDY-WEINBERG EQUILIBRIO DE HARDY-WEINBERG

Pregunta PSU, Demre Modelo de admisión 2018

Desarrollo de herramientas moleculares para la mejora genética en ornamentales

ANÁLISIS DE MARCADORES MICROSATÉLITES EN UNA POBLACIÓN DE BÚFALOS DE AGUA DE CUBA

Resumen de la clase anterior

Facultad de Veterinaria

Tema 1. El análisis genético

Diseño de un Procesador para el Alineamiento Global de Secuencias de DNA

Transcripción:

LECCIÓN 4. Evaluación e interpretación de resultados en caracterización molecular. Lección 4 1

Posibles enfoques del trabajo Determinación de la diversidad genética y su distribución entre y dentro de las poblaciones de una determinada especie. Cuantificación de las relaciones entre UBC y representación geométrica de dichas UBC. La cuantificación de las relaciones se puede hacer desde dos puntos de vista: - Basado en las distancias geométricas (las llamaremos distancias fenotípicas, también llamadas fenéticas). No considera los procesos evolutivos, por lo que la distancia permanece constante con tiempo Los dendrogramas obtenidos son fenogramas que no pueden interpretarse como árboles filogenéticos - Basado en las distancias genéticas. Considera los procesos evolutivos Lección 4 2

Posible interpretación de los resultados Interpretación genética Frecuencias de cada uno de los alelos posibles en cada locus Lección 4 3

Posible interpretación de los resultados (2) Interpretación fenotípica Presencia/Ausencia de bandas por lo que se considera que cada banda es un locus con 2 alelos 1:presente 0: ausente Lección 4 4

Posible interpretación de los resultados (3) Interpretación molecular En casos de secuenciación Lección 4 5

Posible interpretación de los resultados (4) Tipo de marcador PRINCIPAL Interpretación SECUNDARIA Codominante Genética Fenotípica Dominante Fenotípica Genética (con restricciones): En especies autógamas para locus que solo presenten 2 alelos presencia/ausencia de una banda Es necesario examinar 2 generaciones de la misma población para medir la segregación de los loci Lección 4 6

Diversidad genética: Interpretación genética Frecuencias alélicas (p i ) Número medio de alelos por locus (A) Número medio de alelos por locus polimórfico (Ap) Es aquel en que la frecuencia del alelo más común es igual o inferior a 0.99 (0.95). Índice de polimorfismo Relación entre el número de loci polimórficos frente a totales (%) Número de alelos únicos. Se encuentran solo en esa población Número efectivo de alelos en un locus (Effective Number of Allele: ENA) (Kimura and Crow, 1964). Hace referencia a los alelos con capacidad de pasar a la siguiente generación ENA 1 2 p i p i : frecuencia del alelo i Lección 4 7

Div. genética: Interpretación genética (2) Heterocigosidad esperada (heterocigosisdad media o diversidad genética media) (He) (Nei 1973) He Hav n j1 n Hj n 1 n m j1 i1 p H j : Heterocigosidad esperada en un locus j p ij : frecuencia del alelo i del locus j m: número de alelos en el locus j n: número de loci considerados Expresa la heterocigosidad esperada en el locus medio si el apareamiento fuese al azar Valor máximo (=diversidad máxima) Hj=0,5 Valor minimo (=diversidad mínima) Hj=0 Este índice puede estimar la diversidad genética: Promedio de la diversidad genética intrapoblacional (H S ) Diversidad genética total (en la población total = de todas las poblaciones) (H T ) Diversidad genética interpoblacional: D ST = H T -H S Coeficiente de diferenciación genética entre poblaciones G ST = (D ST /H T )*100 Lección 4 8 2 ij

Div. genética: Interpretación genética (3) Heterocigosidad observada (Ho) H o número individuos heterocigo tos total de individuos analizados Probabilidad de alelos nulos para un determinado locus r H e H 1 H e o Si es negativa o muy baja puede considerarse que la presencia de una sola banda de MM-ADN, corresponde con un homocigoto, y no con un heterocigoto con un alelo nulo. Lección 4 9

Div. genética: Interpretación genética (4) Estadísticos F (Wright) FIS: Coeficiente de endogamia. Mide la reducción en la heterocigosidad individual debido a las desviaciones de los cruzamientos al azar F IS H S H H S l H l Promedio de la heterocigosidad observada en todas las poblaciones H S Heterocigosidad esperada en cada subpoblación FST: Índice de fijación. Reducción de la heterocigosidad en una subpoblación debido a los cruzamientos NO al azar, con respecto a la población total F ST HT H H 1 F 1 F 1 F IS ST T S H T Heterocigosidad esperada en la población total (= de todas las poblaciones) Lección 4 10 IT

Div. genética: Interpretación genética (5) Estadísticos F (Wright) (2) Interpretación de valores F ST. El rango de F ST es: 0 1 no existe diferenciación genética entre subpoblaciones fijación para alelos alternos en diferentes subpoblaciones Valor de F De 0 a 0.05 De 0.05 a 0.15 De 0.15 a 0.25 >0.25 Diferenciación pequeña moderada grande muy grande Lección 4 11

Div. genética: Interpretación genética (6) Análisis de varianza molecular (AMOVA) Sirve para estudiar la variación molecular dentro de una especie Se basa en un modelo jerárquico y anidado Diferencias con el ANOVA: Puede contener diferentes suposiciones evolutivas sin modificar la estructura básica del análisis: La hipóteis utiliza métodos de permutación que no requieren la suposición de una distribución normal Niveles jerárquicos de la diversidad genética estudiada por medio del AMOVA: Continentes que contengan niveles jerárquicos menores Regiones geográficas dentro de un continente Zonas dentro de una región, en un continente Poblaciones dentro de una zona de un región, en un continente. Individuos dentro de una población en una zona de una región en un continente Lección 4 12

Div. genética: Interpretación genética (7) Análisis de varianza molecular (AMOVA) (2) Se aplica a haplotipos, que pueden obtenerse de: Datos de RFLP Datos de RAPD Secuencias de ADN Ejemplo del modelo para un caso de medición de la diversidad génica entre poblaciones en áreas de una región en un continente: Y ki(j) =Y+a k +b k(i) +w ki(j) a k : Efecto de la k-ésima población con varianza 2 a b k(i) : Efecto del i-ésimo individuo dentro de la k-ésima población, con varianza 2 b w ki(j) Efecto del j-ésimo locus del i- ésimo individuo de la k-ésima población, con varianza 2 w Lección 4 13

Div. genética: Interpretación genética (8) Contenido de información de un polimorfismo ( Polymorphism Information Content : PIC) (Botstein et al. 1980) PIC 2 2 2 p 2 i pi p 1 j Medida de la informatividad de un marcador genético, que depende del número de alelos para ese locus y de sus frecuencias relativas. Informatividad: Para un marcador genético, la probabilidad de que un descendiente de una pareja sea informativo, es decir, que se pueda deducir el origen parental de cada uno de los alelos de ese locus. PIC junto con ENA sirven para evaluar la utilidad de un determinado locus de un marcador molecular para distinguir entre las UBC analizadas Lección 4 14

Div. genética: Interpretación genética (9) Poder discriminante de un locus marcador (D) (Jones, 1972; Lamoby and Alpha, 1998) Es una estimación de la probabilidad de que dos accesiones muestreadas al azar puedan ser distinguidas por sus perfiles STMS en un determinado locus. D 1 C C: Probabilidad de coincidencia o probabilidad de que dos accesiones coincidan por azar en un locus. C 2 P i Poder discriminante combinado para todos los loci P i : Frecuencia de los diferentes genotipos observados en el locus en cuestión D 1 T C T C T C Lección 4 15

Diversidad genética: Interpretación fenotípica Índice de uniformidad de una población (Weising et al. 1995) Uj 1 m m i1 pij p ij : frecuencia del carácter i (banda i) en la población j m: número de caracteres (bandas) analizado uniformidad máxima U = 1 ó U = 0; mínima U = 0.5 Índice de Shannon de diversidad de una población j (Hj) (Shannon & Weaver 1949) Hj m i1 p ij ln p ij m: número de caracteres (bandas) considerado Su valor mínimo es cero y se hace mayor al aumentar la diversidad Lección 4 16

Div. genética: Interpretación fenotípica (2) Polimorfismo de la población media (H pop ) Hpop 1 n n j1 Hj m i1 p ij ln p ij n: número de poblaciones Polimorfismo de la especie (H sp ) Hsp m i1 p i ln p i pi: frecuencia del carácter i (banda i) en la especie Lección 4 17

Visualización de las relaciones entre UBC: formación de grupos. Condiciones ideales de los caracteres a utilizar: Ser independientes dentro de cada individuo examinado. Ser homólogos entre diferentes individuos. Ser suficientemente numerosos. Lección 4 18

Visualización de las relaciones entre UBC: formación de grupos (2) Problemas de interpretación que pueden plantearse: alta homología Misma banda, mismo fragmento? Una banda, un fragmento? Williams et al. (1993); Rieseberg (1996) Lección 4 19

Visualización de las relaciones entre UBC: formación de grupos (3) Construcción de la Matriz Básica de Datos Estimación del parecido entre UBC: Similitud o distancia Si interpretación genética distancia genética Construcción de la matriz de similitud Formación de grupos Lección 4 20

Visualización de las relaciones entre UBC: formación de grupos (4) Casos: Interpretación genética: Determinación de frecuencias de todos los alelos de cada locus Interpretación fenotípica: Determinación de presencia/ausencia de bandas. Lección 4 21

Relaciones entre UBC: Distancia genética Matriz de datos Tabla con los genotipos de cada UBC Software calcula Matriz de 0/1/2 para las diferentes frecuencias alternativas alélicas de cada locus alélicas Como alternativa, se pueden introducir directamente frecuencias alélicas. Lección 4 22

Relaciones entre UBC: Distancia genética (2) Cálculo matriz de distancia o similitud genéticag entre poblaciones. Distancia de Rogers. (Rogers 1972) d ij 1 2m m q x ki xkj x1 k 1 2 m: número de loci q: número de alelos para el locus x x ki : frecuencia del alelo k en la población i x kj : frecuencia del alelo k en la población j Lección 4 23

Lección 4 24 Cálculo matriz de distancia o similitud genética entre poblaciones (2). Distancia de Nei o distancia genética estándar (Nei 1972) Considera cambios en las frecuencias alélicas derivados tanto de mutaciones como de efectos de deriva genética (adecuada para estudios filogenéticos). q k kj ki q k kj ki x x x x Dij 1 2 2 1 ln g Distancia de Nei (Nei UB o 1978) 1 2 2 1 2 2 ln 1 2 1 2 1 2 2 1 j q k kj j i q k ki i q k kj ki q k kj ki n m x n n m x n x x x x Dij Relaciones entre UBC: Distancia genética (3)

Relaciones entre UBC: Distancia genética (4) Cálculo matriz de distancia o similitud genética entre individuos. Índice de Mannen (GS) (Mannen et al. 1993) GS 2 p 2m q p: número de loci en los que ambos individuos comparten genotipo q: número de loci en los que un individuo es homocigota y el otro heterocigota m: número total de loci analizados Lección 4 25

Relaciones entre UBC: Distancia fenética Matriz de datos Matriz presencia - ausencia. Lección 4 26

Relaciones entre UBC: Distancia fenética (2) Cálculo matriz de distancia o similitud fenéticaf entre individuos*. Coeficiente de Dice (S D ) (Dice 1945) o de Nei-Li (1979). Expresa probabilidad de que una banda en un individuo esté también en otro. Es el índice que se ve menos afectado por las bandas erráticas cuando la similitud entre muestras se debe más a dobles presencias que a dobles ausencias S D ( a b) a 2 ( a c) 2a 2a b c a: número de bandas presentes en ambos individuos b: número bandas presentes en el primer individuo, pero no en el segundo c: número de bandas presentes en el segundo individuo pero no en el primero *o conjunto de individuos de los que se haya obtenido un único patrón de bandas Lección 4 27

Relaciones entre UBC: Distancia fenética (3) Cálculo matriz de distancia o similitud fenéticaf entre individuos (2). Simple Matching Coefficient (S SM ) (Sokal & Michener 1958). Este coeficiente presenta la particularidad de considerar como factor de similitud las dobles ausencias. Su utilización conduce a errores si detrás de las dobles ausencias no hay una identidad (comparaciones interespecíficas mediante RAPDs). No obstante, cuando se hacen comparaciones intraespecíficas, las dobles ausencias se pueden considerar como identidades. S SM a a b d c d d: número de marcadores en los cuales la banda está simultáneamente ausente en ambos individuos Lección 4 28

Relaciones entre UBC: Distancia fenética (4) Cálculo matriz de distancia o similitud fenéticaf entre individuos (3). Coeficiente de Jaccard (S J ) (Jaccard 1908; Sneath & Sokal 1973) s J a a b c Lección 4 29

Tratamiento de los resultados de secuenciación PASO 1: Ensamblar las secuencias de ADN obtenidas de la secuenciación PASO 2: Comparar la secuencia problema con las depositadas en las bases de datos (alineamiento). PASO 3. Alineamientos múltiples. PASO 4. Construcción de árboles filogenéticos. Lección 4 30

PASO 1: Ensamblar las secuencias de ADN obtenidas de la secuenciación Consiste en ensamblar fragmentos para obtener un contig Software para realizar el ensamblaje: DNASTAR o VectorNTI poseen módulos específicos para realizar el ensamblaje Ej: SeqMan es una aplicación del DNAStar que permite: Comparar secuencias de DNA entre sí. Hacer anillamientos de varias secuencias para obtener un consenso final que sería la suma de todas las secuencias parciales. Comparación con bases de datos mediante alineamiento de nuestra secuencia con todas las depositadas en las bases de datos. Lección 4 31

PASO 2: Comparar la secuencia problema con las depositadas en las bases de datos (alineamiento). FINALIDAD: Se trata de comparar nuestra secuencia ("query sequence") con cada una de las secuencias presentes en la base de datos ("subject sequence"), determinando la puntuación de cada alineamiento generado. DEFINICIÓN DE ALINEAMIENTO DE DOS SECUENCIAS: Alinear dos secuencias es un método para determinar si un conjunto de caracteres se encuentran en el mismo orden en dos secuencias OBJETIVO DEL ALINEAMIENTO DE DOS SECUENCIAS: Determinar si poseen suficiente similitud como para poder justificar la existencia de homología entre ellas. La similitud es un concepto cuantificable, que puede medirse y expresarse como un porcentaje de identidad entre dos secuencias. La homología se refiere a una conclusión obtenida de esos datos, e indica si dos secuencias están relacionadas o comparten una historia evolutiva común. Los genes son o no son homólogos, pero no existen grados de homología. Lección 4 32

Alineamiento de nuestra secuencia con las depositadas en las bases de datos EL CONCEPTO DE GAP Son los huecos ( gaps en inglés) que es necesario introducir en el alineamiento para compensar las deleciones/ inserciones que ocurren a lo largo de la evolución. Si permitimos la inserción de numerosos huecos en el alineamiento, en teoría podríamos alinear dos secuencias completamente divergentes, el resultado sería una sucesión improbable de huecos y letras. Para evitar que esto ocurra, los programas de alineamiento introducen: Una penalización en la puntuación del alineamiento por cada hueco que se abre (G o "gap opening penalty") Otra adicional en función de la longitud del hueco (L o "gap extension penalty"). Lección 4 33

Alineamiento de nuestra secuencia con las depositadas en las bases de datos (2) BASES DE DATOS UTILIZABLES CON SOFTWARE ONLINE PARA HACER LA BÚSQUEDA GenBank (http://www.ncbi.nlm.nih.gov/genbank/) que depende del NCBI (National Center for Biotechnology Information) (USA) y que utiliza el software BLAST (Basic Local Alignment Search Tool) para el alineamiento ENA European Nucleotide Archive database (European Molecular Biology Laboratory) (http://www.ebi.ac.uk/ena/) que depende del EBI (European Bioinformatics Institute) (Reino Unido) y que utiliza el software FASTA para el alineamiento. DDBJ (DNA Data Bank of Japan) Específicas como EZTAXON (http://eztaxon-e.ezbiocloud.net/) muy usada para procariotas que alberga la secuencia del gen 16S rdna de más de 35.000 accesiones. Cuando comparamos una secuencia desconocida con las bases de datos, normalmente se comienza utilizando BLAST al ser más rápido. Posteriormente, puede repetirse el análisis usando FASTA para comprobar si alguna homología significativa ha sido omitida por el primer programa. Lección 4 34

PASO 3. Alineamientos múltiples De nuestra secuencia con las más similares encontradas en las bases de datos, o con las que constituyen el grupo de UBC que estamos caracterizando, más otro material de referencia en su caso. Se usan programas como MEGA o CLUSTAL Lección 4 35

Alineamientos múltiples de nuestra secuencia con la de otras UBC DEFINICIÓN DE ALINEAMIENTOS MÚLTIPLES: Es el resultado del alineamiento de 3 o más secuencias unas respecto a otras para lograr alcanzar la máxima similitud entre ellas. PROPOSITO DE LOS ALINEAMIENTOS MÚLTIPLES: colocar los residuos (aminoácidos o bases) que derivan de un ancestro común en columnas. Esto se logra introduciendo gaps que representan inserciones o deleciones ocurridas durante el proceso evolutivo. Por tanto, el alineamiento resultante tras el proceso de alineamiento múltiple de secuencias es un modelo hipotético para explicar las mutaciones (sustituciones, inserciones o deleciones) ocurridas durante la evolución. Es decir, un alineamiento se puede considerar una hipótesis de homología posicional entre residuos. Seq. 1 Seq. 2 Seq. 3 Seq. 4 Seq. 5 Lección 4 36

Alineamientos múltiples de nuestra secuencia con la de otras UBC (2) APLICACIONES DE LOS ALINEAMIENTOS MÚLTIPLES: Si el alineamiento de varias secuencias se considera muy bueno, es muy posible que las secuencias sean similares por razones filogenéticas, siendo en ese caso útiles para: Construir árboles filogenéticos. Indagar sobre la historia biomolecular Especular sobre los factores que han impulsado la evolución (presión selectiva). Como norma general: >50% identidad para interesarse por ellas >75% identidad para estudios filogenéticos Lección 4 37

Alineamientos múltiples de nuestra secuencia con la de otras UBC (3) PASOS A DAR PARA REALIZAR ALINEAMIENTOS MÚLTIPLES: 1. Buscar secuencias similares a la secuencia de interés. Realizar la búsqueda en las bases de datos e identificar las potencialmente homólogas a ésta. Utilizar las secuencias de la UBC en estudio y de otros organismos que a priori se sepa que están relacionados filogenéticamente. 2. Recopilar las secuencias de interés en único documento de texto. El formato del documento dependerá del programa a utilizar 3. Realizar el alineamiento múltiple con el programa que queramos 4. Analizar y editar el alineamiento. Lección 4 38

Alineamientos múltiples de nuestra secuencia con la de otras UBC (4) SOFTWARE PARA PRODUCIR ALINEAMIENTOS MÚLTIPLES: Hay varios programas para realizar alineamientos múltiples. Casi todos utilizan algoritmos heurísticos para realizan alineamientos múltiples progresivos. Por el contrario, el programa PROBCONS se basa en un nuevo parámetro, denominado consistencia probabilística, que permite al programa predecir la probabilidad con la que el alineamiento realizado se ajusta a la realidad. El programa más utilizado es el CLUSTAL. Lección 4 39

Alineamientos múltiples de nuestra secuencia con la de otras UBC (5) CLUSTAL Basado en el método Alineamiento Múltiple Global progresivo por métodos heurísticos. Lógica del programa: Realiza en primer lugar una serie de alineamientos por pares, comparando cada secuencia con todas las demás para construir una matriz de distancias. Formas de utilizar CLUSTAL Instalándolo en nuestro ordenador: Es la versión CLUSTAL X. Usándolo como parte de paquetes bioinformáticos integrados. Utilizándolo a través de páginas Web. Es la versión CLUSTAL W. Información que debe introducirse: Todas las secuencias que deseamos usar en el análisis utilizando cualquier editor de textos grabando en formato ASCII. La forma de expresar las secuencias puede ser el formato de FASTA, EMBL, Swiss-Prot, Lección 4 40

PASO 4. Construcción de árboles filogenéticos. Para la construcción de un árbol filogenético es frecuente utilizar el método de agrupamiento denominado Neighbor Joining (NJ) (Saitou and Nei, 1987). NTSYS puede elaborar este tipo de árboles (la opción está dentro del subprograma Cluster ) Se suele utilizar MEGA También se puede utiliza PHYLIP Lección 4 41

Lección 4 42