ATCG GCG A-CG ACG ACG ACG. Lección 2. Alineamiento de secuencias. Substitución. Inserción. Alineamiento Mutación. Alineamiento Inserción

Transcripción

1 Mutación de secuencias urso nálisis filogenético Máster de Bioestadística 26 Universidad de Santiago de ompostela Marzo 26 Substitución Inserción Substitución - Inserción diferencia 2 correspondencias diferencias 3 correspondencias gap 2

2 Delección Homología posicional - diferencias 3 correspondencias gap -2 Delección Un alineamiento de secuencias no es más que una hipótesis sobre la homología posicional de los caracteres moleculares. Implica la identificación de indeles (indel = inserción-delección) 26 * 28 * 3 * 32 84r : : r : : r : : r : : r : : 282 ph2f : : 36 cag ttgcctactcctttggg ac correspondencia ( match ) gap - diferencia ( mismatch ) Método de matrices de puntos (I) El método de matrices de puntos (ibbs and McIntyre 97) es una herramienta gráfica para la comparación de dos secuencias. Se coloca un punto dónde las secuencias coinciden y luego se traza la ruta del alineamiento. óptimo El alineamiento óptimo es aquél en el que el número de diferencias y gaps es mínimo. Secuencia : Secuencia 2: Diagonal con punto = match Diagonal sin punto = mismatch Horizontal = gap (arriba) Vertical = gap (izquierda) * * (I) - - diferencias 7 correspondencias gaps (II) 5 diferencias * * * * * 4 correspondencias - - gap (III) - 2 diferencias * * 6 correspondencias gaps Pero la optimalidad siempre depende del coste de los diferentes eventos.

3 linear implica decicidir - indel 3 cambios - indel cambio - indel cambio indel cambio oste indel = oste cambio = oste indel = oste cambio = indeles cambios Penalizaciones en alineamientos Para comparar gaps y correspondencias establecemos: Penalización de gap ( gap penalty ) Penalización de diferencia ( mismatch penalty ) Indíce de disimilitud: D = y i = número de diferencias de tipo i m i = penalización de la diferencia de tipo i z k = número de gaps de longitud k w k = penalización por gaps de longitud k! m i y i +! w k z k oste indel = oste cambio = 2 oste indel = oste cambio = 3 Indíce de similitud: x = número de correspondencias z k = número de gaps de longitud k w k = penalización por gaps de longitud k S = x! " w k z k Penalizaciones de gaps Penalización de la substitución nucleotídica Se suelen asumir dos componentes en las penalizaciones de los gaps (w k ): oste por apertura (a) - oste por extensión (e) Puede haber diferentes costes para las diferentes substituciones en la secuencia de DN, por ejemplo: Hay varios sistemas posibles de penalización: Fijo: sin coste por extensión; w k es constante (k es la longitud) Linear: w k = a + e! (k - ) Logarítmico: el coste de extensión incrementa logarítmicamente con k 2 D =! m i y i +! w k z k

4 Penalización del remplazamiento aminoacídico Matrices PM 2 símbolos en vez de 4 Diferentes aminoácidos difieren en distinto número de substituciones: isteína -> irosina = UU -> UU isteína -> Metionina = UU -> U Poseen propiedades bioquímica y físicas muy diferentes Se utilizan matrices de puntuación como PM (Dayhoff et al. 978) y BLOSUM (Henikoff and Henikoff, 992) Las matrices PM ( percent accepted mutation ) indican la probabilidad de que un aminoácido sea remplazado por otro a lo largo de un intervalo de tiempo. PM es el tiempo transcurrido para que se produzcan diferencias del %. Se estimaron los reemplazamientos aminoacídicos ocurridos a partir de 572 cambios en 7 grupos de proteínas con al menos un 85% de similitud. ada sitio ha cambiado como mucho una vez Es sencillo construir árboles filogenéticos, y así estimar los reemplazamientos Los valores de PM se pueden elevar para obtener matrices más adecuadas para secuencias más divergentes: PM % identidad Probabilidad i <->j = log (tasa de mutación observada i <->j / tasa de mutación esperada a partir de las frecuencias aminoacídicas) (estos valores están multiplicados por ) Un valor de +2 implica que esperamos que el cambio ocurra.2 =.6 veces de forma más frecuente que por azar PM Matrices BLOSUM R N D Q E H I L K M F P S W Y V 2 R -2 6 N 2 D Q E H I L K M F P S W Y V Derivadas de muchos alineamientos locales de dominios proteicos de 3-6 aa ( blocks substitution matrices ) Dentro de los bloques se agrupan secuencias que son más similares que un cierto valor umbral (p.e., 62%), en una secuencia consenso. Se comparan pares de secuencias y se tabulan las co-ocurrencias de los aminoácidos día de hoy se utilizan las matrices BLOSUM ya que : No asumen que todos los sitios mutan con la misma tasa Fueron derivados con muchos más datos que las PM Fueron derivadascon varios tipos de proteínas (PM -> globulares) Pueden ser utilizadas con secuencias más divergentes Blosum62 es una matrix muy utilizada por defecto.

5 ipos de alineamiento lobal vs. local: se alinean las secuencias en todas su extensión, o se realizan alineamientos de fragmentos Por parejas vs. múltiple: se alinean secuencias de dos en dos, o más de dos simultáneamente. lgoritmo de Needleman-Wunsch (97) global de dos secuencias arantiza el alineamiento óptimo(s) dado los parámetros de alineamiento Utiliza programación dinámica: fraccionar el problema en pequeños subproblemas independientes onstruimos una matriz de costes posibles que se trazan hacia atrás para buscar el alineamiento óptimo. Exactos vs Heurísticos: se obtiene siempre el alineamiento óptimo (Needleman- Wunsch (97) [global], Smith-Waterman (98) [local])) o se intenta buscar el mejor (BLS -basado en SW8), FS) OSES (diagonal) correspondencia = (diagonal) diferencia = 2 (vertical u horizontal) indel = lgoritmo de Needleman-Wunsch (97) lgoritmo de Needleman-Wunsch (97) OSES (diagonal) correspondencia = (diagonal) diferencia = 2 (vertical u horizontal) indel = oste del alineamiento =

6 lgoritmo de Smith-Waterman (98) Significación de un alineamiento El algoritmo de Needleman-Wunsch es inapropiado para alinear un fragmento pequeño con una secuencia grande -> penalización por gaps en regiones externas Smith-Waterman realizan varias modificaciones al algoritmo de Needleman- Wunsch para poder alinear localmente: La primera fila y columna de la matriz se componen de ceros. Hay un cuarto tipo de paso: terminación de región Empieza el trazado restrospectivo desde el valor óptimo, esté dónde esté. Es el coste del alineamiento menor que el esperado por azar? leatorizar una de las secuencias y realinear múltiples veces para construir la distribución nula del coste de alineamientos al azar. En el caso de base de datos, éstas mismas proporcionan la población control. Valor-Z = (media - coste) / desviación estándar Z! 5 suelen ser significativos P = probabilidad de que el alineamiento no sea mejor que un alineamiento al azar P " - ajuste perfecto - " P " -5 secuencias casi idénticas -5 " P " - secuencias muy relacionadas -5 " P " - secuencias distantes P > - probablemente no significativo La zona de penumbra de alineamientos de proteinas está en el 8-% de identidad Mioglobina de esperma de ballena y legahemoglobina del lupino: 5% identidad. Estructuras 3D similares. Son homólogos distantes Secuencias N y terminal de la rodanesa: % identidad. Parálogos. Quimotripsina y subtilisina: 2% identidad. No homólogas. BLS Es la herramienta más popular para búsquedas en bases de datos ( Basic Local Sequence lignment ool ) Para este propósito es mucho más rápida que el algoritmo de Smith-Waterman Busca regiones cortas de correspondencia entre nuestra secuencia ( query ) y cada una de las secuencias de la base de datos. Una vez que ha identificado una región con un buen ajuste, trata de extenderla EJEMPLO EJE JEM EMP MPL PLO JEM JM JVM JLM JE etc. Repetir con 4 letras JEMP JMP JVMP JLMP JP etc. Repetir con 5 letras Programas BLS BL2SEQ - Permite crear el alineamiento local heurístico de dos secuencias nucleotídicas o proteicas BL2SEQX - Permite crear el alineamiento local heurístico de una secuencias nucleotídicas con una proteica BLSP - Usa una secuencia proteica para sondear una base de datos de proteínas BLSN - Usa una secuencia proteica para sondear una base de datos de secuencias de DN que han sido traducidas a proteínas. BLSN - Usa una secuencia nucleotídica para sondear una base de datos de secuencias de DN BLSX - Usa una secuencia nucleotídica traducida a proteína para sondear una base de datos de proteínas BLSX - Usa una secuencia nucleotídica traducida a proteína para sondear una base de datos de secuencias de DN que han sido traducidas a proteínas. Score = 55.5 bits (32), Expect = 2e-3 Identities = 33/ (3%), Positives = 58/ (52%), aps = 7/ (6%) Query: 3 YRKQSQILKEHMDKVIPLPELVMFHISLSQ--EVNNHSNKEYIFQISNNW Q L+ D+ + + V + + S +VN + +++Y+FQI++ W Sbjct: 3 FRLVQELRRLFDEL-MSNWVLVENESRFDKIKVNKNSRDYLFQINDKYW 6 Query: 6 EKQEDVNSVILSKFLDDDIDDIEKKILQLPELY--WKH L DDI+ KKI WK H Sbjct: 62 S--KPKDNVNQLLDDISVKKIYKRHKFDWYWKNH 9

7 Significación del sondeo de una base de datos Similar a la significación de los alineamientos La misma base de datos proporciona la población control. Valor-E: es el número esperado se secuencias que resultan en el mismo o mejor valor-z si la base datos se sondea con una secuencia al azar. Depende del tamaño de la base de datos. E ".2 secuencias probablemente homólogas.2 " E " la homología no se puede descartar P > esperado por azar múltiple Necesario para la estimación filogenética En el caso de proteínas pueden permitir inferencias estructurales Zonas conservadas: centro activo Zonas ricas en indeles: lazos superficial minoácidos hidrofóbicos cada 2 posiciones: cadena " superficial minoácidos hidrofóbicos cada 4 posiciones: hélice Muy complicado, la programación dinámica podría ser utilizada en teoría, pero no en la práctica. El alineamiento progresivo utiliza alineamiento en pares de forma iterativa, comenzando por las secuencias más relacionada. Se trata de una solución heurística que no garantiza el coste óptimo. Database ID Name Score Evalue Bsub_gene 6787 NP_ Bsub_gene NP_ tra_gene NP_ El programa lustalw lustalw es el programa más popular para alinear secuencias Los tres pasos básicos de programa LUSL W los comparten todos los métodos de alineamiento progresivo : alcula una matriz de distancias basándo en distancias entre secuencias alineadas a pares Usa esta matriz para construir un árbol guía Usa este árbol para construir un alineamiento de forma progresiva lustalw: familia de las tripsinas. omputa los alineamientos de todas la parejas Sequences (2:3) ligned. Score: 82 Sequences (4:5) ligned. Score: 65 Sequences (2:4) ligned. Score: 67 Sequences (4:6) ligned. Score: 62 Sequences (2:5) ligned. Score: 67 Sequences (4:7) ligned. Score: 68 Sequences (2:6) ligned. Score: 6 Sequences (4:8) ligned. Score: 5 Sequences (2:7) ligned. Score: 67 Sequences (4:9) ligned. Score: 5 Sequences (2:8) ligned. Score: 53 Sequences (4:) ligned. Score: 53

8 lustalw: familia de las tripsinas 2. onvierte los alineamientos de parejas en distancias lustalw: familia de las tripsinas 3. onstruye el árbol guía (NJ) a partir de las distancias Sequences (2:3) ligned. Score: 82 Sequences (4:5) ligned. Score: 65 Sequences (2:4) ligned. Score: 67 Sequences (4:6) ligned. Score: 62 Sequences (2:5) ligned. Score: 67 Sequences (4:7) ligned. Score: 68 Sequences (2:6) ligned. Score: 6 Sequences (4:8) ligned. Score: 5 Sequences (2:7) ligned. Score: 67 Sequences (4:9) ligned. Score: 5 Sequences (2:8) ligned. Score: 53 Sequences (4:) ligned. Score: 53 lustalw: familia de las tripsinas 4. Progresivamente, desde las puntas del árbol hacia atrás, alinea las secuencias derivadas de cada nodo del árbol. ligning... roup : Sequences: 2 Score:489 roup 2: Sequences: 3 Score: roup 3: Sequences: 4 Score:488 roup 4: Sequences: 2 Score:465 roup 5: Sequences: 5 Score:424 roup 6: Sequences: 7 Score:4 roup 7: Sequences: 2 Score:487 roup 8: Sequences: 3 Score:467 roup 9: Sequences: 4 Score:433 roup : Sequences: Score:422 lignment Score 76 lustalw: familia de las tripsinas EEI-II ----PRILMRKQDSDLVPN-FSP Ii_Mutant ----PRLLMRKQDSDLVPN-F-- BDI-II ---RPRILMRKRDSDLVQKN-Y-- MeI-B ---VPRILMKKDRDLKRN-Y-- MI-IV HEERVPRILMKKKDSDLEVLEH-Y-- SI-IIB ---MVPKILMKKHDSDLLDVLEDIYVS MRI-I ---IPRILMEKRDSDLQVKRQ-Y-- rypsin ---RIPRIWMERDSDMKIV--H-- IR_MOMH ---RSPRIWMERDSDMKIV--H-- MI- ---RIPRIWMEKRDSDMQIVD--H-- LI-III ---RIPRILMESSDSDLEILEN-F-- onsensus **:: *.*. * **: * *.**

9 Opciones de lustal W lustal X lustal permite jugar con varios parámetros - Matrix de puntuación (PM, Blosum, ti/tv, ) - pertura de gap - Extensión de gap - aps de proteínas (loops, residuos,etc) - Penalizaciones relacionadas con la estructura secundaria Produce alineamientos razonables en un amplio rango de condiciones Pero no es infalible: conviene revisar lustal X BioEdit

10 Blocks