Alineamiento local: búsqueda de homologías

Documentos relacionados
Comparación de secuencias de ADN y proteínas Matriz de puntos Alineamientos de secuencias

Búsqueda de similitud en BD

BÚSQUEDA DE SECUENCIAS PARECIDAS (Similarity search)

Aplicaciones guiadas: Blast. Genome Browsers.

Andrés M. Pinzón Centro de Bioinformática Instituto de Biotecnología Universidad Nacional de Colombia

BLAST: Búsqueda de homologías. 13/06/10 J.L. Mosquera, I. Ortega i A. Sánchez 1

Biotecnología. Alineación de secuencias. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Diseño de un Procesador para el Alineamiento Global de Secuencias de DNA

Alineamientos de Secuencias. CeCalCULA - C.P.T.M. Mérida. Venezuela.

TEMA 3.1. Obtención de secuencias

Alineamiento de pares de secuencias. Rodrigo Santamaría

Uso de herramientas para alineación

Por regla general, las búsquedas con BLAST obedecen a uno de estos dos objetivos:

Métodos de alineamiento (2) Bioinformática, Elvira Mayordomo

Predicción computacional de genes (Gene finding)

DOT PLOT: VISUALIZACIÓN DE LA SIMILITUD ENTRE DOS SECUENCIAS

BIOINFORMÁTICA. Vicente Arnau Llombart. Técnicas Avanzadas de Inteligencia Artificial.

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA. Alineamiento múltiple de secuencias

Comparación de secuencias

Algoritmos de alineamiento optimo para pares de secuencias

Alineamiento múltiple de secuencias

Análisis de secuencias biológicas

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA BLAST

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA. Alineamiento de secuencias de genes/proteínas

CONGRUENCIA METODOLOGICA EN LOS ANALISIS FILOGENETICOS A PARTIR DE ALINEAMIENTO Y RECONSTRUCCION. Katherine Cuadros

ATCG GCG A-CG ACG ACG ACG. Lección 2. Alineamiento de secuencias. Substitución. Inserción. Alineamiento Mutación. Alineamiento Inserción

PRACTICA VI: BUSQUEDA DE SIMILITUDES EN BASES DE DATOS

Similitud de Secuencias: de un Par a Todas contra Todas

BLAST. Rodrigo Santamaría

Alineamiento de pares de secuencias

ANOVA. Análisis de la Varianza. Univariante Efectos fijos Muestras independientes

Búsqueda de secuencias en Bases de Datos.

Práctica X: Genómica comparativa

ALGORITMOS PARA PREDICCIÓN DE LA FUNCIÓN DE PROTEÍNAS

Alineamiento de secuencias

Efectos de los alineamientos

PRACTICA V: ALINEAMIENTO POR METODOS HEURISTICOS Y ANÁLISIS ESTADÍSTICO DE LAS PUNTACIONES DE LOS ALINEAMIENTOS.

Introducción a la Bioinformática Alineamiento de secuencias Búsqueda de secuencias en bases de datos

Qué es un gen? Helen Pearson : Genetics: What is a gene? (Nature 441, )

DAMBE - DR. XUHUA XIA

Revista. Resumen. Introducción

GUÍA RÁPIDA DEL PROCESO DE IDENTIFICACIÓN Y ANÁLISIS FILOGENÉTICO DE RECURSOS GENÉTICOS, BASADO EN LA COMPARACIÓN DE SECUENCIAS DE ADN.

CONSTRUCCIÓN DE UNA BASE DE DATOS GENÓMICA Y SU EMPLEO MEDIANTE UNA APLICACIÓN DE ANÁLISIS DE SECUENCIAS

2 Congreso Colombiano de Bioinformática y biología computacional.

Herramientas de Bioinformática en NGS

Enfermedad Mendeliana. Búsqueda en bases de datos con proteínas homólogas. Clonaje in silico del gen. Gen candidato

Guía de actividades. Trabajo colaborativo 2

ORGANIZACIÓN, FUNCIÓN Y VARIABILIDAD DEL GENOMA 2010 PRÁCTICO: ANOTACIÓN GENÓMICA UTILIZANDO ARTEMIS

GenBank. Resumen y búsquedas básicas

Diseño e implementación de sistemas de computación de alto rendimiento para acelerar algoritmos biomédicos

Investigación en evolución

Análisis y caracterización de trabajos BLAST para la planificación eficiente en entornos Grid y Supercomputación

BIOINFORMÁTICA PARA PRINCIPIANTES I: ANÁLISIS DE SECUENCIAS NUCLEOTÍDICAS (DNA)

Alineamientos de múltiples secuencias. Rodrigo Santamaría

BIOINFORMÁTICA PARA PRINCIPIANTES II: INTRODUCCIÓN AL ANÁLISIS BIOINFORMÁTICO DE PROTEÍNAS

Comparación de secuencias de ADN y proteínas Matriz de puntos Alineamiento global

Análisis y anotación de una secuencia mediante las herramientas y bases de datos de UCSC Genome Bioinformatics & Galaxy

ACTIVIDAD 3: Intervalos de Confianza para 1 población

Ejemplos de aplicaciones con FPGA: Computación de Alta Performance (HPC)

Perfiles y modelos ocultos de Markov

Comparación de secuencias

Pablo Vinuesa 2007, 1

Búsqueda paralela exhaustiva aplicada a cadenas de ADN y ARNi

Práctica 1: Alineamientos

VALIDEZ DE LA INVESTIGACIÓN: VALIDEZ INTERNA, EXTERNA Y DE CONSTRUCTO, DE CONCLUSIÓN ESTADÍSTICA

VALIDEZ DE LA INVESTIGACIÓN (I): VALIDEZ INTERNA, EXTERNA Y DE CONSTRUCTO

Métodos de alineamiento (3) Bioinformática, Elvira Mayordomo

EFECTO DE BASES AMBIGUAS EN LA RESOLUCION DE LAS FILOGENIAS. Laura Rocío Forero Moreno

Detectar micrornas en datos de secuencación masiva

ESTADÍSTICA (PEBAU 2017)

Tema 8. Mapas físicos Genómica estructural

Metaheurísticas aplicadas a la resolución del problema de ensamblado de fragmentos de ADN

Introducción a la Bioinformática

Introducción al análisis de datos RNA- Seq con Galaxy y la suite Cufflinks

Objetivos y avances del consorcio latinoamericano para el secuenciamiento del genoma de la papa

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA. Alineamiento múltiple de secuencias

Inferencia estadística en la EBAU de Murcia INFERENCIA ESTADÍSTICA EN LA EBAU DE MURCIA

ESTIMACIÓN DE PARÁMETROS. INTERVALOS DE CONFIANZA PARA LA MEDIA POBLACIONAL.

Homología de Isoformas Filogenia, Ortología y Adaptación

Bioinformática Clásica Tema 3: Análisis de Secuencias (2) Algoritmia

Universidad Autónoma de Nuevo León Facultad de Ciencias Biológicas Licenciado en Biotecnología Genómica

Introducción a la bioinformática

Distribuciones de probabilidad

BASES DE DATOS DE INTERÉS EN BIOQUÍMICA

Alineamientos Bioinformática. Daniel M. Alberto M. Fernando M.

Taller 4 Probabilidades para Enseñanza Media

PRUEBAS DE ACCESO A LA UNIVERSIDAD L.O.G.S.E

Bioinformática Clásica

Dinámica Molecular de Proteínas Modelado y Simulación Computacional

Bioinformática. Código: Créditos ECTS: 6. Titulación Tipo Curso Semestre. Uso de idiomas

LECCIÓN 4. Evaluación e interpretación de resultados en caracterización molecular. Lección 4 1

Análisis Estadístico. Dra. Adela Del Carpio Rivera Doctor En Medicina

Directora: Dra. Anna Morajko.

Distribuciones de parámetros conocidos

Bioinformática Clásica

Motivos, patrones y perfiles

Transcripción:

Alineamiento local: búsqueda de homologías

Supongamos que el material de partida para realizar una búsqueda de homologías no es un gen o una proteína completos y bien caracterizados de los que podamos usar una clave de acceso o una palabra clave, sino que solo disponemos de un oligonucleótido: TACAGCAGATAGCAGCCATAGCCGCATACGTCGCGACTAC O bien de un oligopéptido: PTWRVPGRMEKWHALVKYLKYRTKDLEEVR Cómo saber entonces si existe algún gen o proteína similar a ellos en la base de datos? Para responder a esto, necesitamos hacer un rastreo de la base de datos.

El alineamiento completo (global) de dos secuencias (Smith- Waterman) es muy preciso y garantiza obtener el alineamiento óptimo. Pero ese algoritmo es muy lento. El tiempo de cálculo es proporcional al producto de las longitudes de las dos secuencias que se quieren alinear (o al producto de la longitud de nuestra secuencia problema y la de todas las secuencias de la base de datos). Por el contrario, los algoritmos de alineamiento local son mucho más rápidos.

Alineamiento local Se localizan todas las subsecuencias similares entre las dos secuencias: Query: 181 acgatagcagatagcgcatagcgactagcgactgcagctacgcagcatagcagcagcaga 240 Sbjct: 189 tgagctagagatagctacgacgcatcagcgatagcagctaggcagctgcagcgactagca 247 El alineamiento se trata de extender en los dos sentidos mediante alineamiento global: Query: 181 acgatagcagatagcgcatagcgactagcgactgcagctacgcagcatagcagcagcaga 240 Sbjct: 189 tgagctagagatagctacgacgcatcagcgatagcagctaggcagctgcagcgactagca 247

Puntuación de un alineamiento

Puntuación de un alineamiento (ejemplo) AACGTTTCCAGTCCAAATAGCTAGGC ** * * * AACCGTTC---TACAATTACCTAGGC Emparejamientos (+1): 18 * Desemparejamientos (-2): 5 - Huecos (existencia-2, extension -1): 1 de longitud 3 Puntuación = [18 * 1] + [5 * (-2)] + [( 2) + 2*(-1)] = 4

Significación estadística de un alineamiento: Test de randomización Se alinean las dos proteínas y se obtiene una puntuación real para el alineamiento obtenido: RBP: 26 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWD- 84 + K++ + + +GTW++MA + L + A V T + +L+ W+ glycodelin: 23 QTKQDLELPKLAGTWHSMAMA-TNNISLMATLKAPLRVHITSLLPTPEDNLEIVLHRWEN 81 Se randomiza la segunda secuencia 100 veces, permutando al azar ( shuffling ) las posiciones que ocupan los aminoácidos (manteniendo por tanto la longitud de la secuencia y la composición de aminoácidos) Se alinea cada secuencia randomizada con la primera secuencia y se obtienen 100, 1.000, 10.000 puntuaciones aleatorias Cabe esperar que la puntuación real sea mucho mas grande que las puntuaciones aleatorias

A randomization test shows that RBP is significantly related to b-lactoglobulin 16 Number of instances 14 12 10 8 6 4 2 100 random shuffles Mean score = 8.4 Std. dev. = 4.5 Real comparison Score = 37 0 1 10 19 28 37 Quality score

Alineamiento local: FASTA Fast Algorithm Pearson & Lipman, 1988

Valor E: probabilidad de que la similitud encontrada se deba al azar

Valor P y valor E Valor P: Probabilidad de que un suceso ocurra por azar. En el contexto del alineamiento de secuencias, el valor P asociado a una determinada puntuación S de un alineamiento es la probabilidad de obtener por azar una puntuación al menos tan alta como S. Valor E (expectation value): Corrección del valor P para ensayos múltiples. En el contexto del alineamiento de secuencias, el valor E asociado a una puntuación S es la proporción de alineamientos obtenidos por azar en un rastreo de la base de datos con puntuaciones al menos tan buenas como S. Cuanto más bajo el valor E, más significativa es la puntuación obtenida para un alineamiento.

Alineamiento local: BLAST Basic Local Alignment Search Tool Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. (1990)

Valor E: probabilidad de que la similitud encontrada se deba al azar

Program Name Description Abbreviation FASTA Scan a protein or DNA sequence library for similar sequences. fasta FASTX FASTY Compare a DNA sequence to a protein sequence database, comparing the translated DNA sequence in forward and reverse frames. Compare a DNA sequence to a protein sequence database, comparing the translated DNA sequence in forward and reverse frames. fastx fasty SSEARCH Compare a protein or DNA sequence to a sequence database using the Smith-Waterman algorithm. ssearch GGSEARCH Compare a protein or DNA sequence to a sequence database using a global alignment (Needleman-Wunsch) ggsearch GLSEARCH Compare a protein or DNA sequence to a sequence database with alignments that are global in the query and local in the database sequence (global-local). glsearch