Análisis de secuencias biológicas

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Análisis de secuencias biológicas"

Transcripción

1 Capítulo 8 Análisis de secuencias biológicas Álvaro Sebastián 8.1. Introducción Las secuencias son a la biología como las palabras al lenguaje. Normalmente representamos complejos polímeros orgánicos como el DNA o las proteínas usando largas concatenaciones de letras que simplifican su estructura química y nos permiten visualizarlos de forma similar a como leemos este libro. Al igual que las palabras, las secuencias pueden tener una raíz común y compartir significado con otras de la misma familia. Por ello es muy importante conocer las herramientas disponibles para comparar nuevas secuencias con otras ya conocidas y encontrar similitudes que nos ayuden a comprender su función, estructura o evolución, en resumen, el significado biológico de la secuencia Homología de secuencias Dos secuencias que comparten un ancestro común se denominan secuencias homólogas. Dos proteínas homólogas provienen de dos genes homólogos y comparten la misma estructura tridimensional y la misma función biológica (salvo raras excepciones). A veces se confunde homología con similitud, pero la homología es cualitativa y sólo admite dos estados: o ser homólogo o no serlo, y la similitud en cambio es cuantificable. Sin embargo, el grado de similitud entre dos secuencias nos puede servir para inferir la existencia o no de homología entre ambas. Actualmente la comparación de secuencias es la herramienta más poderosa para entender la función biológica de una secuencia desconocida mediante la búsqueda en bases de datos de secuencias homólogas previamente caracterizadas. Para muchas proteínas se pueden encontrar homólogos que tuvieron un ancestro común hace millones de años y que siguen compartiendo características en común como su estructura tridimensional o sitios activos como por ejemplo las hemoglobinas de plantas y animales o el citocromo c de procariotas y eucariotas [14]. En la Figura 8.1A se pueden comparar las estructuras superpuestas del citocromo c humano y el citocromo c2 de la bacteria Rhodopseudomonas viridis, así como sus secuencias proteicas alineadas (Figura 8.1B) observando una clara homología. La predicción de homología se realiza extrayendo la información conservada durante la evolución de las secuencias a comparar. La forma más sencilla de realizar la comparación sería escribiendo cada secuencia en una línea y anotando los nucleótidos o aminoácidos comunes. Sin embargo, las secuencias sufren 211

2 cambios y mutaciones que impiden su comparación directa con otras secuencias homólogas. Como veremos más adelante en el capítulo, las secuencias a comparar deberán ser alineadas para posteriormente poder puntuar los residuos conservados en posiciones equivalentes. Finalmente las puntuaciones obtenidas deberán ser validadas estadísticamente para poder garantizar con una máxima fiabilidad que existe o no homología. Por qué comparar secuencias y no estructuras de proteínas? Porque la similaritud de estructuras no garantiza que exista homología. El parecido estructural puede ser debido a restricciones químicas y físicas que favorecen un determinado plegamiento proteico. Existen numerosas excepciones de proteínas con estructuras similares que no son homólogas y de hecho sus secuencias son muy diferentes [10]. Además están descritas muchas menos estructuras que secuencias en las bases de datos y la comparación de estructuras es más compleja y con mayor costo computacional como se verá en el Capítulo 10. Sin embargo, dos proteínas homólogas poseerán estructuras similares. Finalmente, añadir que otro gran indicador de homología es la función de una proteína, incluso mejor que la secuencia. Sin embargo, por qué no se usa la función para predecir homología? Porque no se conoce la función real de la mayoría de proteínas anotadas en las bases de datos. Aunque muchas proteínas tienen una función anotada, ésta ha sido predicha comparando su secuencia con otras de función conocida o también predicha, por ello no es un dato fiable. Figura 8.1: A: Estructuras tridimensionales del citocromo c humano y el citocromo c2 de la bacteria Rhodopseudomonas viridis superpuestas. B: Secuencias del citocromo c humano y el citocromo c2 de la bacteria Rhodopseudomonas viridis alineadas.

3 Diferencias entre el alineamiento de DNA y de proteínas La mayoría de algoritmos y técnicas de alineamiento pueden aplicarse tanto a proteínas como DNA o RNA. Sin embargo las comparaciones de secuencias de nucleótidos suelen ser menos precisas e informativas. Veamos como ejemplo el resultado de alinear las secuencias de proteína (NP ) y de mrna (NM ) de la tripsina humana con el programa BLAST contra las bases de datos de referencia del NCBI con los parámetros por defecto y buscando únicamente secuencias humanas. En la Figura 8.2A se observa como la búsqueda de secuencias de proteínas homólogas devuelve 108 resultados, todos ellos de calidad buena o muy buena (colores rosa y rojo respectivamente), por contra la búsqueda de la secuencia de cdna obtiene tan sólo 15 resultados, de los cuáles sólo 7 son de una calidad aceptable como para considerar su homología. La explicación a este fenómeno la podemos encontrar en la degeneración del código genético que permite la sustitución de nucleótidos en el DNA sin cambiar el aminoácido que codifican, lo cual hace que si no se conoce el marco de lectura, no se consigan encontrar secuencias estadísticamente significativas en las búsquedas. Por otro lado, las sustituciones de aminoácidos en las proteínas suelen ser por otros con similares propiedades físicoquímicas. La probabilidad de dichas sustituciones está tabulada, lo que permite asignar puntuaciones a los alineamientos y con ello una mayor precisión (ver Subsección 8.3.2). En general se puede decir que la búsqueda de secuencias de nucleótidos es únicamente válida para buscar secuencias homólogas muy conservadas, que divergieron hace menos de años. La búsqueda de homólogos proteicos es mucho más sensible, pudiendo encontrar proteínas con ancestros comunes de más de 1000 millones de años [13]. Una posible solución a este problema es traducir las secuencias de DNA o RNA a secuencias peptídicas siempre que se conozca el marco de lectura, tal como se explicó en la Sección 7.4. Sin embargo, la búsqueda de secuencias de nucleótidos sigue siendo válida en muchas otras ocasiones como ensamblajes de secuencias, búsquedas de polimorfismos, diagnósticos genéticos o búsquedas de sitios de unión de factores de transcripción. Figura 8.2: Resultados estadísticamente significativos tras alinear las secuencias de proteína (A) y de mrna (B) de la tripsina humana con el programa BLAST contra las bases de datos de referencia del NCBI.

4 8.2. Obtención de secuencias y formatos Elegir la base de datos adecuada donde buscar una secuencia problema es tan importante como escoger una óptima técnica de alineamiento. Por ejemplo, si queremos buscar proteínas homólogas a una humana en ratón, será inútil que consultemos una base de datos de secuencias de plantas. Por ello, aunque ya se han presentado las bases de datos de secuencias más importantes en el Capítulo 1, volveremos a recordarlas brevemente Bases de datos de secuencias de DNA y proteínas Cuando se trata de buscar secuencias de proteínas, la base de datos mejor anotada actualmente es UniProt 1 [3]. Esta base de datos recoge actualizaciones de proteínas de la antigua base de datos anotada manualmente llamada Swiss-Prot y también anotaciones automáticas (TrEMBL). A su vez permite descargarse proteomas completos de diversos organismos, así como buscar secuencias de proteínas automáticamente desde su interfaz web. Las anotaciones de las proteínas revisadas suelen ser muy precisas, incluyendo datos como nomenclatura, función, dominios proteicos, sitios catalíticos, variantes proteicas, bibliografía, secuencia, así como enlaces a otras bases de datos con el gen que las codifica, el mrna o la estructura tridimensional. En el caso de buscar secuencias de nucleótidos, quizás la más completa es GenBank 2 [2] mantenida por el organismo americano NCBI. Su mayor problema es su gran tamaño, en enero de 2011 contenía más de 135 millones de secuencias sin incluir secuencias de proyectos de secuenciación incompletos. Al igual que UniProt permite descargar archivos con secuencias e integra la herramienta BLAST para realizar búsquedas. Si nos interesa una mejor anotación y menor número de secuencias deberíamos usar RefSeqGene 3, donde podemos encontrar información anotada sobre los genes, sus variantes de mrna y las proteínas que codifican, además de su posición en el genoma, fenotipos, función, interacciones, etc. La característica más interesante de RefSeqGene es que permite obtener las secuencias tanto de nucleótidos como de péptidos de las diferentes variantes de splicing de un gen (ver Sección 7.2). Sin embargo, en RefSeqGene existen muchas menos secuencias anotadas que en GenBank Formatos de archivos de secuencias El formato más usado en el campo del análisis de secuencias es el formato FASTA 4. Consiste en archivos de texto donde la primera línea antes de cada secuencia, también llamada cabecera, comienza por el carácter > seguido del identificador de la secuencia. Tras dicha línea siguen otras con la secuencia escrita con código de una letra por cada nucleótido o aminoácido (Ver Sección 7.3 y Sección 7.6) usándose guiones - para representar huecos en la secuencia. La longitud de cada línea de secuencia se recomienda que no sea superior a 80 caracteres para facilitar su lectura. En la Figura 8.3A se puede ver un ejemplo de secuencia en formato FASTA. Otro formato con una anotación más completa es el formato GenBank 5. En este formato el tipo de contenido almacenado en cada línea está indicado por una palabra identificadora en letras mayúsculas colocada al inicio de la línea y seguida de un número fijo de espacios hasta el comienzo de la información. Los campos de cabecera son: LOCUS, DEFINITION, ACCESSION, VERSION, GI, KEYWORDS, 1 UniProt. 2 GenBank. 3 RefSeqGene. 4 Descripción del formato FASTA. format 5 Descripción del formato GenBank.

5 SOURCE y REFERENCE, a su vez cada uno de ellos puede tener contenidos otros, por ej. AUTHORS, TITLE y JOURNAL dentro del campo REFERENCE. El campo FEATURES y sus subcampos source, genes y CDS contienen la información sobre el organismo, la localización cromosómica, así como del inicio y final de las regiones génicas y codificantes, incluyendo en su caso el nombre, identificadores y otros datos del gen o de la proteína y la secuencia codificada. Finalmente el campo ORIGIN incluye la secuencia a la que pertenecen las anotaciones anteriores, escrita en código de una letra y numerada. En la Figura 8.3B se puede ver un ejemplo de secuencia en formato GenBank. Figura 8.3: Secuencia del mrna del gen de la insulina. A: Formato FASTA. B: Formato GenBank.

6 Ejemplo de código en Perl para leer un archivo FASTA Para finalizar el apartado, explicaré un pequeño ejemplo escrito en Perl para leer secuencias en formato FASTA y almacenarlas en una tabla hash para poder acceder a ellas fácilmente más tarde en el programa. El código comienza definiendo la variable $identificador donde se almacenará la cabecera de la secuencia que se esté leyendo en cada momento y la tabla hash %secuencias que almacenará las secuencias con el identificador como índice. Al leer el archivo FASTA línea por línea, se identificarán las cabeceras con una sencilla expresión regular />(.*)/ y se almacenará en la variable $identificador el contenido que sigue al símbolo >. Posteriormente se leerá la secuencia que se irá almacenando en la tabla hash %secuencias según se vaya leyendo. Tras leer todo el archivo, se podrá acceder a las secuencias invocando a la tabla con un identificador como índice $secuencias{ Identificador }. Código 8.1: Ejemplo de lectura de un archivo FASTA con Perl. 1 # Código para leer secuencias FASTA y almacenarlas en una tabla hash 2 3 my ( %secuencias, $identificador); 4 5 # Abrir el archivo FASTA de secuencias 6 open(fastafile,"archivo.fasta"); 7 8 # Leer línea por línea el archivo 9 while(<fasta>){ # Detectar las cabeceras y guardar las secuencias en la tabla hash 12 if(/ˆ>(.*)/){ 13 $identificador = $1; 14 } else { 15 $secuencias{$identificador}.= $_; 16 } 17 } # Cerrar el archivo FASTA 20 close(infile); # Imprimir en pantalla una secuencia almacenada en la tabla hash 23 print $secuencias{"identificador"}; 8.3. Alineamiento de secuencias Los grandes avances en las tecnologías de secuenciación de DNA, la disponibilidad de grandes bases de datos de secuencias, junto con el desarrollo de eficientes algoritmos de comparación de secuencias han motivado un cambio sustancial en la biología molecular y celular modernas. Actualmente cuando se descubre un nuevo gen no se va directamente al laboratorio a realizar experimentos para conocer su función celular, simplemente se introduce su secuencia en un ordenador esperando encontrar genes homólogos de otros organismos ya estudiados. Tal y como se ha ido explicando a lo largo del capítulo, la forma de encontrar secuencias homólogas en una base de datos es alineando nuestra secuencia problema con las otras secuencias y evaluando el parecido entre ellas. Este proceso no es tan sencillo como poner una secuencia encima de otra, las secuencias tienen diferentes longitudes, inserciones, deleciones, sustituciones... Si volvemos al ejemplo del citocromo c humano y el citocromo c2 de la bacteria Rhodopseudomonas viridis (Figura 8.1), probablemente no seamos capaces de alinear manualmente sus secuencias, a pesar de su clara homología. De ahí la importancia de conocer los entresijos de los

7 algoritmos de alineamiento que nos permiten realizar la tarea de comparación de secuencias de una forma rápida y fiable, siempre que se sepan elegir los parámetros adecuados Definición de similitud e identidad Dos definiciones muy importantes a la hora de evaluar la calidad de un alineamiento son la similitud y la identidad. La identidad es la suma de residuos idénticos en posiciones equivalentes en dos secuencias alineadas. La similitud es la suma de puntuaciones correspondientes a residuos en posiciones equivalentes en dos secuencias alineadas, dichas puntuaciones suelen estar tabuladas e incluir penalizaciones para las inserciones y deleciones (también llamados gaps, porque insertan huecos en el alineamiento). Las tablas de puntuaciones de sustitución de un residuo por otro se denominan Matrices de sustitución. En la Figura 8.4 podemos ver un ejemplo de alineamiento de 2 secuencias de DNA con sus correspondientes valores de identidad y similitud. Figura 8.4: Ejemplo de valores de identidad y similitud para un alineamiento de 10 nucleótidos. Las puntuaciones de cada sustitución para calcular la similitud se muestran a la derecha Matrices de sustitución La historia de las matrices de sustitución se remonta a los años 70, cuando la investigadora Margaret Oakley Dayhoff se afanaba en recopilar todas las secuencias de proteína existentes en su libro Atlas of Protein Sequence and Structure [4]. Dayhoff y colaboradores estudiaron el modelo evolutivo de los cambios en los aminoácidos de las proteínas, para ello estudiaron 1572 cambios en 71 grupos de proteínas, dentro de cada grupo las secuencias compartían más del 85 % de identidad. De esta forma anotaron el número de cambios para todas las combinaciones posibles de 2 aminoácidos, observando que 35 de las posibles mutaciones nunca ocurrían, estas se correspondían con aminoácidos poco frecuentes. También observaron que las mutaciones más frecuentes se daban entre aminoácidos con similares propiedades físico-químicas, como por ej. Asp y Glu. Muchos de los cambios de aminoácido esperados por modificación de un sólo nucleótido en los codones codificantes no se daban o eran infrecuentes, lo que demostró una mayor presión evolutiva a nivel de secuencia proteica que a nivel de DNA. El cambio de un aminoácido por otro se denominó mutación puntual aceptada (PAM). Normalizando los datos de las PAMs de acuerdo a la probabilidad de mutación de cada aminoácido en los datos estudiados (mutabilidad) se obtuvo la famosa matriz PAM1 en la que cada elemento de la matriz M ij cuantifica la probabilidad de que un aminoácido i sea remplazado por otro aminoácido j en el intervalo evolutivo de 1 PAM. 1 PAM se define como el intervalo evolutivo en que cambia un 1 % de los aminoácidos en el alineamiento de 2 secuencias (1 cambio o PAM por cada 100 aminoácidos).

8 La matriz PAM1 sirve para simular cambios evolutivos en secuencias de proteínas. Para ello basta tomar un número aleatorio (entre 0 y 1) para cada aminoácido de una secuencia dada y asignarle un cambio si la probabilidad es menor que la anotada en la matriz para conservar el aminoácido. El proceso se puede repetir múltiples veces hasta alcanzar la distancia PAM deseada. Las matrices PAM también tienen unas propiedades my interesantes: i) la matriz PAM0 sólo posee unos en la diagonal y el resto son ceros; ii) la matriz se puede multiplicar por sí misma para calcular matrices de N PAMs; iii) si la matriz se multiplica infinitas veces por sí misma obtendremos la frecuencia del aminoácido j para todas las columnas de i. Los intervalos evolutivos medidos en PAMs los podemos relacionar con porcentajes de residuos conservados idénticos por medio de la fórmula: Identidad( %) = 100 f i M ii (8.1) Siendo f i la frecuencia normalizada de aparición de un aminoácido y M ii el valor en la diagonal de la matriz PAM. Algunas equivalencias calculadas entre identidad y PAMs se pueden consultar en la Tabla 8.1. PAMs Identidad ( %) Tabla 8.1: Tabla de equivalencias entre PAMs y porcentaje de identidad entre secuencias proteicas. Toda la anterior explicación teórica de las matrices PAM está muy bien, pero volviendo al tema de alinear y comparar secuencias, para qué nos sirven las matrices PAM? Las matrices PAM no nos son útiles directamente, pero sí el odd-ratio (R ij ) calculado dividiendo un elemento de la matriz M ij entre la frecuencia normalizada de j (f j ): R ij = M ij f j (8.2) M ij nos da la probabilidad de que un aminoácido i sea sustituido por otro j en una distancia evolutiva definida por la matriz PAM y f j es la probabilidad de encontrar el aminoácido j en una posición de la secuencia por casualidad. El odd-ratio R ij cuantifica la probabilidad de que una sustitución se de en una posición dada. Un odd-ratio de valor 10 significaría que la sustitución es 10 veces más frecuente que la probabilidad de encontrar alineados ambos aminoácidos. Por el contrario, un odd-ratio de valor 0,5 significaría que la probabilidad de encontrar alineados ambos aminoácidos es el doble de probable que la mutación. Podríamos puntuar un alineamiento de dos secuencias multiplicando los odd-ratios calculados para cada posición. Sin embargo, en informática las multiplicaciones son costosas y se prefieren las sumas, así que se calcula el log-odd multiplicado por 10 de R ij, estos números son más intuitivos y sencillos de sumar y serán la base de las puntuaciones de los Alineamientos: S ij = 10 log 10 M ij f j = 10 log 10 R ij (8.3) Las matrices de log-odds calculados con la Ecuación 8.3 son las que habitualmente denominamos PAM y usamos para calcular valores de similitud en alineamiento de secuencias (puntuaciones). En la Tabla 8.2 se puede consultar la matriz PAM250, una de las más usadas para puntuar alineamientos.

9 Si queremos encontrar un significado probabilístico de los valores log-odd de una matriz, bastaría con volver a calcular el odd-ratio (R ij ): R ij = 10 S ij 10 (8.4) C 12 S 0 2 T P A G N D E Q H R K M I L V F W Y C S T P A G N D E Q H R K M I L V F W Y Tabla 8.2: Matriz de log-odds PAM250. Otras nuevas versiones de las matrices PAM han sido calculadas con un número mayor de grupos de secuencias homólogas alineadas, sin embargo no han conseguido mejorar sustancialmente las matrices originales de Dayhoff [5, 7]. Otro tipo de matrices de sustitución que sí han conseguido mejorar a las PAM son las matrices BLOSUM (BLOcks of Amino Acid SUbstitution Matrix), creadas por Henikoff [6]. Las matrices BLOSUM fueron creadas a partir de datos de más de 500 grupos de alineamientos de secuencias de proteínas y con el objetivo de mejorar los alineamientos de secuencias divergentes donde las matrices PAM fallaban. Para definir diferentes matrices BLOSUM se marcaron diferentes umbrales de identidad de secuencias, de forma que las secuencias con mayor o igual identidad que el umbral se agruparon para disminuir su contribución en la matriz. Por ejemplo, para calcular la matriz BLOSUM62 se agruparon las proteínas con identidad mayor o igual que 62 %. Con los bloques de secuencias alineadas se calcula una tabla de frecuencias de cada pareja de aminoácidos alineados, obteniendo 210 parejas posibles con sus respectivas frecuencias de aparición que permitirán calcular los odd-ratios(r ij ) entre las frecuencias observadas (q ij ) y las frecuencias esperadas por casualidad (e ij ) (Ecuación 8.5). Henikoff decidió calcular los log-odds (R ij ) de una manera ligeramente diferente a Dayhoff, usando logaritmos en base 2 (Ecuación 8.6). En la Tabla 8.3 se representa la matriz BLOSUM62, ésta es la matriz preferida para usar por defecto por algoritmos tan famosos como BLASTP. R ij = q ij e ij (8.5)

10 S ij = log 2 q ij e ij (8.6) A 4 R -1 5 N D C Q E G H I L K M F P S T W Y V A R N D C Q E G H I L K M F P S T W Y V Tabla 8.3: Matriz de log-odds BLOSUM62. Las matrices BLOSUM demostraron ser más sensibles a la hora de identificar alineamientos de proteínas homólogas [6]. Las principales diferencias entre ambos tipos de matrices es que las PAM son generadas por extrapolación de datos de alineamientos de secuencias muy conservadas y las BLOSUM, por contra, son derivadas de datos reales de alineamientos de secuencias menos conservadas. En la Tabla 8.4 se muestra la equivalencia entre diferentes matrices PAM y BLOSUM, a menor distancia evolutiva PAM, mayor porcentaje de identidad BLOSUM y al contrario. Como norma general se prefiere el uso de matrices BLOSUM, sin embargo, cuando se realizan comparaciones de secuencias muy conservadas, las matrices PAM pueden conseguir mejores resultados. PAM120 BLOSUM80 PAM160 BLOSUM62 PAM250 BLOSUM45 Tabla 8.4: Equivalencia de matrices PAM y BLOSUM. Todo lo explicado hasta ahora sobre matrices de sustitución ha sido en el contexto de alineamientos proteicos. Qué sucede en el caso de alineamientos de secuencias de DNA o RNA? Para los nucleótidos también se han calculado matrices PAM de forma similar a la explicada para proteínas [22], teniendo en cuenta las diferentes probabilidades de mutaciones por transición (A G, C T/U) o transversión (A/G C/T/U). Sin embargo, programas como BLAST emplean por defecto puntuaciones de 1 y -2 para evaluar coincidencia/no coincidencia de nucleótidos respectivamente. Aunque el uso de matrices

11 PAM puede mejorar alineamientos de nucleótidos con identidades < 70 %, normalmente su mayor sensibilidad no compensa el mayor tiempo necesario para realizar los alineamientos, especialmente cuando estamos trabajando con genomas. Como ya se explicó, cuando se requiere alinear secuencias de DNA o RNA divergentes se prefiere traducirlas a secuencias proteicas antes de realizar su alineamiento Significación estadística y E-value Tenemos dos secuencias alineadas y hemos puntuado su alineamiento mediante las matrices de sustitución, ahora bien cómo sabemos si ambas secuencias son homólogas o su alineamiento es fruto del azar? si su similitud o identidad son altos podremos suponer que son homólogas (ver Subsección 8.3.1), aunque nunca lo sabremos con el 100 % de certeza. Ahora surge otra pregunta, qué se considera una alta identidad o similitud? Valores de identidad o similitud para encontrar homólogos en una familia proteica concreta pueden no ser suficientemente altos para otra familia diferente. Según vamos bajando el umbral de similitud/identidad para la búsqueda de homólogos, llega un momento en que no podemos diferenciar entre los que realmente lo son y los que no. El porcentaje de identidad del % en proteínas marca el límite donde coexisten alineamientos de verdaderos y falsos homólogos. Estos casos de alineamientos dudosos se denominan twilight zone y serán analizados en la siguiente Subsección Para intentar evitar la inexactitud de las medidas de similitud e identidad, se usa la significación estadística. La significación estadística mide la probabilidad de que un alineamiento no sea debido al azar. Si el alineamiento es improbable que sea fruto del azar, entonces ambas secuencias son probablemente homólogas. Como en el caso de la identidad/similitud, la significación estadística tampoco garantiza con un 100 % de certeza la homología, pero permite discriminar mucho mejor alineamientos dudosos. La primera medida de significación estadística fue introducida por Lipman y Pearson [9, 15]. Para ello generaron secuencias al azar tomando bloques de aminoácidos de la secuencia alineada y calcularon sus valores de similitud. Tras ello calcularon la desviación de la medida de similitud del alineamiento original respecto a los alineamientos de secuencias aleatorias. Si esta desviación era superior a 6 veces la desviación estándar ambas proteínas eran probablemente homólogas. Esta medida se llama Z-score (Z), se calcula restando el valor de la similitud calculada mediante una matriz de sustitución (S) al valor medio de los alineamientos de secuencias al azar (µ), todo ello dividido entre la desviación estándar (σ): Z(S) = S µ σ (8.7) Sin embargo, el Z-score es únicamente válido para distribuciones normales (gausianas) y los valores de alineamientos de secuencias al azar siguen un patrón de distribución de valores extremos. Otra medida estadística muy usada en bioinformática son los P-values (ver Capítulo 3 Estadística y R ). El P-value (P ) del alineamiento de dos secuencias es la probabilidad de que dos secuencias aleatorias (de la misma longitud y composición) tengan una similitud mayor o igual al alineamiento original. A pesar de la validez de este parámetro estadístico, cuando alineamos secuencias se prefiere usar el E-value. El E-value (E) nos da el número esperado de secuencias aleatorias cuyo alineamiento da valores de similitud mayores o iguales que el valor del alineamiento original. La ventaja de usar E-values es su mayor manejabilidad, pues su rango de valores ( + ) es más amplio e intuitivo que los P-values (0-1). No obstante, ambos valores pueden interconvertirse con la siguiente fórmula: P (S) = 1 e E(S) (8.8)

12 Donde E(S) es el E-value para obtener un valor de similitud mayor o igual que S. La fórmula para calcular analíticamente E-values fue publicada por Karlin y Altschul [8]: E(S) = Kmne λs (8.9) E es proporcional al espacio de búsqueda (mn), m es la longitud de la secuencia problema, n es la longitud de todo el conjunto de secuencias a alinear con la secuencia problema, λ es un parámetro para normalizar los valores de similitud y hacerlos independientes de la matriz de sustitución empleada, y K es un factor de escalado para el espacio de búsqueda. En la ecuación podemos observar como E disminuye exponencialmente según aumenta el valor de similitud exigido (S). A su vez la relación linear de E con el espacio de búsqueda sugiere la importancia estadística del espacio muestral respecto a considerar únicamente valores de similitud como estábamos haciendo hasta el momento. Un valor de E = 0,1 cuando estamos alineando una secuencia contra una base de datos de 1000 secuencias puede ser equivalente a E = 0,001 si únicamente alineamos contra 10 secuencias. Hasta ahora habíamos usado los valores de identidad y similitud para evaluar los alineamientos de secuencias, a partir de este momento pasaremos a usar los valores de E-value. Tampoco habíamos tenido en cuenta que los valores de similitud dependían de la matriz de sustitución empleada al calcularlos, lo cual supone algo similar a definir una distancia sin nombrar las unidades. Podemos calcular valores de similitud normalizados en unidades de similitud arbitrarias llamados bit-scores (S ) con la siguiente fórmula: S = λs ln K ln 2 (8.10) Ahora el cálculo de E-values es mucho más sencillo, puesto que los parámetros K y λ están implícitos en S : E(S ) = mn2 S (8.11) Finalmente podemos concluir este apartado con la idea de que los E-values son los mejores indicadores que tenemos para conocer la validez de un alineamiento en el reconocimiento de secuencias homólogas. Valores de E(S) <= 0,001 son habitualmente suficientes para considerar que el alineamiento de dos secuencias no es fruto del azar sino de la homología, incluso valores superiores de E(S) pueden darse en homólogos remotos El twilight u ocaso de los alineamientos La zona de twilight (ocaso) de los alineamientos de proteínas es el rango de pares de valores de longitudes de secuencia y valores de identidad para los cuales existe una alta probabilidad de que sean erróneos [18, 19]. Si observamos la Figura 8.5 podemos concluir que alineamientos con menos del 25 % de residuos idénticos pertenecen la mayoría a proteínas no homólogas. Además, si la longitud de la secuencia proteica alineada es menor de 80 aminoácidos, se requiere de mayor % de identidad para encontrar homología. Llegando a requerirse una identidad del 100 % para secuencias más cortas que 10 residuos. En el caso de secuencias de nucleótidos la zona de twilight es más difusa, la identidad entre las secuencias de cdna o mrna de dos genes homólogos cuyas proteínas compartan un 25 % de identidad puede ser mucho menor.

13 A la hora de evaluar alineamientos se utilizará siempre que sea posible el E-value como ya se ha explicado. El E-value nos dará la probabilidad de que existan falsos alineamientos y por ello estemos dentro de la zona de twilitght o no. Sin embargo, en casos dudosos podremos considerar la identidad entre secuencias y valorar su pertenencia o no al grupo de alineamientos dudosos. Un buen consejo para alineamientos dentro de la zona de twilitght, es alinear ambas secuencias contra bases de datos anotadas. Si encontramos para alguna de las secuencias resultados de genes o proteínas de la misma familia con buenos alineamientos, podremos esclarecer la homología de las secuencias iniciales. Programas de alineamiento como BLAST recomiendan secuencias de longitud mayor a 22 nucleótidos o 6 aminoácidos, esto se debe en parte a la necesidad de una mínima longitud de secuencia para salir de la zona de twilitght y poder realizar alineamientos con un mínimo de probabilidad de certeza. Figura 8.5: Identidad de secuencia vs. longitud de alineamiento. Gráfica original de Sander y Schneider [19] donde las proteínas homólogas están representadas por X y el resto por cuadrados. La curva marca la separación entre alineamientos de proteínas homólogas y otras no homólogas o dudosas Técnicas y programas de alineamiento Ahora que ya hemos visto las bases teóricas del alineamiento de secuencias vamos a ver cómo se pueden emplear diferentes herramientas para ello. Pero primero deberemos diferenciar entre dos tipos posibles de Alineamientos: Global: alineamiento de la secuencia completa. Es útil cuando se comparan secuencias muy similares en tamaño y composición, por ejemplo de dos genes muy conservados. Local: cuando sólo nos interesa alinear regiones similares entre secuencias. Se utiliza cuando las secuencias a comparar son diferentes en tamaño o poseen regiones no conservadas. Un ejemplo

14 podría ser el alineamiento de un dominios proteico entre dos proteínas con diferente número total de dominios. Para realizar de una forma eficiente y rápida estos alineamientos se utilizan algoritmos computacionales de programación dinámica. No vamos a entrar en detalle, pero sí que merece la pena conocer los dos más importantes: Needleman Wunsch [12] es el empleado para realizar alineamientos globales y Smith Waterman [21] sirve para optimizar alineamientos locales entre secuencias. Jonathan Pevsner realiza una muy buena y detallada descripción de ambos métodos en su libro Bioinformatics and Functional Genomics [17]. A su vez hay que distinguir entre el alineamiento de pares de secuencias y alineamientos múltiples: Pares de secuencias: mide la similitud entre dos secuencias, por ejemplo la secuencia problema y cada una de las secuencias de una base de datos, realizando comparaciones individuales entre pares. Alineamiento múltiple: compara más de dos secuencias al mismo tiempo. Es especialmente importante cuando queremos interrelacionar varias secuencias entre sí, por ejemplo para calcular árboles filogenéticos, buscar patrones o regiones conservadas. Es un problema bastante más complejo que el de alinear sólo 2 secuencias y existen diferentes técnicas que ofrecen diferentes resultados. En ambos casos el alineamiento puede ser local o global Alineamiento local de pares de secuencias A continuación se explicará el uso de dos de los programas más populares para el alineamiento local de pares de secuencias: BLAST y FASTA. Ambos usan el algoritmo de Smith Waterman junto a técnicas heurísticas que los hacen extremadamente rápidos y útiles para búsquedas en grandes bases de datos. BLAST BLAST 6 (Basic Local Alignment Search Tool) es la herramienta más popular de búsqueda y alineamiento de secuencias. De hecho, el artículo original que la describe [1] es uno de los más citados en la historia de la ciencia. Como su propio nombre indica, realiza alineamientos locales tanto de nucleótidos como de amino ácidos, normalmente las secuencias problema se alinean contra secuencias de bases de datos. El algoritmo de BLAST tiene el siguiente funcionamiento: 1. Algoritmo heurístico: divide la secuencia a alinear en subsecuencias (k-meros) de longitud más corta (3 amino ácidos o 28 nucleótidos por defecto) y busca éstas entre las secuencias de la base de datos. 2. Programación dinámica: cuando encuentra varias subsecuencias en una misma entrada de la base de datos, extiende el alineamiento hacia ambos lados mediante el algoritmo de programación dinámica de Smith Waterman [21] y una matriz de sustitución (por defecto Blosum62 para amino ácidos). 3. Significación estadística: finalmente calcula el bit-score y E-value del alineamiento local extendido que nos dará la probabilidad de que dicho alineamiento sea fruto del azar en comparación con el tamaño de la base de datos (ver Subsección 8.3.3). Existe una familia de programas que usan el algoritmo BLAST de diferentes formas: 6 BLAST.

15 blastn: busca una secuencia de nucleótidos en una base de datos del mismo tipo. blastp: busca una secuencia proteica en una base de datos de proteínas. blastx: traduce a amino ácidos una secuencia de nucleótidos y la busca en una base de datos de proteínas. tblastn: busca una secuencia proteica en una base de datos de nucleótidos previamente traducidos a proteínas. tblastx: traduce a amino ácidos una secuencia de nucleótidos y la busca en una base de datos de nucleótidos previamente traducidos a proteínas. bl2seq: compara dos secuencias entre sí, sin usar base de datos. blastpgp: realiza la búsqueda de una proteína en una base de datos varias veces, de forma que en cada nueva búsqueda se utiliza una nueva secuencia o perfil que es fruto de la combinación de los resultados de la búsqueda anterior. De esta forma es posible encontrar secuencias homólogas evolutivamente más remotas que con una búsqueda clásica, pero también existe el peligro de encontrar secuencias sin ningún tipo de relación. megablast: es una versión más rápida de blastn utilizada para buscar un gran número de secuencias de DNA en bases de datos. Para acelerar la búsqueda, concatena varias secuencias en una única y tras la búsqueda separa los resultados. Finalmente apuntar que todos los programas enumerados se pueden usar en su versión online 6 o descargarlos para usarlos en nuestro ordenador 7. FASTA El paquete de programas FASTA 8 es más popular por el formato de archivo que lleva su nombre (ver??) que por sus herramientas. Sin embargo FASTA es un conjunto de programas de alineamiento muy similar a BLAST [9]. El esquema del algoritmo de alineamientio de FASTA es casi idéntico al de BLAST por lo que no se volverá a explicar. Únicamente destacar que BLAST es más rápido que FASTA, aunque FASTA puede ser más sensible para alinear secuencias muy divergentes Alineamiento global de pares de secuencias El alineamiento global de secuencias tiene más limitaciones de uso que el local. No sirve para detectar similitud entre proteínas de diferente longitud o con múltiples dominios funcionales que no son de una misma familia o que poseen largas duplicaciones o delecciones en la secuencia. Su utilidad es más bien limitada al alineamiento de proteínas homólogas para generar árboles filogenéticos, ya que los valores de similitud de estos alineamientos pueden ser transformados fácilmente en distancias evolutivas [16]. Needle y Stretcher Needle es un programa que implementa rigurosamente el algoritmo de Needleman-Wunsch [12]. Forma parte de EMBOSS 9 (The European Molecular Biology Open Software Suite). Cuando las secuencias 7 Download NCBI Software. 8 FASTA Sequence Comparison at the University of Virginia. 9 The European Molecular Biology Open Software Suite.

16 a alinear son largas, el alineamiento puede fallar o ser muy lento debido a las altas necesidades de memoria del algoritmo (proporcional al producto de las longitudes de ambas secuencias). Stretcher es una modificación del algoritmo de Needleman-Wunsch [11] que requiere únicamente una cantidad de memoria proporcional a la secuencia más corta, con lo cual es válido para todo tipo de secuencias. También forma parte del paquete de programas EMBOSS Alineamiento múltiple de secuencias El alineamiento múltiple de secuencias sirve, como su nombre indica, para alinear más de dos secuencias al mismo tiempo. Normalmente las herramientas de alineamiento múltiple incluyen algoritmos para realizar tanto alineamientos de tipo local como global. La principal utilidad del alineamiento múltiple es la detección de homología entre grupos de secuencias que presentan baja similitud entre sí, pero que al compararlas en su conjunto se detectan posiciones o regiones muy conservadas que indican su origen evolutivo común. Por ello este tipo de alineamiento permite fácilmente la detección de regiones o dominios conservados entre varias secuencias proteicas, como pueden ser sitos catalíticos, de trasducción de señal o dominios de unión a DNA o entre proteínas. Los resultados de este tipo de alineamientos también son muy valiosos para el análisis filogenético y la construcción de árboles (ver Capítulo 9 Filogenia y evolución molecular ). El cálculo del mejor alineamiento múltiple alcanza gran complejidad según se aumenta el número de secuencias, lo que también incrementa las posibles combinaciones entre sus alineamientos y diferentes posibilidades de incluir gaps entre ellas. Para resolver el problema se emplean diferentes estrategias heurísticas para obtener buenos alineamientos en un tiempo razonable, aunque no sean los óptimos. La técnica progresiva (también conocida como método jerárquico o de árbol) es la más popular. Consiste en realizar previamente todas las posibles combinaciones de alineamientos entre pares de secuencias para construir un árbol de distancias por similitud. El alineamiento comienza tomando como referencia el alineamiento de las dos secuencias más similares y va añadiendo una por una y en el orden establecido por el árbol el resto de secuencias a alinear. El principal problema del método progresivo es su fuerte dependencia del alineamiento de las dos secuencias inicialmente alineadas que servirán de referencia al resto, si ambas secuencias son muy diferentes darán un mal alineamiento que irá empeorando según se añadan más secuencias. ClustalW/ClustalO Clustal Omega 10 es el programa de alineamiento múltiple más popular (en su versión antigua se conoce como ClustalW). Utiliza una técnica progresiva mejorada que realinea de forma iterativa las secuencias iniciales y que utiliza modelos ocultos de Markov para mejorar la eficiencia de los alineamientos. Permite obtener alineamientos múltiples de buena calidad incluso con cientos de miles de secuencias en un tiempo razonable [20]. Tcoffee T-Coffee 11 es otro programa de alineamiento múltiple de método progresivo. Su principal característica es que permite integrar en el alineamiento información estructural, de estructura secundaria o combinar diferentes métodos de alineamiento múltiple en un único resultado. 10 Clustal: Multiple Sequence Alignment T-Coffee.

17 Edición y visualización de alineamientos Para terminar el capítulo hablaremos de cómo visualizar y modificar alineamientos de una forma gráfica a partir de los archivos generados por los programas de alineamiento explicados en los apartados anteriores. Un programa de edición y visualización de alineamientos muy completo es Jalview 12. Es un programa gratuito que además permite hacer nuevos alineamientos, representar árboles filogenéticos o visualizar estructuras moleculares. Jalview se puede usar tanto en su versión online como descargarlo y usarlo en nuestro ordenador. 12 Jalview.

18 8.4. Bibliografía [1] S. F. Altschul, W. Gish, W. Miller, E. W. Myers, and D. J. Lipman. Basic local alignment search tool. J Mol Biol, 215(3):403 10, [2] D. A. Benson, I. Karsch-Mizrachi, D. J. Lipman, J. Ostell, and E. W. Sayers. Genbank. Nucleic Acids Res, 39(Database issue):d32 7, [3] U. Consortium. Reorganizing the protein space at the universal protein resource (uniprot). Nucleic Acids Res, 40(Database issue):d71 5, [4] M. O. Dayhoff and R. M. Schwartz. A model of evolutionary change in proteins, volume 5, chapter 22, pages National Biomedical Research Foundation, [5] G. H. Gonnet, M. A. Cohen, and S. A. Benner. Exhaustive matching of the entire protein sequence database. Science, 256(5062):1443 5, [6] S. Henikoff and J. G. Henikoff. Amino acid substitution matrices from protein blocks. Proc Natl Acad Sci U S A, 89(22): , [7] D. T. Jones, W. R. Taylor, and J. M. Thornton. The rapid generation of mutation data matrices from protein sequences. Comput Appl Biosci, 8(3):275 82, [8] S. Karlin and S. F. Altschul. Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes. Proc Natl Acad Sci U S A, 87(6):2264 8, [9] D. J. Lipman and W. R. Pearson. Rapid and sensitive protein similarity searches. Science, 227(4693): , [10] A. G. Murzin. Can homologous proteins evolve different enzymatic activities? Trends Biochem Sci, 18(11):403 5, [11] E. W. Myers and W. Miller. Optimal alignments in linear space. Comput Appl Biosci, 4(1):11 7, [12] S. B. Needleman and C. D. Wunsch. A general method applicable to the search for similarities in the amino acid sequence of two proteins. J Mol Biol, 48(3):443 53, [13] W. R. Pearson. Effective protein sequence comparison. Methods Enzymol, 266:227 58, [14] W. R. Pearson. Protein sequence comparison and Protein evolution. PhD thesis, University of Virginia, [15] W. R. Pearson and D. J. Lipman. Improved tools for biological sequence comparison. Proc Natl Acad Sci U S A, 85(8):2444 8, [16] W. R. Pearson and T. C. Wood. Statistical significance in biological sequence comparison. PhD thesis, University of Virginia, [17] J. Pevsner. Bioinformatics and Functional Genomics. Wiley, [18] B. Rost. Twilight zone of protein sequence alignments. Protein Eng, 12(2):85 94, [19] C. Sander and R. Schneider. Database of homology-derived protein structures and the structural meaning of sequence alignment. Proteins, 9(1):56 68, [20] F. Sievers, A. Wilm, D. Dineen, T. J. Gibson, K. Karplus, W. Li, R. Lopez, H. McWilliam, M. Remmert, J. Soding, J. D. Thompson, and D. G. Higgins. Fast, scalable generation of high-quality protein multiple sequence alignments using clustal omega. Mol Syst Biol, 7:539, [21] T. F. Smith and M. S. Waterman. Identification of common molecular subsequences. J Mol Biol, 147(1):195 7, [22] D. States, W. Gish, and S. Altschul. Improved sensitivity of nucleic acid database searches using application-specific scoring matrices. Methods, 3:66 70., 1991.

Por regla general, las búsquedas con BLAST obedecen a uno de estos dos objetivos:

Por regla general, las búsquedas con BLAST obedecen a uno de estos dos objetivos: BLAST en el servidor del NCBI BLAST es la herramienta bioinformática más utilizada en todo el mundo. Compara una secuencia problema (query sequence) de nucleótidos o de proteínas con todas las secuencias

Más detalles

Andrés M. Pinzón Centro de Bioinformática Instituto de Biotecnología Universidad Nacional de Colombia

Andrés M. Pinzón Centro de Bioinformática Instituto de Biotecnología Universidad Nacional de Colombia Alineamiento: Análisis computacional de secuencias Andrés M. Pinzón Centro de Bioinformática Instituto de Biotecnología Universidad Nacional de Colombia Por qué y para qué... Tengo una secuencia de DNA/Proteína......

Más detalles

Búsqueda de similitud en BD

Búsqueda de similitud en BD Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas 4 de junio del 2013 Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) 4 de junio del 2013 1 / 37 1 Introducción Requerimientos para búsqueda en BD FASTA Comparación

Más detalles

BÚSQUEDA DE SECUENCIAS PARECIDAS (Similarity search)

BÚSQUEDA DE SECUENCIAS PARECIDAS (Similarity search) BÚSQUEDA DE SECUENCIAS PARECIDAS (Similarity search) Cuando los proyectos de secuenciación genómica descubren una nueva secuencia biológica es muy poco lo que se sabe de ella. Por ese motivo, una de las

Más detalles

Diseño de un Procesador para el Alineamiento Global de Secuencias de DNA

Diseño de un Procesador para el Alineamiento Global de Secuencias de DNA Diseño de un Procesador para el Alineamiento Global de Secuencias de DNA Martin A. Lozano, Jaime Velasco-Medina Grupo de Bio-nanoelectrónica EIEE, Universidad del Valle, A.A. 25360, Cali, Colombia E-mail:

Más detalles

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA. Alineamiento múltiple de secuencias

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA. Alineamiento múltiple de secuencias TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA Alineamiento múltiple de secuencias Mario de J. Pérez Jiménez Luis Valencia Cabrera Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación

Más detalles

DOT PLOT: VISUALIZACIÓN DE LA SIMILITUD ENTRE DOS SECUENCIAS

DOT PLOT: VISUALIZACIÓN DE LA SIMILITUD ENTRE DOS SECUENCIAS DOT PLOT: VISUALIZACIÓN DE LA SIMILITUD ENTRE DOS SECUENCIAS COMPARACION DE DOS ATPASAS DE PECES El DOT PLOT permite una visualización rápida de la similitud entre dos secuencias Inconvenientes: No identifica

Más detalles

Elvira Mayordomo y Jorge Álvarez. Marzo - Abril de 2016

Elvira Mayordomo y Jorge Álvarez. Marzo - Abril de 2016 TRABAJO DE PRÁCTICAS Elvira Mayordomo y Jorge Álvarez Marzo - Abril de 2016 1 Introducción El trabajo de prácticas de la asignatura consistirá en que cada alumno realice por separado el trabajo que se

Más detalles

Aplicaciones guiadas: Blast. Genome Browsers.

Aplicaciones guiadas: Blast. Genome Browsers. Curso de Formación UEB Herramientas Bioinformáticas para la Investigación Biomédica 1 r bloque (20/06/2012) Introducción a la Bioinformática y a las Bases de Datos 3 a sesión Aplicaciones guiadas: Blast.

Más detalles

Investigación en evolución

Investigación en evolución Investigación en evolución Análisis de secuencias de: nucleótidos en DNA (genómica) aminoácidos en Proteínas (proteómica) Comparación de secuencias de: nucleótidos aminoácidos Bioinformática Análisis de

Más detalles

Biotecnología. Alineación de secuencias. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Biotecnología. Alineación de secuencias. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Biotecnología Alineación de secuencias Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla Motivación Una vez localizado un gen Buscamos parecidos con genes de los que se

Más detalles

Alineamientos de Secuencias. CeCalCULA - C.P.T.M. Mérida. Venezuela.

Alineamientos de Secuencias. CeCalCULA - C.P.T.M. Mérida. Venezuela. Alineamientos de Secuencias Análisis comparativo El alineamiento de secuencias es similar a otros tipos de análisis comparativo. En ambos es necesario cuantificar las similitudes y diferencias (scoring)

Más detalles

Comparación de secuencias

Comparación de secuencias Comparación de secuencias Por qué nos interesa comparar secuencias de ADN o proteínas de distintos orígenes? Cómo se pueden alinear secuencias? Alineamiento de secuencias Dos tipos de alineamientos Alineamiento

Más detalles

GRADO DE BIOQUÍMICA Y BIOLOGÍA MOLECULAR. ASIGNATURA: BIOINFORMÁTICA (6 Créditos)

GRADO DE BIOQUÍMICA Y BIOLOGÍA MOLECULAR. ASIGNATURA: BIOINFORMÁTICA (6 Créditos) GRADO DE BIOQUÍMICA Y BIOLOGÍA MOLECULAR ASIGNATURA: BIOINFORMÁTICA (6 Créditos) OBJETIVOS 1.- Familiarizar al alumno con los recursos disponibles en los principales portales bioinformáticos disponibles

Más detalles

Alineamiento múltiple de secuencias

Alineamiento múltiple de secuencias Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas 11 de junio del 2013 Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento múltiple de secuencias 11 de junio del 2013 1 / 39 1 Alineamiento múltiple de

Más detalles

Perfiles y modelos ocultos de Markov

Perfiles y modelos ocultos de Markov Perfiles y modelos ocultos de Markov Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas 13 de junio del 2013 Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Perfiles y modelos ocultos de Markov 13 de junio del 2013

Más detalles

GRADO DE BIOQUÍMICA Y BIOLOGÍA MOLECULAR. ASIGNATURA: BIOINFORMÁTICA (6 Créditos)

GRADO DE BIOQUÍMICA Y BIOLOGÍA MOLECULAR. ASIGNATURA: BIOINFORMÁTICA (6 Créditos) GRADO DE BIOQUÍMICA Y BIOLOGÍA MOLECULAR ASIGNATURA: BIOINFORMÁTICA (6 Créditos) OBJETIVOS 1.- Familiarizar al alumno con los recursos disponibles en los principales portales bioinformáticos disponibles

Más detalles

Alineamiento local: búsqueda de homologías

Alineamiento local: búsqueda de homologías Alineamiento local: búsqueda de homologías Supongamos que el material de partida para realizar una búsqueda de homologías no es un gen o una proteína completos y bien caracterizados de los que podamos

Más detalles

ASIGNATURA: BIOINFORMÁTICA

ASIGNATURA: BIOINFORMÁTICA Página 1 de 5 CARACTERÍSTICAS GENERALES* Tipo: Formación básica, Obligatoria, Optativa Trabajo de fin de grado, Prácticas externas Duración: Cuatrimestral Semestre/s: 5 Número de créditos ECTS: 6 Idioma/s:

Más detalles

Alineamiento de pares de secuencias

Alineamiento de pares de secuencias Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas 30 de mayo del 2013 Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Alineamiento de pares de secuencias 30 de mayo del 2013 1 / 61 1 Alineamiento de pares de secuencias

Más detalles

Introducción a la Bioinformática

Introducción a la Bioinformática Introducción a la Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas 16 de mayo del 2013 Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Introducción a la 16 de mayo del 2013 1 / 37 1 Introducción Qué es bioinformática?

Más detalles

Alineamientos Bioinformática. Daniel M. Alberto M. Fernando M.

Alineamientos Bioinformática. Daniel M. Alberto M. Fernando M. Alineamientos Bioinformática Daniel M. Alberto M. Fernando M. Repasando Qué son los alineamientos? Repasando Qué son los alineamientos? Comparación de dos o más secuencias de DNA. Repasando Qué son los

Más detalles

BLAST: Búsqueda de homologías. 13/06/10 J.L. Mosquera, I. Ortega i A. Sánchez 1

BLAST: Búsqueda de homologías. 13/06/10 J.L. Mosquera, I. Ortega i A. Sánchez 1 BLAST: Búsqueda de homologías 13/06/10 J.L. Mosquera, I. Ortega i A. Sánchez 1 Outline - Motivación - Alineamiento por parejas - Sistemas de puntuación - Matrices de substitución (PAM, BLOSUM) - BLAST

Más detalles

Análisis y anotación de una secuencia mediante las herramientas y bases de datos de UCSC Genome Bioinformatics & Galaxy

Análisis y anotación de una secuencia mediante las herramientas y bases de datos de UCSC Genome Bioinformatics & Galaxy Análisis y anotación de una secuencia mediante las herramientas y bases de datos de UCSC Genome Bioinformatics & Galaxy Master de Genética y Evolución 2011/2012 Analisis de Secuencias Michael Hackenberg

Más detalles

EVALUACION DEL EFECTO DE LA EVOLUCIÓN HETEROGENEA SITIO- ESPECIFICA SOBRE LA RECONSTRUCCIÓN FILOGENETICA MEDIANTE PARSIMONIA

EVALUACION DEL EFECTO DE LA EVOLUCIÓN HETEROGENEA SITIO- ESPECIFICA SOBRE LA RECONSTRUCCIÓN FILOGENETICA MEDIANTE PARSIMONIA EVALUACION DEL EFECTO DE LA EVOLUCIÓN HETEROGENEA SITIO- ESPECIFICA SOBRE LA RECONSTRUCCIÓN FILOGENETICA MEDIANTE PARSIMONIA INTRODUCCION La biología comparada estudia la diversidad de especies analizando

Más detalles

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA. Alineamiento múltiple de secuencias

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA. Alineamiento múltiple de secuencias TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA Alineamiento múltiple de secuencias Mario de J. Pérez Jiménez Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación e Inteligencia Artificial

Más detalles

Métodos de alineamiento. Bioinformática, Elvira Mayordomo

Métodos de alineamiento. Bioinformática, Elvira Mayordomo Métodos de alineamiento Bioinformática, 16-2-17 Elvira Mayordomo Motivación: 2 razones para comparar secuencias biológicas 1. Los errores y omisiones en los datos biológicos producidos en la extracción

Más detalles

Métodos de alineamiento. Bioinformática, Elvira Mayordomo

Métodos de alineamiento. Bioinformática, Elvira Mayordomo Métodos de alineamiento Bioinformática, 24-2-16 Elvira Mayordomo Motivación: 2 razones para comparar secuencias biológicas 1. Los errores y omisiones en los datos biológicos producidos en la extracción

Más detalles

PRACTICA V: ALINEAMIENTO POR METODOS HEURISTICOS Y ANÁLISIS ESTADÍSTICO DE LAS PUNTACIONES DE LOS ALINEAMIENTOS.

PRACTICA V: ALINEAMIENTO POR METODOS HEURISTICOS Y ANÁLISIS ESTADÍSTICO DE LAS PUNTACIONES DE LOS ALINEAMIENTOS. PRACTICA V: ALINEAMIENTO POR METODOS HEURISTICOS Y ANÁLISIS ESTADÍSTICO DE LAS PUNTACIONES DE LOS ALINEAMIENTOS. Objetivo general: Ø Conocer y aplicar las técnicas de alineamiento heurístico así como las

Más detalles

Introducción a la bioinformática

Introducción a la bioinformática Introducción a la bioinformática Alineamiento de proteínas Pregunta 1: Obtener secuencias usando BLAST La triosa fosfato isomerasa (TIM) es una enzima que funciona en la glicólisis. Se dice que es una

Más detalles

Efectos de los alineamientos

Efectos de los alineamientos Efectos de los alineamientos Una evaluación empírica mediante el método de parsimonia con alineamientos implícitos generados por POY vs los alineamientos ClustalW en topologías de mamíferos. Claudia Infante

Más detalles

UTILIZACIÓN DE MODELOS DE INTERPOLACIÓN DE MARKOV PARA LA

UTILIZACIÓN DE MODELOS DE INTERPOLACIÓN DE MARKOV PARA LA UTILIZACIÓN DE MODELOS DE INTERPOLACIÓN DE MARKOV PARA LA IDENTIFICACIÓN DE SECUENCIAS DE GENES Marco Gerardo Torres Andrade Resumen Uno de los principales problemas a resolver en la bioinformática es

Más detalles

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA BLAST

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA BLAST TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA BLAST Basic Local Alignment Search Tool Agustín Riscos Núñez (Coord.) Carmen Graciani Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación

Más detalles

Alineamiento de pares de secuencias. Rodrigo Santamaría

Alineamiento de pares de secuencias. Rodrigo Santamaría Alineamiento de pares de secuencias Rodrigo Santamaría Alineamiento de pares de secuencias Introducción Definiciones Ejemplo Algoritmos Matrices de puntuación 2 Objetivo Determinar si una secuencia de

Más detalles

Uso de herramientas para alineación

Uso de herramientas para alineación Uso de herramientas para alineación de secuencias y creación de árboles filogenéticos para la determinación de especies Using tools for sequence alignment and outline of phylogenetic trees to determine

Más detalles

BIOINFORMÁTICA. Vicente Arnau Llombart. Técnicas Avanzadas de Inteligencia Artificial.

BIOINFORMÁTICA. Vicente Arnau Llombart. Técnicas Avanzadas de Inteligencia Artificial. BIOINFORMÁTICA Vicente Arnau Llombart Técnicas Avanzadas de Inteligencia Artificial. http://www.uv.es/~varnau/taia_2011-12.htm E-mail: Vicente.Arnau@uv.es BIOINFORMÁTICA Clase 2ª: Análisis de secuencias

Más detalles

Qué es? Primer paso Representación en un sistema de coordenadas. numéricos Cada punto muestra el valor de cada pareja de datos (X e Y)

Qué es? Primer paso Representación en un sistema de coordenadas. numéricos Cada punto muestra el valor de cada pareja de datos (X e Y) Gráfico de dispersión Qué es? Primer paso Representación en un sistema de coordenadas cartesianas de los datos numéricos Cada punto muestra el valor de cada pareja de datos (X e Y) Gráfico de dispersión

Más detalles

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA. Alineamiento de secuencias de genes/proteínas

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA. Alineamiento de secuencias de genes/proteínas TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA Alineamiento de secuencias de genes/proteínas Mario de J. Pérez Jiménez Grupo de investigación en Computación Natural Dpto. Ciencias de la Computación e Inteligencia

Más detalles

Predicción computacional de genes (Gene finding)

Predicción computacional de genes (Gene finding) Predicción computacional de genes (Gene finding) Predicción de genes (Gene finding) El genoma humano tiene 3.2 GB de nucleótidos, y poco más de 20.000 genes ccgtacgtacgtagagtgctagtctagtcgtagcgccgtagtcgatcgtgtgggt

Más detalles

Parte de Algoritmos, de la asignatura de Programación Máster de Bioinformática Asociaciones y tablas hash. Asociaciones y tablas hash

Parte de Algoritmos, de la asignatura de Programación Máster de Bioinformática Asociaciones y tablas hash. Asociaciones y tablas hash Parte de Algoritmos, de la asignatura de Programación Máster de Bioinformática Departamento de Informática y Sistemas Universidad de Murcia http://dis.um.es/ domingo/algbio.html domingo@um.es Contenido

Más detalles

INFORMATICA TECNICATURA DE NIVEL SUPERIOR ALGUNOS EJERCICIOS DE SELECCIÓN E ITERACION

INFORMATICA TECNICATURA DE NIVEL SUPERIOR ALGUNOS EJERCICIOS DE SELECCIÓN E ITERACION INFORMATICA TECNICATURA DE NIVEL SUPERIOR ALGUNOS EJERCICIOS DE SELECCIÓN E ITERACION DIIAGRAMAS DE FLUJO Un diagrama de flujo es un dibujo que utiliza símbolos estándar de diagramación de algoritmos para

Más detalles

Qué es un gen? Helen Pearson : Genetics: What is a gene? (Nature 441, )

Qué es un gen? Helen Pearson : Genetics: What is a gene? (Nature 441, ) Qué es un gen? 'Gene' is not a typical four-letter word. It is not offensive. It is never bleeped out of TV shows. And where the meaning of most four-letter words is all too clear, that of gene is not.

Más detalles

Biotecnología y bioinformática

Biotecnología y bioinformática IMAGEN: http://4.bp.blogspot.com Biotecnología y bioinformática Opción B 5ª Parte: Bioinformática Tema 9 de Biología NS Diploma BI Curso 2014-2016 Idea Fundamental: La bioinformática consiste en el uso

Más detalles

Introducción al NCBI

Introducción al NCBI Introducción al NCBI National Center for Biotechnology Information Andrés M. Pinzón Centro de Bioinformática Instituto de Biotecnología Universidad Nacional de Colombia Qué es el NCBI? http://www.ncbi.nlm.nih.gov/

Más detalles

Se espera que en el futuro se vayan añadiendo nuevos servicios que aumenten y completen el conjunto.

Se espera que en el futuro se vayan añadiendo nuevos servicios que aumenten y completen el conjunto. Introducción: Se pretende hacer un flujo de datos desde dado un genoma o varias secuencias de varios genes, poder obtener información sobre el uso de Codones en los mismos, desde calcular la frecuencia

Más detalles

Benemérita Universidad Autónoma de Puebla Doctorado en Ciencias Químicas BIOINFORMATICA

Benemérita Universidad Autónoma de Puebla Doctorado en Ciencias Químicas BIOINFORMATICA Benemérita Universidad Autónoma de Puebla Doctorado en Ciencias Químicas BIOINFORMATICA Programa semestral: 96 h. Objetivos del curso: Que los estudiantes adquieran las bases teóricos y aplicaciones en

Más detalles

Búsqueda de secuencias en Bases de Datos.

Búsqueda de secuencias en Bases de Datos. Búsqueda de secuencias en Bases de Datos. Existe una amplia red de bases de datos en diferentes servidores científicos que permiten acceder a una gran cantidad de información científica. Y entre ella,

Más detalles

Programa Bioinformática. Máster en Biofísica

Programa Bioinformática. Máster en Biofísica Programa Bioinformática. Máster en Biofísica 2013 2014 Resumen del programa: El curso de bioinformática está finalizado a introducir las técnicas y las herramientas de la bioinformática que pueden ser

Más detalles

Bioinformática Clásica

Bioinformática Clásica Bioinformática Clásica Dr. Oswaldo Trelles Universidad de Málaga Esta presentación contiene información sobre la organización del curso de Bioinformática Clásica. En ella se describe para cada tema su

Más detalles

Dinámica Molecular de Proteínas Modelado y Simulación Computacional

Dinámica Molecular de Proteínas Modelado y Simulación Computacional Dinámica Molecular de Proteínas Modelado y Simulación Computacional Profesores: Eliana K. Asciutto & Ignacio J. General 2do cuatrimestre 2017 Escuela de Ciencia y Tecnología UNSAM Dinámica Molecular de

Más detalles

TP GENOMA HUMANO. Medicina Molecular, Maestría en Biología Molecular Médica, 2011

TP GENOMA HUMANO. Medicina Molecular, Maestría en Biología Molecular Médica, 2011 TP GENOMA HUMANO Medicina Molecular, Maestría en Biología Molecular Médica, 2011 Bioq. Juan M Arriaga Bioq. M Paula Roberti Dra. Mariela Urrutia jm_arriaga@yahoo.com.ar paularoberti@conicet.gov.ar urrugada@yahoo.com

Más detalles

Similitud de Secuencias: de un Par a Todas contra Todas

Similitud de Secuencias: de un Par a Todas contra Todas Similitud de Secuencias: de un Par a Todas contra Todas Ricardo Baeza-Yates Centro de Investigación de la Web Depto. de Ciencias de la Computación Universidad de Chile ricardo@baeza.cl Resumen Similitud

Más detalles

Herramientas de Bioinformática en NGS

Herramientas de Bioinformática en NGS Herramientas de Bioinformática en NGS Ing. Sergio Gonzalez CICVyA - Instituto de Biotecnología INTA gonzalez.sergio@inta.gob.ar Temario Introducción NGS Análisis de calidad Ensamblado Anotación Estructural

Más detalles

Estimación de Parámetros. Jhon Jairo Padilla A., PhD.

Estimación de Parámetros. Jhon Jairo Padilla A., PhD. Estimación de Parámetros Jhon Jairo Padilla A., PhD. Inferencia Estadística La inferencia estadística puede dividirse en dos áreas principales: Estimación de Parámetros Prueba de Hipótesis Estimación de

Más detalles

Estimación de Parámetros. Jhon Jairo Padilla A., PhD.

Estimación de Parámetros. Jhon Jairo Padilla A., PhD. Estimación de Parámetros Jhon Jairo Padilla A., PhD. Inferencia Estadística La inferencia estadística puede dividirse en dos áreas principales: Estimación de Parámetros Prueba de Hipótesis Estimación de

Más detalles

Universidad Autónoma de Nuevo León Facultad de Ciencias Biológicas Licenciado en Biología

Universidad Autónoma de Nuevo León Facultad de Ciencias Biológicas Licenciado en Biología Universidad Autónoma de Nuevo León Facultad de Ciencias Biológicas Licenciado en Biología 1. Datos de identificación Universidad Autónoma de Nuevo León Nombre de la institución y de la dependencia: Facultad

Más detalles

Alineamientos de múltiples secuencias. Rodrigo Santamaría

Alineamientos de múltiples secuencias. Rodrigo Santamaría Alineamientos de múltiples secuencias Rodrigo Santamaría Alineamientos de múltiples secuencias Introducción Motivación Definición Usos Algoritmos Benchmarking Visualización Bases de Datos 2 Introducción

Más detalles

IDENTIFICACIÓN GENERAL. Bioinformática aplicada. Maestría en Ciencias Básicas Biomédicas. IDENTIFICACION ESPECÍFICA (Ver nota 1)

IDENTIFICACIÓN GENERAL. Bioinformática aplicada. Maestría en Ciencias Básicas Biomédicas. IDENTIFICACION ESPECÍFICA (Ver nota 1) Fecha: 07-04-2015 Pág. 1 de 5 IDENTIFICACIÓN GENERAL Nombre del curso Programa académico Bioinformática aplicada Maestría en Ciencias Básicas Biomédicas IDENTIFICACION ESPECÍFICA (Ver nota 1) Código 8501-279

Más detalles

Revista. Resumen. Introducción

Revista. Resumen. Introducción Revista Torreón Universitario www.faremcarazo.unan.edu.ni - ISSN electrónico 2313-7215 Año 4 No. 8 pág. 18-25 Octubre 2014 - Enero 2015 Análisis de algoritmos basados en técnicas de conglomerado aplicados

Más detalles

Bioinformática. Pregunta 1: (Bases de datos bibliográficos) Genes de enfermedades

Bioinformática. Pregunta 1: (Bases de datos bibliográficos) Genes de enfermedades Bioinformática Bases de datos Pregunta 1: (Bases de datos bibliográficos) Genes de enfermedades hereditarias En esta pregunta, usted elegirá una enfermedad humana y encontrará los números de acceso de

Más detalles

MODULARIDAD Y ESTRUCTURA DE COMUNIDADES EN REDES MATI

MODULARIDAD Y ESTRUCTURA DE COMUNIDADES EN REDES MATI MODULARIDAD Y ESTRUCTURA DE COMUNIDADES EN REDES MATI María Isabel Cardeñosa Sánchez Abraham Peña Hoyos 1 Modularidad y estructura de comunidades en redes Introducción Muchos sistemas de interés científico

Más detalles

Introducción a la Bioinformática

Introducción a la Bioinformática Introducción a la Bioinformática Genómica y bioinformática: Nuevas áreas de biotecnología Genómica-Ciencia que se encarga de las estrategias de clonación, secuenciación y análisis de genes. Cómo los científicos

Más detalles

Computacional y Estructural

Computacional y Estructural Biología Computacional y Estructural Diplomado presencial Objetivos General Contribuir a la formación integral del recurso humano altamente calificado en el análisis, y generación de información biológica

Más detalles

Definición:Bioinformática

Definición:Bioinformática Bioinformática Definición:Bioinformática La bioinformática es el estudio del contenido y flujo de la información en sistemas y procesos biológicos. Requieren el uso o el desarrollo de diferentes técnicas

Más detalles

Patentabilidad en el campo técnico de la biotecnología

Patentabilidad en el campo técnico de la biotecnología Patentabilidad en el campo técnico de la biotecnología Mesa redonda: Industria española de biotecnología y Agentes de patentes - OEPM EPO. (Madrid, 13 Noviembre 2013) ADN y genes Perfiles de expresión,

Más detalles

Análisis de proteínas

Análisis de proteínas Análisis de proteínas Qué determina su estructura? Composición de las proteínas Las proteínas son polímeros de aminoácidos que se unen mediante una unión peptídica Todos los aminoácidos tienen un grupo

Más detalles

Biotecnología y bioinformática

Biotecnología y bioinformática IMAGEN: http://4.bp.blogspot.com Biotecnología y bioinformática Opción B B5: Bioinformática Tema 9 de Biología NS Diploma BI Idea Fundamental: La bioinformática consiste en el uso de computadores para

Más detalles

GenBank. Resumen y búsquedas básicas

GenBank. Resumen y búsquedas básicas GenBank Resumen y búsquedas básicas Pablo Tellería Cebrián 30260 Bioinformática Febrero de 2018 Qué es GenBank GenBank es una base de datos de secuencias genéticas de acceso abierto administrada por el

Más detalles

Análisis genético usando datos de secuenciación masiva. Michael Hackenberg

Análisis genético usando datos de secuenciación masiva. Michael Hackenberg Análisis genético usando datos de secuenciación masiva Michael Hackenberg hackenberg@ugr.es Motivación Existen diferentes situaciones en las que interesa detectar el genotipo de un individuo Identificación

Más detalles

Bioinformática Clásica

Bioinformática Clásica Tema 4: Alineamiento Múltiple y Filogenias (1) Sección 1: Alineamiento Múltiple Dr. Oswaldo Trelles Universidad de Málaga El alineamiento múltiple de secuencias (AM) es con frecuencia el punto de partida,

Más detalles

EFECTO DE BASES AMBIGUAS EN LA RESOLUCION DE LAS FILOGENIAS. Laura Rocío Forero Moreno

EFECTO DE BASES AMBIGUAS EN LA RESOLUCION DE LAS FILOGENIAS. Laura Rocío Forero Moreno EFECTO DE BASES AMBIGUAS EN LA RESOLUCION DE LAS FILOGENIAS Laura Rocío Forero Moreno 2020503 Introducción El objetivo de los métodos de reconstrucción filogenética es utilizar del mejor modo posible la

Más detalles

Titulación(es) Titulación Centro Curso Periodo M.U. en Bioinformática 12-V.1 ESCOLA TÈCNICA SUPERIOR D'ENGINYERIA

Titulación(es) Titulación Centro Curso Periodo M.U. en Bioinformática 12-V.1 ESCOLA TÈCNICA SUPERIOR D'ENGINYERIA FICHA IDENTIFICATIVA Datos de la Asignatura Código 42584 Nombre Nociones básicas de bioinformática y Ciclo Máster Créditos ECTS 6.0 Curso académico 2016-2017 Titulación(es) Titulación Centro Curso Periodo

Más detalles

El virus de la gripe. Análisis bioinformático

El virus de la gripe. Análisis bioinformático El virus de la gripe Análisis bioinformático Es una enfermedad respiratoria, de origen vírico y altamente contagiosa. Obliga a hospitalizar a 200.000 personas al año en USA. Está relacionada con 30.000

Más detalles

La Estadística inferencial. Estadística inferencial. La Estadística inferencial. La Estadística inferencial. La Estadística inferencial

La Estadística inferencial. Estadística inferencial. La Estadística inferencial. La Estadística inferencial. La Estadística inferencial Estadística inferencial DEFINICIÓN Estadística Inferencial (o Estadística Analítica): Es la que se ocupa de obtener conclusiones sobre las poblaciones a partir de la información recogida en las muestras.

Más detalles

Pablo Vinuesa 2007, 1

Pablo Vinuesa 2007,  1 Curso fundamenteal de Inferencia Filogenética Molecular Pablo Vinuesa (vinuesa@ccg.unam.mx) Progama de Ingeniería Genómica, CCG, UNAM http://www.ccg.unam.mx/~vinuesa/ Tutor: PDCBM, Ciencias Biológicas,

Más detalles

Estadística Inferencial. Resúmen

Estadística Inferencial. Resúmen Ofimega - Estadística inferencial - 1 Estadística Inferencial. Resúmen Métodos y técnicas que permiten inducir el comportamiento de una población. Muestreo o selección de la muestra: 1. Aleatorio simple:

Más detalles

Ms. C. Marco Vinicio Rodríguez

Ms. C. Marco Vinicio Rodríguez Ms. C. Marco Vinicio Rodríguez mvrodriguezl@yahoo.com http://mvrurural.wordpress.com/ Uno de los objetivos de la estadística es saber acerca del comportamiento de parámetros poblacionales tales como:

Más detalles

Biología Computacional y Estructural Facultad de Ciencias Departamento de Nutrición y Bioquímica. Diplomado presencial

Biología Computacional y Estructural Facultad de Ciencias Departamento de Nutrición y Bioquímica. Diplomado presencial Diplomado presencial Intensidad horaria. 120 horas Horario. Viernes de 5:00 pm a 9:00 pm y sábados de 8:00 am a 1:00 pm Objetivos General Contribuir a la formación integral del recurso humano altamente

Más detalles

Este método de diseño de algoritmos en etapas, yendo de los conceptos generales a los de detalle, se conoce como método descendente (top-down).

Este método de diseño de algoritmos en etapas, yendo de los conceptos generales a los de detalle, se conoce como método descendente (top-down). PLANTEMAIENTO DEL PROBLEMA Identificación de entradas y salidas Un algoritmo puede ser definido como la secuencia ordenada de pasos, sin ambigüedades, que conducen a la resolución de un problema dado y

Más detalles

La aplicación de separación de voz separalab

La aplicación de separación de voz separalab Capítulo 4 La aplicación de separación de voz separalab 4.1 Introducción Este capítulo del proyecto está dedicado exclusivamente al aspecto práctico de la realización del mismo. Presentaremos varias simulaciones

Más detalles

Universidad Autónoma de Nuevo León Facultad de Ciencias Biológicas Licenciado en Biotecnología Genómica

Universidad Autónoma de Nuevo León Facultad de Ciencias Biológicas Licenciado en Biotecnología Genómica Universidad Autónoma de Nuevo León Facultad de Ciencias Biológicas Licenciado en Biotecnología Genómica 1. Datos de identificación Universidad Autónoma de Nuevo León Nombre de la institución y de la dependencia:

Más detalles

Aprendizaje de intervalos para Redes Bayesianas de Nodos Temporales

Aprendizaje de intervalos para Redes Bayesianas de Nodos Temporales Aprendizaje de intervalos para Redes Bayesianas de Nodos Temporales Pablo F. Hernández Leal Instituto Nacional de Astrofísica, Óptica y Electrónica Coordinación de Ciencias Computacionales Resumen En este

Más detalles

Genómica comparada. Brown 2002, págs

Genómica comparada. Brown 2002, págs Genómica comparada 1. Teoría neutralista de la evolución molecular 2. Sustituciones nucleotídicas sinónimas y no-sinónimas. Interpretación de la razón Ka/Ks. 3. Duplicaciones y el destino de los genes

Más detalles

ARCHIVOS CON SERIES DE LAS CUENTAS FINANCIERAS DE LA ECONOMIA ESPAÑOLA Manual del usuario

ARCHIVOS CON SERIES DE LAS CUENTAS FINANCIERAS DE LA ECONOMIA ESPAÑOLA Manual del usuario Dirección General del Servicio de Estudios 04.09.2007 ARCHIVOS CON SERIES DE LAS CUENTAS FINANCIERAS DE LA ECONOMIA ESPAÑOLA Manual del usuario Departamento de Estadística ÍNDICE 1 Introducción 3 2 Archivos

Más detalles

Aprendizaje Computacional y Extracción de Información

Aprendizaje Computacional y Extracción de Información Aprendizaje Computacional y Extracción de Información Inferencia Gramatical Jose Oncina oncina@dlsi.ua.es Dep. Lenguajes y Sistemas Informáticos Universidad de Alicante 26 de septiembre de 2007 J. Oncina

Más detalles

Dra. Ing. Agr. Sabrina Costa Tártara Departamento de Tecnología

Dra. Ing. Agr. Sabrina Costa Tártara Departamento de Tecnología Que podemos encontrar en los ácidos nucleicos de los organismos? Megabases de datos inexploradas que nos pueden dar información sobre la diversidad de los organismos. Dra. Ing. Agr. Sabrina Costa Tártara

Más detalles

Algoritmos genéticos

Algoritmos genéticos Algoritmos genéticos Introducción 2 Esquema básico 3 El problema de la mochila 7 Asignación de recursos 0 El problema del viajante 3 Variantes del esquema básico 5 Por qué funciona? 9 Observaciones finales

Más detalles

Enfermedad Mendeliana. Búsqueda en bases de datos con proteínas homólogas. Clonaje in silico del gen. Gen candidato

Enfermedad Mendeliana. Búsqueda en bases de datos con proteínas homólogas. Clonaje in silico del gen. Gen candidato Enfermedad Mendeliana Defecto determinado por métodos bioquímicos Sin pistas bioquímicas Identificación proteína Clonaje funcional del gen Búsqueda en bases de datos con proteínas homólogas Clonaje in

Más detalles

ORGANIZACIÓN, FUNCIÓN Y VARIABILIDAD DEL GENOMA 2010 PRÁCTICO: ANOTACIÓN GENÓMICA UTILIZANDO ARTEMIS

ORGANIZACIÓN, FUNCIÓN Y VARIABILIDAD DEL GENOMA 2010 PRÁCTICO: ANOTACIÓN GENÓMICA UTILIZANDO ARTEMIS 1 ORGANIZACIÓN, FUNCIÓN Y VARIABILIDAD DEL GENOMA 2010 Objetivos PRÁCTICO: ANOTACIÓN GENÓMICA UTILIZANDO ARTEMIS Profundizar en el análisis de secuencias nucleotídicas/aa utilizando la base de datos del

Más detalles

Pablo Vinuesa 2011, 1

Pablo Vinuesa 2011,   1 Introducción a la Filoinformática Instituto de Ecología, UNAM, 9-11 de Septiembre del 2011 Pablo Vinuesa (vinuesa@ccg.unam.mx) Centro de Ciencias Genómicas UNAM http://www.ccg.unam.mx/~vinuesa/ http://www.ccg.unam.mx/~vinuesa/filoinfo_ie11/

Más detalles

3. ANÁLISIS DE DATOS DE PRECIPITACIÓN.

3. ANÁLISIS DE DATOS DE PRECIPITACIÓN. 3. ANÁLISIS DE DATOS DE PRECIPITACIÓN. Teniendo en cuenta que la mayoría de procesos estadísticos se comportan de forma totalmente aleatoria, es decir, un evento dado no está influenciado por los demás,

Más detalles

Existen dos tipos de genes en el genoma humano: codificantes de proteínas y codificantes de ARN.

Existen dos tipos de genes en el genoma humano: codificantes de proteínas y codificantes de ARN. EL GEN Es una porción delimitida de ADN con capacidad de codificar una molécula de ARN denominada transcripto primario mediante un proceso llamado transcripción. El ADN contenido en los cromosomas de los

Más detalles

Código de barras del ADN. Dra. Analía A. Lanteri División Entomología- Museo de La Plata

Código de barras del ADN. Dra. Analía A. Lanteri División Entomología- Museo de La Plata Código de barras del ADN Dra. Analía A. Lanteri División Entomología- Museo de La Plata CÓDIGO DE BARRAS DEL ADN Los genes están formados por EXONES (traducen a proteínas) y los INTRONES (no codificantes)

Más detalles

Métodos de alineamiento (3) Bioinformática, Elvira Mayordomo

Métodos de alineamiento (3) Bioinformática, Elvira Mayordomo Métodos de alineamiento (3) Bioinformática, 7-3-16 Elvira Mayordomo Hoy veremos Multialineamiento (MSA): Un problema NP-completo Algoritmo aproximado para Multialineamiento: el método de la estrella Métodos

Más detalles

Computación Aplicada. Universidad de Las Américas. Aula virtual de Computación Aplicada. Módulo de Excel 2013 LIBRO 6

Computación Aplicada. Universidad de Las Américas. Aula virtual de Computación Aplicada. Módulo de Excel 2013 LIBRO 6 Computación Aplicada Universidad de Las Américas Aula virtual de Computación Aplicada Módulo de Excel 2013 LIBRO 6 Contenido FORMA DE HACER CÁLCULOS... 3 QUÉ SON LAS FÓRMULAS Y QUÉ LAS FUNCIONES?... 4

Más detalles

BLAST. Rodrigo Santamaría

BLAST. Rodrigo Santamaría BLAST Rodrigo Santamaría BLAST Introducción Definición Familia BLAST Algoritmo Salida Estrategias Otros programas Introducción BLAST: Basic Local Alignment Search Tool Altschul et al. 1990 (PMID 2231712)

Más detalles

UNIVERSIDAD AUTONOMA DEL ESTADO DE MEXICO ESCUELA PREPARATORIA TEXCOCO

UNIVERSIDAD AUTONOMA DEL ESTADO DE MEXICO ESCUELA PREPARATORIA TEXCOCO UNIVERSIDAD AUTONOMA DEL ESTADO DE MEXICO ESCUELA PREPARATORIA TEXCOCO MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN PARA DATOS NO AGRUPADOS MATERIAL DIDACTICO SOLO VISION ASIGNATURA QUE CORRESPONDE: ESTADISTICA

Más detalles