Análisis y anotación de una secuencia mediante las herramientas y bases de datos de UCSC Genome Bioinformatics & Galaxy

Documentos relacionados
Grupo de Genómica Computacional & Bioinformática Universidad de Granada

Metilación & Epigenética. Biocomputación Michael Hackenberg

GENÉTICA MOLECULAR. Unidad 1: Introducción a la genética molecular

Eras de investigación EPIGENOMICA DESIFRANDO EL OTRO CODIGO GENETICO 01/06/2010

Predicción de Promotores y Elementos Reguladores

Organización del genoma humano

Organización del genoma humano

DNA ESTRUCTURA Y FUNCIÓN. Dra.PhD. Silvia Llambí Area Genética CURSO BMC Unidad V AÑO 2008

Introducción a la Bioinformática

Diseño de un Procesador para el Alineamiento Global de Secuencias de DNA

CURSO INTERNACIONAL DE BIOINFORMÁTICA: MANEJO DE LAS HERRAMIENTAS BÁSICAS

Organización y estructura de genomas

Introducción a la Secuenciación Masiva y a la Bioinformática

Estructura del genoma humano: perspectivas en biomedicina. Julio Escribano Facultad de Medicina Universidad de Castilla-La Mancha

Biocomputación. Curso 2011/2012 José L. Oliver Michael Hackenberg Bioinformatics, UGR

FACULTAD DE CIENCIAS NATURALES DEPARTAMENTO DE CIENCIAS BIOLÓGICAS. Período Académico: Intensidad Semanal: Créditos: 4.

Organización y estructura de genomas

Enfermedad Mendeliana. Búsqueda en bases de datos con proteínas homólogas. Clonaje in silico del gen. Gen candidato

ÍNDICE DE CONTENIDOS. 6.1 Secuencias... 13

-DNA in vivo, cromatina -nucleosomas, histonas, empaquetamiento -cromosomas, ej. de algunas aberraciones

Catálogo de Servicios GenXPro

Genética del comportamiento: Análisis de los Trastornos del Espectro Autista desde la perspectiva del DSM-5. 1ª Parte

Genómica comparada. Brown 2002, págs

Organización del genoma eucariotico. 1. Complejidad del genoma eucariota

Biotecnología y bioinformática

Introducción al NCBI

SESIÓN 5 ESTRUCTURA DE LOS ÁCIDOS NUCLEICOS. Los Ácidos Nucleicos. Moléculas Esenciales Para La Vida

Alineamiento local: búsqueda de homologías

1. Conocer, analizar y discutir los mecanismos moleculares del almacenamiento, mantenimiento, expresión y transmisión de la información genética.

TEMA 2 LA INFORMACIÓN GENÉTICA COLEGIO LEONARDO DA VINCI BIOLOGÍA Y GEOLOGÍA 4º ESO CURSO 2014/15

POPULATION GENOMICS. El paradigma poblacional. Medida de la variación genética y genómica. Desequilibrio de ligamiento

ORGANIZACIÓN, FUNCIÓN Y VARIABILIDAD DEL GENOMA 2010 PRÁCTICO: ANOTACIÓN GENÓMICA UTILIZANDO ARTEMIS

CAPITULO 8 CLONAMIENTO CONSTRUCCION DE GENOTECAS CARACTERIZACION DE CLONES

Informe técnico del proyecto. de diagnóstico genético de pacientes con. síndrome de Dravet y espectros asociados

Simposio SEAP Marcadores Moleculares Emergentes y Su Potencial Utilidad Clínica

Características e importancia del código genético

Definición:Bioinformática

USO DE CODONES SINONIMOS

FLUJO DE LA INFORMACIÓN GENÉTICA.

Bases de Datos. Rodrigo Santamaría

FCSCL. Curso Práctico de Iniciación al uso de la Supercomputación aplicado a la Metagenómica y Genómica comparada. 2ª edición

TIENEN LOS ELEMENTOS MÓVILES UN PAPEL REGULADOR EN EL GENOMA? Judith Perisé Barrios Módulo: Genómica y Proteómica Máster Genética-UAB Junio 2009

Búsqueda de secuencias en Bases de Datos.

Genómica. Grado en Bioquímica

Alineamiento de pares de secuencias

Introducción a la Biología Molecular

El ADN como material genético Estructura de los ácidos nucleicos

UPR RECINTO DE RÍO PIEDRAS FACULTAD DE CIENCIAS NATURALES DEPARTAMENTO DE BIOLOGÍA LABORATORIO DE BIOTECNOLOGÍA (BIOL. 3365)

-Concepto operon -Mutante constitucional -Lac operon, represor (alolactosa), regulacion por represion catabolito -Promotor (pro. Policistronico, eu.

Práctica X: Genómica comparativa

GENÉTICA Y MEDICINA GENÓMICA GENÉTICA Y MEDICINA GENÓMICA

Replicación del ADN - Replicación de la doble hélice: Biosíntesis de ADN en células procariotas y

Introducción a la Bioinformática Centro de Bioinformática Instituto de Biotecnología Universidad Nacional de Colombia

Título del trabajo. Cristian Rojas & Miguel Gutiérrez. Enero Nombre de la institución. Nombre del departamento. Nombre de la asignatura

REGULACIÓN TRANSCRIPCIONAL DE LA EXPRESIÓN GENICA

The human genome. El proyecto genoma humano

2 Congreso Colombiano de Bioinformática y biología computacional.

IDENTIFICACIÓN GENERAL. Bioinformática aplicada. Maestría en Ciencias Básicas Biomédicas. IDENTIFICACION ESPECÍFICA (Ver nota 1)

2º medio: Material genético y reproducción celular. Cromosomas y genes. 4º medio: Información génica y proteínas.

Secuenciación del ARN

NOMBRE DE LA ASIGNATURA: Métodos Computacionales en Bioinformática

Introducción a la Bioinformática

Genomas, contenido de genes.

La teoría de coalescencia

Del ADN a las Proteínas

BASES DE DATOS DE INTERÉS EN BIOQUÍMICA

Clase 1 Estructura del ADN Modelo del ADN

LICENCIATURA DE MÉDICO CIRUJANO

tuberosus (Fairmaire & Germain)

Ingeniería Genética. Construcciones Genéticas. Mariano N. Belaich, Vanina A. Rodríguez, Facundo Temprana Universidad Nacional de Quilmes

ESTUDIO DE POLIMORFISMOS ALU HUMANOS POR PCR

Tema 4. Genes compartidos. Duplicación génica. Genes solapados Splicing alternativo Edición del ARN. Evolución del número de genes

La síntesis de proteínas

Alineamientos de múltiples secuencias. Rodrigo Santamaría

Genética Médica Tema 2. Estructura y organización del genoma humano: genes, familias génicas y polimorfismos del DNA

Bioinformática y Biología molecular. Bioinformática Elvira Mayordomo

Genética Medicina Nicolás Jouve Curso

NUESTRO MATERIAL GENETICO

Computacional y Estructural

Caracterización de Imágenes

El ADN humano y el del chimpancé son más distintos de lo que se creía

Universidad de Los Andes Facultad de Medicina Instituto Inmunología Clínica Maestría en Inmunología

Fecha de elaboración: 14 de mayo de 2010 Fecha de última actualización: 27 de Mayo de 2010

Curso Posgrado 2014 Dra. María Gabriela Lacoste

Macromoléculas cuya función principal es el almacenamiento y la transmisión de información genética hereditaria entre células

Tema 8. Mapas físicos Genómica estructural

Bases de datos en Bioinformática. CeCalCULA - C.P.T.M. Mérida. Venezuela.

Regulación en Eucariotas

Mapeo genómico: Determinación de la localización de elementos en un genoma, con respecto de marcadores identificados

REGULACIÓN GENÉTICA EN CÉLULAS EUCARIOTAS

DOT PLOT: VISUALIZACIÓN DE LA SIMILITUD ENTRE DOS SECUENCIAS

F.I.G.: Experimento de Volkin and Astrachan, 1956

Gene Ontology: GO Prof. Dr. José L. Oliver

cuevogenet Paralelización en CUDA de la Dinámica Evolutiva de Redes Génicas Dirigido por: Fernando Díaz del Río José Luis Guisado Lizar

Transcripción. - Generalidades - DNA RNA. - Mecanismo. - Modelos Protein. - Moléculas. - Métodos de detección de RNA. Chromosome RNA DNA

2. ESTRATEGIA PARA EFECTUAR LA CLONACION Y EXPRESION DEL GEN

CARTA DESCRIPTIVA (FORMATO MODELO EDUCATIVO UACJ VISIÓN 2020)

Grandes proyectos genómicos

Biología (54208) Profesora: Dra. Marlys Campos

Manual para la caracterización de secuencias adyacentes a genes de interés

Transcripción:

Análisis y anotación de una secuencia mediante las herramientas y bases de datos de UCSC Genome Bioinformatics & Galaxy Master de Genética y Evolución 2011/2012 Analisis de Secuencias Michael Hackenberg (mlhack@gmail.com) http://bioinfo2.ugr.es/secuencias/

Temario de las 3 sesiones 1) Análisis de una secuencia mediante anotación Bases de datos: UCSC (interfaz table browser) y Ensembl (interfaz BioMart) Galaxy: herramientas para obtener, manipular y almacenar datos 2) Estructura y contenido del genoma Isocoras, correlaciones de largo alcance del contenido en G+C Elementos funcionales: genes, TFBs, enhancer, islas CpG, RNA no codificante DNA repetido: Retro-transposones, transposones de DNA, LTR, DNA satélite 3) Epigenómica Metilación de DNA: contextos de metilación CpG y CWG, islas CpG Metilación del promotor frente a metilación en el cuerpo génico (gene body) Metilación en el desarrollo y metilación diferencial Bases de datos: NGSmethDB

Objetivo del análisis de secuencias Caracterizar la secuencia en cuando al: contenido de elementos genómicos (genes, TFBS, enhancer, islas CpG, DNA repetido, etc), composición (G+C, frecuencias de k-meros), estructura (isocoras, superestructuras, correlaciones de largo alcance) Sitios de restricción Sitios (origen) de replicación, tasas de recombinación Información epigenética como metilación de DNA y histonas, impronta génica Variación genética: SNPs, CNVs, duplicaciones segmentales Detección de biomarcadores Etc, etc Existen dos maneras diferentes 1. Predicción sobre una secuencia de DNA mediante métodos computacionales 2. Anotación mediante bases de datos siendo la secuencia representada por sus coordenadas

Punto de partida: la secuencia GATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGTAG CTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTGCTTTCCACGACGGTGACACGCTTCCCTGGATTGGGTAAGCTCCTGACTG AACTTGATGAGTCCTCTCTGAGTCACGGGCTCTCGGCTCCGTGTATTTTCAGCTCGGGAAAATCGCTGGGGCTGGGGGTGGGGCAGTGGGGA CTTAGCGAGTTTGGGGGTGAGTGGGATGGAAGCTTGGCTAGAGGGATCATCATAGGAGTTGCATTGTTGGGAGACCTGGGTGTAGATGATGG GGATGTTAGGACCATCCGAACTCAAAGTTGAACGCCTAGGCAGAGGAGTGGAGCTTTGGGGAACCTTGAGCCGGCCTAAAGCGTACTTCTTT GCACATCCACCCGGTGCTGGGCGTAGGGAATCCCTGAAATAAAAGATGCACAAAGCATTGAGGTCTGAGACTTTTGGATCTCGAAACATTGA GAACTCATAGCTGTATATTTTAGAGCCCATGGCATCCTAGTGAAAACTGGGGCTCCATTCCGAAATGATCATTTGGGGGTGATCCGGGGAGC CCAAGCTGCTAAGGTCCCACAACTTCCGGACCTTTGTCCTTCCTGGAGCGATCTTTCCAGGCAGCCCCCGGCTCCGCTAGATGGAGAAAATC CAATTGAAGGCTGTCAGTCGTGGAAGTGAGAAGTGCTAAACCAGGGGTTTGCCCGCCAGGCCGAGGAGGACCGTCGCAATCTGAGAGGCCCG GCAGCCCTGTTATTGTTTGGCTCCACATTTACATTTCTGCCTCTTGCAGCAGCATTTCCGGTTTCTTTTTGCCGGAGCAGCTCACTATTCAC Predicción GATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGTAG CTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTGCTTTCCACGACGGTGACACGCTTCCCTGGATTGGGTAAGCTCCTGACTG AACTTGATGAGTCCTCTCTGAGTCACGGGCTCTCGGCTCCGTGTATTTTCAGCTCGGGAAAATCGCTGGGGCTGGGGGTGGGGCAGTGGGGA CpG unmeth CTTAGCGAGTTTGGGGGTGAGTGGGATGGAAGCTTGGCTAGAGGGATCATCATAGGAGTTGCATTGTTGGGAGACCTGGGTGTAGATGATGG GGATGTTAGGACCATCCGAACTCAAAGTTGAACGCCTAGGCAGAGGAGTGGAGCTTTGGGGAACCTTGAGCCGGCCTAAAGCGTACTTCTTT TFBS GCACATCCACCCGGTGCTGGGCGTAGGGAATCCCTGAAATAAAAGATGCACAAAGCATTGAGGTCTGAGACTTTTGGATCTCGAAACATTGA GAACTCATAGCTGTATATTTTAGAGCCCATGGCATCCTAGTGAAAACTGGGGCTCCATTCCGAAATGATCATTTGGGGGTGATCCGGGGAGC TSS CCAAGCTGCTAAGGTCCCACAACTTCCGGACCTTTGTCCTTCCTGGAGCGATCTTTCCAGGCAGCCCCCGGCTCCGCTAGATGGAGAAAATC exon CAATTGAAGGCTGTCAGTCGTGGAAGTGAGAAGTGCTAAACCAGGGGTTTGCCCGCCAGGCCGAGGAGGACCGTCGCAATCTGAGAGGCCCG GCAGCCCTGTTATTGTTTGGCTCCACATTTACATTTCTGCCTCTTGCAGCAGCATTTCCGGTTTCTTTTTGCCGGAGCAGCTCACTATTCAC

Punto de partida: coordenadas de una región: Ensamblado/especie: hg18, mm8, rn4, hg19, mm9 etc Cromosoma/contig/scaffold: chr1, chr3l, etc chromstart (primera base de la region): 129489 nt chromend (ultima base de la región): 233759 nt (mas grande que chromstart!) Las coordenadas se dan en la hebra + (Watson)! Ejemplo: región dada por hg18 (genóma humano) chr1:201856-498076 Anotación de los genes RefSeq 3 transcritos: NM_001005277,..

Ventajas Predicción: No hace falta anotación (ab initio algunos) Aplicable en un principio a cualquier especie se usa en especies con pocas anotaciones Anotación: Permite usar datos experimentales Datos suelen tener mayor calidad que aquellos obtenidos mediante predicción Suele ser mas rápido que la predicción Hay datos que son impredecibles como la variación se secuencia Desventajas Predicción Generalmente existe un alto número de predicciones erróneas Los algoritmos suelen necesitar entrenamiento Frecuentemente, se usa la conservación evolutivo como filtro para mejorar las predicciones funciones especificas de la especie no pueden ser detectados Anotación El grado de conocimiento que se puede obtener sobre una región/secuencia depende de lo que hay en la base de datos Muchas especies cuentan con pocas anotaciones experimentales (especies/organismos no modelo) Observación: Frecuentemente, los dos conceptos no se dejan separar tan nítidamente: 1) las bases de datos contienen anotaciones obtenidas mediante predicción y 2) muchos métodos de predicción han sido entrenados usando anotaciones (datos experimentales)

La pagina de la UCSC Genome Bionformatics (University of California Santa Cruz) en la Universidad de California de Santa Cruz (http://genome.ucsc.edu/) abarca una serie de base de datos y herramientas muy importantes: Genome Browser: Visualizar cientos de elementos y propiedades en un contexto genomico Blat: Alinear una secuencia con un genoma completo (http://genome.ucsc.edu/cgibin/hgblat) Table browser: Interfaz a la base de datos que permite filtrar y descargar los contenidos Galaxy es una web workbench que permite al usuario de llevar a cabo un gran número de análisis y experimentos in silico Obtener datos de un gran número de bases de datos o ficheros locales y almacenarlos en el servidor Manipular los datos (cambiar formato, añadir, unir o quitar columnas, cálculos en una columna, filtrar y ordenar, comparar y agrupar columnas) Encontrar solapamiento entre dos listas de elementos genómicos ( cuales de los SNPs detectados se localizan en exones?, Qué promotores solapan con islas CpG?, etc )

o El BLAT de ADN está diseñado para encontrar de forma rápida una secuencia en un genoma dado o Optimizado para las secuencias con mayor similitud de 95% y mayor longitud que 25 bp probablemente falla detectar alineamientos mas divergentes o cortos Kent WJ. BLAT--the BLAST-like alignment tool. Genome Res. 2002

o o o Ordenado por score (longitud de alineamiento ponderado con la similitud de secuencia) Qsize=longitud de la secuencia de entrada SPAN=longitud del alineamiento en el genoma ( no es el número de bases alineados!)

El formato bed es el formato por defecto que usa UCSC y Galaxy http://genome.ucsc.edu/faq/faqformat.html#format1

Otro formato frecuentemente empleado es GFF (General Feature Format) http://genome.ucsc.edu/faq/faqformat.html#format3 Requiere 9 columnas separado por tabulador

http://main.g2.bx.psu.edu/ Blankenberg D. et al. Galaxy: a web-based genome analysis tool for experimentalists. Curr Protoc Mol Biol. 2010