Manejo de Datos de NGS

Documentos relacionados

Apéndice 5 Manual de usuario de ColeXión. ColeXión 1.0. Manual de usuario

Microsoft Dynamics. Migración de FRx 6.7 a Management Reporter for Microsoft Dynamics ERP

2 Congreso Colombiano de Bioinformática y biología computacional.

Sesión No. 4. Contextualización INFORMÁTICA 1. Nombre: Procesador de Texto

3. Número inicial y número final de mensajes mostrados en la página actual.

Conciliación bancaria en CheqPAQ Cargado de estado de cuenta

Ayuda En-línea para SIG

SIIGO Pyme. Templates. Cartilla I

Apuntes de ACCESS. Apuntes de Access. Campos de Búsqueda:

QUÉ SISTEMAS OPERATIVOS SOPORTA EL SERVICIO SEGURIDAD MOVISTAR?

Manual de uso de correo por webmail

Introducción al PSPICE

GUÍA Nro. 1 TECNOLOGÍA DE INTERNET. TIII PIII

DOCUMENTACIÓN TÉCNICA

PROCESO DE VENTA CONSULTIVA MÓDULO DE GESTIÓN DE OPORTUNIDADES DE NEGOCIO

Contenido. Instalación y activación...7. Instalar Xcelsius Para instalar Xcelsius Activar Xcelsius

Microsoft Access proporciona dos métodos para crear una Base de datos.

Manual de Instalación. Sistema FECU S.A.

PSI Gestión es un sistema multiusuario que le permite 2 tipos de configuraciones:

Curso PHP Módulo 1 R-Luis

IMPORTACIÓN DE EXCEL PROCEDIMIENTO PARA LA IMPORTACIÓN DE ARCHIVOS DE EXCEL EN EL PROGRAMA CAMPEÓN PLUS SMART 13/12/2012 MALDONADO SOFTWARE MSW

ÍNDICE DE CONTENIDOS. 6.1 Secuencias... 13

O C T U B R E SOPORTE CLIENTE. Manual de Usuario Versión 1. VERSIÓN 1 P á g i n a 1

ALGUNAS AYUDAS PARA EL ACCESO AL AULA DIGITAL Contenido

Manual de Usuario De Respaldo y Restauración de Información

Ejemplos básicos de webmathematica para profesores

GuÍa rápida de uso. westlaw chile

Microsoft Dynamics. Guía de configuración de proveedores de datos de Management Reporter for Microsoft Dynamics ERP

Funcionalidades de Búsqueda (Search Mode) y Asignación Manual de Usuario

Haga clic en los recuadros donde indica la mano y regrese al inicio del capítulo al hacer clic en el título de la sección donde se encuentra

Formato para prácticas de laboratorio

Uso curso e-learning ESTE MANUAL TIENE COMO OBJETIVO APOYARLE EN EL USO DEL CURSO E-LEARNING VISTO DE MANERA LOCAL (CD ROM O DISCO DURO)

CREACIÓN Y PUBLICACIÓN DE SITIOS WEB

Guía de usuario. Docentes. Autoservicio de PowerCAMPUS

Banco de la República Bogotá D. C., Colombia

Instituto de Biomedicina y Biotecnología de Cantabria (IBBTEC) SERVICIO DE SECUENCIACIÓN MASIVA

Autor: Microsoft Licencia: Cita Fuente: Ayuda de Windows

Estructuras de datos: Proyecto 2

Operación de Microsoft Excel

Este documento puede descargarse desde:

Tareas - Envío de archivo (Paso 1)

Anexo B. Comunicaciones entre mc y PC

Práctica 6 - Página Web

Bases de datos biológicas

ARCHIVOS CON SERIES DEL BOLETÍN ESTADÍSTICO Manual de Usuario

QUERCUS PRESUPUESTOS MANUAL DEL USO

Lectura No. 3. Contextualización. Nombre: Página web DISEÑO DIGITAL 1. Para qué te sirve saber elaborar una página web?

<Generador de exámenes> Visión preliminar

UNIVERSIDAD TECNICA DEL NORTE

Formato para prácticas de laboratorio

PROYECTOS, FORMULACIÓN Y CRITERIOS DE EVALUACIÓN

GMF Gestor de incidencias

Banco de la República Bogotá D. C., Colombia

Mesa de Ayuda Interna

ÍTEMS DEL MENÚ CREACIÓN Y GESTIÓN (Última revisión: lunes, 9 de marzo de 2009)

Operación Microsoft Access 97

Manual del Profesor Campus Virtual UNIVO

Mesa de Ayuda Interna

Guía Práctica para el Uso del Servicio de Software Zoho CRM

Capítulo 9. Archivos de sintaxis

Manual correo electrónico sobre webmail

Capítulo 1 Documentos HTML5

Manual de Administración de Correo Electrónico

Manual para usuarios USO DE ONEDRIVE. Universidad Central del Este

TECHNOLOGY EXPERTISE, ACCESS & LEARNING FOR ALL TEXANS

Informe de Avance #4 Implementación de Prototipo Funcional del Sistema

Comisión Nacional de Bancos y Seguros

Indicaciones específicas para los análisis estadísticos.

MATERIAL 2 EXCEL 2007

UNVERSIDAD ESTATAL A DISTANCIA VICERRECTORÍA ACADÉMICA. Dirección de Producción. de Materiales Didácticos. Programa de Aprendizaje en Línea

INSTRUCCIONES PARA INSTALACIÓN Y USO DEL PROGRAMA DE CUMPLIMENTACIÓN DE SOLICITUDES DE AYUDA A LA COOPERACIÓN 2012

INSTRUCTIVO DE ADMINISTRADOR ALFRESCO COMMUNITY 4.2

UNIVERSIDAD DE OVIEDO

Instituto de Biomedicina y Biotecnología de Cantabria (IBBTEC) SERVICIO DE SECUENCIACIÓN MASIVA

Manual de Uso Moodle

Manual de Usuario para el Portal de Homologación de Documentos de Obra Pública y Servicios Relacionados con las Mismas.

GUÍA DE USUARIO DEL CORREO

MANUAL DE USO DE LAS ESTADÍSTICAS GENERADAS POR WEBALIZER

ModusOne. ModusOne Client. Version: 5.2

Formularios. Formularios Diapositiva 1

CAPÍTULO VI PREPARACIÓN DEL MODELO EN ALGOR. En este capítulo, se hablará acerca de los pasos a seguir para poder realizar el análisis de

Manual de Microsoft Power Point 2007 Parte 2 Universidad Politécnica de San Luis Potosí

TABLA DE CONTENIDO LISTA DE FIGURAS

CONSTRUCCIÓN DEL PROCESO MESA DE AYUDA INTERNA. BizAgi Process Modeler

Servicio Webmail. La fibra no tiene competencia

Manual del usuario del Módulo de Administración de Privilegios del Sistema Ingresador (MAPSI)

Manual para consultar la cuenta de correo por webmail

Cursos de DISEÑO DE PÁGINAS WEB. Empresa Colaboradora: [ ] Diseño de Páginas Web

GUIA COMPLEMENTARIA PARA EL USUARIO DE AUTOAUDIT. Versión N 02 Fecha: 2011-Febrero Apartado: Archivos Anexos ARCHIVOS ANEXOS

NOTAS TÉCNICAS SOBRE EL SIT: Comunicados (I)

el Soporte de Decisiones

Consorcio Clavijero Guía Plataforma Educativa Perfil Estudiante

Nota: Se puede tener un acceso directo definido o podemos entrar a través de la

2_trabajar con calc I

SISTEMA DE REGISTRO DE TRANSACCIONES BURSATILES BAGSA MANUAL DE USUARIO

Manual del Usuario Inscripción de Proyectos al Fondo de Fomento Formulario On-line

Programa de Educación a Distancia MOODLE EDUC. (Modular Object Oriented Distance Learning Enviroment)

MANUAL DE USUARIO. Como ingresar al sitio Web.

Índice. Insertar vínculos a páginas web... 8 Insertar videos... 9 Vínculos a archivos... 9

Consultas con combinaciones

Transcripción:

Manejo de Datos de NGS M. En C. Verónica Jiménez Jacinto vjimenez@ibt.unam.mx Unidad Universitaria de Secuenciación Masiva de ADN Unidad Universitaria de Apoyo Bioinformático UNAM Enero 2014

Objetivos a lograr La manera de hacer investigación biológica está cambiando constantemente. La gran producción de datos con procesos automatizados, el poder de cómputo y el desarrollo software específico para los problemas biológicos, han contribuido para lograr grandes avances en la ciencia. Sin embargo, es necesario conocer los formatos estándares con los que se representa la información acerca de secuenciación masiva, genomas de referencia y genes para llevar a cabo anotación: Durante ésta sesión revisaremos los formatos estándares para el manejo de secuencias, reconocidos por la mayoría de las herramientas bioinformáticas. Revisaremos modelos de error y calidad y realizaremos un análisis de calidad de una corrida. Utilizaremos herramientas bioinformáticas para manipular archivos de secuenciación masiva cambiando de un formato a otro y haciendo un aprimera limpieza.

TEMARIO 1. Formatos de archivo, identificadores y calidad. 1.1 El formato raw 1.2. El formato fasta (Referencia de Genomas) 1.3. El formato fastq (lecturas crudas) 1.4. Calidad PRHED 1.5. El formato sff (454) 1.6. El formato sam/bam (alineamiento) 1.7. El formato gff, bed, embl (Anotación) 2. Modelos de error 3. Herramientas de transformacion y preprocesado: 3.1 samtools, bamtools : viendo un archivo, ordenando, marcando duplicados ópticos 4. Control de calidad : FastQC

Flujo de tipos de Archivos

1.1. Formato raw El formato mas simple para representar una cadena de ADN o de aminoácidos, es el formato raw, el cual solo espera la secuencia en si. Sin comentarios, ni nombres. Ejemplo: ATGCTGACTGCCCGACTCTTGCTGCCCCGGCTCCTCTGCCTCCAG GGCAGGACTACCTCTTACTCTACAGCAGCTGCTCTCCCGAACCCA ATCCCAAACCCAGAGATTTGCTACAACAAGCTGTTCATCAACAAC GAGTGGCATGATGCGGTCAGCAAAAAGACCTTCCCCACAGTGAA CCCCACTACAGGTGAGGTCATTGGGCATGTGGCCGAAGGTGACC GGGCAGATGTGGATCTGGCTGTAAAAGCAGCCCGAGAAGCCTTC CGCCTGGGGTCCCCATGGCGCAGGATGGATGCCTCAGAGCGGGG CCGGCTGCTGAACCGCCTAGCTGATCTT

1.2.Formato fasta Este formato fue definido originalmente por el programa FastA, pero actualmente es usado por una gran variedad de programas (BLAST, gibbs sambler, alineadores, etc). Características: Cada secuencia inicia con el símbolo > seguido del identificador de la secuencia y todos los comentarios que se quiera sobre esa misma línea. La siguiente línea describe propiamente la secuencia, a la que se le pueden insertar tabuladores, cambios de línea y espacios, mismos que serán ignorados en cualquier análisis. La secuencia es leída hasta que es encontrado el fin de archivo ó una nueva secuencia inicia con >. Dentro de un solo archivo puede haber una o varias secuencias.

1.2. Formato fasta (cont.) Ejemplo de dos secuencias de 60 pb c/u. en formato fasta : >GAT1_up GCGGTGCCCGGCCCAGCCACATATATATAGGTGTGTGCCA CTCCCGGCCCCGGTATTAGC >PUT4_up CCCTTCCAGTTTCTTTTATTCTTTGCTGTTTCGAAGAATC ACACCATCAATGAATAAATC

1.2. Formato fasta (otro ejemplo) >gi 25777730 ref NP_000683.3 aldehyde dehydrogenase [Homo sapiens] MLRFLAPRLLSLQGRTARYSSAAALPSPILNPDIPYNQLFINNEWQDAVSKKTFP TVNPTTGEVIGHVAEGDRADVDRAVKAAREAFRLGSPWRRMDASERGRLLNRL ADLVERDRVYLASLETLDNGKPFQESYALDLDEVIKVYRYFAGWADKWHGKTIP MDGQHFCFTRHEPVGVCGQIIPWNFPLVMQGWKLAPALATGNTVVMKVAEQT PLSALYLASLIKEAGFPPGVVNIITGYGPTAGAAIAQHVDVDKVAFTGSTEVGHLIQ KAAGDSNLKRVTLELGGKSPSIVLADADMEHAVEQCHEALFFNMGQCCCAGSR TFVEESIYNEFLERTVEKAKQRKVGNPFELDTQQGPQVDKEQFERVLGYIQLGQK EGAKLLCGGERFGERGFFIKPTVFGGVQDDMRIAKEEIFGPVQPLFKFKKIEEVVE RANNTRYGLAAAVFTRDLDKAMYFTQALQAGTVWVNTYNIVTCHTPFGGFKES GNGRELGEDGLKAYTEVKTVTIKVPQKNS

FASTQ es un formato basado en texto para almacenar tanto una secuencia biológica (de nucleótidos por lo general) y sus puntuaciones de calidad correspondientes en formato PHRED. 1.3. Formato Fastq

1.3. Formato fastq (cont.) El encabezado de una secuencia, Generalmente describe datos del secuenciador por el cual fue generada. Ejemplo de Illumina GAIIx

1.4. Calidad PRHED Las puntuaciones PHRED, están asociadas a la confiabilidad de cada caracter de la secuencia, a partir de un valor Q. Phred 10 99.9999% Q40 99.9% Q10 99% Q2

1.4. Calidad PRHED (cont.) El valor de calidad Q es un número entero de mapeo de P (la probabilidad de que la base en la secuencia sea incorrecto). La ecuación es el estándar de Sanger para evaluar la fiabilidad de una base, también conocida como puntuación de calidad Phred.

1.4. calidad PHRED (cont.)

1.5. Formato SFF SFF (Standard Flowgram Format). Es la salida nativa de la plataforma 454 de Roche. Características: Información del electroferograma, Las secuencias, Las calidades de las secuencias, Y una recomendación de la calidad y adaptador ha ser recortado Fuente: http://bioinf.comav.upv.es/courses/sequence_analysis/sequence_file_formats.html

1.5. De SFF a fastq Podemos generar a partir de un SFF un fastq, usando el comando: sff2fastq file.sff > file.fasta zcat file.sff.gz sff2fastq > file.fastq O biophyton: #!/usr/bin/python ### Generates a fastq file from a 454 SFF file import sys from Bio import SeqIO SFFfile = sys.argv[1] SeqIO.convert(SFFfile, "sff-trim", SFFfile[:-4]+".fastq", "fastq") fuente: http://code.google.com/p/bioman/source/browse/sff2fastq.py?r=2d08cc338ac4fe1f01646f89a482f7408342a5a3

1.6. Formato SAM/BAM

1.6. Formato SAM/BAM (cont.)

1.6. Formato SAM/BAM (cont.)

Campos de un sam

Explicando el flag

Explicando el flag de un sam

Interpretación de alineamiento

1.7. Formato GFF Un archivo GFF, es útil para contextualizar las secuencias nucleotídicas, con información genómica, como puede ser la ubicación de un gen en dicha secuencia nucleotídica.

1.7. Formato GFF (cont.) GFF (general Feature format) fue propuesto como un protocolo para transferir información de los genes de un organismo. características : Archivo de texto. Los campos están en una sola línea y están separados por tabuladores <seqname>: nombre de la secuencia <source> : la fuente de la secuencia <feature> : tipo de secuencia (gen, CDS, etc) <start>: posición de inicio de la secuencia <end>: posición final de la secuencian <score> : calificación de la secuencia <strand> : dirección de la secuencia <frame> : marco de referencia de la secuencia [attributes] : otros atributos definidos por el usuario [comments] : cualquier comentario acerca de la secuencia

Ejemplo GFF SEQ1 EMBL atg 103 105. + 0 SEQ1 EMBL exon 103 172. + 0 SEQ1 EMBL splice5 172 173. +. SEQ1 netgene splice5 172 173 0.94 +. SEQ1 genie sp5-20 163 182 2.3 +. SEQ1 genie sp5-10 168 177 2.1 +. SEQ2 grail ATG 17 19 2.1 0

Formato BED El formato BED proporciona una manera flexible de desplagar la información referente a al anotación de una region genomica. Un línea de BED tiene 3 campos obligatorios y 9 opcionales: Son los 3 campos obligatorios son: chrom El nombre del cromosoma (e.g. chr3, chry, chr2_random) o scaffold (e.g. scaffold10671). chromstart Posición de inicio de la region. La primera base es 0. chromend La posición de fin de la característica o region, y no esta incluida en la característica. Por ejeplo: Las primeras 100 bases de un cromosoma estan definidas como chromstart=0, chromend=100, y se espanden en las bases numeradas del 0-99. Fuente: https://genome.ucsc.edu/faq/faqformat.html

Formato BED (cont.) Los 9 campos opcionales de BED son: name Define el nombre de la linea BED. Esta etiqueta es desplegada a la izquierda, en algunos visualizadores. score Una calificación entre 0 y 1000, que puede definir el nivel de gris con que será desplegado. (Numeros altos = gris mas oscuro). strand Define la dirección '+' o '-'. thickstart La posición de inicio donde una característica se empieza a dibujar mas densamente ( por ejemplo el codon de inicio)

Formato BED (cont.) thickend La posición de fin donde una característica se dibuja mas densamente. itemrgb Un valor RGB de la forma R,G,B (e.g. 255,0,0). Para determinar el color de despliegue. blockcount Número de bloques (exones) en una linea BED. blocksizes Una lista separada con comas, con los tamaños de los bloques. blockstarts Una lista separada con comas con los inicios de los bloques.

Formato EMBL El formato EMBL es un archivo de texto plano para almacenar secuencias y sus asociaciones con metainformación, características y coordenadas, lo que resulta en un archivo rico en információn, leible por un humano y una computadora.

Formato EMBL (cont.) Cada línea inicia con: ID Identificador (Al inicio de cada entrada; 1 por entrada) AC - accession number (>=1 por entrada) PR Identificador del proyecto (0 o 1 por entrada) DT - date (2 por entrada) DE - descripcion (>=1 por entrada) KW - keyword (>=1 por entrada) OS - organism species (>=1 por entrada) OC - organism classification (>=1 por entrada) OG - organello (0 or 1 por entrada) RN - reference number (>=1 por entrada) RC - reference comment (>=0 por entrada) RP - reference positions (>=1 por entrada) RX - reference cross-reference (>=0 por entrada) RG - reference group (>=0 por entrada)

Formato EMBL (cont.) RA - reference author(s) (>=0 por entrada) RT - reference title (>=1 por entrada) RL - reference location (>=1 por entrada) DR - database cross-reference (>=0 por entrada) CC - comments or notes (>=0 por entrada) AH - assembly header (0 or 1 por entrada) AS - assembly information (0 or >=1 por entrada) FH - feature table header (2 por entrada) FT - feature table data (>=2 por entrada) XX - spacer line (many por entrada) SQ - sequence header (1 por entrada) CO - contig/construct line (0 or >=1 por entrada) bb - (blanks) sequence data (>=1 por entrada) // - termination line (ends each entry; 1 por entrada)

Ejemplo EMBL: ID SC10H5 standard; DNA; PRO; 4870 BP. XX Línea en blanco AC AL031232; XX Accesion Number DE Streptomyces coelicolor cosmid 10H5. XX KW integral membrane protein. XX OS Streptomyces coelicolor OC Eubacteria; Firmicutes; Actinomycetes; Streptomycetes; OC Streptomycetaceae; Streptomyces. Palabras claves Especie del organismo Identificador Descripción Clasificación del organismo Fuente: ftp://ftp.ebi.ac.uk/pub/databases/embl/doc/usrman.txt

Ejemplo EMBL (cont ) FH Key Location/Qualifiers FH Feature Header FT source 1..4870 FT /organism="streptomyces coelicolor FT /strain="a3(2)" FT Feature Table /clone="cosmid 10H5" FT CDS complement(<1..327) FT /note="sc10h5.01c, unknown, partial CDS, FT len >109 aa; FT possible integral membrane protein FT /gene="sc10h5.01c" FT /product="hypothetical protein SC10H5.01c" Fuente: ftp://ftp.ebi.ac.uk/pub/databases/embl/doc/usrman.txt

Para cambiar del formato EMBL, GenBank, fasta y raw http://www.ebi.ac.uk/tools/sfc/readseq/

Fuentes de error en las secuencias Variación en la preparación biológica Contaminación PCR Recombinación Amplificación selectiva Secuenciación Error por sustitución de bases Indeles Etc. Calidad/confiabilidad de los generado

Modelos de error Fuente: http://www.molecularecologist.com/next-gen-table-3c/ o Gleen 2011

El error se incrementa con la longitud de la secuencia

Fuente: Guillermo del Angel, Ph.D.Ryan Poplin Genome Sequencing and Analysis Medical and Population Genetics Broad Institute of Harvard and MIT

Recalibración Fuente: Guillermo del Angel, Ph.D.Ryan Poplin Genome Sequencing and Analysis Medical and Population Genetics Broad Institute of Harvard and MIT

Workflow de recalibración gatk Fuente: Guillermo del Angel, Ph.D.Ryan Poplin Genome Sequencing and Analysis Medical and Population Genetics Broad Institute of Harvard and MIT

Herramientas de control y procesado Samtools SAM Tools proporciona varias utilerías para manipular alineamientos en formato SAM, incluyendo ordenamiento, mexcla, indexacion y despliegue. SAMtools esta alojado en SourceForge.net. Es posible descargo en: http://sourceforge.net/projects/samtools/files/

Herramientas de control y procesado Samtools samtools faidx phi.fa samtools view -bt reference.fa -o aln.bam aln.sam cd /work_path/ /usr/local/samtools/samtools view bt phix.fasta o phi.bam phi.sam samtools sort aln.bam aln.sorted /usr/local/samtools/samtools sort phi.bam phi.sorted

Viendo las secuencias solo de un chromosama, en ciertas regiones: samtools view aln.sorted.bam chr2:20,100,000-20,200,000 -c Viendo solo alineados: samtools view F 4 aln.sorted.bam Viendo los no alineados: samtools view f 4 aln.sorted.bam Mezclando archivos: samtools merge out.bam in1.bam in2.bam in3.bam

Herramientas (cont.) Bamtools: Es otra suite de herramientas en línea, gratuito que se puede descargar de: https://github.com/pezmaster31/bamtools Para ver las opciones: /usr/local/bamtools/bin/bamtools Para solicitar información de un comando: /usr/local/bamtools/bin/bamtools help comando

Herramientas (cont ) Contando los registros: bamtools count in phi.sorted.bam Cambiando entre formatos: Actualmente bamtools puede transferir archivos entre bam-> sam bam -> fasta bam -> fastq bam -> bed

Ordenando, agregando grupo y marcando duplicados Linea de comandos

FastQC: Analizando la calidad FAstQC es una herramienta escrita en Java, que genera reportes en formato html para analizar la calidad de un archivo fastq Es una herramienta gratuita y se puede descargar de: http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ Existen dos modos de ejecución: linea de comandos: fastqc o <output_dir> <file.fastq> <file2.fastq> fastqc o /home/vjimenez/workpath phi.fastq

En forma grafica:

Cuando se ejecuta en linea de comandos se genera una carpeta con el mismo nombre del archivo en el path indicado con o, dentro del cual se generó un archivo fastqc_report.html que podemos abrir con un navegador: firefox &

Revisando el reporte

Promedio de Calidad por base

Porcentaje de GC. Teórico vs. esperado

Contenido de N s por base

Longitud de las secuencias

Secuencias sobrerepresentadas

Practica 0. Generé la carpeta "workpath y copie el subdirectorio /space16/vjimenez/data/salmonella_yu39_partial_example a su directorio SAMTOOLS: 1. Genere el index de su genoma de referencia: Salmonella_YU39_partial_chrom.fna 2. cambie el formato del archivo sam a un archivo bam 3. vea el contenido del archivo bam genrado 4. cuantos registros no estan alineados 5. Cuanto alineados alineados? 6. Ordena los registros del archivo bam BAMTOOLS 7. Utilza bamtools para mostrar el numero de registros 8. convierte del formato bam al formato fasta 9. convierte del formato bam a fastq 10. convierte el archivo bam a sam FASTQC 11. ejecuta fastqc para ver la calidad de los archivos fastq originales (illum_reads_72pb_paired1.fq y illum_reads_72pb_paired2.fq) Luego abre un navegador para revisar el reporte.

Práctica

Por su atención gracias!