Curso de Métodos Estadísticos y Anaĺıticos de Datos Genómicos

Documentos relacionados
Curso de Métodos Estadísticos y Anaĺıticos de Datos Genómicos

Análisis y anotación de una secuencia mediante las herramientas y bases de datos de UCSC Genome Bioinformatics & Galaxy

Introducción al análisis de datos RNA- Seq con Galaxy y la suite Cufflinks

Herramientas de Bioinformática en NGS

Métodos de secuenciación masiva. Introducción. Métodos de secuenciación masiva

RNA-Seq: Introducción al ensamblado de novo de transcriptomas

Análisis genético usando datos de secuenciación masiva. Michael Hackenberg

NCBI - BLAST. 1. Uso de Entrez

Temas actuales: Next Generation Sequencing (NGS) Bioinformática Elvira Mayordomo

Análisis de variantes Bioinformática y Análisis Genómico

MANUAL OPERATIVO DE LA UNIDAD UNIVERSITARIA DE APOYO BIOINFORMATICO

Bioinformá)ca avanzada: problemas y algoritmos. SESIÓN 4 Rodrigo Santamaría 2014

Usos de R en Genómica en la era del high throughput

Instituto de Biomedicina y Biotecnología de Cantabria (IBBTEC) SERVICIO DE SECUENCIACIÓN MASIVA

1. OBJETO DE LA CONTRATACIÓN

Introducción a la Secuenciación Masiva y a la Bioinformática

TÉCNICAS INTELIGENTES EN BIOINFORMÁTICA SECUENCIACIÓN Y ENSAMBLADO

OBJETO DE LA CONTRATACIÓN

Biocomputación Licenciatura en Bioquímica

Detectar micrornas en datos de secuencación masiva

Instituto de Biomedicina y Biotecnología de Cantabria (IBBTEC) SERVICIO DE SECUENCIACIÓN MASIVA

FORMAT B1 SPEAKING EXAM

Curso RNA-seq Ejercicios prácticos Ana Conesa UBA, Noviembre 2013

Secuenciación Masiva de Transcriptomas completos (RNA-Seq) y su aplicación al mejoramiento genético.

Introducción. Biocomputación Grado en Bioquímica

Correos electrónicos: Página web de la asigatura:

Secuenciación. Rodrigo Santamaría

Deep Security 9 SP1 p3 Supported Linux Kernels

NUEVAS CAPACIDADES PARA LA MEDICINA GENÓMICA EN CANARIAS. División de Genómica

Speak Up! In Spanish. Young s Language Consulting. Young's Language Consulting. Lesson 1 Meeting and Greeting People.

Comparación de secuencias de ADN y proteínas Matriz de puntos Alineamiento global

FORMAT B2 SPEAKING EXAM

RNA-seq y Anotación Funcional. Ana Conesa & Diego de Pannis Noviembre 2013 FCEyN UBA. Ciudad Universitaria Buenos Aires, Argentina

ENERGíA DE FUTURO: LA SALUD EN TUS MANOS CON LA ENERGíA BI QUIX D'FU (SPANISH EDITION) BY SALVADOR LIZANA BARBA

Demonstrative Adjectives and Pronouns

Uso de técnicas de NGS (Next Generation Sequencing) en el diagnóstico de las miopatías. Dr. A. Jiménez Escrig S. de Neurología Hospital Ramón y Cajal

Touch Display Link - Nueva Solución de Software para Sharp IWB -

Repaso de funciones exponenciales y logarítmicas. Review of exponential and logarithmic functions

Unit 8: Maximum Likelihood for Location-Scale Distributions

Unit 8: Maximum Likelihood for Location-Scale Distributions. Ramón V. León

Como cualquier redacción tiene tres párrafos:

Dra. Ing. Agr. Sabrina Costa Tártara Departamento de Tecnología

Using Gustar to Express Likes and Dislikes

Teaching guide. Expert in Biotechnological Research Methodology (UFV-Awarded Title associated with Biotechnology)

The object that directly receives the action of the verb is called the direct object.

Práctico prueba de ensamblaje con Galaxy

(a) Calculate a point estimate of the mean pull-off force of all connectors in the population. State which estimator you used and why.

Cómo leer La Ciencia para Todos. Géneros discursivos (Spanish Edition)

Indirect Object Pronouns

Selecting Books for Children Up To Age - : In Response to Psychological vs. Morphological Development

La Tercera Historia. Nadie Alguien Todo el mundo Nunca A veces Siempre Nada Algo Todo Ningun(o/a/s) Algun(o/a/s)

Por qué es importante estudiar la función del genoma?

Trabajo Fin de Grado IMPLEMENTACIÓN Y ANÁLISIS DE ALGORITMOS DE ALINEACIÓN PARA DATOS DE NEXT GENERATION SEQUENCING (NGS)

EL MANUAL PARA ESCRIBIR BIEN (SPANISH EDITION) BY MARIA DEL PILAR MONTES DE OCA

FISABIO - Servicio de Secuenciación y Bioinformática

SIGUIENDO LOS REQUISITOS ESTABLECIDOS EN LA NORMA ISO Y CONOCIENDO LAS CARACTERISTICAS DE LA EMPRESA CARTONAJES MIGUEL Y MATEO EL ALUMNO DEBERA

Documentación técnica: Desmitificar los métodos de prueba de fibra: de regreso a lo básico

La Tercera Historia. Demonstrative Adjectives: Este / Esta Estos /Estas Ese /Esa Esos /Esas Aquel / Aquella Aquellos / Aquellas

Instructivo WORKSHOP 3CAB2C NGS: Ensamblado+RNA-Seq 2012

Acercamiento a la Bioinformá0ca 3- Expresión

Relative Pronouns (que, quien, el que)

DDR Qualified Vendors List (QVL) DIMM socket support (Optional)

SISTEMA DE CONTROL LÓGICO PROGRAMABLE (PLC) SOBRE HARDWARE EMBEBIDO Y BAJO SISTEMA OPERATIVO LINUX

OPTIMIZACIÓN DEL PREPROCESAMIENTO DE LECTURAS DE SECUENCIACIÓN DE NUEVA GENERACIÓN

El Jardín de la Memoria (El adepto de la Reina nº 2) (Spanish Edition)

PLIEGO DE PRESCRIPCIONES TÉCNICAS SUMINISTRO DE CONSUMIBLES DE LABORATORIO ESPECÍFICOS PARA LOS LABORATORIOS DEL CENTRE DE REGULACIÓ GENÒMICA (CRG)

Indefinite and Negative Expressions (Expresiones indefinidas y negativas)

Un viaje histórico por la biología molecular. que nos permitirá conocer algunos conceptos

CONTROLADORA PARA PIXELS CONPIX

Derecho administrativo: General y colombiano (Spanish Edition)

Escuela Preparatoria Ixtlahuaco. Tema: plans and projects.

Aplicaciones guiadas: Blast. Genome Browsers.

b. Cuál es la razón principal por la que escogió esta respuesta?

Aplicaciones y Tendencias en secuenciación de ADN

Sesión 4: Practica PL 2c. Análisis de señales para el control de motor CC: Generación de señales PWM.

Protocolo de desarrollo y producción de paneles génicos de apoyo al diagnóstico

Making comparisons. In this slide show, we ll look at ways of expressing differences and similarities.

Matemáticas de 6to grado Evaluación de la clase basada sobre los estándares (MMP 8/06)

EL PODER DEL PENSAMIENTO FLEXIBLE DE UNA MENTE RAGIDA A UNA MENTE LIBRE Y ABIERTA AL CAMBIO BIBLIOTECA WALTER

Welcome to lesson 2 of the The Spanish Cat Home learning Spanish course.

Genre Expository Thinking Guide and Activities

Genealogía, Origen y Noticias de los Comediantes de España (Fuentes para la historia del Teatro en España)

Intersección de Segmentos de Recta. Geometría Computacional, MAT-125

París en el siglo XX (Spanish Edition)

Introducción. Qué ya sabes de decir la hora? Qué necesitas aprender para decir la hora?

Flashcards Series 4 El Hotel

Tendencias educativas oficiales en México

Decodificador de funciones v.2

Learning Masters. Early: Force and Motion

COMO CREAR PERSONAJES INOLVIDABLES / CREATING UNFORGETTABLE CHARACTERS: GUIA PRACTICA PARA EL DESARROLLO DE PERSONAJES EN CINE, TELEVISION,

Por regla general, las búsquedas con BLAST obedecen a uno de estos dos objetivos:

UNIDAD GENÓMICA IIS La Fe. Dra. Laia Pedrola Coordinadora Unidad Genómica

Fondeo Externo: Oportunidades y Riesgos René Medrano, Director Senior

7 Secretos para ser millonario (Spanish Edition)

Copyright 2012 Martina Bex

Canyon County Existing/Resale

Transcripción:

Curso de Métodos Estadísticos y Anaĺıticos de Datos Genómicos Leonardo Collado Torres @ibt.unam.mx y @wintermexico.com Lic. en Ciencias Genómicas www.lcg.unam.mx/ / Winter Genomics (WG) e Instituto de Biotecnología (IBT) de la UNAM 21 de Enero de 2010 1 / 53

1 2 3 4 Software para Datos de Secuenciación Masiva 5 6 2 / 53

Por fin tenemos datos... ahora al 3 / 53

Cuello de botella? 4 / 53

El otro problema ˆ A Illumina, y me imagino que las otras, no les interesa desarrollar algoritmos que faciliten el más allá de un nivel que consideran suficiente. Excepto en el de imágenes. ˆ Lo dejan todo en manos de los investigadores :) 5 / 53

Además, todo cambia MUY rápido!! 6 / 53

Los ĺıderes ˆ 128 690000 = 88320000 USD ˆ Broad, BGI, Sanger 7 / 53

México? 8 / 53

Integrales ˆ Bioconductor ˆ CLCbio Genomics Workbench ˆ Mosaik ˆ Programas de las compañías de secuenciación: ELAND, Newbler, entre otros. ˆ SHORE... 9 / 53

CLCbio Genomics Workbench El problema principal es el precio, aunque está disponible en modo de prueba. 10 / 53

Mosaik ˆ Es muy nuevo así que siguen arreglando errores, pero tiene potencial. ˆ Pero se nos olvida algo? 11 / 53

Tenemos muchas o pocas secuencias únicas? 1.0 Cumulative proportion of reads 0.9 0.8 0.7 0 1 2 3 Copies per read (log 10) 12 / 53

Frecuencia de NTs s_8_1_sequence.txt 60 Percentage 40 20 A C G T GC N 0 0 10 20 30 40 50 Cycle N Seqs: 4107504 Obs. GC: 62.127 13 / 53

Frecuencia de NTs del otro par s_8_2_sequence.txt 60 Percentage 40 20 A C G T GC N 0 0 10 20 30 40 50 Cycle N Seqs: 4107504 Obs. GC: 62.678 14 / 53

Y la calidad? Quality per Cycle Quality 0 5 10 15 20 25 30 35 10% quantile 30% quantile Median 70% quantile 90% quantile 0 10 20 30 40 50 Cycle 15 / 53

El par no pinta bien Quality per Cycle Quality 0 5 10 15 20 25 30 35 10% quantile 30% quantile Median 70% quantile 90% quantile 0 10 20 30 40 Cycle 16 / 53

Para entender mejor Phred Quality to Probility Probability of the base being wrong 0.0 0.2 0.4 0.6 0.8 0 10 20 30 40 Phred Quality 17 / 53

Así que... Hay que filtrar! ˆ Por calidad. ˆ Por un ciclo dado. ˆ Por la presencia de Ns. ˆ Las secuencias compuestas priomordialmente de una sola base. ˆ Eliminar secuencia de adaptadores. ˆ Calidad del alineamiento. ˆ Lo que inventen :) 18 / 53

Recordando 19 / 53

ChIP y RNA - seq 20 / 53

21 / 53

Ensamblado de novo 22 / 53

Variación estructural 23 / 53

Lo básico ˆ Como pueden ver, hay que filtar y alinear en todo tipo aplicación. 24 / 53

El famoso MAQ ˆ Todo gracias a Heng Li del Sanger. ˆ El primero en usar las calidades al momento de alinear. ˆ Bastante rápido. ˆ Trae un identificador de SNPs. ˆ Visualizador de alineamientos asociado: mapview. ˆ Muy bien documentado. 25 / 53

El famoso MAQ 26 / 53

El famoso MAQ 27 / 53

Salmonella Typhi con MAQ 28 / 53

Hay dos grandes categorías de alineadores 29 / 53

Hash Index - Spaced Seeds ˆ MAQ, SHRiMP, ELAND, SOAP, MOSAIK, ZOOM, BFAST,... 30 / 53

Burrows-Wheeler Transform ˆ Bowtie, BWA, SOAP2,... ˆ Generalmente son MUCHO más rápidos. 31 / 53

SHRiMP ˆ De los primeros en poder manejar datos de SOLiD. ˆ Implementa un alineamiento Smith-Waterman en el proceso. Aumenta la precisión. 32 / 53

SHRiMP 33 / 53

Qué notan? Son datos de Ciona savignyi 34 / 53

Bowtie ˆ Desarrollado por Ben Langmead ˆ Extremadamente rápido ˆ Similar a MAQ en la forma de uso ˆ Basado en el BWT ˆ Corre en paralelo 35 / 53

Bowtie vs otros 36 / 53

Bowtie: en paralelo 37 / 53

Bowtie: creando índices 38 / 53

Resumiendo 39 / 53

Siempre queremos más :) > (1e+09 * 50)/(2 * 3e+09) [1] 8.333333 > 1e+09/(2e+07 * 8) [1] 6.25 40 / 53

BFAST ˆ Desarrollado por Nils Homer ˆ Rápido aunque no tanto como Bowtie ˆ Utiliza un alineamiento tipo Smith-Waterman. Es mucho más sensible! ˆ Acepta datos de SOLiD ˆ Mucho más robusto que cualquier otro so far ˆ Bastante nuevo. 41 / 53

BFAST: el plan 42 / 53

BFAST: creando un índice 43 / 53

BFAST vs otros 44 / 53

BFAST vs otros con datos reales 45 / 53

BFAST y color errors 46 / 53

Para todos gustos Acuérdense de fijarse ˆ La sensibilidad. ˆ La velocidad, si es crucial. ˆ La memoria requerida. ˆ Exploren los parámetros. ˆ Chequen que estén bien los archivos de entrada. Cada programa puede usar uno diferente. Cuidado con secuencias paired-end y mate-pair. 47 / 53

El tío SAM ˆ Heng Li y otros desarrollaron SAMtools que entre otras funciones, su objetivo es unificar formatos de salida de los alineadores. ˆ Está muy relacionado a su hermano BAMtools. ˆ http://samtools.sourceforge.net/ 48 / 53

Ewan Birney ˆ Having a large memory machine - whatever route used here - is always useful. I would buy the largest machine which still has a reasonable linear trend of memory cost (at one goes up in memory, there is often a sharp increase in cost which is not linear. Buy just below that with lots of cores). This machine therefore, with the right number of cores, can be part of a standard farm without much cost penalty and can be used for these other tasks. This is often a 128GB or 256GB machine, but...you need to talk to vendors. 49 / 53

Programas a usar - Ben Langmead 1 TopHat Alinea las secs. para identificar uniones exón-exón Las secs. tienen que ser del mismo tamaño y no identifica indeles menores a cierto umbral. O todas son PE o todas son SE. No usa genoma de referencia. Usa Bowtie para identificar exones potenciales. Construye una db de posibles uniones y luego las confirma (3 tipos de evidencia). 2 Cufflinks Ensambla secs. alineadas en transcritos y estima su abundancia. Mide la abundancia en RPKM: reads per pk of exon model per million mapped reads La version actual es beta. 50 / 53

Análisis ˆ Nos dan los datos: 100mil secuencias de 36pb de un experimento de Drosophila melanogaster. ˆ Leer en R, explorar las secuencias y filtrar: las que tienen Ns y no son del cromosoma. Nos quedamos con 55 % 1 ˆ Calcular la cobertura con IRanges. ˆ Obtener la anotación del genoma usando biomart para conectarnos a ENSEMBL. ˆ Pasar la anotación a un objeto de IRanges. ˆ Calcular la cobertura por exón y por transcrito. ˆ Visualizar la cobertura en un Genome Browser como el de UCSC. ˆ Excluyendo solo las secs con Ns, corremos TopHat. ˆ Visualizar los archivos WIG y BED en un Genome Browser. ˆ Tan tan! 1 Podrían usar BioPython entre otras opciones 51 / 53

Referencias ˆ Next Generation Sequencing Analysis Focus de Nature Methods ˆ Trapnell y Salzberg ˆ Noticia Illumina ˆ Noticia Slim ˆ Artículo de MAQ ˆ Artículo Bowtie ˆ Artículo BFAST ˆ Artículo sobre Salmonella Typhi ˆ Software List de SEQanswers - muy útil! ˆ Metzker - Review ˆ Comunicación personal con Nicolas Delhomme 52 / 53

sessioninfo Información de mi sesión: > sessioninfo() R version 2.10.0 (2009-10-26) i386-pc-mingw32 locale: [1] LC_COLLATE=English_United States.1252 [2] LC_CTYPE=English_United States.1252 [3] LC_MONETARY=English_United States.1252 [4] LC_NUMERIC=C [5] LC_TIME=English_United States.1252 attached base packages: [1] stats graphics grdevices [4] utils datasets methods [7] base 53 / 53