Usos de R en Genómica en la era del high throughput

Documentos relacionados

Genómica y transcriptómica para la generación de datos en Evolución

Secuenciación Masiva de Transcriptomas completos (RNA-Seq) y su aplicación al mejoramiento genético.

LA EVOLUCIÓN DE LA GENÓMICA

2 Congreso Colombiano de Bioinformática y biología computacional.

Barcelona, 27 y 28 de Octubre de 2011

Uso de técnicas de NGS (Next Generation Sequencing) en el diagnóstico de las miopatías. Dr. A. Jiménez Escrig S. de Neurología Hospital Ramón y Cajal

Catálogo de Servicios GenXPro

Biocomputación. Curso 2011/2012 José L. Oliver Michael Hackenberg Bioinformatics, UGR

Instituto de Biomedicina y Biotecnología de Cantabria (IBBTEC) SERVICIO DE SECUENCIACIÓN MASIVA

Curso de ENSAMBLADO Y ANOTACIÓN DE GENOMAS EMPLEANDO SUPERCOMPUTACIÓN

Métodos de secuenciación masiva. Introducción. Métodos de secuenciación masiva

Computación en Procesado de Datos de Secuenciación Masiva Proyecto CloudPYME II Pablo Iglesias Veiga 15/10/2015

ÍNDICE DE CONTENIDOS. 6.1 Secuencias... 13

Aplicaciones y Tendencias en secuenciación de ADN

GENÓMICA Y EVOLUCIÓN Lic. Ivanna Tomasco Laboratorio de Evolución Facultad de Ciencias. Universidad de la República

Instituto de Biomedicina y Biotecnología de Cantabria (IBBTEC) SERVICIO DE SECUENCIACIÓN MASIVA

GENOMA DEL CAMARÓN BLANCO LITOPENAEUS VANNAMEI DR. JOSÉ GALLARDO ACADEMICO Y CONSULTOR PUCV JENNY RODRÍGUEZ, BONNY BAYOT INVESTIGADORAS CENAIM

Biología Molecular aplicada al Diagnóstico Médico Módulo I: Clase 1

IES Santa Clara. PAU BIOLOGÍA. 2º BACHILLER.

PRINCIPIOS DE LAS INVESTIGACIONES EPIDEMIOLOGICAS Y MEDICIÓN DE EFECTO-CAUSALIDAD PROGRAMA

Glosario de Biología Sintética

Curso de Métodos Estadísticos y Anaĺıticos de Datos Genómicos

Análisis genético usando datos de secuenciación masiva. Michael Hackenberg

La caja de herramientas para el reumatólogo del siglo XXI: el lenguaje de la Genómica

Genómica en cáncer Una aproximación desde la ciencia de datos. Mg. Matías Butti CINIBA Facultad de Ciencias Médicas UNLP

Health in Code David de Uña Iglesias AgroBiotech. Ourense - 27/11/2015

BIOMOL-EXOME: Secuenciación y Análisis Bioinformático de Exoma Humano para la detección de enfermedades de origen genético.

PCR a tiempo real. Sección de Biología Molecular, Servicio de Apoyo a la Investigación, Universidad de Murcia

La mejora genética en el siglo XXI. Luis Varona Universidad de Zaragoza

Biomoléculas orgánicas IV. Los ácidos nucleicos

LOS RETOS DE LA BIOMEDICINA: ENTRE LA CIENCIA Y LA ÉTICA

Materia de Articulación CEBI_A5. Docente a cargo: Gustavo Gudesblat

Proyecto de Ingeniería de Software 2006

! INVESTIGADORES! DEL! CNIO! ENCUENTRAN! DOS! POSIBLES! NUEVAS!ESTRATEGIAS!PARA!CURAR!LA!PSORIASIS!!!

Identificación varietal en vid por técnicas de Biología Molecular. Lic. Luciana Garcia Lic. Carolina Chiconofri

Qué es un gen? EXPRESION GÉNICA 01/05/2013

UNIVERSIDAD AUTONOMA DE TAMAULIPAS

OBJETIVOS. Comprender la forma a través de la cual nuestro material genético se mantiene en el tiempo. Analizar el trayecto de la información genética

PCR Punto de No Retorno de la Biología Molecular

Técnicas moleculares.

Introducción a la Bioinformática Centro de Bioinformática Instituto de Biotecnología Universidad Nacional de Colombia

Herramientas de Bioinformática en NGS

Acercamiento a la Bioinformá0ca 3- Expresión

Biología Molecular. Biología Molecular

ADN ARN Proteínas. La información genética es portada por el ADN y se hereda con él.

Adrian Turjanski Director de la Plataforma de Bioinformática Investigador CONICET, Profesor FCEyN, UBA. HPC DAY 2013, CORDOBA, ARGENTINA.

High Resolution Melting (HRM)

SERVICIO DE SECUENCIACIÓN PERSONAL DE GENOMA HUMANO

Introducción a la Secuenciación Masiva y a la Bioinformática

IES Pando Departamento de Biología y Geología 1

Genoma bacteriano. Cromosoma circular 1 ó 2 moléculas/bacteria

Biología Molecular. Función

Ensamble del genoma de un bacteriófago de Vibrio cholerae Mauricio Torres, Alonso Peón, Diego Gimeno y Diego Morett

Dra. Ing. Agr. Sabrina Costa Tártara Departamento de Tecnología

Temas actuales: Next Generation Sequencing (NGS) Bioinformática Elvira Mayordomo

Marcadores moleculares (MM)

DOGMA CENTRAL DE LA BIOLOGIA

Entender el funcionamiento de los relojes permitiría lidiar con ciertas patologías en humanos. 28 ACTUALIDAD EN I+D RIA / Vol. 41 / N.

Curso precongreso (40 horas) 30 de septiembre al 3 de octubre, 2014

Mapeo genómico: Determinación de la localización de elementos en un genoma, con respecto de marcadores identificados

SESIÓN 5 ESTRUCTURA DE LOS ÁCIDOS NUCLEICOS. Los Ácidos Nucleicos. Moléculas Esenciales Para La Vida

Genómica. Grado en Bioquímica

Microbiología General Tema 5: Transmisión de la información genética

Biocomputación Licenciatura en Bioquímica

NCBI - BLAST. 1. Uso de Entrez

Tecnología aplicada a la administración segura de quimioterapia

Instructivo WORKSHOP 3CAB2C NGS: Ensamblado+RNA-Seq 2012

Curso de Métodos Estadísticos y Anaĺıticos de Datos Genómicos

Plataforma de Genómica

Obligatoria asignatura Dr. Xavier Miguel Boldo León Fecha de elaboración: Enero 2003 Fecha de última actualización: Junio 2010

CARTA DESCRIPTIVA (FORMATO MODELO EDUCATIVO UACJ VISIÓN 2020)

Biología Profundización

AVANCES DE LA MEDICINA Y ORIGEN DE LA BIOÉTICA (SIGLO XX)

Evolución de la genética molecular hasta el chip 50K

Selección Genómica: Una Nueva Era para la Producción Porcina

ANEXO 2 GLOSARIO DE TÉRMINOS EN MATERIA DE BIOTECNOLOGÍA. representa el soporte químico de la herencia: Está presente en los cromosomas, así

Curso de QIIME: Análisis de ecología microbiana para datasets metagenómicos de amplicon sequencing.

Medicina y Biología Molecular y Celular

EXAMEN DE LA PRIMERA PARTE (30%) NOMBRE CÓDIGO FECHA. El examen consta de un total de 20 puntos y el tiempo máximo para contestar es de 1 hora.

Instituto Nacional de Estadística e Informática Sub - Jefatura de Informática

Revisión bibliográfica y de sitios web de ER y de los registros nacionales e internacionales de ER

La geosfera. Genética molecular. 4º ESO Biología y Geología

El Banco Nacional de ADN oferta un control de calidad de muestras de ADN y ARN.

TEMA 2 LA INFORMACIÓN GENÉTICA COLEGIO LEONARDO DA VINCI BIOLOGÍA Y GEOLOGÍA 4º ESO CURSO 2014/15

PROCEDIMIENTO DE LABORATORIO PARA LA PRUEBA DE GENOTIPIFICACIÓN DEL VIH

Fecha de elaboración: Enero 2003 Fecha de última actualización: Septiembre 2014

DIPLOMA INTERNACIONAL BIOINFORMATICA Y BIOLOGIA DE SISTEMAS SIU SOCIAL INTERNATIONAL UNIVERSITY VIRTUAL TRAINING NETWORK FIAM ACADEMY

FISABIO - Servicio de Secuenciación y Bioinformática

Grupo de Genómica Computacional & Bioinformática Universidad de Granada

CURSO INTERNACIONAL DE BIOINFORMÁTICA: MANEJO DE LAS HERRAMIENTAS BÁSICAS

TEMA 6. Bases Moleculares de la Herencia

ANÁLISIS DE DATOS DE MICROARRAY 2ª PRÁCTICA OBLIGATORIA

Características e importancia del código genético

PCI 2010 Acción Preparatoria. Computación Avanzada en Aplicaciones Biomédicas. (High Performance Computing applied to Life Sciences)

El Programa estadístico R

UNIDAD DE SECUENCIACIÓN HOSPITAL UNIVERSITARIO SANT JOAN DE DEU

Análisis de paternidad y parentesco en alpacas (Vicugna pacos) mediante marcadores moleculares

MÁSTER MÁSTER EN BIOLOGÍA MOLECULAR Y CITOGENÉTICA. MAS241

Transcripción:

Usos de R en Genómica en la era del high throughput 2do encuentro de usuarios de R de Argentina Lic. Estefania Mancini 15 de noviembre de 2013 R y genómica 15 de noviembre de 2013 1 / 32

Organización 1 Dogma central de la Biología Molecular Genómica 2 Next Generation Sequencing Historia Ejemplo de protocolo de secuenciación Output 3 Bioconductor Historia Paquetes ShortRead biomart GenomicRanges, Rsamtools, leebamviews, GenomicFeatures cummerbund 23andMe 4 Consejos y conclusiones R y genómica 15 de noviembre de 2013 2 / 32

Dogma central R y genómica 15 de noviembre de 2013 3 / 32

Dogma central Tamaño de los genomas en pb R y genómica 15 de noviembre de 2013 4 / 32

Secuenciación Determinar la secuencia de pares de bases en un ácido nucleico R y genómica 15 de noviembre de 2013 5 / 32

Secuenciación R y genómica 15 de noviembre de 2013 6 / 32

Next Generation Sequencing R y genómica 15 de noviembre de 2013 7 / 32

Next Generation Sequencing Ejemplo del protocolo de Illumina R y genómica 15 de noviembre de 2013 8 / 32

Next Generation Sequencing http://omicsmaps.com/ R y genómica 15 de noviembre de 2013 9 / 32

Next Generation Sequencing R y genómica 15 de noviembre de 2013 10 / 32

Next Generation Sequencing Para recordar Secuenciación por síntesis Altamente paralelizada Se pueden secuenciar de ambos extremos Material genómico fragmentado Millones de lecturas cortas R y genómica 15 de noviembre de 2013 11 / 32

Next Generation Sequencing Output FASTQ (*.fastq) @HWI-EAS255_4_FC2010Y_1_43_110_790 TTAATCTACAGAATAGATAGCTAGCATATATTT +HWI-EAS255_4_FC2010Y_1_43_110_790 R y genómica 15 de noviembre de 2013 12 / 32

Next Generation Sequencing The big GAP R y genómica 15 de noviembre de 2013 13 / 32

Next Generation Sequencing Caminos posibles Si se secuenció material genómico (ADN) Ensamblar, anotar Encontrar diferencias con el genoma previamente ensamblado/anotado (SNPs) Si se secuenció transcriptoma (ARN) Ensamblar, anotar Encontrar diferencias con el transcriptoma previamente ensamblado/anotado Analizar qué genes están activos ChipSeq, SNPs, Muchas otras opciones... R y genómica 15 de noviembre de 2013 14 / 32

Historia http://www.bioconductor.org/ source("http://bioconductor.org/bioclite.r") bioclite() R y genómica 15 de noviembre de 2013 15 / 32

Paquetes para análisis de HTS R y genómica 15 de noviembre de 2013 16 / 32

Ejemplos de workflows Control de calidad de archivos fastq library(shortread); library(ggplot2) fastq <- paste("data/", fastq, sep="") names(fastq) <- paste("flowcell6_lane", 1:length(fastq), sep="_") fqlist <- seefastq(fastq=fastq, batchsize=100000, klength=8) seefastqplot(fqlist) seefastqplot(fqlist[4:1], arrange=c(1,2,3,4,6,7)) pdf("fastqreport.pdf", height=18, width=4*length(fastq)) seefastqplot(fqlist) dev.off() R y genómica 15 de noviembre de 2013 17 / 32

Ejemplos de workflows R y genómica 15 de noviembre de 2013 18 / 32

Ejemplos de workflows R y genómica 15 de noviembre de 2013 19 / 32

Ejemplos de workflows biomart library("biomart") listmarts() ensembl <- usemart("ensembl") listdatasets(ensembl) goids = getbm(attributes=c(entrezgene, go_id), filters=entrezgene, values=entrez, mart=ensembl) utr5 = getsequence(chromosome=3, start=185514033, end=185535839, type="entrezgene", seqtype="5utr", mart=ensembl) protein = getsequence( id=c(100, 5728), type="entrezgene", seqtype="peptide", mart=ensembl) R y genómica 15 de noviembre de 2013 20 / 32

Ejemplos de workflows GenomicRanges, Rsamtools, leebamviews library(genomicranges); library(rsamtools); library(leebamviews) testfile <- system.file("bam", "isowt5_13e.bam", package = "leebamviews") aligns <- readbamgappedalignments(testfile) rname(aligns) <- sub("^sc", "", rname(aligns)) rname(aligns) <- sub("13", "XIII", rname(aligns)) alignscan <- scanbam(testfile); names(alignscan[[1]]) R y genómica 15 de noviembre de 2013 21 / 32

Ejemplos de workflows GenomicFeatures library(genomicfeatures) txdb <- maketranscriptdbfromucsc(genome="saccer2", tablename="sgdgene") exonranges <- exonsby(txdb, "tx") genomedb <- maketranscriptdbfromgff(file="tair_10.gff", format=gff, datasource="tair", species="athaliana") introns<-intronsbytranscript(genome, use.names=true) exons <-exonsby(genome, by="gen") transcripts<-transcriptsby(genome) Guardamos la DB en formato sqlite genome <- loaddb("genomaatsql.sqlite") #20M R y genómica 15 de noviembre de 2013 22 / 32

Ejemplos de workflows GenomicRanges, Rsamtools, leebamviews, GenomicFeatures counts <- countoverlaps(exonranges, aligns) numbases <- sum(width(reduce(exonranges))) genelengthsinkb <- (numbases/1000) millionsmapped <- sum(counts)/1e+06 rpkm <- rpm/genelengthsinkb sortedrpkm <- sort(rpkm); highscoregenes <- tail(sortedrpkm) R y genómica 15 de noviembre de 2013 23 / 32

Ejemplos de workflows cummerbund R y genómica 15 de noviembre de 2013 24 / 32

Ejemplos de workflows cummerbund library(cummerbund) timecourse <- readcufflinks() csdensity(genes(timecourse)) dispersionplot(genes(timecourse)) csboxplot(genes(timecourse)) gene.features<-annotation(genes(timecourse)) gene.fpkm<-fpkm(genes(denti)) gene.counts<-count(genes(denti)) data(sampledata) count(pink1) g1 <- expressionplot(at2g46830)expressionplot(at2g46830) g1.rep.iso <- expressionplot(isoforms(at2g46830), replicates=t) R y genómica 15 de noviembre de 2013 25 / 32

Ejemplos de workflows cummerbund R y genómica 15 de noviembre de 2013 26 / 32

Ejemplos de workflows cummerbund R y genómica 15 de noviembre de 2013 27 / 32

Ejemplos de workflows 23andMe R y genómica 15 de noviembre de 2013 28 / 32

Ejemplos de workflows 23andMe library(gwascat) d <- read.table("20120313162059.txt", sep="\t", header=false, colclasses=c("character", "character", "numeric", "character"), col.names=c("rsid", "chrom", "position", "genotype")) tmp <- d$chrom d$chrom = ordered(d$chrom, levels=c(seq(1, 22), "X", "Y", "MT")) R y genómica 15 de noviembre de 2013 29 / 32

Ejemplos de workflows 23andMe library(txdb.hsapiens.ucsc.hg18.knowngene) txdb <- TxDb.Hsapiens.UCSC.hg18.knownGene class(txdb) tx.by.gene <- transcriptsby(txdb, "gene") library(org.hs.eg.db) my.snps <- with(d, GRanges(seqnames=chrom, IRanges(start=position, width=1), rsid=rsid, genotype=genotype)) R y genómica 15 de noviembre de 2013 30 / 32

Consejos y Conclusiones http://www.bioconductor.org/help/course-materials/2013 Consejos y Conclusiones subsetear los inputs samplear a un taman apropiado para estadistica iterar en blouqes los datasets grandes siempre que se pueda, paralelizar guardar los objeto en formato RData eliminar los objetos del entorno armar funciones para automatizar las rutinas R y genómica 15 de noviembre de 2013 31 / 32

R y genómica 15 de noviembre de 2013 32 / 32