Systems'Gene*cs'and'Medical' Genomics'Laboratory! Ricardo'A.'Verdugo,'PhD' Human!Gene)cs!Program,!ICBM! University!of!Chile! January!15 th,!2014!
GENOMED!Lab!I!Projects! 2012I2014! FONDEF!D10I1007.!The!ChileGenomico!Project:! Genomics!of!the! Chilean!Popula)on:!gene)c!characteriza)on!necessary!for! biomedical!research,!public!health,!and!forensic! medicine!(principal!inves)gator).!visit!the!project s!website!for! more!informa)on.! 2012I2015! FONDECYT!Startup!11121666:! Discovery!of!networks!of!gene! expression!in!monocytes!and!lymphocytes!media)ng!hdl!an)i atherogenic!effects!in!humans!(responsible!inves)gator).! 2012I2015! FONDEF!D11I1029:! Incorpora)ng!Next!Genera)on!Sequencing!in! the!care!of!cancer!pa)ents!(principal!inves)gator).! 2014I2016! CONICYT/NSF!USA2013I0015:! Genomic!inves)ga)on!of!the! human!biodiversity!in!the!preicolumbian!and!contemporary! Chilean!Patagonia.!(Responsible!Inves)gator)!
Recursos! 2 desktops Intel i7, 16 GB RAM, 3TB HD 2 desktops Intel i7, 8GB RAM, 1TB HD 1 servidor de 48 núcleos y 32 GB de RAM, 5TB (computos) 1 servidor de datos Intel G2030, 18TB (backup) 1 lector de cintas magnéticas (almacenamiento de datos)
Asian origin of Amerindian populations Changos Aymaras Atacameños Aymara Diaguitas Atacameños Chile Changos Mapuches Chonos Huilliches Kaweshkar/ Alacalufes Onas Diaguita Picunches Picunches Pehuenches Pehuenches Mapuches Huilliches Huilliches Chonos Onas Alacalufes or kaweshkar Yaganes or yamanas Yamanes/Yaganes
Españoles Africanos Pueblos originarios Población mixta
ChileGenomico!Project' hfp://chilegenomico.uchile.cl! Muestreo! Recruitment!at!blood!dona)on!centers!! 3,000!par)cipants!(18I50!yr,!M!+!F)! Seq18! 9!Aymara!+!9!Mapuche! SOLiD!whole!genome!sequencing! Axiom46! 14!Aymara,!32!Mapuche! Affymetrix!La)no!(800K!SNPs)! Axiom480! 390!Chileans!from!all!collec)on!points! 90!in!family!trios! AIM2500! 2,500!Chileans! 100!AIMs!
Secuenciamiento!Genómico! Cromosoma humano Librería End sequencing Fragmentar el DNA SANGER, 1977 (500-1000 pb) SOLID, 2006 (50-75 pb) Illumina, 2004 (100-250 pb) 454, 2005 (400-1000 pb) 1,200 millones de lecturas para un genoma humano (100bp, 30-fold coverage, 20GB).
Secuenciación:!Métodos! 9!Ancestría!Aymara!(CL15)! 9!Ancestría!Mapuche!(CL13)! Secuenciador!SOLiD!5500!xl! fragmentos!200i250!pb! Secuenciacion!de!ambos!extremos!! 5 :!75pb! 3 :!35!pb! www.omicssolutions.cl Ricardo Verdugo, SOCHIGEN 2013 8
Genomes (XSQ) LifeScope Mapping Remove PCR Duplictes Variant Calling BAMs Files Workflow! 32 horas en 256 núcleos SAMTOOLS GATK Chunk1! Chunk2! Chunk3! Chunk4! chunkn! CMM Cluster Variants (VCF) Variants (VCF) DB DB DB Ricardo Verdugo, SOCHIGEN 2013 9
ChileGenomico:!primer!avance! SNPs:!4.064.554!! Conocidos:!3.900.979!(96%)! Predichos:!163.575!(4%)! INDELs:!307.885! Conocidos:!194.856!(63.3%)! Predichos:!113.029!(36.7%)! Ricardo Verdugo, SOCHIGEN 2013 10
Ricardo Verdugo, SOCHIGEN 2013 11
ChileGenomico!Genome!Browser!
Inferencia!de!Ancestría!SubICon)nental! Proporciones de ancestría para cuatro componentes CEU YRI MAYA NAHUA QUECHUA AYMARA CL15 CL13 NA06989 NA11891 NA11843 NA12341 NA06984 NA12275 NA06986 NA12272 NA07051 NA12400 NA12777 NA12287 NA12383 NA12340 NA12273 NA11892 NA12546 NA12843 NA12348 NA11917 NA12718 NA12282 NA11920 NA12776 NA12283 NA07435 NA12828 NA07045 NA07031 NA12827 NA18488 NA18519 NA19185 NA19146 NA19149 NA19256 NA19108 NA19178 NA18916 NA19190 NA19121 NA19113 NA19235 NA19095 NA19096 NA18868 NA18909 NA18933 NA19175 NA19247 NA18489 NA19181 NA19257 NA19117 NA19214 NA18520 NA19213 NA19197 NA19198 NA19122 MYN020 MYN013 MYN014 MYN015 MYN018 MYN019 MYN021 MYN001 MYN022 MYN023 MYN024 MYN025 MYN027 MYN028 MYN030 MYN002 MYN009 MYN006 MYN004 MYN007 MYN003 MYN008 MYN010 MYN011 MYN012 MX059 MX056 MX062 MX004 MX019 MX043 MX045 MX050 MX034 MX024 MX040 MX042 MX035 MX037 P926 P928 P929 P931 P934 P937 P924 P939 P938 P923 P913 P013 P012 P016 P018 P019 P011 P014 P004 P029 P030 P031 P901 P908 BF010 BF051 BF063 BF062 BF057 BF052 BF048 BF047 BF046 BF008 BM036 BF007 BF022 BM003 BF040 BM060 BM038 BM039 BM044 BM051 BM052 BM056 BM071 BF001 BF044 ARI 008 ARI 014 ARI 001 ARI 015 ARI 009 ARI 018 ARI 006 ARI 021 ARI 023 CDSJ 106 CDSJ 108 CDSJ 471 CDSJ 167 CDSJ 297 CDSJ 283 CDSJ 321 CDSJ 344 CDSJ 472 sample Porcentaje'de'ancestría'por'con*nente! EU=Europa,!AF=Africa,!AM=America' Muestra! EU' AF' AM' CL15! 19.6! 4.2! 76.2! CL13! 25.9! 3.5! 70.6! ADMIXTURE Gen Res 19:1655 Ricardo Verdugo, SOCHIGEN 2013 13
Proyecto!Colabora)vo! MINSAL' Dra.%Lorna%Luco% UNIVERSIDA DE TARAPACA Ana María Naranjo ESCUELA DE SALUD PUBLICA Dante Cáceres Marcelo Villalón Sergio Alvarado Fresia Caba FACULTAD'DE'CIENCIAS' SOCIALES' ' Emannuelle%Barozet%% FACULTAD DE CIENCIAS FISICAS Y MATEMATICAS Alejandro Maass Nicolás Loira Alex Di Génova Universidad de Chile PROGRAMA DE GENETICA HUMANA, ICBM, FACULTAD DE MEDICINA Lucía Cifuentes Leonor Bustamante Ricardo Verdugo Mónica Acuña Soledad Berríos Mauricio Moraga Elena Llop Carlos Valenzuela Luisa Herrera
Detec*on'of'Soma*c'muta*ons'in' 33'pa*ents'at'UCSD'by'TruSeq' Tumor'Cancer'Panel'in'miSeq! Ricardo!Armisén,!Ricardo!Verdugo,! Katherine!Marcelain,!Kelly!Frazer! January!15 th,!2014!! 1/22/14 Ricardo Verdugo 15
Objec)ve! To!accuratelly!detect!soma)c!muta)ons!by! UltraIDeep!Targeted!sequencing!with!the! TruSeq!protocol!(Illumina)!using!a!miSeq! sequencer.! 1/22/14 Ricardo Verdugo 16
Proyecto!colabora)vo!en!Medicina! Personalizada!en!FIMed!(FONDEF)! Biobanco de Tejidos CITC Secuenciación personalizada 2 semanas UNIVERSIDAD*DE*CHILE*
Gene' Amplicons! ABL1! 5! AKT1! 1! ALK! 2! APC! 11! ATM! 16! BRAF! 2! CDKN2A! 1! CDH1! 3! CSF1R! 2! CTNNB1! 1! EGFRIAS1;EGFR! 8! ERBB2! 3! ERBB4! 8! FBXW7! 5! FGFR1! 2! FGFR2! 5! FGFR3! 5! FLT3! 4! GNA11! 7! GNAQ! 10! GNAS! 1! HNF1A! 2! HRAS! 2! IDH1! 1! TruSeq!Panel!(Illumina)! Gene! Amplicons! JAK2! 1! JAK3! 2! KDR! 9! KIT! 10! KRAS! 3! MET! 5! MLH1! 1! MPL! 1! NOTCH1! 2! NPM1! 1! NRAS! 2! PDGFRA! 4! PIK3CA! 7! PTEN! 7! PTPN11! 2! RB1! 8! RET! 5! SMAD4! 8! SMARCB1! 4! SMO! 5! SRC! 1! STK11! 4! TP53! 10! VHL! 3! 48 Genes 212 amplicons 35,843 bp sequenced 25,763!bp!callable! 1/22/14 Ricardo Verdugo 18
Mutascope!Workflow! Bioinformatics 29:1908 4 hr with 1 core, 32GB RAM 3:30 hr with 4 cores, 32GB RAM 1/22/14 Ricardo Verdugo 19
Number!of!Reads!in!one!run! 32,182,720! (100%)! 30,122,887! (93.6%)!!30,041,072! (93.3%)! 29,091,832! (90.4%)! 28,064,250! (87.2%)! Sequenced! Mapped! Unique!map!posi)on! SW!Score!>!threshold! Aligns!±2bp!ends! 1/22/14 Ricardo Verdugo 20
1/22/14 Ricardo Verdugo 21
Aknowledgments! UCSD! Kelly!Frazer! Olivier!Harismendy! Kristen!Jepsen! Shawn!Yost! Anil!Sadarangani! Funding! FONDEF!D11I1029! 1/22/14 Ricardo Verdugo 23
How!replicable!are!graphs?! 50 Grafos 1 2 originales 50 300 Grafos modificados...... 1 2 300
9 funciones distancias en conjuntos de datos simulados. 50 grafos originales y 300 grafos modificados en cada conjunto 13.5000 comparaciones entre grafos de cada conjunto. 1.000 repeticiones = 135.000.000 comparaciones En 1 desktop pc i7 de 3.4 GHz 16 GB RAM 28.68 hrs (monoproceso) 3.585 hrs (8 procesos) Proceso intensivo de CPU En cluster de 4 computadores i7 8 procesos 0.89 hrs
Centro!de!Genómica!Biomédica!(FIMed)! Bioinformática Biobanco de Tejidos Genomica Funcional Secuenciación personalizada
Principales!problemas!para!la! Genomica! RAM,!RAM,!RAM! Peaks!de!requerimiento!I>!Planificación! Formación!profesional! sys!admin!central! sys!admin!local! bioinforma)co! biólogo! Interfases!amigables!para!biólogos! So}ware!comercial!
So}ware!Bioinformá)co!para!Biólogos!
Acknowledgements! INSERM!U937! Laurence!Tiret,!INSERM,!UPMC,!Paris! Maxime!Ro)val!(Imperial!College!London)! CARDomics! Stefan!Blankenberg,!University!Heart!Center,!Hamburg!!