Teaching guide IDENTIFICATION DETAILS Degree: Expert in Biotechnological Research Methodology (UFV-Awarded Title associated with Biotechnology) Faculty/School: Bio-health Science Course: Type: Compulsory Internal ECTS credits: 3 Year: 4 Code: 20117 Teaching period: Seventh semester Teaching type: Classroom-based Language: English Total number of student study hours: 75 Teaching staff Osvaldo Graña Castro Gonzalo Gomez Lopez E-mail ograna@cnio.es ggomez@cnio.es Héctor Tejero Franco Javier Perales Patón SUBJECT DESCRIPTION La Bioinformática es un área científica interdisciplinar que aúna métodos de muy distintos campos gestionar, organizar y entender todo tipo de datos procedentes de sistemas biológicos, combinando herramientas computacionales (informáticas), estadísticas, matemáticas y biotecnológicas. Con el advenimiento de la era genómica, los métodos y herramientas tradicionales, que eran útiles para almacenar y estudiar moléculas biológicas a pequeña escala en un ordenador personal, ya no son válidos. Las tecnologías ómicas y postgenómicas, (especialmente la secuenciación de nueva generación), aparecidas en la última década, han supuesto un cambio de paradigma tanto en las herramientas bioinformáticas utilizadas como en el diseño de los experimentos, la organización de los equipos y los objetivos científicos y técnicos a lograr. Es importante que los alumnos se percaten de que estas tecnologías están revolucionando muchos aspectos de la investigación biomédica, la industria farmacéutica, las prácticas de diagnóstico y gestión clínica, y las aplicaciones biotecnológicas asociadas. Y que las metodologías de análisis cuantitativo que aporta la Bioinformática se aplican Page 1
hoy en día de manera sistemática. Esta asignatura se centra en las sinergias entre la biotecnología y los nuevos métodos bioinformáticos, su evolución conjunta, y sus aplicaciones principales. Las clases son eminentemente prácticas, y tras una introducción teórica se experimentarán de manera directa, sobre el ordenador, cuáles son las principales aplicaciones bioinformáticas en tecnología de secuenciación de nueva generación: generación y tratamiento de secuencias masivas, alineamiento de lecturas cortas, análisis de variantes genómicas, análisis de transcriptomas, ensamblaje de genomas y visualización y análisis de datos a nivel genómico. GOAL El objetivo principal de la asignatura es introducir a los alumnos, de una manera práctica, los conceptos y técnicas bioinformáticas que se utilizan de manera habitual hoy en día en laboratorios de investigación y análisis. Estas técnicas han cambiado significativamente en los últimos años con la implantación de la tecnología de secuenciación masiva, y por tanto no forman parte de los conocimientos habituales en asignaturas de bioinformática clásica. Las clases se realizan en el aula de informática y tienen una orientación práctica para que los alumnos entiendan el tipo de herramientas (hardware y software), el formato de los datos y los métodos que subyacen en los análisis de los datos, para las aplicaciones más utilizadas. The specific aims of the subject are: Objetivos específicos: Conocer y comprender las posibilidades de las técnicas multidisciplinares bioinformáticas en la era postgenómica, especialmente en el contexto de la secuenciación masiva Aplicar la bioinformática para obtener analizar información de experimentos de NGS, en particular: control de calidad, conversión de formatos, alineamiento masivo de lecturas cortas, caracterización de variantes genómicas, transcriptómica por RNA-seq, análisis de datos de ChIP-seq, ensamblaje de genomas, y acceso a la información de bases de datos genómicas. Contextualizar estas técnicas postgenómicas y describir sus aplicaciones en diversos campos de medicina, biología, farmacia y agricultura. Saber aplicar los conocimientos teóricos adquiridos a la resolución de problemas y casos prácticos relacionados con las distintas materias. Objetivos complementarios: Conocer la historia y evolución de la Bioinformática postgenómica Adquirir las habilidades necesarias para buscar, comparar, anotar y descargar información genómica Conocer los principales métodos, herramientas y recursos de información para ayudas a grandes proyectos de secuenciación (anotación, ensamblaje,...) y experimentos en biología molecular (transcriptómica, proteómica ) cuando se usa tecnología de secuenciación de última generación. Conocer las herramientas y sistemas operativos (software) más habituales en bioinformática PRIOR KNOWLEDGE Fundamentos básicos de técnicas bioinformáticas: análisis de secuencias, bases de datos biológicas. Fundamentos básicos de bioquímica, biología molecular y disciplinas ómicas. Conocimiento de las técnicas de secuenciación de ácidos nucléicos. Familiaridad con los ordenadores y sus elementos. Familiaridad teórica y/o práctica con las técnicas experimentales generadoras de datos masivos, especialmente secuenciación de nueva generación. Page 2
COURSE SYLLABUS Tema 1. Introducción y Secuenciación de Nueva Generación: Se repasan la historia de la biología molecular en el contexto de los métodos numéricos y analíticos que permiten cuantificarla a nivel molecular, haciendo especial hincapié en la introducción de técnicas analíticas basadas en computación, y poniendo a los alumnos en el contexto de la secuenciación masiva, su base tecnológica, sus restos y sus aplicaciones. Tema 2. Se introduce de manera práctica al sistema operativo Linux. Comandos basicos para el manejo de ficheros y directorios así como ejecutar programas desde línea de comando. Tema 3. Análisis de Variantes: Los alumnos reciben conceptos básicos de los métodos bioinformáticos que se emplean para la detección de variantes genómicas puntuales (mutaciones y SNPs) en experimentos de secuenciación masiva. Se revisan los métodos, estándares de información y tecnologías que usan los secuenciadores modernos para generar información de secuencia y sus calidades de manera masiva. Además, se adquieren nociones sobre métodos de anotación y predicción de impacto funcional de dichas variantes. Todos los contenidos de la clase se abordan de forma teórico-práctica. Tema 4. RNA-seq: Se revisan la historia y los conceptos asociados al análisis sistemico de expresión génica, y se realiza de manera práctica un protocolo de análisis de expresión basado en datos procedentes de secuenciación masiva. Tema 5. ChIP-seq: Se explica de manera práctica la nueva técnica de ChIP-seq (inmunoprecipitación de cromatina seguida de secuenciación masiva), que permite obtener un perfil de los sitios de unión de proteínas al ADN, simultáneamente para todo el genoma, y por tanto caracterizar elementos de regulación por factores de transcripción, modificaciones a nivel de histonas, posicionamiento de los nucleosomas o localización de polimerasas en actividad, entre otros muchos ejemplos. Se realizarán prácticas de ejemplo con datos reales obtenidos de la literatura científica. Tema 6. Ensamblaje genómico de-novo: Se explicará como, mediante el ensamblaje de lecturas cortas secuenciadas de moléculas de ADN, es posible generar secuencias más largas (contigs) que permiten reconstruir el genoma original de una determinada especie. Se realizarán ejercicios prácticos. Tema 7. Genome Browsing: hoy día existe una cantidad enorme de información biológica en forma de anotaciones referida a distintos tipos de datos biológicos, obtenidos mediante experimentos en laboratorios distribuidos mundialmente, o mediante predicciones computaciones por parte de grupos de bioinformática. Esta información ha sido concentrada en visualizadores genómicos de forma que el usuario/investigador tenga acceso fácil y rápido a estos datos. En esta clase se explicará y trabajará con uno de los visualizadores genómicos en web más usados actualmente (UCSC). EDUCATION ACTIVITIES La metodología propuesta para esta asignatura consistirá en: Impartición de clases en el aula de ordenadores, con tres metodologías principales: a) Contexto biotecnológico, biomédico o molecular de la práctica: Introducción teórica, explicación previa de las prácticas por parte del profesor. b) Discusión abierta de estos aspectos: todos, según preguntas abiertas realizadas por el profesor o por otros alumnos c) Realización de problemas en los ordenadores, apoyados y guiados por el profesor, revisando los resultados entre todos Suministro de artículos científicos de referencia por parte del profesor para realizar una lectura crítica de los mismos por parte de los alumnos. Page 3
Utilización del Aula Virtual de la Universidad para el seguimiento de las actividades de los alumnos. Tutorías y resolución de los problemas relacionados con cada unidad por los alumnos con supervisión por parte del profesor. Las actividades de aprendizaje por parte de los alumnos consistirán en: Ejercicios prácticos en los que, bajo supervisión del profesor, se realizarán en los ordenadores los problemas planteados. Lectura y revisión crítica de los materiales suministrados Planteamiento de dudas y elementos de discusión abierta en las clases DISTRIBUTION OF WORK TIME CLASSROOM-BASED ACTIVITY INDEPENDENT STUDY/OUT-OF-CLASSROOM ACTIVITY 30 hours 45 hours Clases expositivas 12h Clases prácticas (realización de problemas) 8h Seminarios (lectura crítica de trabajos científicos) 8h Tutorías 2h Estudio teórico 25h Preparación de ejercicios y casos prácticos 10h Preparación de tutorías 5h Seminarios 5h SKILLS Aplicar la bioinformática para obtener analizar información de experimentos de NGS, en particular: control de calidad, conversión de formatos, alineamiento masivo de lecturas cortas, caracterización de variantes genómicas, transcriptómica por RNA-seq, análisis de datos de ChIP-seq, ensamblaje de genomas, y acceso a la información de bases de datos genómicas. Contextualizar las técnicas postgenómicas y describir sus aplicaciones en diversos campos de medicina, biología, farmacia y agricultura. Conocer la historia y evolución de la Bioinformática postgenómica y las herramientas y sistemas operativos (software) más habituales en bioinformática Adquirir las habilidades necesarias para buscar, comparar, anotar y descargar información genómica. Saber aplicar los conocimientos teóricos adquiridos a la resolución de problemas y casos prácticos relacionados con las distintas materias. Conocer los principales métodos, herramientas y recursos de información para ayudas a grandes proyectos de secuenciación (anotación, ensamblaje,...) y experimentos en biología molecular (transcriptómica, proteómica ) cuando se usa tecnología de secuenciación de última generación. Conocer y comprender las posibilidades de las técnicas multidisciplinares bioinformáticas en la era postgenómica, especialmente en el contexto de la secuenciación masiva LEARNING RESULTS Conocer, identificar y utilizar los métodos de análisis bioinformático más comunes para analizar datos procedentes de secuenciadores de nueva generación Page 4
Conocer las principales aplicaciones de la tecnología NGS, en su contexto histórico, científico y genómico Usar el sistema operativo Linux, como herramienta computacional principal para analizar datos masivos Analizar de manera masiva lecturas cortas de ADN para evaluar su calidad y preparar los datos para análisis posteriores Realizar alineamientos masivos de lecturas cortas a genomas de referencia Caracterizar variantes genómicas en datos procedentes de secuenciación masiva, y sus implicaciones para la farmacia y la clínica Analizar de manera masiva datos procedentes de experimentos de expresión con RNA-seq Analizar de manera masiva datos procedentes de experimentos de unión a DNA con ChIP-seq Ensamblar genomas sencillos secuenciados por NGS Conocer los contenidos y el uso de los principales servidores de datos genómicos disponibles a través de internet Recuperar información genética, genómica y post-genómica de estos servidores LEARNING APPRAISAL SYSTEM La evaluación de los alumnos será continua durante las prácticas, y atenderá a: Asistencia presencial a las clases prácticas Lectura y revisión crítica de los materiales suministrados (10%) Participación en el aula en el planteamiento de dudas y apertura de elementos de discusión en las clases (40%) Realización de los ejercicios prácticos en los que, bajo supervisión del profesor, se realizarán en los ordenadores ante los problemas planteados (50%) BIBLIOGRAPHY AND OTHER RESOURCES Basic T.K. Attwood and D.J. Parry-Smith's Introduction to Bioinformatics, Prentice-Hall 1999 (Longman Higher Education; ISBN 0582327881) Page 5
Stuart M Brown, J. (2015). Next-Generation DNA Sequencing Informatics, Second Edition (Cold Spring Harbor Laboratory Press, ISBN 9781621821236) Bioinformatics: Sequence and Genome Analysis, Second Edition de David W. Mount. CSH Press. Introduction to Bioinformatics, Fourth Edition, Arthur Lesk. Oxford Bioinformatics for Dummies, Jean Michel Claverie y Cedric Notredame. Wiley. Additional Análisis de variantes: DePristo, M. A. et al. A framework for variation discovery and genotyping using nextgeneration DNA sequencing data. Nat Genet 43, 491-498 (2011). Análisis de variantes: O'Rawe et al. Low concordance of multiple variant-calling pipelines: practical implications for exome and genome sequencing. Genome Medicine 2013 5:28 doi:10.1186/gm432 Análisis de variantes: Rubio-Camarillo et al. RUbioSeq: a suite of parallelized pipelines to automate NGS analyses. Bioinformatics (2013) 29 (13), 1687-1689 Análisis de variantes: Alioto, T. S. et al. A comprehensive assessment of somatic mutation detection in cancer using whole-genome sequencing. Nat Commun 6, 1-13 (2015). De novo genome assembly: Nowrousian et al. De novo assembly of a 40 Mb eukaryotic genome from short sequence reads: Sordaria macrospora, a model organism for fungal morphogenesis. PLoS Genet. 2010 Apr 8;6(4):e1000891. doi: 10.1371/journal.pgen.1000891. PubMed PMID: 20386741; PubMed Central PMCID: PMC2851567. De novo genome assembly: Zerbino DR, Birney E. Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Res. 2008 May;18(5):821-9. doi: 10.1101/gr.074492.107. Epub 2008 Mar 18. PubMed PMID: 18349386; PubMed Central PMCID: PMC2336801. De novo genome assembly: Li et al. De novo assembly of human genomes with massively parallel short read sequencing. Genome Res. 2010 Feb;20(2):265-72. doi: 10.1101/gr.097261.109. Epub 2009 Dec 17. PubMed PMID: 20019144; PubMed Central PMCID: PMC2813482. Introduction to NGS: Metzker, M. L. Sequencing technologies the next generation. Nat Rev Genet 11, 31 46 (2009). Introduction to NGS: Goodwin, S., McPherson, J. D. & McCombie, W. R. Coming of age: ten years of nextgeneration sequencing technologies. Nat Rev Genet 17, 333 351 (2016). Chip-Seq: Park PJ. ChIP-seq: advantages and challenges of a maturing technology. Nat Rev Genet. 2009 Oct;10(10):669-80. doi: 10.1038/nrg2641. Epub 2009 Sep 8. Review. PubMed PMID: 19736561; PubMed Central PMCID: PMC3191340. Chip-Seq: Kidder BL, Hu G, Zhao K. ChIP-Seq: technical considerations for obtaining high-quality data. Nat Immunol. 2011 Sep 20;12(10):918-22. doi: 10.1038/ni.2117. PubMed PMID: 21934668; PubMed Central PMCID: PMC3541830. Chip-Seq: Bailey et al. Practical guidelines for the comprehensive analysis of ChIP-seq data. PLoS Comput Biol. 2013;9(11):e1003326. doi: 10.1371/journal.pcbi.1003326. Epub 2013 Nov 14. PubMed PMID: 24244136; PubMed Central PMCID: PMC3828144. Page 6
Chip-Seq: Landt et al. ChIP-seq guidelines and practices of the ENCODE and modencode consortia. Genome Res. 2012 Sep;22(9):1813-31. doi: 10.1101/gr.136184.111. PubMed PMID: 22955991; PubMed Central PMCID: PMC3431496. Chip-Seq: Zhang Y, Liu T, Meyer CA, Eeckhoute J, Johnson DS, Bernstein BE, Nusbaum C, Myers RM, Brown M, Li W, Liu XS. Model-based analysis of ChIP-Seq (MACS). Genome Biol. 2008;9(9):R137. doi: 10.1186/gb-2008-9- 9-r137. Epub 2008 Sep 17. PubMed PMID: 18798982; PubMed Central PMCID: PMC2592715. De novo genome assembly: Schatz MC, Delcher AL, Salzberg SL. Assembly of large genomes using secondgeneration sequencing. Genome Res. 2010 Sep;20(9):1165-73. doi: 10.1101/gr.101360.109. Epub 2010 May 27. PubMed PMID: 20508146; PubMed Central PMCID: PMC2928494. De novo genome assembly: Li et al. The sequence and de novo assembly of the giant panda genome. Nature. 2010 Jan 21;463(7279):311-7. doi: 10.1038/nature08696. Epub 2009 Dec 13. Erratum in: Nature. 2010 Feb 25;463(7284):1106. PubMed PMID: 20010809; PubMed Central PMCID: PMC3951497. De novo genome assembly: Paszkiewicz K, Studholme DJ. De novo assembly of short sequence reads. Brief Bioinform. 2010 Sep;11(5):457-72. doi: 10.1093/bib/bbq020. Epub 2010 Aug 19. Review. PubMed PMID: 20724458. UCSC genome browser + ENCODE: Zweig AS, Karolchik D, Kuhn RM, Haussler D, Kent WJ. UCSC genome browser tutorial. Genomics. 2008 Aug;92(2):75-84. doi: 10.1016/j.ygeno.2008.02.003. Epub 2008 Jun 2. Review. PubMed PMID: 18514479. UCSC genome browser + ENCODE: Fishing for genes in the UCSC Browser: A tutorial http://genome.ucsc.edu/training/ucscgenefishing.pdf UCSC genome browser + ENCODE: Rosenbloom et al. ENCODE data in the UCSC Genome Browser: year 5 update. Nucleic Acids Res. 2013 Jan;41(Database issue):d56-63. doi: 10.1093/nar/gks1172. Epub 2012 Nov 27. PubMed PMID: 23193274; PubMed Central PMCID: PMC3531152. UCSC genome browser + ENCODE: ENCODE Project Consortium. A user's guide to the encyclopedia of DNA elements (ENCODE). PLoS Biol. 2011 Apr;9(4):e1001046. doi: 10.1371/journal.pbio.1001046. Epub 2011 Apr 19. PubMed PMID: 21526222; PubMed Central PMCID: PMC3079585. UCSC genome browser + ENCODE: ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature. 2012 Sep 6;489(7414):57-74. doi: 10.1038/nature11247. PubMed PMID: 22955616; PubMed Central PMCID: PMC3439153. Análisis de variantes: Pabinger, S. et al. A survey of tools for variant analysis of next-generation genome sequencing data. Briefings in Bioinformatics (2013). doi:10.1093/bib/bbs086 Análisis de variantes: Matan Hofree et al. Challenges in identifying cancer genes by analysis of exome sequencing data. Nat Commun 7, 12096 (2016) Análisis de variantes: Cibulskis, K. et al. Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples. Nat Biotechnol (2013). doi:doi:10.1038/nbt.2514 UNIX: Kenneth H. Rosen Unix sistema V, version 4. McGraw-Hill. ISBN: 8448109694 RNA-Seq: Trapnell C, Roberts A, Goff L, Pertea G, Kim D, Kelley DR, Pimentel H, Salzberg SL, Rinn JL, Pachter L. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 2012 Mar 1;7(3):562-78. Page 7