Desarrollo e Implementación de una Plataforma Bioinformática para el Análisis RNA-SEQ Basada en Galaxy

Transcripción

1 Desarrollo e Implementación de una Plataforma Bioinformática para el Análisis RNA-SEQ Basada en Galaxy Trabajo de grado para optar por el título de Ingeniero de Sistemas Cristian Rojas Miguel Gutierrez Dirigido por: MSc. Nelson Enrique Vera Facultad de ingeniería Universidad Distrital Franciso José Caldas, Bogotá D.C. Enero 2015

3 A Isabel Rojas ya que sin ella un logro como este no habría sido posible. A Natalia Bustacara quien se ha convertido en un apoyo incondicional en mi vida. Cristian Rojas iii

4 A mi madre, que sin ella nada de esto hubiera sido posible, A todas aquellas personas que me apoyaron incondicionalmente en este proceso y a mi axiomática genialidad. Miguel Gutierrez iv

5 Agradecimientos A los investigadores del Grupo de Inmunología Evolutiva (GIE) del Instituto de Genética de la Universidad Nacional(IGUN) por la retroalimentación y valiosa información que aportaron en el desarrollo de este proyecto. También agradecemos al Centro de Computo de Alto Desempeño (CECAD) de la Universidad Distrital por ofrecernos los recursos computacionales para realizar este proyecto. A nuestro director Nelson Enrique Vera ya que sin su guía y consejos no hubiera sido posible desarrollar este proyecto. v

6 Work it harder, make it better, do it faster, make us stronger Daft Punk vi

7 Resumen En este trabajo de grado se realiza un proceso de diseño y construcción de un software que reúne las herramientas necesarias para una investigación bioinformática sobre datos RNA-Seq. A partir del problema se propone un flujo de trabajo que representa todo un proceso que pasa por las principales etapas de tratamiento de datos trascriptómicos y de secuenciación de nueva generación, como lo son preprocesamiento, mapeo, ensamblaje, anotación y expresión diferencial; Creando así una plataforma de trabajo integral y amigable para el usuario que facilite el trabajo de los investigadores en el área de transcriptómica. Disponibilidad: Imagen de VirtualBox vii

8 Índice general Lista de Tablas XII Lista de Figuras XIII 1. Introducción Problema de investigación Justificación Objetivos Objetivo General Objetivos específicos Metodología Marco teórico Bioinformática Secuenciación de próxima generación Tecnologías de secuenciación Análisis de secuencias RNA-seq Preparación de muestras Construcción de librerías Control de calidad y filtro de lecturas Ensamblaje viii

9 Expresión diferencial Estimación de Abundancia Anotación Estado del arte Pipelines y workflows para NGS NARWHAL DDBJ read annotation pipeline Pipelines y workflows para RNA-Seq Ngs backbone RseqFlow Plataformas basadas en Galaxy Oqtans Orione Plataforma RNA-Seq UD Objetivo Flujo de trabajo Composición Arquitectura general Módulo de preprocesamiento Análisis de calidad Clipping Trimming Eliminación de ribosomales Normalización Módulo de Mapeo BWA Bowtie Bowtie ix

10 Tophat Módulo de ensamblaje Ensamblaje ab-initio Ensamblaje de-novo Módulo de anotación Anotación estructural Anotación funcional Módulo de expresión diferencial CuffDiff run DE Analisys de Trinity Módulo de estimación de abundancia RSEM Script de Trinity: align and estimate abundance.pl Utilidades Samtools CummeRbund EMBOSS: Transeq Documentación Evaluación de la plataforma Requerimientos no funcionales Requerimientos funcionales Discusión 58 Bibliografía 60 A. Recolección de requerimientos 70 A.1. Definición del problema A.2. Actores que intervienen en el software x

11 A.2.1. Administrador A.2.2. Investigador A.2.3. Sistema A.3. Consideraciones A.4. Requerimientos específicos de interfaces A.4.1. Interfaces de usuario A.4.2. Interfaces de hardware A.4.3. Interfaces de software A.4.4. Protocolos de comunicación A.5. Requerimientos de persistencia A.6. Caracterización del producto de software A.6.1. Tablas de requerimientos funcionales xi

12 Índice de tablas 1.1. Metodología propuesta Comparativo de requerimientos no funcionales Comparativo de requerimientos funcionales A.1. Lista de requerimientos de administración A.1. Lista de requerimientos de administración A.2. Lista de requerimientos de herramientas y procesos A.2. Lista de requerimientos de herramientas y procesos A.2. Lista de requerimientos de herramientas y procesos xii

13 Índice de figuras 2.1. Relación Biología Informática. Pekin University (2013) Relación Biología Informática. Pekin University (2013) Fases del análisis de secuencias. Rudy (2010) Pipeline RNA-seq. Pekin University (2013) Pipeline de predicción de transcritos usando la estrategia basada en referencias. Reddy et al. (2012) Pipeline de predicción de transcritos usando de Novo Reddy et al. (2012) Ensamblaje y análisis de expresión diferencia Haas et al. (2013) Pipeline de cuantificación en RNA-Seq. TotalOmics (2013) Pipeline de anotación. Michigan State University (2013) Página de inicio de RNA-Seq UD Modelo de procesamiento de datos NGS Arquitectura RNA-Seq UD Módulo de preprocesamiento Módulo de ensamblaje Pipeline típico con ensamblaje Ab-initio.(Tomada de Módulo de Anotación Wiki con documentación técnica y de usuario para procesos RNA-Seq. 53 xiii

14 Capítulo 1 Introducción 1.1. Problema de investigación Descifrar las secuencias de ADN es esencial para prácticamente todas las ramas de investigación de la Biología. Durante varias décadas el proceso de secuenciación se realizó gracias al método de Sanger (incluyendo el proyecto del genoma humano, donde éste método fue fundamental). Sin embargo sus altos costos y limitantes en cuanto a rendimiento, escalabilidad, velocidad y resolución han forzado a que en los últimos 3 años se lleve un proceso de migración a nuevos procedimientos denominados secuenciación de nueva generación. Estas nuevas tecnologías permiten una secuenciación mucho más económica y eficiente, permitiendo extender la investigación genómica y transcriptómica a grupos de investigación con presupuestos limitados Mardis (2008). Los procesos de secuenciación de nueva generación se deben complementar con herramientas informáticas que atiendan los nuevos requerimientos de procesamiento, por ejemplo el ensamblaje (éstas técnicas generan fragmentos de menor tamaño, estos fragmentos aislados requieren el empleo de potentes herramientas para unirlos y reconstruir las secuencias) y que soporten el gran volumen de datos a procesar (el hecho de que la nueva generación ofrezca métodos mucho más accesible, conlleva a 1

15 que los procesos de secuenciación crezcan exponencialmente y de la misma forma los datos a procesar) Kahvejian et al. (2008). Actualmente la disponibilidad de herramientas bioinformáticas de nueva generación ya no representa un problema (basta con hacer una búsqueda en internet para encontrar una gran variedad de herramientas por cada etapa de procesamiento), en donde sí se evidencia una problemática (según lo expresado por científicos del instituto de genética de la Universidad Nacional de Colombia) (L. Cadavid, Reunión convenio GICOGE-IGUN, 1 de julio de 2013) es en la facilidad de uso de estas herramientas por parte de los biólogos. Los principales obstáculos que imposibilitan el fácil uso de las herramientas bioinformáticas por parte de los no informáticos son los siguientes: La mayoría de estas herramientas requieren máquinas de cómputo de alto desempeño para poder ser ejecutadas. La forma de usar estas herramientas comúnmente es mediante consola a través de comandos. Los formatos usados para representar los datos de salidas de algunas etapas de procesamiento son netamente técnicos informáticos, como por ejemplo XML. Un proceso de análisis completo requiere de varias etapas con herramientas separadas que el biólogo debe integrar. Este proyecto propone la implementación y adaptación de una plataforma bioinformática basada en Galaxy que integre herramientas de secuenciación de nueva generación para procesamiento de datos transcriptómicos y las presente al científico biológico como un proceso unificado transparente y de forma amigable Justificación Esta plataforma fortalecerá al grupo GIE (Grupo de Inmunología Evolutiva) en el estudio de los mecanismos de respuesta inmune en varios modelos animales, mediante 2

16 el análisis de genomas y transcriptomas completos y la integración de la información biológica desde una aproximación de la Biología de Sistemas. Por su parte, al grupo GICOGE le permitirá expandir sus áreas de investigación, incursionando en la solución de problemas biológicos que requieren de algoritmos capaces de afrontar problemas de alta complejidad computacional, contando con un espacio de aplicación en el que las capacidades tecnológicas del grupo son realmente necesarias Objetivos Objetivo General Desarrollar una plataforma bioinformática basada en Galaxy orientada al análisis de datos RNA-Seq de acuerdo a las necesidades del Grupo de Inmunología Evolutiva (GIE) del Instituto de Genética de la Universidad Nacional (IGUN), haciendo uso del Centro de Cómputo de Alto Desempeño de la Universidad Distrital (CECAD) Objetivos específicos Estudiar losprocesos que hacen parte de un análisis RNA-Seq. Diseñar un pipeline que automatice los procesos normalmente usados en un análisis RNA-Seq. Integrar herramientas bioinformáticas requeridas para realizar un análisis RNA- Seq. Desplegar en producción la plataforma desarrollada en un servidor del CECAD para el público en general y así fortalecer la imagen de investigación de la Universidad Distrital.. 3

17 1.4. Metodología Dado que el objetivo principal del proyecto es el desarrollo de una plataforma bioinformática basada en Galaxy, se plantea una adaptación de la metodología de desarrollo de software incremental, la cual se divide en varias etapas como la recolección de requerimientos, diseño, acondicionamiento, configuración, desarrollo, integración, documentación y evaluación. A continuación se describe la metodología propuesta para el desarrollo de este trabajo y cada una de sus actividades específicas. 4

18 Tabla 1.1: Metodología propuesta Fase Objetivos Descripción de las Actividades Resultados Esperados Estudio de Recolectar de Entrevista con investigadores del GIE. Lista de requerimientos para requerimientos requerimientos. Análisis de cada uno de los plataforma funcional. Análisis de requerimientos. requerimientos y clasificación según Candidatos de software a usar etapa de RNA-Seq. para satisfacer requerimientos. Diseño de Analizar y seleccionar Estudio de software disponible para Lista de software a instalar en el arquitectura software a implementar. satisfacer cada requerimiento. sistema operativo. Diseñar arquitectura a Revisión de cada herramienta Lista de Herramientas y módulos partir de lista de software y disponible. a integrar en la plataforma base. clasificar según su utilidad. Implementación Implementar una Despliegue de plataforma Galaxy base Plataforma base en modo de la plataforma plataforma bioinformática en modo pruebas. pruebas con su respectiva base base basada en Galaxy Despliegue de la plataforma Galaxy evaluación. base en modo de producción. Plataforma desplegada en modo producción. 5

19 Fase Objetivos Descripción de las Actividades Resultados Esperados Acondicionamiento Acondicionar los recursos Verificación y preparación de la Infraestructura del CECAD del CECAD a nivel de infraestructura del CECAD de puesta a punto para el desarrollo hardware y software para acuerdo a los requerimientos de las de la plataforma. la implementación de la herramientas. Entorno con software requerido plataforma. Preparación del entorno de software listo para la implementación de requerido (Instalación de sistema la plataforma. operativo y herramientas de software requeridas por la plataforma. Configuración y Configurar y personalizar Configuración de los entornos de Plataforma Galaxy configurada personalización la plataforma base de trabajo de la plataforma Galaxy. de acuerdo a los requerimientos acuerdo a los Personalización de la interfaz del IGUN. requerimientos del IGUN. Plataforma Galaxy con interfaz de usuario personalizada. 6

20 Fase Objetivos Descripción de las Actividades Resultados Esperados Acondicionamiento Acondicionar los recursos Verificación y preparación de la Infraestructura del CECAD del CECAD a nivel de infraestructura del CECAD de puesta a punto para el desarrollo hardware y software para acuerdo a los requerimientos de las de la plataforma. la implementación de la herramientas. Entorno con software requerido plataforma. Preparación del entorno de software listo para la implementación de requerido (Instalación de sistema la plataforma. operativo y herramientas de software requeridas por la plataforma. Integración Integrar a la plataforma las Integrar herramientas desarrolladas Plataforma Galaxy con herramientas propias por terceros. herramientas de terceros (desarrolladas Integrar herramientas propias integradas. anteriormente en el (desarrolladas anteriormente en el Plataforma Galaxy con convenio IGUN-CECAD ) convenio IGUN-CECAD ). herramientas propias integradas. y de terceros; y generar un Generar un protocolo de integración Protocolo de integración. protocolo de integración para futuras herramientas. Reporte de evaluación de para las futuras Evaluar desde el punto de vista desempeño. herramientas a desarrollar. informático. 7

21 Fase Objetivos Descripción de las Actividades Resultados Esperados Acondicionamiento Acondicionar los recursos Verificación y preparación de la Infraestructura del CECAD del CECAD a nivel de infraestructura del CECAD de puesta a punto para el desarrollo hardware y software para acuerdo a los requerimientos de las de la plataforma. la implementación de la herramientas. Entorno con software requerido plataforma. Preparación del entorno de software listo para la implementación de requerido (Instalación de sistema la plataforma. operativo y herramientas de software requeridas por la plataforma. Documentación Generar la documentación Recopilación y ordenamiento de la Manuales técnicos, manual de técnica y de usuario para información necesaria para llevar a usuario. dar despliegue público de la cabo la documentación. plataforma. Redacción y revisión de la documentación sobre la instalación y requerimientos técnicos de la plataforma. Creación de los manuales técnicos y de uso de la plataforma. Adecuación del hardware y software para el correcto funcionamiento de la plataforma. 8

22 Fase Objetivos Descripción de las Actividades Resultados Esperados Acondicionamiento Acondicionar los recursos Verificación y preparación de la Infraestructura del CECAD del CECAD a nivel de infraestructura del CECAD de puesta a punto para el desarrollo hardware y software para acuerdo a los requerimientos de las de la plataforma. la implementación de la herramientas. Entorno con software requerido plataforma. Preparación del entorno de software listo para la implementación de requerido (Instalación de sistema la plataforma. operativo y herramientas de software requeridas por la plataforma. Evaluación Evaluar desde el punto de Evaluar desde el punto de vista Evaluación de la plataforma. vista biológico e biológico. informático la plataforma. Evaluar desde el punto de vista informático. 9

23 Capítulo 2 Marco teórico A continuación se mencionarán todos los elementos y temas relacionados para el desarrollo de este proyecto. Este capítulo se divide en 3 partes, la primera hace una introducción a la bioinformática en general, la segunda hace una profundización en la Secuenciación de Próxima Generación y por último, la tercera se enfoca en RNA-Seq Bioinformática En los inicios de los 70 s Ben Hesper y Paulien Hogeweg comenzaron a usar el término bioinformática para la investigación que estaban desarrollando, definiendo el término como el estudio de los procesos informáticos en los sistemas bióticos. En esta época se comenzaron a desarrollar modelos matemáticos para el procesamiento de información biológica y a pesar de que el modelado y análisis de patrones se solían considerar como campos separados dentro de la biología teórica, se unieron para conformar lo que se considera actualmente como bioinformática. Esta unión se dio con el objetivo de analizar los patrones de variación en múltiples niveles en los organismos, además, detectar fenómenos emergentes en los modelos, y finalmente para comparar los resultados de estos modelos con datos reales. La unión y comprensión de estos procesos fue el núcleo de la investigación bioinformática Hogeweg (2011). 10

24 Más adelante cuando se formaliza la bioinformática como un campo científico, se formula una definición más explícita. National Center for Biotechnology Information (NCBI) (2001). La bioinformática es un campo de ciencia en los cuales la biología, las ciencias de la computación y las tecnologías de información se unen en una sola disciplina. Existen 3 sub-disciplinas principales en la bioinformática. El desarrollo de nuevos algoritmos y métodos estadísticos con el fin de evaluar relaciones entre grandes sets de datos. El análisis y la interpretación de varios tipos de datos incluyendo nucleótidos y aminoácidos, dominios de proteínas y estructuras de proteínas. Desarrollo e implementación de herramientas que faciliten un acceso y administración eficiente a varios tipos de información En la figura 2.1 se muestran algunos de los campos biológicos en los cuales se puede centrar una investigación y las formas o métodos que se usan para dar solución a los mismos mediante la bioinformática. Figura 2.1: Relación Biología Informática. Pekin University (2013) 11

25 En la figura 2.2 se muestra cómo la informática ayuda a resolver problemas de la bioinformática Secuenciación de próxima generación Next Generation Sequencing (NGS), Recientemente se ha dado un cambio en cuanto al uso generalizado de la tecnología de Sanger para la obtención de secuencias de ácidos nucléicos, la cual había predominado durante más de 2 décadas. Ahora, las metodologías de secuenciación de alto rendimiento, permiten la obtención de grandes cantidades de datos con una menor inversión Metzker (2009). Por ello la secuenciación de segunda generación; incluyendo el Analizador Genético FLX de Roche/454, el sistema ABI SOLiD y el Analizador Genético de Illumina; resulta ser una buena herramienta para detectar masivamente candidatos de moléculas relevantes en respuesta inmune Wang et al. (2010). NGS tiene como base un proceso de secuenciación en el que un pequeño fragmento de ADN es identificado secuencialmente por medio de las señales emitidas ya que cada fragmento es resintetizado a partir de plantillas de cadenas de ADN Falconer et al. (2009). A diferencia del anterior proceso, NGS no usa unos cuantos fragmentos de ADN sino que se extiende a millones de reacciones de manera paralela. El enfoque Figura 2.2: Relación Biología Informática. Pekin University (2013) 12

26 de NGS permite una rápida secuenciación de grandes cadenas de ADN abarcando genomas enteros Tecnologías de secuenciación Las tecnologías de secuenciación han tenido una evolución significativa en los últimos 15 años Chan (2005). Antes de la tecnología NGS, Frederick Sanger planteó en 1980 la determinación de secuencias base de ácidos nucleicos Sanger (1981), pero no fue sino hasta 10 años después que comenzó el desarrollo de las nuevas tecnologías en el intento de descifrar completamente el genoma humano. La primera compañía en salir al mercado fue 454 Life Sciences con su tecnología de pirosecuenciación, capaz de leer grandes lecturas de 600 bases dando la posibilidad de secuenciar nuevos organismos sin un genoma de referencia, esta tecnología fue adquirida luego por Roche. Después aparecen Solexa y SOLiD como competencia para 454 Life Sciences, ambas tecnologías siendo similares Luo et al. (2012) con la notable ventaja de SOLiD al leer dos bases al mismo tiempo con una etiqueta fluorescente. Uno de los principales ventajas de estas nuevas tecnologías es la reducción de costos al momento de secuenciar Schuster (2007) y actualmente aparecen en el mapa dos compañías con la posibilidad de hacer competencia, estas compañías son Ion Torrent y Pacific Biosciences, las cuales han logrado un gran avance en cuestión de reducción de costos ya sea removiendo pasos del proceso que ya no son necesarios o usando alternativas a los complejos instrumentos Análisis de secuencias El análisis bioinformática de las secuencias va desde el procesamiento de los datos por medio de instrumentos de secuenciación hasta la minería de datos y las herramientas de análisis. El software para el análisis de secuencias puede ser categorizado dentro de 3 etapas: análisis primario, secundario y terciario Rudy (2010). Estas etapas las podemos ver en la Figura

27 Análisis primario Este análisis se define como los pasos específicos necesarios de la máquina para obtener los pares bases y procesar los puntajes de calidad, lo cual resulta en un archivo FASTQ que contiene las lecturas y la calidad asignada a esas lecturas. En esta fase podemos encontrar algunas herramientas como: Roche 454. Solexa. SOLiD. Illumina. PACBIO RS II. Figura 2.3: Fases del análisis de secuencias. Rudy (2010) 14

28 Análisis secundario Hace referencias al re-ensamblamiento de las lecturas, incluyendo los pasos previos de limpieza como el filtrado de calidad para asegurar mejores resultado. En esta fase podemos encontrarnos con ensamblaje con un genoma de referencia o sin referencia, llamados ab initio y de novo respectivamente. En esta fase podemos encontrar algunas herramientas como: Trinity. SOAP. Oases. Scripture. Análisis terciario Esta fase se encarga de darle sentido a los datos obtenidos, podemos encontrar procesos como la agregación de datos, la anotación, el análisis de estructura de datos, entre otros. Esta fase es donde finalmente los investigadores pueden interpretar la información y sacar conclusiones. En esta fase podemos encontrar algunas herramientas como: BLAST. InterProScan. RSEM. EdgeR. 15

29 2.3. RNA-seq RNA-seq Wang et al. (2009) es una herramienta recientemente desarrollada que permite el análisis de transcriptomas provenientes de tecnologías de secuenciación profunda. El transcriptoma es un conjunto completo de los transcritos en una célula. Entender el transcriptoma es esencial para interpretar los elementos funcionales del genoma y revelar los componentes moleculares de células y tejidos, también puede ser útil para el análisis de enfermedades y su desarrollo Augen (2004). Un pipeline típico para realizar análisis RNA-Seq se describe en la figura 2.4. Figura 2.4: Pipeline RNA-seq. Pekin University (2013) 16

30 Preparación de muestras Durante esta etapa se expone el organismo estudiado a diversos factores ambientales y en distintas etapas del experimento son tomadas muestras con el fin de ser secuenciadas (I. Ocampo, Reunión convenio GICOGE-IGUN, 12 de Agosto de 2013) Construcción de librerías Las librerías son colecciones de fragmentos de un genoma que han sido clonados a través de vectores de plásmidos o adaptadores. Para aumentar el número de transcritos ensamblados, el RNA ribosomal (rrna) y los transcriptos abundantes son removidos durante el primer paso de la construcción de la librería. Para remover la contaminación pueden utilizarse los métodos de hybridization-based depletion, estos métodos aumentan la oportunidad de detección y ensamblaje de transcritos raros, reduciendo la representación de rrna y otros transcritos abundantes. Otro punto importante a considerar en la construcción de librerías es si se debe eliminar el paso de amplificación PCR del protocolo ya que este paso deviene en baja cobertura de secuenciamiento y esto puede causar un aumento de los gaps en los transcritos ensamblados. Para solucionar este problema se han desarrollado métodos sin amplificación; por ejemplo la tecnología de secuenciación singlemolecule de Helicos y Pacific Biosciences Ledergerber and Dessimoz (2011) no requiere amplificación PCR, pero aún sufre de altos porcentajes de errores, a pesar de ello, este método logra una mayor cobertura de secuenciación del transcriptoma posibilitando a los ensambladores a construir transcritos de tamaño completo en las regiones del transcriptoma donde el par base G-C aparece en gran porcentaje technologies (2011). El uso de protocolos RNA-seq strand-specific ayuda en el ensamblado y cuantificación de transcritos superpuestos que se derivan de la cadena opuesta del genoma. Esta consideración es importante para los genomas con una gran cantidad de genes tales como los de bacterias, arqueas y células eucariotas inferiores, pero también es 17

31 importante para la detección de la transcripción antisentido, que es común en células eucariotas superiores Parkhomchuk et al. (2009), Borodina et al. (2011) Control de calidad y filtro de lecturas Esta etapa del proceso se conoce también como preprocesamiento. En esta etapa se remueven artefactos de los data set antes de ser ensamblados con el fin de mejorar la calidad de las lecturas, lo cual, a la vez, mejora la precisión y el rendimiento computacional del ensamblaje. Esta etapa es recomendada y puede ser ejecutada usando diversas herramientas. Primero se hace necesario hacer un análisis de calidad de todas las lecturas para así determinar qué artefactos serán eliminados Haas et al. (2013). Análisis de calidad En esta etapa se toman todas las lecturas en un formato FASTQ Cock et al. (2010) y a continuación se les realiza un análisis de puntajes de secuenciación con FASTQC Andrews et al. (2010) para así poder analizar los artefactos a eliminar en los próximos pasos del preprocesamiento. Por lo general los siguientes artefactos deben ser eliminados de datos correspondientes a RNA-seq. Adaptadores de secuenciación Estos son originados de inserciones de ADN fallidas o cortas provenientes de la preparación de las librerías Martin (2011). Lecturas de baja complejidad Lecturas casi idénticas provenientes de la amplificación PCR Brown et al. (2012). 18

32 Errores de secuenciación Los errores de secuenciación en las lecturas de NGS puede ser removidos o corregidos a través del análisis de el puntaje de calidad o la frecuencia de k-mer. En la mayoría de sets de datos de NGS, los puntajes de calidad bajos pueden indicar posibles errores al momento de la secuenciación Yang et al. (2013). Es necesario tener en cuenta que una molécula de RNA puede ser secuenciada muchas veces, esto quiere decir que los k-mers sin errores estarán en el set de datos varias veces. En contraste, los k-mer que aparecen en el set de datos muy pocas veces pueden indicar que se generó un error de secuenciación en los k-mer que poseen poca abundancia. Las lecturas conteniendo esos errores pueden ser removidas, recortadas o corregidas con el fin de mejorar la calidad del ensamblaje y disminuir la cantidad de memoria RAM que será necesaria para el proceso. Sin embargo, la remoción de errores basadas en k-mer puede tener un efecto colateral, es que las lecturas que provienen de transcritos raros puede que también sean removidas Bolger et al. (2014). Lecturas con alta cobertura Dependiendo de la profundidad de secuenciación pueden existir transcritos que hayan sido sobresecuenciados, si se tiene un set de datos con mas de 100 millones de lecturas es recomendable eliminar las lecturas que estén con mucha cobertura mediante un proceso llamado normalización in-silico. Este paso no afectará la calidad del ensamblaje y en cambio aumentará la eficiencia computacional del ensamblaje Brown et al. (2012) Ensamblaje El ensamblaje es el proceso de reconstrucción de secuencias genómicas muy grandes a partir de sub-secuencias aleatorias derivadas. Este proceso consiste en determinar la similaridad de las sub-secuencias sobreponiéndolas unas sobre otras y encontrando una relación entre el contenido de las sub-secuencias, el resultado de este 19

33 proceso se llama ensamblado el cual es una estructura de datos que agrupa lecturas en contigs y contigs en metacontigs. Los metacontigs definen el orden y orientación de los contigs, además contiene la información de las brechas (gaps) entre los contigs. Adicionalmente, existen tres estrategias para realizar un ensamblaje. La primera estrategia usa un genoma de referencia, la segunda trabaja sin genoma de referencia y la tercera combina las anteriores dos Miller et al. (2010). Estrategia basada en referencia Cuando se tiene disponible un genoma de referencia, el ensamblaje del transcriptoma se puede construir sobre éste. En general el procedimiento de esta estrategia comprende 3 pasos. Primero, las lecturas RNA-seq son alineadas al genoma de referencia usando un alineador splice-aware como por ejemplo: Blat, TopHat, SpliceMap, MapSplice o GSNAP. Segundo, la superposición de las lecturas de cada locus se agrupan para construir un gráfico que representa todas las posibles isoformas. El tercer y último paso es recorrer el gráfico para encontrar cada isoforma Martin and Wang (2011). Después de que las lecturas están alineadas con el genoma de referencia, se suelen usar dos métodos para la construcción y recorrido de las gráficas. Cufflinks Roberts et al. (2011) crea un gráfico de superposición de todas las lecturas que se alinean a un único locus y luego recorre este gráfico para ensamblar isoformas encontrando el conjunto mínimo de transcripciones que explican la unión de intrones dentro de las lecturas. Por otro lado, Scripture construye un gráfico de empalme que contiene cada base de un cromosoma y añade conexiones entre las bases si hay una lectura que se une a las dos bases. Luego encuentra todos los caminos a través de la gráfica que tiene una cobertura de lectura estadísticamente significativa. Estas diferencias en la construcción gráfica y métodos transversales sugieren que Cufflinks es más conservador en la elección década una de las transcripciones de reconstrucción, mientras que Scripture puede producir un conjunto más amplio de transcripciones de un locus Martin and Wang (2011). 20

34 La estrategia del ensamblado de transcriptomas basado en referencia tiene muchas ventajas porque dicho enfoque transforma problemas de millones de lecturas en problemas más pequeños de miles de lecturas, además el ensamblaje se puede resolver usando computación paralela y puede correrse eficientemente en máquinas con solo unas cuantas gigas de RAM. Además esta estrategia es muy sensible y puede ensamblar transcritos de baja abundancia, esto permite a los usuarios descubrir nuevos transcritos que no están presentes en la anotación actual, ya que en general este tipo de transcripciones tienen niveles de expresión más bajos. Hay algunos inconvenientes en la estrategia basada en referencias ya que el éxito de los ensambladores basados de referencia depende de la calidad del genoma de referencia que se utiliza. Muchos genomas ensamblados contienen cientos o miles de ensamblajes defectuoso y grandes supresiones genómicas que pueden conducir a transcriptomas ensamblados mal o parcialmente ensamblados, También se pueden encontrar errores introducidos por alineadores de lectura corta también se trasladan a los transcritos ensamblados. La figura 2.5 muestra un pipeline típico para hacer un ensamblaje con un genoma de referencia. Estrategia de Novo Está estrategia consiste en realizar un ensamblaje sin genoma de referencia aprovechando la redundancia de las secuencias cortas para encontrar regiones de sobrelapamiento y reconstruir los transcritos. Esta es la estrategia que se empleará en el presente trabajo y se basa en la construcción de grafos de De Brujn Martin and Wang (2011). Los grafos de De Brujin son caminos eulerianos, que se caracterizan por visitar los lados una única vez para unir una cierta cantidad de nodos. Para construir un grafo de De Bruijn, las lecturas son divididas en palabras de tamaño k (llamadas k-meros) que se sobrelapan. El valor de k es seleccionado por el investigador. A partir de los k- meros el programa construye el grafo, usando cada k-mero como nodo y las conexiones 21

35 entre nodos, o lados, representan sobrelapamientos de k-1 bases Miller et al. (2010). Esta aproximación tiene como supuesto que las lecturas fueron originadas a partir de un transcrito, y por eso, con ayuda de las lecturas se puede reconstruir el transcrito usando un camino euleriano. Aunque este método ha probado ser efectivo para realizar los ensamblajes de transcriptomas, aspectos como la existencia de variantes y regiones repetitivas generan problemas y ambigüedades Martin and Wang (2011). La figura 2.6 resume un pipeline típico para hacer un ensamblaje sin un genoma de referencia (de Novo). Figura 2.5: Pipeline de predicción de transcritos usando la estrategia basada en referencias. Reddy et al. (2012) 22

36 Estrategia combinada La tercera estrategia es una combinación de las dos anteriores que permite aprovechar la complementariedad de las dos metodologías, por esta razón, también requiere de un genoma o transcriptoma de referencia Martin and Wang (2011) Expresión diferencial La expresión diferencial Haas et al. (2013) consiste en detectar y comparar el cambio de los transcriptomas a través de las muestras tomadas en diferentes fases del experimento. El análisis de los transcritos expresados diferencialmente puede revelar patrones de expresiòn de genes y ayudar a comprender la relaciones que existen entre ellos en las muestras investigadas. Figura 2.6: Pipeline de predicción de transcritos usando de Novo Reddy et al. (2012) 23

37 Existen dos formas de para realizar esta tarea. Una opción es ensamblar separadamente las lecturas correspondientes a cada uno de las muestras y comparar los resultados de cada ensamblaje. La otra opción consiste en combinar todas las lecturas de todas las muestras, ensamblarlas en un solo transcriptoma y posteriormente alinear las lecturas de cada muestra a el nuevo transcriptoma ensamblado. En la figura 2.7 se muestra un ejemplo de un análisis de expresión diferencial tomando como muestras varios tejidos de diferentes órganos de un ser humano Estimación de Abundancia Cuantificación de transcritos es un requisito previo para muchas investigaciones. Se han propuesto varias m etricas para medir los niveles de abundancia de transcritos en los datos basados RNA-Seq Garber et al. (2011), normalizando para la profundidad de la secuenciación y la longitud de los transcritos. Estas métricas incluyen lecturas por kilobase de la longitud del transcrito objetivo por millón de lecturas mapeadas para las secuencias single-end, y un cálculo análogo basado en el conteo de fragmentos enteros para los datos de RNA-seq paired-end. Para calcular la cantidad de lecturas RNA-seq o fragmentos que se derivaron de los transcritos, las lecturas primero debe estar alineada con lo transcritos. Cuando se trabaja con un genoma de referencia y un transcriptoma anotado las lecturas por lo general se alinea con uno o ambos. Cuando se trabaja con de Novo las lecturas son re-alineados con los transcritos ensamblados Anotación La anotación consiste en el proceso de agregar información biológica a las secuencias, especialmente la identificación de genes y encontrar sus funciones. Existen dos formas de anotación, la manual y la automática, la manual se usaba típicamente y es de mayor calidad que la automática, ya que está es un proceso de predicción y no es totalmente exacta, pero debido a las grandes cantidades de datos genómicos que 24

38 toca procesar, se ha enfocado en usar primero la anotación automática acompañada de la anotación manual Perez-Castillo et al. (2014). La anotación se divide en dos tipos, la anotación estructural y la anotación funcional. La anotación estructural busca encontrar las características notables dadas por la posición de los genes en la secuencia, en este tipo de anotación se puede identificar Figura 2.7: Ensamblaje y análisis de expresión diferencia Haas et al. (2013) 25

39 elementos genómicos como al estructura de los genes, la ubicación de los motifs, regiones codificadoras, entre otros. Por otra parte la anotación funcional busca la clasificación y caracterización de una secuencia en cuanto a sus funciones, este tipo de anotación consiste en describir la función biológica y bioquímica, funciones locales, funciones globales, las interacciones que intervienen, y la función enzimática, entre otros Parra et al. (2013). Figura 2.8: Pipeline de cuantificación en RNA-Seq. TotalOmics (2013) 26

40 Figura 2.9: Pipeline de anotación. Michigan State University (2013) 27

41 Capítulo 3 Estado del arte Recientemente se han dado grandes avances en el desarrollo de pipelines, workflows e integración de herramientas bioinformáticas con el fin de brindar facilidades al usuario, poder extraer la mayor cantidad de información y hacer mejor gestión de los datos disponibles. Algunas de estas herramientas se especializan en realizar el control de calidad, convertir formatos, anotar secuencias o proveen pipelines para aplicaciones mas especìficas, por ejemplo, NGS backbone Blanca et al. (2011) y GATK McKenna et al. (2010). A continuación se muestran algunos de estos avances recientes y se clasifican según su tipo Pipelines y workflows para NGS NARWHAL NARWAL Brouwer et al. (2012) es un pipeline desarrollado por Investigadores del centro de bioinformática de Holanda en el año 2011 con scripts implementados en Python y Bash, este pipeline ha sido desarrollado para automatizar el procesamiento de sets de datos provenientes de secuenciadores illumina, los procesos que automatiza NARWHAL son: 28

42 Desmultiplexación: Proceso mediante el cual se recolectan los archivos en formato Qseq de la carpeta BaseCalls de Illumina y los convierte en archivos fastq. Alineamiento: Toma archivos FastQ y son alineados a secuencias de referencia usando un script de alineamiento. Evaluación de calidad: Realiza análisis de calidad sobre los archivos BAM generados por samtools. Una de las ventajas que sus desarrolladores destacan frente a otras herramientas es su facilidad de uso ya que requiere poca configuración y el hecho de que soporta formatos estándar y herramientas libres, por ejemplo, formatos: FastQ, SAM, BAM y herramientas: BWA Li and Durbin (2009), Bowtie Langmead et al. (2009) y Samtools DDBJ read annotation pipeline DDBJ read annotation pipeline Nagasaki et al. (2013) es un pipeline disponible al público a través de una interfaz web desarrollado por investigadores del DNA Data Bank of Japan y National Institute of Genetics (NIG) en el año 2013 que provee una interfaz web amigable para el usuario y que procesa datos datasets masivos de NGS usando procesamiento descentralizado en los supercomputadores del NIG sin costo alguno. Este pipeline consiste en dos componentes básicos: Análisis con genoma de referencia (ab initio) y ensamblaje de novo. Análisis de alto nivel de estructuras y adicionalmente anotación funcional. Este pipeline cuenta con las siguientes características: Gestión de transferencias: Subidas a través de FTP o HTTP. Gestión de trabajos (jobs): Gestiona el estado de los trabajos ( running, complete, error, etc.) y tiempos de ejecución. 29

43 Notificación por a los usuarios una vez su trabajo ha terminado Pipelines y workflows para RNA-Seq Ngs backbone Ngs backbone Blanca et al. (2011) es un pipeline desarrollado por investigadores del Instituto de Conservación y Mejora de la Agrodiversidad Valenciana (COMAV) en el año 2011 que funciona mediante línea de comandos integrando varias herramientas de software libre que a su vez soportan varios formatos de archivo. Esta herramienta integra los siguientes procesos: Limpieza de lecturas. Ensamblaje de transcriptoma y anotación. Mapeo de lecturas. Minería de Polimorfismos de nucleótido simple (SNP). Además de ser un pipeline también provee un API en Python para que los programadores desarrollen sus propios scripts RseqFlow RseqFlow Wang et al. (2011) es un flujo de trabajo desarrollado por investigadores de Department of Biological Sciences - Los Angeles, Department of Automation - Universidad de Xiamen, USC Information Sciences Institute - California y USC Keck School of Medicine - California en el año 2011; esta herramienta incluye funciones analíticas como: Control de calidad Calculo de niveles de expresión. 30

44 Identificación de genes expresados diferencialmente. Minería de Polimorfismos de nucleótido simple (SNP) Estos desarrolladores también han puesto a disposición del público una máquina virtual con el software listo para usar Plataformas basadas en Galaxy Galaxy es un proyecto abierto, una plataforma basada en web que permite la investigación biomédica Goecks et al. (2010). El proyecto Galaxy ofrece una plataforma basada en web para ejecutar herramientas bioinformáticas con la posibilidad de construir flujos de trabajo. Galaxy combina la utilidad de las bases de datos de anotación de genomas existentes con un entorno amigable para buscar recursos externos. La gran ventaja para el usuario final es que a diferencia de las herramientas actuales, Galaxy facilita la combinación de las herramientas necesarias para el análisis y procesamiento de información en un solo ambiente web, sin la necesidad de estar familiarizado con líneas de comandos ni programación. Las principales características de Galaxy son la accesibilidad, la reproducibilidad y la transparencia. La accesibilidad hace referencia a la capacidad de la plataforma de permitirles a los usuarios acceder a recursos computacionales de una forma amigable sin la necesidad de entender la programación detrás de ellos, Galaxy cumple con este objetivo dando la posibilidad al usuario de crear grandes y complejos flujos de trabajo. La reproducibilidad se cumple gracias a que Galaxy guarda mucha información sobre cada paso en el análisis computacional, permitiendo la futura publicación de esa información para que el experimento pueda ser repetido exactamente. Finalmente la transparencia la cumple al permitirles a los investigadores compartir cualquiera de los Objetos Galaxy ya sea públicamente o con particulares para poder comprobar hipótesis. 31

45 El hecho de que Galaxy sea un proyecto de código abierto, ayuda a los desarrolladores a colaborar con el proyecto dándoles la oportunidad de hacer una plataforma más amplia, aplicable en todos los campos de la bioinformática. Galaxy tiene una estructura de Plugins que permite un desarrollo modular el cual facilita la flexibilidad del sistema. Una de las principales ventajas para el desarrollador es la orientación hacia la web, ya que hace la plataforma independiente del sistema operativo y de la arquitectura del computador, así, el desarrollo de una herramienta puede ser implementada por el usuario final sin mayores preocupaciones. El entorno de análisis de galaxy es posible debido al modelo que este usa para integrar nuevas herramientas. Una herramienta puede ser cualquier software (escrito en cualquier lenguaje) para el cual un comando para su ejecución pueda ser construido. Para añadir una nueva herramienta a Galaxy, un desarrollador debe escribir un archivo de configuración que describa cómo ejecutar la herramienta, se debe incluir los parámetros de entrada y salida. Esta característica permite al framework de Galaxy trabajar con una herramienta abstractamente, por ejemplo, generando automáticamente interfaces web para herramientas como se describió anteriormente. Aunque este enfoque puede ser menos flexible que trabajar en un lenguaje de programación directamente (para los investigadores que pueden programar), es una especificación precisa del comportamiento de una herramienta que sirve con un sustrato para hacer de la computación y el procesamiento de datos un proceso transparente. Esto hace de Galaxy una herramienta ideal para investigadores biomédicos Goecks et al. (2010). Desde la creación de esta plataforma y teniendo en cuenta que es una plataforma libre han surgido nuevas plataformas basadas en galaxy que cubren algunas necesidades más específicas de los investigadores en el área de la bioinformática. Estas nuevas plataformas se describen a continuación. 32

46 Oqtans Oqtans Schultheiss et al. (2011), Sreedharan et al. (2014) es un entorno de trabajo desarrollado por investigadores del Machine Learning in Biology Group en Alemania en el año Este entorno de trabajo ofrece una interfaz web amigable para el usuario basada en galaxy. El objetivo principal de esta herramienta es proveer un entorno de trabajo versátil para trabajar con datos RNA-seq. Al igual que los desarrolladores de RseqFlow los desarrolladores de Oqtans han puesto a disposición del público general una máquina virtual con las configuraciones listas y adicionalmente una imagen de una nube de amazon con el fin de que también pueda ser usada en las instancias de Amazon Web Services Orione Orione Cuccuru et al. (2014) es un framework desarrollado por investigadores del Science and Technology Park Polaris en Italia en el año El objetivo principal de este framework basado en Galaxy es que está orientado principalmente a la microbiología. 33

47 Capítulo 4 Plataforma RNA-Seq UD RNA-Seq UD es una plataforma bioinformática basada en Galaxy que integra las herramientas necesarias para el procesamiento de datos transcriptómicos en una interfaz web que les permite a los investigadores administrar archivos y procesarlos, ayudándoles a enfocarse en el análisis de la información obtenida sin necesidad de poseer conocimientos en el manejo de comandos por medio de la consola. Esta Figura 4.1: Página de inicio de RNA-Seq UD. 34

48 plataforma tiene como objetivo fortalecer la investigación, de este modo se plantea como un software de acceso libre que le permita a cualquier investigador hacer uso de ella y a cualquier desarrollador tomarla como base para futuros desarrollos. La plataforma está disponible en forma de una imagen de máquina virtual para Virtualbox, adicionalmente puede ser ejecutada haciendo uso de los servicios de la nube de Amazon creando una instancia usando la imagen AMI. Por último, se pone a disposición de los usuarios un servidor de prueba que funciona en los servidores del Centro de Cómputo de Alto Desempeño. Este capítulo está dedicado al desarrollo de la plataforma y se divide en 4 partes principales, la primera habla del objetivo de la plataforma, la segunda habla del flujo de trabajo desarrollado para la plataforma, el tercero se enfoca en la composición de la plataforma hablando de su arquitectura y sus módulos y finalmente la cuarta parte habla de la documentación Objetivo Facilitar la investigación y la minería de datos RNA-Seq a usuarios con poca experiencia en el manejo de herramientas de líneas de comandos Flujo de trabajo Como resultado del análisis de las tesis doctorales y la revisión de referencias alrededor de las etapas de procesamiento se desarrolló el siguiente flujo de trabajo con el propósito de abarcar todas las necesidades de los investigadores. El modelo de la figura 4.2 tiene un comportamiento de pipeline pero en alguna de sus etapas puede variar dependiendo del tipo de datos con el que se cuente y la intención del investigador ya que el flujo de trabajo no está forzado a un orden de procesamiento determinado. 35