Trabajo Práctico N 5

Trabajo Práctico N 5 SECUENCIACIÓN Y GENÓMICA Dra. Virginia H. Albarracín-Dr. Sergio A. Cuozzo 1- Objetivos Que el alumno comprenda y maneje términos referentes a procesos de secuenciación y análisis de genomas. Que el alumno comprenda la importancia de la era genómica en la revolución de las ciencias biológicas. Que el alumno conozca las aplicaciones de esta disciplina en las ciencias biológicas. Que el alumno sea capaz de analizar genomas mediante programas y bases de datos disponibles on line. Que el alumno conozca y tenga un manejo básico de los programas bioinformáticos más usados, disponibles para anotaciones de genes. 2- Introducción SECUENCIACIÓN La secuenciación del ADN es la técnica que permite determinar la secuencia, es decir, el orden de bases de nucleótidos en una determinada porción continua de ADN, pudiendo ser esta porción parte de un gen, un gen completo o incluso un genoma. La primera generación de técnicas para efectuar la secuenciación del ADN empezó en 1975 con la metodología de Sanger y Coulson, la más y menos (del inglés, plus and minus ), la cual necesitaba clonar cada lectura inicial para producir un ADN de cadena simple. En 1977, Maxam y Gilbert publicaron la metodología de secuenciación de ADN mediante degradación química. Este método estaba basado en la modificación química y posterior rotura del ADN, y empezó a ser el método de secuenciación más utilizado porque permitía utilizar un ADN purificado sin necesidad de clonarlo. El mismo año Sanger publico el método de secuenciación de ADN por síntesis química o enzimática, que estableció un nuevo estándar para los próximos 30 años. El método de Sanger permitía leer 25 bases (b) y más tarde, 80 b, utilizando los terminadores dideoxi. El método fue optimizado con la utilización de dideoxinucleótidos fluorescentes en vez de productos tóxicos y radioisótopos, detección automatizada, mayor rendimiento y precisión, permitiendo leer 1.000 b. Estos avances representaron una revolución fascinante, porque permitieron descifrar inicialmente genes y eventualmente los genomas completos, aunque con un alto costo para el segundo caso. - 1 -

El método de Maxam y Gilbert para secuenciar ADN El método de Sanger para secuenciar ADN. - 2 -

La segunda generación de plataformas de secuenciación de ADN (también llamada de siguiente generación; del inglés, next-generation ) fue desarrollada hace sólo cinco años, aumentando la efectividad de la secuenciación del ADN algunos ordenes de magnitud. Así, permitió generar lecturas de gigabases en una sola corrida o experimento (del inglés, run ). Cuatro plataformas de segunda generación han sido comercializadas por el momento: 1) El instrumento 454 (454 Life Sciences), está basado en emulsión, secuenciación por síntesis (SBS; del inglés, sequencing-by-synthesis ) y pirosecuenciación. Este desarrollo fue publicado en 2005, comprado por Roche Diagnostics en 2007 y vendido como el Genome Sequencer 20 System y el Genome Sequencer FLX System (Roche Applied Sciences) <https://www.roche-appliedscience. com/sis/sequencing/index.jsp>. La tecnología 454 empezó leyendo 100 b, después de 16 meses podía leer 250 b, y ahora más de 400 b. 2) El protocolo de secuenciación de polonias multiplexadas (del inglés, multiplex polony sequencing protocol ) es parecido al método mencionado anteriormente, pero es más barato porque usa instrumentos y reactivos estándar. Las bibliotecas genómicas obtenidas por la técnica de perdigonazos (del inglés, shotgun genomic libraries ) son amplificadas en microesferas mediante PCR por emulsión. Después, son utilizadas como sustratos para hacer la secuenciación con las reacciones fluorescentes de ligación nonamérica sobre un portaobjetos de microscopio, generando millones de lecturas de 26 pares de bases (pb), de modo que cualquier laboratorio pueden desarrollar este método. 3) El Genome Analyzer System (Solexa) combina la química SBS con terminadores y tecnología de grupos (del inglés, cluster ). La compañía fue adquirida por Illumina en 2007, produciendo el Genome Analyzer Sequencing System <http://www.illumina.com/pages.ilmn?id=204>. Este tipo de tecnología genera diez veces más lecturas que la 454, pero con solamente 35 b o menos en longitud. 4) El SOLiD System (Applied Biosystems) usa una química basada en ligasa y fue producido en 2007 <http://solid.appliedbiosystems.com>. La segunda generación de plataformas de secuenciación de ADN difiere de los métodos tradicionales de secuenciación en dos aspectos: a) En vez de hacer una secuenciación de clones de ADN de algunos individuos (p. ej., 96 secuenciaciones de sustratos en un secuenciador capilar Sanger), cientos de miles (sistema 454) o miles de millones (Solexa y SOLiD) de moléculas de ADN son secuenciadas en paralelo, usando volúmenes de reacción menores. b) Las secuencias obtenidas son generalmente mucho más cortas (25-50 nucleótidos para las tecnologías de polonias, Solexa y SOLiD, aunque pueden alcanzar 200-400 nucleótidos para el sistema 454) que las generados por secuenciación - 3 -

tradicional. No obstante, el costo de los nuevos instrumentos es mayor (aproximadamente, unos 500.000 dólares) que los que usan el método de Sanger (de 10.000 a 100.000 dólares), que también pueden realizarse con instrumentación manual más barata usando radioisótopos o fluoróforos. Métodos de Secuenciación de DNA y equipos de secuenciación masiva. Como ejemplo práctico de estos avances, la primera secuenciación del genoma humano (Homo sapiens sapiens) ha requerido cientos de máquinas trabajando 24 horas al día, durante 13 años, con un costo de más de 300 millones de dólares. Más tarde, el genoma diploide de una sola persona (J. Craig Venter) fue leído mediante secuenciación de genomas completos por perdigonazos (del inglés, wholegenome shotgun sequencing ), necesitando 10 años y 70 millones de dólares, usando la tecnología optimizada de Sanger. Por su parte, el genoma de Watson fue secuenciado en sólo dos meses y un costo de un millón de dólares, usando la maquina 454 Life Sciences. Otro ejemplo es la secuenciación del genoma del ornitorrinco (Ornithorhynchus anatinus), revelando marcas únicas de su evolución, con genes que aparecen en reptiles, o aves y otros de mamíferos. Esta mezcla fascinante de características en el genoma del ornitorrinco proporciona pistas sobre el rol y la evolución de los genomas de los mamíferos. La tercera generación (también llamada next-next-generation ) de la secuenciación de ADN ha sido producida en 2008, con químicas revolucionarias de una sola molécula: 1) El secuenciador HeliScope de molécula única (del inglés, HeliScope Single Molecule Sequencer ), de Helicos BioSciences <http://www.helicosbio.com>, fue anunciado este año. Ofrece lecturas muy precisas de 25 a 45 bases para miles de millones (millardos) de - 4 -

cadenas en un solo experimento (produciendo más que 2 Gb de datos de secuenciación por día), y hasta un millardo de bases por hora en el futuro <http://www.helicosbio.com/portals/0/vid eos/tsm S-How_It_Works.flv> Ello es debido al uso de la verdadera secuenciación de molécula única (del inglés, true Single Molecule Sequencing (tsms), para leer hebras individuales de ADN. 2) VisiGen Biotechnologies <http://visigenbio.com> no ha sido producido todavía, pero promete micromatrices masivamente paralelas (del inglés, microarrays ) de nanomáquinas, con una tasa de secuenciación de un Mb/s/maquina (más de 86 Gb de secuencia de datos por día) <http://visigenbio.com/flash/stream/visigen_movie_6mb.swf>, leyendo también moléculas simples. Estos avances permitirán reducir el precio de la secuenciación de uno a dos órdenes de magnitud, lo cual propiciará el desarrollo del la genómica personal : hacer la secuenciación de todo el genoma humano de cualquier persona en menos de un día, por 1.000 dólares o menos. Por otra parte, la tercera generación de métodos de secuenciación es tan poderosa que permite hacer estudios no solamente de genómica estructural, sino también de genómica funcional y consenso de secuencias, incluyendo : i) ChIP-Seq, que está basado en la inmunoprecipitación de cromatina (ChIP), para mapear in vivo las secuencias del ADN ocupadas por proteínas de unión al ADN; ii) Sec-ARNm (del inglés, mrna-seq ), para estudiar la expresión de genes; y iii) Sec-Metil (del inglés, Methyl-Seq ), para analizar los patrones de metilación. Estos procedimientos se pueden aplicar también al ADN antiguo, siempre que ADN, ADN-proteína o ARNm pueda ser aislado de tales muestras. GENÓMICA Un genoma es el conjunto de secuencias de ADN que caracterizan a un individuo. Por extensión a las secuencias de ADN características de una especie se les conoce igualmente como genoma. La secuenciación del genoma, es un proceso de laboratorio que determina la secuencia el total del ADN del genoma de un organismo de una sola vez. Esto implica la secuenciación de todo el ADN cromosómico, así como el ADN contenido en la mitocondria y, en el caso de las plantas, en el cloroplasto del organismo. Casi cualquier muestra biológica, incluso una cantidad muy pequeña de ADN o de ADN antiguo, puede proporcionar el material genético necesario para la secuenciación del genoma completo. Las muestras podrán incluir la saliva, células epiteliales, médula ósea, el pelo (siempre y cuando el pelo contiene un folículo del pelo), semillas, hojas de plantas, o cualquier otra parte con células que contienen ADN. Debido a que la secuencia de datos que se produce puede ser - 5 -

muy grande (por ejemplo, hay aproximadamente seis mil millones de pares de bases en cada genoma diploide humano), los datos genómicos se almacenan electrónicamente y requieren una gran cantidad de potencia informática y capacidad de almacenamiento. Es por ello que la secuenciación del genoma completo habría sido casi imposible antes de la llegada de los microprocesadores, los ordenadores y la era de la información. A diferencia de la genética clásica que a partir de un fenotipo, generalmente por un mutante, busca el o los genes responsables de dicho fenotipo, la genómica tiene como objetivo predecir la función de los genes a partir de su secuencia o de sus interacciones con otros genes. Así, la genómica tiene un enfoque distinto para responder preguntas biológicas cuando se compara a otras ramas de la biología más tradicionales. Por lo tanto genómica es el conjunto de ciencias y técnicas dedicadas al estudio integral del funcionamiento, el contenido, la evolución y el origen de los genomas. Es una de las áreas más vanguardistas de la Biología. La genómica usa conocimientos derivados de distintas ciencias como son: biología molecular, bioquímica, informática, estadística, matemáticas, física, etc. Muchas veces, la genómica es usada como sinónimo de otras áreas de estudio relacionadas, como la proteómica y la transcriptómica, por ejemplo. Las ciencias genómicas han tenido un importante auge en los últimos años, sobre todo gracias a las tecnologías avanzadas de secuenciación de ADN, a los avances en bioinformática, y a las técnicas cada vez más sofisticadas para realizar análisis de genomas completos. El desarrollo de la genómica ha contribuido al avance de distintos campos de la ciencia como la medicina, la agricultura, etc; gracias al descubrimiento de secuencias de genes necesarias para la producción de proteínas de importancia médica y a la comparación de secuencias genómicas de distintos organismos. Por ejemplo en varios países como Estados Unidos, la Unión Europea y Japón se han realizado enormes proyectos para secuenciar el genoma de diversos organismos modelo. Probablemente el más conocido es el Proyecto Genoma Humano. En la actualidad se cuenta además con importantes servidores de acceso público, como el del NCBI (National Center for Biotechnology Information), que permiten que cualquier usuario con conexión a Internet acceda a la secuencia completa del genoma de decenas de organismos y a las secuencias de cientos de miles de genes de distintos organismos. De acuerdo a la página web http://www.genomenewsnetwork.org/resources/sequenced, hasta el presente se han secuenciado el genoma completo de 189 organismos. LA GENÓMICA EN EL FUTURO Los genomas que han sido secuenciados han sido muy útiles para la humanidad, pero es una mínima parte del total de genomas existentes. La secuenciación de estos genomas - 6 -

aportará una información muy valiosa para el tratamiento de enfermedades, la agricultura y la biotecnología. Las secuencias genómicas completas de mamíferos ayudarán al entendimiento de la evolución y función del genoma humano. En el futuro, la información sobre la secuencia genómica completa podrá aplicarse en el tratamiento individual de pacientes, incluso en recién nacidos, dando lugar a una medicina más individualizada. El conocimiento de secuencias completas también tiene un aspecto negativo, ya que puede llevar a la discriminación de algunas personas identificadas como portadores de secuencias que determinen enfermedades, trastornos y rasgos físicos. PROGRAMAS BIOINFORMÁTICOS PARA ANOTACIÓN Y ANÁLISIS DE GENOMAS Plataforma RAST Es un servicio totalmente automatizado para la anotación de genomas. El servicio identifica la codificación de la proteína de genes, rrna y trna, le asigna funciones, predice que los subsistemas están representados en el genoma, usa esta información para reconstruir la vía metabólica, y hace que sea fácil descargar toda la información. Además, de la anotación del genoma, se puede navegar en un entorno para apoyar el análisis comparativo de los genomas anotados que están presente en el entorno del sistema SEED. La anotación completa se produce normalmente dentro de las 12-24 horas, y la actual aplicación puede realizarla a un promedio de entre 50 a 100 genomas por día. Sin embargo, es importante tener en cuenta que la velocidad no es el tema central, sino los requisitos de ese sistema son, exactitud, integridad y la coherencia, en última instancia, serán los criterios utilizados para evaluar el éxito o fracaso de un servicio. Hasta la fecha, el servidor ha sido utilizado por más de 120 de los usuarios externos para anotar más de 350 genomas. Por otra parte los bancos de datos NMPDR y la SEED facilitan el acceso a todos los genomas público sin necesidad de tener una cuenta de usuario. Para acceder al RAST, en cambio, se debe abrir una cuenta gratuita de usuario para que el acceso a sus datos y puedan ser mantenido bajo control del interesado. Las herramientas disponibles en el RAST para comparar sus datos privados con nuevos genomas ya publicados son en su mayoría las mismas que las disponibles para el análisis de genomas público presentes en la plataforma NMPDR (www.nmpdr.org www.nmpdr.org). La plataforma RAST pretende lograr la precisión, consistencia, y la integridad en el uso de una creciente biblioteca de subsistemas que son manualmente controladas, y en las familias de proteínas en gran parte derivados de los subsistemas (FIGfams). Subsistemas del RAST Un gen es asignado a una determinada categoría de genes, las cuales se denominan como subsistemas. Un subsistema es un conjunto abstracto de funciones orgánicas. Por ejemplo, la siguiente figura muestra un caso muy simple en el que un subsistema llamado "Utilización tricarbalilato" se compone de cuatro roles funcionales. El subsistema lo que hace es conectar los roles funcionales de genes específicos en los genomas, produciendo una hoja de cálculo en el subsistema, donde cada fila representa un genoma y cada columna corresponde a un papel funcional. - 7 -

El esfuerzo cooperativo del desarrollo de los subsistemas ha producido una disponibilidad al público de un conjunto de subsistemas que ahora incluye más de 600. Estos subsistemas incluyen afirmaciones de la función de más de 500.000 genes codificadores de proteínas en más de 500 genomas de bacterias y arqueas (en relación con más de 6.200 roles funcionales). Si bien es cierto que la calidad de las afirmaciones varía sustancialmente, también es cierto que estos conjuntos estructurados de afirmaciones representan un recurso importante en la construcción de los sistemas de anotación automática. - 8 -

Programa ARTEMIS. Artemis es una herramienta de visualización y anotación libre de genoma que permite la visualización de las características de la secuencia y los resultados del análisis en el contexto de la secuencia y su traducción de sus seis-marcos de lectura. Puede leer las entradas o secuencias de base de datos en EMBL y GENBANK, en FASTA o en un formato no procesado. Las características de la secuencia adicionales pueden ser en formato EMBL, GENBANK o GFF. ARTEMIS lee las características y secuencia desde el archivo y muestra las características en una traducción de la secuencia en sus seis-marcos de lectura. Dos vistas de la secuencia se exhiben y las dos pueden ser ampliadas al nivel de base, o disminuidas para mostrar la secuencia completa. También hay una lista de características en la parte inferior de la ventana. Además de esta pantalla básica, ARTEMIS puede trazar los resultados de los cálculos en la secuencia, o en cualquiera de las características de CDS (secuencias de ADN codificantes). Los marcos de la secuencia están atados a la visualización de la secuencia y ampliados o disminuidos al cambiar el nivel del enfoque. Para cada uno de los marcos, podrás ajustar el tamaño de la ventana para adaptarse al nivel del enfoque. - 9 -

Además de las capacidades de visualización de la secuencia descritas anteriormente, ARTEMIS puede mostrar los resultados de numerosos análisis de la secuencia; las predicciones CDS, BLASTN, BLASTX en-marco, trna y las búsquedas por motivo, etc. pueden ser todos vistos e incorporados en la anotación. ARTEMIS también ejecuta los análisis en los conjuntos de características CDS, tales como las búsquedas FASTA y BLASTP y permite que los resultados sean visualizados directamente desde el objeto seleccionado. La información adicional, así como la función en colores, las clasificaciones funcionales, etc. también se puede añadir a la anotación, y el archivo final escrito con todas estas características intactas y para uso interno, o con características no-embl puede ser guardadas o no. La característica de alejamiento de la imagen se puede utilizar para mirar los genes en el contexto de amplias cantidades de secuencias. 3- Actividades prácticas 3.1. Analizar los resultados de un genoma anotado y disponible mediante la Plataforma RAST. 1. Entrar a la página http://rast.nmpdr.org/ - 10 -

2. Introducir Login: LACTOCINA y password: IZ8jbAW 3. Seleccionar SeedViewer 4. Seleccionar el organismo del que se quiere analizar el genoma completo - 11 -

5. Seleccionar Anopheles gambiae - 12 -

6. En esta página, se abre una tabla que muestra cuantos contig (fragmentos vecinos derivados de una fuente de secuenciación simple) hay, el número de genes que se asignan para completar los subsistemas y las categorías de subsistemas representados en su genoma. Ahora, copia esos datos y realiza una tabla con esta información en un archivo word. 7. La página de la información del genoma muestra un gráfico circular de subsistemas completos identificados en el genoma. Se puede ampliar las categorías para ver las subcategorías y nombres de subsistema, junto con el número o las proteínas asignadas a cada uno. La tabla (haga clic en el botón verde "Características de los subsistemas") y ello ofrece un acceso similar, y usted puede seleccionar la categoría de los "carbohidratos", desde la parte superior de la columna. Desde la categoría carbohidratos, ya sea en el gráfico o tabla, puede hacer clic para abrir los subsistemas de la glucólisis y de la Gluconeogénesis. - 13 -

8. Haciendo clic en cualquiera de los genes del genoma recién anotado se abre la página de Información general de anotación, por lo que se abre en una nueva ventana o pestaña. Copia y realiza un resumen de la información de los genes que seleccionaste. 3.2. Anotación de genes mediante Programa ARTEMIS. 1. Abre la secuencia FASTA (Ava1) que te facilita el docente, utilizando el comando File/Open. Observa que al abrir el archivo, aparecen tres ventanas, una inferior vacía y dos superiores que muestran la secuencia nucleotídica y las secuencias aminoacídicas correspondientes a las traducciones en los seis marcos de lectura posibles (tres marcos de lectura por hebra) (Figura 1). 2. Utilizando la opción Create/Mark ORF (open reading frames), se establecen los posibles ORFs, con un largo superior a 100 aminoácidos 3. El programa identifica diversas regiones de una secuencia, como unidades con un determinado significado, a las cuales se les pueden asignar nombres y anotar datos acerca de ellas. Estas regiones se denominan features (características o marcas), y pueden ser ORFs, exones, etc. 4. Analiza los features (en este caso ORFs) obtenidos utilizando BLAST. Los features aparecen indicados en la ventana inferior como CDS. Debes seleccionar cada uno de los CDS y presionando el botón derecho del mouse sobre el feature, y utilizando la opción View/Amino Acids of selection as FASTA (también se puede seleccionar la secuencia nucleotidíca View/Bases of selection as FASTA) podrás obtener la secuencia de cada CDS para su análisis. 5. Utilizando la información obtenida mediante BLAST, ahora puedes editar la información contenida en los features, haciendo click con el botón derecho, y seleccionando la opción Edit/Selected feature in editor. En la ventana que se abre se puede modificar el nombre del feature con la opción Key, y agregar información, colores, etc., con la opción Add Qualifiers. 6. Los features pueden estar separados de la secuencia en un archivo aparte denominado entry. Abre la entry localizada en el archivo Ava1_entry y observa los features ahí contenidos (File/read an entry). Este archivo fue realizado por el investigador que depositó la secuencia en el GenBank. 7. Compara el tamaño de los ORFs obtenidos con los anotados en Ava1_entry. Se encuentran diferencias? Si es así, explica por qué. Si es necesario, modifica el tamaño de los ORF de acuerdo a los datos obtenidos mediante BLAST. 8. Tu también puedes bajar el archivo con todas las anotaciones o features directamente del Genbank. Para esto utilice la opción File/Open from EBI y coloque el número de accessión (Acc. Number: DQ985395). Para obtener información adicional sobre los features anotados dirigete a View/view selected features. Qué información posee el tercer CDS?. Incluye la información adicional en el panel de features (panel 5, Figura 1). - 14 -

Figura 1. Ventana principal de artemis. 1. Menú desplegable principal 2. entry activas. Las entry actúan como capas o layers en las que puedo realizar anotación. Puedo crear tantas como desee y se utilizan para organizar la información en unidades independientes. 3. Panel principal de visualización de las secuencias. Las líneas grises representan las hebra forward (superior) y reverse (inferior). Se representa también las secuencias aminoacídicas correspondientes a las traducciones en los seis marcos de lectura posibles (tres marcos de lectura por hebra). Las líneas negras verticales representan los codones stop. Las regiones coloreadas representan los distintos features que han sido anotados en la secuencia. 4. Este panel tiene la misma estructura que el panel principal de visualización pero ha sido aumentado para visualizar las secuencias nucleotídicas y aminoacídicas. 5. Este panel indica los distintos features que presenta la secuencia. 6. Barras para aumentar o disminuir los paneles 7. Barras para movilizarse en la secuencia 8. Barras para desplazar los features. - 15 -