Taller ensamblaje y anotación de Genomas y Metagenomas usando Galaxy Estrategias para la secuenciación de Genomas y NGS Alejandro Reyes PhD Sep=embre 12 de 2015 Universidad de los Andes
El camino al genoma humano
Actualmente: Abandoned Complete Complete Published Incomplete Permanent DraK targeted Total Archaeal 0 0 211 382 281 2 876 Bacterial 3 40 3547 11482 23343 469 38884 Eukaryal 0 4 60 5041 853 79 6037 Viral 0 2 3407 701 407 0 4517 Homo sapiens 0 0 6 273 5 0 284
Pasos para secuenciar un genoma 1. Aislar el ADN 2. Fragmentar 3. Clonar 4. Amplificar 5. Secuenciar 6. Armar = ensamblar 1. Aislar el ADN 2. Fragmentar 3. Clonar 4. Amplificar 5. Secuenciar 6. Armar = ensamblar 1. Aislar el ADN 2. Fragmentar 3. Clonar 4. Amplificar 5. Secuenciar 6. Armar = ensamblar
Secuenciación Jerárquica Estrategia: Mapear primero, secuenciar después 1. Obtener una colección grande clones BAC Grandes fragmentos clonados: BACs (150-350kb) 2. Mapearlos en el genoma (Mapeo físico) 3. Escoger un camino (minimum tiling path) 4. Fragmentar cada BAC y secuenciar cada clon a lo largo del camino con shotgun 5. Ensamblar 6. Poner todo junto y verificar calidad
Mapas genéticos Construcción del mapa: DNA genómico se clona. De cada clon se toman fingerprints. Se usan para determinar regiones sobrelapadas y ensamblar los con=gs Se usan otros marcadores para el mapeo para ubicar los clones en el genoma. Generalidades: 1) Mapas cromosómicos de alta resolución - Genes - Marcadores moleculares - Hibridación de sondas 2) Mapa de restricción.
Whole- genome shotgun sequencing Se fragmenta el genoma en muchos fragmentos pequeños Enzimas de restricción o sonicación Se seleccionan fragmentos aleatorios a lo largo de todo el genoma para secuenciar. Requiere que se hagan muchas copias para asegurar que se cubre todo el genoma. No necesita un mapa asico anterior.
Video
Las técnicas de secuenciación
La polimerización del ADN
Reacción de secuenciación de Sanger Para un DNA dado de templado, es como una PCR con excepciones: Usa solo un primer y la polimerasa para hacer nuevas copias de ssdna. Incluye nucleótidos (A, C, G, T) normales para la extensión, pero también incluye nucleótidos dideoxy. A A A A A A A G A T C C C C C C C T T T T T G G G G G G Nucleótidos regulares Nucleótidos dideoxy A A A A A T C C C T T T T G G G G G 1. Marcados 2. Terminadores
Método de Sanger o de terminación de la cadena
Qué es un ddntp? Dideoxynucleotido (ddntp) Deoxynucleotido (dntp)
Sanger Sequencing Primer T G C G C G G C C C A 3 A C G C G C C G G G T???????????????
Sanger Sequencing Primer T G C G C G G C C C A G T C T T G G G C T A C G C G C C G G G T C A G A A C C C G A T C G C G 3
Sanger Sequencing Primer T G C G C G G C C C A G T C T T G G G C T A G C G C 3 A C G C G C C G G G T C A G A A C C C G A T C G C G T G C G C G G C C C A G T C T T G G G C T 21 bp
Sanger Sequencing Primer T G C G C G G C C C A G T C T T G G G C T A 3 A C G C G C C G G G T C A G A A C C C G A T C G C G T G C G C G G C C C A G T C T T G G G C T 21 bp T G C G C G G C C C A G T C T T G G G C T A G C G C 26 bp
Sanger Sequencing Primer T G C G C G G C C C A G 3 A C G C G C C G G G T C A G A A C C C G A T C G C G T G C G C G G C C C A G T C T T G G G C T 21 bp T G C G C G G C C C A G T C T T G G G C T A G C G C 26 bp T G C G C G G C C C A G T C T T G G G C T A 22 bp
Sanger Sequencing Primer T G C G C G G C C C A G T C T T G G G C 3 A C G C G C C G G G T C A G A A C C C G A T C G C G T G C G C G G C C C A G T C T T G G G C T 21 bp T G C G C G G C C C A G T C T T G G G C T A G C G C 26 bp T G C G C G G C C C A G T C T T G G G C T A 22 bp T G C G C G G C C C A G 12 bp
Sanger Sequencing Primer T G C G C G G C C C A G T C T T 3 A C G C G C C G G G T C A G A A C C C G A T C G C G T G C G C G G C C C A G T C T T G G G C T 21 bp T G C G C G G C C C A G T C T T G G G C T A G C G C 26 bp T G C G C G G C C C A G T C T T G G G C T A 22 bp T G C G C G G C C C A G 12 bp T G C G C G G C C C A G T C T T G G G C 20 bp
Sanger Sequencing 3 A C G C G C C G G G T C A G A A C C C G A T C G C G T G C G C G G C C C A G T C T T G G G C T 21 bp T G C G C G G C C C A G T C T T G G G C T A G C G C 26 bp T G C G C G G C C C A G T C T T G G G C T A 22 bp T G C G C G G C C C A G 12 bp T G C G C G G C C C A G T C T T G G G C 20 bp T G C G C G G C C C A G T C T T 16 bp
Sanger Sequencing 3 A C G C G C C G G G T??????????????? T G C G C G G C C C A????????? T 21 bp T G C G C G G C C C A?????????????? C 26 bp T G C G C G G C C C A?????????? A 22 bp T G C G C G G C C C A G 12 bp T G C G C G G C C C A???????? C 20 bp T G C G C G G C C C A???? T 16 bp
Sanger Sequencing Laser Reader T G C G C G G C C C A G T C T T G G G C T A 19 22 21 20 13 16 14 15 17 18 12 bp
Automa=zación de secuencias Un tubo por secuencia Un pozo por secuencia
Salida de Sanger Cada reacción genera un cromatograma, usualmente ~600-1000 bp:
Secuenciación Sanger DNA se fragmenta Se clona en un vector Reacción de secuencia (Amplificacion) Electroforesis Lectura por fluorescencia
Nuevas técnicas de secuenciación
Cómo se aceleró? Con los mismos conceptos que revolucionaron los circuitos integrados: Integración Miniaturización Paralelización Muchas más bp de secuencia/tiempo Sacrificando? Principalmente la longitud
La longitud no importa si estamos Re-secuenciando 100% % of Paired K-mers with Uniquely Assignable Location 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 8 10 12 14 16 18 20 E.COLI HUMAN Length of K-mer Reads (bp)
Métodos de arreglos cíclicos: Pirosecuenciación: Roche 454 Fragmentación Ligación de adaptadores Amplificación con PCR en emulsión La cadena se extiende con nucleótidos uno a la vez y si se incorporan se genera luz Imagen y repetición
Pirosecuenciación (http://www.pyrosequencing.com/pages/technology.htm http://www.pyrosequencing.com/
454 LifeSciences Sequencer - Process Overview 454
September 17, 2015 454 LifeSciences Sequencer
Señal de pirosecuenciación
Ion Torrent y Ion Proton The instrument will cost less than $50,000 and generate "hundreds of millions of bases" and "millions" of highly accurate reads per run, each several hundred bases in length, according to Jonathan Rothberg, the company's co-founder and CEO. Each run will take about an hour and cost less than $500.
PCR en emulsión y luego ph Ion Torrent
Secuenciación por hibridación
SOLiD
Mapas óp=cos: alterna=va para mapas asicos
Mapas óp=cos: alterna=va para mapas asicos
ptical Map Productio Algunos parámetros importantes NA El ADN debe ser de alto Sample peso molecular (> 200Kb en promedio). El ADN debe esta libre de QC sales y otros componentes que puedan interferir con el corte o la =nción. It is important to image DNA prior to digestion to check both DNA concentration Una vez cortado, and molecule length/quality. el tamaño In the images promedio below (each approximately debe 450kb ser entre 6-12Kb. action eparation is a critical step cal Mapping process. High ght DNA (greater than molecule size) is a crucial cessful Optical Mapping. In A must be free of salts and nts that could potentially eposition or staining of the across) the center image shows both optimal concentration and good molecule quality, the image to the left being too concentrated and to the right being too dilute. These images were captured using an OpGen QC Card and visualized on the OpGen Argus system. En Se There are several conside choice for optical mapping analyses available sequenc and outputs various sta digestion.. The primary con Optimal average fragmen is below 6kb there may assembly which can cause average fragment size is within the map will be lowe are using two main xtraction court Genfind V2 based ased extraction OpGen QC Card. Maximum fragment size within the assembly the molecule coverage across average molecule size with fragments up to 200kb. Enzyme availability. Curr selection of optimised enzy DNA Sample Review Images.
Canales microscópicos Usado para estirar el ADN para que queden paralelos uno a los otros.
Una idea sobre la escala 1 micron=.00004 inches 20 microns Width of human hair: 50-70 microns Bacteria: 2 microns 100 nanometers 300 base pairs (or 30 helix turns) 6.7 nm 60 base pairs
U=lidades
U=lidades
U=lidades