Análisis de variantes Bioinformática y Análisis Genómico ANTONIO ORTE JIMÉNEZ Y BENJAMÍN PLANTEROSE JIMÉNEZ Universidad de Sevilla 24 de febrero de 216
1. Introducción La suite de análisis genómico Genome Analysis Toolkit (K) junto con otros programas como Picard, bwa y samtools nos ofrecen la capacidad de analizar la diversidad alélica de los individuos, rastreando las diferencias que hacen cada genoma único. Estas diferencias o variantes son de especial importancia en la medicina y la biotecnología. Por un lado, son responsables de muchas enfermedades genéticas, como por ejemplo la anemia falciforme o la acondroplasia.son muchas veces responsables de enfermedades genéticas en humanos. Por otro lado, se ha visto que muchas de estas variantes generan fenotipos de interés biotecnológico en agricultura y ganadería, por ejemplo, resistencia a estrés o a enfermedades. Un buen análisis bioinformático de estas pequeñas variantes alélicas en grupos de individuos de interés podría retornar una lista de locus donde se localizan las variantes alélicas que generan un determinado fenotipo. Diversos proyectos internacionales se han lanzado con el objetivo de caracterizar estas variantes en organismos como Homo sapiens o Arabidopsis thaliana. 2. Materiales y métodos Se analizó la muestra guardada en la base de datos DRASearch con el Accession Number SRR969. Esta muestra se corresponde con el genotipo Fei- catalogado en la base datos 11 genomes. La planta originaria tenía rosetas de tamaño medio, hojas estrechas y con márgenes serrados. Su altura se encontró entre los 32-4 cm. El análisis matemático computacional se realizó con los programas bwa, Picard y K. bwa (Burrow s Wheeler Aligner) es un programa que alinea las lecturas en formato.fastq al genome de referencia indexado. Al contrario que bowtie tolera un mayor nivel de desapareamientos, lo que nos interesa para detectar las variantes alélicas Picard preprocesa los alineamientos para que K realice la llamada de variantes. K (Genome Analysis Toolkit) consiste en un conjunto de herramientas desarrolladas en Java que implementan machine learning y otros métodos estadísticos para alcanzar un compromiso entre sensibilidad y especificidad en la llamada de variantes. Entre las tareas que lleva a cabo están la determinación de regiones problemáticas en torno a indels y su realineamiento, y el recalibrado de las variantes. 1
3. Resultados Se obtuvo un archivo de formato.vcf (variant call format) que guarda en cada línea la información correspondiente a una de las variantes determinadas. Además, como assessment del calibrado (figuras 1 y 2), se generaron las siguientes figuras. En ellas se muestran diversos parámetros antes y después del calibrado. Como podemos ver, el calibrado acerca la distribución de los datos a las líneas de tendencia, lo que indica la validez del mismo. Empirical Quality Score 4 3 2 1 1 2 3 4 1 2 3 4 1 2 3 4 Reported Quality Score log1(observations) 3 4 6 7 AFTER BEFORE log1(observations) Quality Score Accuracy 1 1 4... 6. AFTER BEFORE Cycle Covariate Quality Score Accuracy 1 1 AFTER BEFORE log1(observations).6 6. 6.4 6.8 T AC A A A A C G T A C G T G C G G G G G G A TA T TC T T T T AC A A A A C G T A C G T G C G G G G G G A TA T TC T T T T AC A A A A C G T A C G T G C G G G G G G A TA T TC T T T Context Covariate (3 base suffix) Figura 1: Assessment de la llamada de variantes (I) 2
No. of Observations (area normalized) 1..7... 1 2 3 4 1 2 3 4 1 2 3 4 QualityScore Covariate AFTER BEFORE Mean Quality Score 4 3 2 1 log1(observations) 4... 6. AFTER BEFORE Cycle Covariate Mean Quality Score 4 3 2 AFTER BEFORE log1(observations).6 6. 6.4 6.8 T AC A A A A C G T A C G T G C G G G G G G A TA T TC T T T T AC A A A A C G T A C G T G C G G G G G G A TA T TC T T T T AC A A A A C G T A C G T G C G G G G G G A TA T TC T T T Context Covariate (3 base suffix) Figura 2: Assessment de la llamada de variantes (II) Finalmente, se visualizaron (figura 3) las variantes alélicas en IGV. La imagen muestra dos polimorfismos de base única (SNPs). 3
Figura 3: Captura de IGV mostrando dos variantes de polimorfismo único 4. Conclusión El pipeline implementado ha dado resultado y la llamada de variantes del genoma de Fei- tuvo éxito. Este y otros estudios similares servirán para comprender el origen molecular de las diferencias fenotípicas entre organismos de interés. 4