Informe final de proyecto Desarrollo de un programa informático para el análisis automatizado de fragmentos en geles de electroforesis Centro: NEIKER Participantes: Enrique Ritter (eritter@neiker.net) Alberto Carrascal Entidades participantes: IKT 1 Año 2006
Desarrollo de un programa informático para el análisis automatizado de fragmentos en geles de electroforesis 1.-Introducción El objetivo principal del proyecto era el Desarrollo de un programa informático para el análisis completamente automatizado de fragmentos en geles de electroforesis con el fin de reducir costes (mano de obra!) / aumentar la capacidad en la evaluación de geles en diferentes proyectos de biotecnología, y para potenciar a NEIKER como centro de bioinformática a nivel internacional. Para su consecución se dispusieron una serie de objetivos estratégicos, entre los que destacan: Desarrollo del Programa Informático - reconocimiento automático de muestras y bandas - interpretación automática de los resultados Promocionar y comercializar el Programa así como analizar posibles otros campos bioinformáticos de actuación Asistencia en el análisis de datos / diseño de procesos relacionado con la Software de aparatajes de Biotecnología (Real Time PCR, Virtek Chip Reader, Robot Beckmann 2000) 2.- Desarrollo del programa informático ANGEL Programa informático para el análisis automatizado de fragmentos en geles de electroforesis. El objetivo de esta aplicación es el análisis de las bandas presentes en las imágenes generadas por los secuenciadores de electroforesis. Los pasos seguidos por la aplicación son: 1. Normalización de las imágenes originales: Las imágenes generadas mediante la técnica de electroforesis se componen de un conjunto de calles verticales y de un conjunto de bandas horizontales que representan la presencia de material genético de un determinado tamaño (en bps). Figura 1: Imágenes ideal y real de un gel de electroforesis 2
Como puede observarse en la figura anterior, la diferencia entre la situación ideal y una imagen real es significativa. Esta diferencia hace que sea necesario un proceso previo de normalización que facilite la identificación de las bandas (zonas oscuras de la imagen). La normalización consiste en transformar las imágenes de forma que las bandas no presenten curvaturas y las calles permanezcan verticales. La transformación realizada es lineal, con lo que las distancias relativas de los elementos de la imagen permanecen constantes. El proceso de normalización requiere del uso de guías auxiliares. Estas guías se utilizan para delimitar el área de interés de la imagen, así como para identificar los cambios bruscos de curvatura de la imagen. 2. Identificación de las calles. Dado que el número de calles de una imagen varía de un experimento a otro, y que la anchura de las calles tampoco se puede considerar como constante, la identificación de las calles puede convertirse en una ardua tarea. Por ello, la aplicación se encarga de forma automática de detectar y proponer la delimitación de las calles, utilizando para ello el método de detección de cambios bruscos de gradientes de gris. Existen calles que por su diferente naturaleza requieren de un tratamiento especial. Un ejemplo de estas calles, son las calles asociadas a los individuos progenitores en un experimento de análisis de marcadores AFLP en progenies. Las calles defectuosas de la imagen también puede marcarse como inválidas y siendo ignoradas por la aplicación. Todas las calles que requieren de un tratamiento especial son identificadas por la aplicación mediante un color determinado. 3 Figura 2: Identificación de calles en la imagen Una vez identificadas las calles, es posible modificar de forma individual la anchura e inclinación de las mismas, de forma que el análisis de las bandas sea más preciso. 3. Ajuste de la imagen y obtención del umbral de presencia: El umbral de presencia determina el valor de tonalidad de gris mínimo que asegura la presencia de una
banda. Con el fin de facilitar la obtención de este umbral es posible ajustar el contraste de la imagen. Figura 3: Ajustes de color de la imagen La función contraste permite establecer el tono de gris a partir del cual se acentuarán los valores de gris claros y oscuros. Por medio de una gráfica auxiliar se pueden visualizar tanto el umbral de presencia establecido como las bandas que han sido detectadas. Las bandas presentes se marcan en la imagen con diferente color, de forma que el usuario pueda descartar y añadir bandas. Figura 4: Identificación de las bandas de la imagen. Con el fin de mejorar la precisión en la identificación de las bandas, también es posible seleccionar un umbral de presencia específico de cada calle. 4. Generación de los resultados: Los resultados pueden exportarse como una hoja de cálculo en formato Excel. El fichero generado contiene la información necesaria para identificar la presencia, ausencia o indeterminación de las bandas del gel original. 4
Figura 5: Resultados generados en formato excel. Durante el año 2005, se ha continuado el desarrollo de la aplicación informática Angel, cuyo objetivo es el análisis automatizado de las bandas presentes en las imágenes generadas por los secuenciadores de electroforesis. Mejoras realizadas respecto a versiones anteriores Almacenamiento y Recuperación del trabajo: Además de la carga y almacenamiento de las imágenes originales y transformadas (normalizadas), el programa permite la carga y almacenamiento de todas las operaciones realizadas en el análisis de una imagen asociada a un gel de electroforesis. De esta forma, es posible completar el análisis de un gel en varias sesiones de trabajo. Los ficheros generados en cada trabajo (*.ang) pueden ser utilizados como histórico científico, con el fin de poder reproducir los análisis realizados. Regla de identificación de calles: Como parte de la información auxiliar de la vista principal de la aplicación, se ha añadido una regla donde se numeran las calles identificadas. Esto permite la rápida identificación de calles en aquellos geles, que dadas sus dimensiones, impiden una visualización completa de los mismos. Regla de Calibración o de pesos moleculares: Cada fragmento o banda encontrada en un gel de electroforesis es identificado atendiendo a su peso molecular. Existe una relación directa (inversamente lineal ó logarítmica en función de las condiciones del experimento) entre el peso molecular de un fragmento y la distancia que recorre en 5
el gel. Por ello, se ha utilizado una regla vertical graduada que permite determinar el peso molecular de una banda en función de la altura en la imagen. La calibración de la regla se puede realizar de dos maneras: Determinando dos pesos moleculares a dos alturas diferentes del gel, de forma que el programa realice una interpolación logarítmica del resto de valores, o bien determinando de forma manual los pesos moleculares de los fragmentos más significativos. Inserción de bandas: El proceso de inserción manual de bandas en el gel puede resultar un proceso extremadamente tedioso. Por ello, se han añadido herramientas que permiten la inserción de múltiples bandas de forma simultánea. Esta herramienta es de mayor utilidad en aquellos geles en los que existen bandas muy conservadas como ocurre en los experimentos con progenies. Identificación ordenada de bandas: Además del peso molecular, la aplicación utiliza etiquetas numéricas para identificar las bandas. Después de cada inserción o borrado de una banda, las bandas son renumeradas automáticamente. Generación de resultados: Se ha doblado el límite de bandas posibles por gel, impuesto en versiones anteriores del programa, para los resultados generados en formato Excel. 6
3.- Promocionar y comercializar el Programa así como analizar posibles otros campos bioinformáticos de actuación Documentación del programa Con el fin de facilitar el manejo del programa y en vista de la comercialización del Programa se ha redactado un documento de ayuda donde se detallan cada una de las funcionalidades del programa. El documento se ha redactado en forma de asistente. Así, el orden de exposición de las funcionalidades del programa se corresponde con el orden de análisis de un gel de electroforesis. Esto permite familiarizarse con el programa rápidamente. Asi mismo se han hecho varias pruebas con diferentes usuarios para detectar fallos y mejor las capacidades del programa. 4.- Asistencia en el análisis de datos / diseño de procesos relacionado con la Software de aparatajes de Biotecnología (Real Time PCR, Virtek Chip Reader, Robot Beckmann 2000) Simulador de librerias de BACs. El objetivo de la aplicación desarrollada es el de encontrar la mejor estrategia de construcción de librerías de BACs. Para realizar los primeros ensayos se ha utilizado la secuencia completa de ADN de Arabidopsis Thaliana facilitada por el NCBI (National Center for Biotechnology Information). Esta secuencia está compuesta por alrededor de 121 Mbp distribuidas en 5 cromosomas. El primer paso de la aplicación es el de fragmentar de forma aleatoria el genoma completo, obteniendo un conjunto de clones con un tamaño medio arbitrario. Los clones obtenidos se distribuyen en el genoma de forma que se visualizan los contigs (grupos de clones solapados) generados. 7
El siguiente paso es el de alinear los clones obtenidos. Para ello, se digieren los clones con las encimas de restricción EcoRI y MseI. Los fragmentos obtenidos de igual tamaño sugieren la existencia de clones solapantes. La aparición de estos fragmentos se evidencia tras la construcción simulada de los correspondientes geles de electroforesis. Cada una de las calles del gel se corresponde con un clon de la librería. Las bandas situadas a la misma altura corresponden a fragmentos de tamaño similar. 8
Por último, se ordenan los clones contenidos en los contigs para su posterior anclaje. El algoritmo de ordenación utilizado minimiza el error inducido ante la existencia de fragmentos de igual tamaño de clones no solapantes. 5.- Información científica generada Informes Técnicos Resultados de Investigación 2003 Departamento de Biotecnología: Desarrollo de un programa informático para el análisis automatizado de fragmentos en geles de electroforesis, A. Carrascal y E. Ritter 9