Mr-Cirrus: Implementación de Map-Reduce bajo MPI para la ejecución paralela de programas secuenciales

Transcripción

1 Mr-Cirrus: Implementación de Map-Reduce bajo MPI para la ejecución paralela de programas secuenciales Daniel Ramet 1, Juan Lago 2, Johan Karlsson 1, Juan Falgueras 3 y Oswaldo Trelles 1 Resumen Este documento presenta la aplicación Mr-Cirrus (Map-Reduce High Level Clouds) que permite la ejecución de programas secuenciales, sin ninguna modificación interna, trabajando en colaboración para producir un resultado coordinado en entornos de red, computación en nube (cloud computing) y multiprocesadores. El marco de desarrollo se basa en el paradigma Map- Reduce y ha sido implementada bajo MPI. De esta forma, muchas aplicaciones bioinformáticas (sobre las 200 actualmente incluyendo Dotplots, comparación de secuencias, PAML, Muscle, MAFFT, MrBayes y BLAST) pueden escalarse a través de su ejecución paralela, sin necesidad de instalaciones específicas o de alto coste, ni necesidad de conocimientos de programación en entornos multiprocesador. Se han realizado pruebas intensivas en diferentes tipos de procesos con diferentes cargas computaciones y patrones computacionales, con resultados satisfactorios. Palabras clave MapReduce, Cloud Computing, MPI, bioinformática, escalabilidad. encargadas de procesar los datos moleculares son estrictamente regulares, pero cuyo problema actual es el manejo de los nuevos volúmenes de datos y que por lo tanto se adaptan perfectamente a una ejecución paralela. Así, por ejemplo, la ejecución de una búsqueda por semejanza entre una secuencia problema y una colección de secuencias escala linealmente con el número de secuencias en la base de datos, sin ninguna dependencia de datos con respecto al orden de comparación ni a la completitud de los datos a comparar en el caso de repartir el proceso en varios subprocesos que produzcan resultados parciales. La tercera razón viene motivada por el éxito del paradigma Map-Reduce [10] en entornos de computación de alto rendimiento. Su facilidad de uso matiza de forma efectiva la falta de programadores especializados en construir software de alto rendimiento. Se estima que menos del 1% de los desarrolladores de software a nivel mundial están entrenados en computación paralela, y dar el salto a ella no es en absoluto trivial. L I. INTRODUCCIÓN A computación en la nube o cloud computing [1] ha reinventado el tradicional Centro de Datos (data center) para la prestación de servicios computacionales, con una rápida introducción y aceptación en distintos sectores y ámbitos de actividad [2]. Esto es así en gran medida porque la computación en la Cloud promete, y en muchas situaciones lo consigue, recortes en los costes operativos y de capital en la gestión de los recursos computacionales de las instituciones por el ahorro en la adquisición de la infraestructura a cambio de alquilar un recurso de pago-a-demanda según consumo de los recursos (computación, almacenamiento, ancho de banda, etc) y evitando la gestión de las tareas de mantenimiento y puesta a punto del centro de datos. Hay proveedores de servicios en Cloud (como por ejemplo Google App Engine [3], Microsoft Azure [4], IBM Smart Cloud [5] y Amazon EC2 [6]) que ofrecen cantidades importantes de CPU y almacenamiento bajo un software de gestión robusto y sobre cuyas plataformas es relativamente simple instalar una infraestructura en cuestión de minutos [7]. Por otra parte, el espectacular incremento en la producción de datos moleculares (del orden de los Tera y Petabytes) [8,9] y la necesidad de analizar múltiples hipótesis bajo diversos escenarios hace que el análisis de datos genómicos en la biología actual requiera de una potencia computacional que debe ser buscada en la computación paralela. También debemos tener presente que una buena parte de las aplicaciones bioinformáticas 1. Dpto. de Arquitectura de Computadores, Universidad de Málaga. dramet, tjkarlsson, ortrelles@uma.es 2. Dpto. de Innovación y Tecnología, Fundación IAVANTE. juan.lago@iavante.es 3. Dpto. de Lenguajes y Ciencias de la Computación, Universidad de Málaga. juanfc@uma.es En este contexto, el objetivo principal de este trabajo es proporcionar un marco de ejecución de aplicaciones secuenciales, con la premisa de no modificarlas en absoluto, en varias instancias paralelas. El esquema se basa en un gestor de la ejecución que hace a la vez de lanzador de instancias, y dos programas externos para asignar la carga sobre las instancias (map); y para recolectar los resultados parciales y producir un resultado integrado final (reduce). En ambos casos se trata de programas relativamente simples y que no demandan habilidades de programación paralela. Para validar y evaluar el sistema se han elegido dos aplicaciones representativas en el área de la bioinformática; una con un gran número de tareas independientes de pequeños volúmenes de datos (búsquedas por semejanza) y la otra con una sola tarea pero un gran volumen de datos (matrices de puntos). Estas aplicaciones presentan muchas de las características de los procesos actuales en genómica; elevada E-S, gran consumo de memoria y demanda de CPU. Su evaluación nos proporciona información importante para portar al entorno un gran conjunto de aplicaciones con estructura computacional similar. II. MÉTODOS Y SISTEMAS A. El gestor de instancias El diseño del esquema de gestión de la ejecución paralela de programas secuenciales se ha representado en la figura 1. Un proceso maestro es el encargado de la creación de las instancias (servidores) que a su vez

2 invocan al proceso secuencial de acuerdo a las especificación que el maestro ha leído del fichero de mapeo. Los procesos secuenciales ejecutan trabajos parciales e informan de su finalización al servidor quien maneja sus comunicaciones con el maestro, y quien a la finalización de todos los procesos servidores invoca el proceso de reducción o recolección de resultados parciales. Una secuencia genómica S n es una cadena de símbolos {x 1, x 2,..., x n } que pertenecen al alfabeto del ADN (x i A {A, C, G, T}). La matriz de puntos es uno de los métodos más antiguos de comparación de secuencias moleculares [11]. En términos simples, se trata de una representación visual del parecido entre dos secuencias. Una se dispone en horizontal y la otra en vertical y la matriz de puntos se construye comparando cada símbolo de ambas secuencias, ubicando un punto en la celda de intersección de coordenadas cuando los elementos son iguales. De esta forma, las regiones de las secuencias que comparten un parecido sustancial aparecerán como fragmentos diagonales en la matriz. El método estándar para reducir el ruido de los parecidos aleatorios de pequeños fragmentos utiliza una ventana deslizante de un determinado tamaño, de forma que solo resulte en un punto los fragmentos en la ventana cuyo parecido supere un umbral prefijado. Hay muchas y antiguas extensiones a esta metodología básica, que incluyen la fijación interactiva del umbral [12], [13], filtros estadísticos y el uso de diversos símbolos para discriminar las señales [14], el uso de colores para representar la información [15], y se ha extendido la capacidad interactiva [16, 17], incluyendo aplicaciones Web [11], con las típicas capacidades de navegación. Fig. 1. En la parte superior se esquematiza el proceso de asignación o distribución de la carga (map) y la generación de los scripts de ejecución. Un proceso maestro con los respectivos servidores, en el centro, se encargan de realizar las tareas parciales; para finalmente en un proceso de reducción producir el resultado integrado final (reduce). Tanto los procesos de distribución de recursos como los de colección de resultados se especifican a través de ficheros que pueden ser producidos automáticamente por pequeños y simples programas de distribucióncolección de la carga. Estos son los únicos programas que necesitan ser escritos para completar el sistema y muchas veces corresponden a conjuntos o lotes de comandos del sistema operativo. El proceso maestro está preparado para ser tolerante a los fallos de procesos, redistribuyendo la carga no resuelta y para lanzar la totalidad de las instancias por partes o etapas de acuerdo a los recursos disponibles. Ello permite el diseño con distribuciones de carga de tamaño variable a fin de reducir el coste de planificación, y mejorar la sincronización final de los procesos para tareas de baja regularidad. B. Las aplicaciones a implementar 1) Las matrices de puntos Estas referencias nos permiten analizar algunos aspectos computacionales. Estrictamente hablando, la propuesta inicial que realiza la comparación a nivel de símbolo, no requiere las secuencias ni la matriz de puntos en memoria. Bastaría con tener una de las secuencias o parte de ella en memoria e ir trabajando un símbolo a la vez de la segunda secuencia, para mostrar en una pantalla un punto o no. Sin embargo, ya el uso de la ventana deslizante requiere al menos parte de la segunda secuencia en memoria. Finalmente, la interactividad sobre la matriz de resultados requiere que las aplicaciones gestionen la matriz de puntos en memoria. Esto era posible porque se trabajaba sobre las secuencias relativamente pequeñas que se disponían (genes o genomas de pequeños virus de algunos pocos KB). Sin embargo, hoy en día se dispone de información de genomas completos de organismos superiores, entre ellos el humano, con algunos GB de símbolos (el genoma humano sobrepasa los 3 GB y sus cromosomas son de algunos cientos de MB). Aún por separado, tanto el cálculo como la visualización de la matriz de puntos representan grandes retos computacionales. Por ejemplo, la comparación de dos genomas medios de bacterias de 3 Mb, en un equipo capaz de comparar 100 MB, usando una ventana de un solo símbolo necesitaría alrededor de 25 horas, [16]. Cada incremento de una unidad en el tamaño de la ventana representaría un día más de tiempo de computación. Por otra parte, las aplicaciones de análisis interactivo requieren la matriz en memoria. En [18] propusimos gestionar la matriz a distintos niveles de resolución llegando a manejar matrices con algunos, notables para su momento, cientos de KB de longitud. Más adelante, en [15] se

3 presenta una aplicación para visualizar grandes alineamientos y en [19], se hizo en Web. 2) Comparación de secuencias biológicas La comparación de secuencias biológicas es posiblemente la aplicación de mayor uso en bioinformática. En esencia, dada una secuencia problema y una colección de secuencias conocidas, se trata de identificar aquellas secuencias en la colección que más se parezcan a la secuencia problema. De estas relaciones se pueden inferir relaciones evolutivas, estructurales o funcionales entre las secuencias. En términos más formales, dada una secuencia S Q y un conjunto de secuencias D = {S 1, S 2,..., S n } se debe comparar S Q contra cada una de las secuencias del conjunto D a fin de identificar aquellas S i, i {1 n}. III. RESULTADOS A. Los procesos de distribución y reducción Los procesos de asignación de carga a procesos (Map) y colección de resultados (Reduce) se han diseñado para que puedan ser preparados de forma externa tanto a la aplicación secuencial como al gestor de la ejecución. En el primer caso de estudio, la matriz de puntos se construye para dos secuencias S x y S y, por lo que la distribución de carga más simple es la de repartir el espacio computacional L x L y, donde L x y L y son las longitudes de las secuencias respectivas. Para ello, se parte cada una de las secuencias en N x y N y trozos para luego invocar el programa para cada combinación S i y S j i=1... N x ; y j=1...n y ), lo que producirá resultados parciales RES(i,j) que serán unidos por un proceso de Reducción para producir la super-matriz final. Es interesante indicar que este proceso genera además los scripts que permiten lanzar directamente las instancias (incluso en una máquina monoprocesadora). que las tareas que involucren a las secuencias largas gobernarán la eficiencia del sistema. Por ello, la distribución de la base de datos (conjunto conocido de secuencias) no solo es importante, sino que debe realizarse de forma que minimice la latencia de inicio (con mínimo de lanzamiento de instancias) y facilite la sincronización de finalización mediante, en ambos casos, de las tareas livianas al inicio y final del procesamiento en paralelo. El coste de planificación está asociado al número de tareas a distribuir (en nuestro caso especialmente por la latencia de lanzar una nueva instancia) y al tamaño de las últimas tareas a distribuir. La planificación guiada (Guided Self Scheduling) se planteó este problema. Dado un número n de instancias a crear en paralelo, la mejor solución en la que permite a todas las instancias finalizar con una diferencia máxima de B unidades de tiempo, siendo B el tiempo necesario para realizar un bloque básico de tareas. El razonamiento es el de asignar en la i-ésima distribución x i bloques, dejando suficientes bloques para distribuir a los n-1 instancias. Para conseguirlo, sea N el número de bloques de tareas, entonces x i queda definido por: x i = R i / n R i+1 = R i - x i donde R 1 = N Nosotros propusimos una modificación de esta distribución bajo la observación de que las tareas grandes que se generan en las primera iteraciones (ver tabla 1) produce una gran latencia tanto por el lanzamiento de la instancia pero especialmente por la llegada de los datos, llegando a producir incluso TABLA 1 TAMAÑOS DE LOS BLOQUES A DISTRIBUIR USANDO GSS Y NUESTRO GSS MODIFICADO (GSS-MOD) PARA N=100 Y 4 PROCESADORES. El segundo caso, búsquedas de secuencias por semejanza, presenta dos variantes. Una primera se presenta cuando se dispone de varias secuencias S Q (Q=1...N) y por tanto la primera distribución es la de repartir cada una de las secuencias a cada proceso. En el segundo caso se trata de procesar una sola secuencia S Q que se compara contra todas las secuencias del conjunto, por lo que en este caso lo natural es distribuir la colección de secuencias. Se debe observar que ambas soluciones pueden a su vez combinarse para formar una tercera opción que consistiría en separar secuencias y distribuir también el conjunto de secuencias conocidas. Es importante destacar que la primera variante puede presentar serios problemas de eficiencia cuando el número de secuencias problema (S Q ) es muy pequeño, y cuando las diferencias de longitud de las secuencias en dicho conjunto sean significativas, lo que supone

4 inanición en las últimas instancias (este hecho fue confirmado en los experimentos del trabajo de Google [10]). Estas modificaciones se traducen en los siguiente cálculos: x i = R i / n x -i+1 = x i R i+1 = R i - x i siendo R 1 = N / 2 B. Evaluación Para evaluar la solución propuesta hemos utilizado el cluster de la Red Española de Supercomputación, ubicado en el Centro de Bioinnovación de la Universidad de Málaga. Este cluster de memoria distribuida de la marca IBM está compuesto por 256 nodos JS20-IBM, cada nodo con 2 CPU IBM PowerPC single-core 970FX de 64bits a 2GHz, y 1 TB de memoria distribuida. La programación se ha realizado en C, usando la librería de paso de mensajes MPI. Para las primeras pruebas realizadas sobre la aplicación de matrices de puntos, se han usado dos secuencias de aproximadamente 1 MB de longitud, de las cepas APS y BPS de la bacteria Buchnera aphidicola (el primer genoma eucariota secuenciado en España); y también variaciones en tamaño de estas secuencias para observar el comportamiento con referencia al espacio computacional a distribuir. Para la segunda aplicación se ha seleccionado un conjunto de secuencias de la base de datos swissprot (80 mil secuencias) y se han seleccionado de ella 100 secuencias que serán usadas como conjunto problema (estas secuencias fueron a su vez eliminadas del conjunto conocido de secuencias). En cada una de las pruebas se han utilizado diferente número de instancias de los procesos a fin de evaluar la escalabilidad. La tabla 2 muestra los resultados de las pruebas donde se puede apreciar que se han utilizado distintos tamaños para validar la eficacia de la propuesta ante diferentes tamaños de carga. Fig. 2. Composición de los resultados parciales del proceso de la matriz de puntos, utilizando para ello dos secuencias de 2 y 3KB de longitud con diferente particionado. matrices parciales que conforman la matriz de punto de dos secuencias, obtenidas por seis procesos diferentes. Finalmente en la figura 3 se muestran los tiempos y la gráfica de aceleración correspondientes para los tests realizados. Para la aplicación de las Matrices de Puntos, se han usado los genomas de las bacterias Buchnera TABLA 2 DETALLES DE LOS CONJUNTOS DE PRUEBA. TAMAÑO DE LAS SECUENCIAS EN LOS DOTPLOTS Y DE LOS CONJUNTOS PROBLEMA EN LAS BÚSQUEDAS POR SEMEJANZA. ACELERACIÓN 2 PE 4 PE 8 PE 16 PE 32 PE 64 PE Óptima 2,00 4,00 8,00 16,00 32,00 64,00 Dotplot Buchnera 2,00 3,87 7,58 14,17 25,13 53,06 Frag. E.Coli y B.Subtilis 1,96 3,80 7,84 15,84 31,04 61,44 Fragmentos Buchnera 1,95 3,78 8,00 16,00 31,68 59,58 Blast singletons 1,98 3,96 7,88 15,74 30,86 56,66 Los programas se han comprobado a fin de confirmar que reproducen los resultados originales como se muestra en la figura 2, en la que se muestran las seis Fig.3. Resultados de aceleración en las implementaciones propuestas, en las que se observa un comportamiento cercano al ideal tanto para el proceso de la matriz de puntos, para la obtención de todos los fragmentos mayores que una longitud mínima (a partir de ahora, Fragmentos), y para el Blast en ejecuciones de casos reales. Para el caso de los Dotplots y Fragmentos, estos resultados corresponden a las secuencias Buchnera APS y BPS (600 KB), mientras que para Blast se han utilizado un conjunto de contigs y singletons que hacen las veces de secuencias problema. Para conjuntos de datos mayores, los resultados son incluso mejores, demostrando la escalabilidad de la solución, tal y como se puede ver en la ejecución de Fragmentos para las bacterias E. Coli (4,5 MB) y B. Subtilis (4,1 MB). Para datos de tiempos, ver la tabla 3.

5 TABLA 3 DETALLES DE LOS DATOS DE TIEMPO ASOCIADOS A LAS IMPLEMENTACIONES PROPUESTAS (CONTINUACIÓN FIGURA 3). Dotplot Buchnera TIEMPO 2 PE 4 PE 8 PE 16 PE 32 PE 64 PE Óptimo 03:21:48 01:40:54 00:50:27 00:25:14 00:12:37 00:06:19 Map-Reduce 03:19:47 01:44:17 00:53:07 00:30:00 00:15:20 00:07:24 Fragmentos E. Coli y B. Óptimo 50:40:00 25:20:00 12:40:00 06:20:00 03:10:00 01:35:00 Subtilis Map-Reduce 51:40:00 26:40:00 12:49:25 06:21:40 03:14:50 01:38:00 Fragmentos Buchnera Blast singletons Óptimo 01:05:00 00:32:30 00:16:15 00:08:08 00:04:04 00:02:02 Map-Reduce 01:06:37 00:34:17 00:16:15 00:08:08 00:04:06 00:02:10 Óptimo 00:58:10 00:29:05 00:14:33 00:07:17 00:03:39 00:01:50 Map-Reduce 00:58:37 00:29:21 00:14:46 00:07:24 00:03:47 00:02:02 APS y BPS de algo más de 600 KB de longitud; mientras que en las Comparaciones por Semejanza, se han utilizado secuencias (singletons procedentes de un proceso de ensamblaje) que son contrastadas contra grupos (contigs) de secuencias. También se han realizado pruebas con una carga de datos mayor como son las bacterias E. Coli y B. Subtilis de más de 4 MB de longitud mediante la comparación por semejanza. Los resultados indican que estas implementaciones escalan linealmente con el número de procesadores con aceleraciones cercanas a la máxima. Se ha probado el rendimiento para volúmenes de datos o carga computacional menor, y como cabría esperar, cuando el número de procesadores crece, la carga por proceso no es suficiente para compensar la latencia de inicio de los procesos y, por tanto, el número de procesadores debe fijarse en función de la carga para alcanzar buenos rendimientos. IV. CONCLUSIONES La computación en la Cloud abre nuevas oportunidades para acercar la computación de alto rendimiento a laboratorios que requieren procesar grandes cantidades de datos pero que no disponen de infraestructura computacional adecuada. Por otra parte, la bioinformática ha despegado como una línea de investigación en la que el desarrollo de software tiene que lidiar con el problema de los grandes conjuntos de datos. Existe una gran diversidad de aplicaciones en este campo, pero en su práctica totalidad están preparadas para una ejecución secuencial y unas condiciones que ya han dejado de estar presentes. Este documento se centra en el desarrollo de un marco de trabajo que permita la reutilización de estas aplicaciones en entornos paralelos, exigiendo que no se toque el código secuencial ya que muchas de ellas son aplicaciones bastante antiguas aunque válidas (legacy applications). El desarrollo es en idea sencillo, aunque requiere una programación eficiente y cuidadosa para manejar situaciones de conflicto, como es el fallo de procesos, su sincronización, y el balanceo de la carga. Los mayores problemas encontrados, como era de esperar, han sido en el ámbito de la E-S. Para el caso de redes de ordenadores, siempre es posible utilizar los discos locales para evitar el cuello de botella en el sistema de almacenamiento al concurrir a él cientos y potencialmente miles de procesos. Cuando no se dispone de este sistema distribuido de almacenamiento, el cuello de botella impide escalar bien a la aplicación. Por ello en algunos casos es necesario abordar tanto la reformulación como el diseño de nuevo software. También es cierto que el sistema es válido para aplicaciones que deben llevar adelante una serie de tareas más o menos homogéneas y que procesos de una sola tarea y con grandes dependencias de datos, son en principio difíciles de adecuar a este entorno. Sin embargo, una estimación realizada en nuestro grupo, calcula que no más del 20% de los programas bioinformáticos tienen este diseño, por lo que la aproximación sigue siendo válida para el gran porcentaje de aplicaciones bioinformáticas. Aunque las aplicaciones presentadas en este documento tienen un patrón de cálculo bastante regular (en el caso de los dotplots se ha usado un código de fuerza bruta) la introducción de heterogeneidad en las tareas (que no la de interdependencias) es aún manejable vía el uso de una distribución de carga más inteligente (guiada, por ejemplo) con resultados satisfactorios. Por tanto, no hay dependencia con la optimización de los cálculos que puedan introducir nuevas versiones de los algoritmos. Finalmente, el desarrollo de este entorno de trabajo permitirá llevar a una ejecución paralela a cientos de programas en el ámbito bioinformático, abriendo nuevas oportunidades para el análisis de datos y para la ciencia en general. AGRADECIMIENTOS Este trabajo ha sido parcialmente financiado por el Instituto Nacional de Bioinformática, plataforma del Instituto de Salud Carlos III; la Acción Integrada del Programa Nacional de Internacionalización de la I+D; Subprograma: Acciones Integradas 2009; Ministerio de Ciencia e Innovación. Referencia AT y el programa Virtual Multidisciplinary EnviroNments USing Cloud Infrastructures, FP7-VENUS-C ( REFERENCIAS [1] Armbrust M, Fox, et al. Above the Clouds: A Berkeley View of Cloud Computing. Technical report

6 [ [2] Press Release: Gartner s 2009 Hype Cycle Special Report Evaluates Maturity of 1,650 Technologies. [ [3] Google App.Engine: Welcome to the Google Apps; [4] What is the Windows Azure platform?; [5] IBM smart Cloud: [6] Amazon Elastic Compute Cloud: [7] Amazon. Build a Cluster Computing Environment in under 10 minutes. 10/ [8] Editorial, Big data: Welcome to the petacentre, Nature 455, (2008) doi: /455016a [9] 1000 Genomes: A Deep Catalog of Human Genetic Variation ( [10] Dean, J. and Ghemawat, S. MapReduce: simplified data processing on large clusters. "Comm. ACM", 51, ), [11 Gibbs, A.J. and McIntyre, G.A. The Diagram, a Method for Comparing Sequences, Its Use with Amino Acid and Nucleotide Sequences. European J. Biochemistry, vol. 16, pp. 1-11, [12] Maizel, J.V. and Lenk, R.P. Enhanced Graphic Matrix Analysis of Nucleic Acid and Protein Sequences. Proceedings of the National Academy of Science, USA 78, 12, [13] Staden, R. An interactive graphics program for comparing and aligning nucleic acid and amino acid sequences, Nucleic Acids Research, 1982, Vol. 10, No [14] Pustell and Kafatos, 1984J. Pustell and F.C. Kafatos, A convenient and adaptable package of computer programs for DNA and protein sequence management, analysis and homology determination, Nucl. Acids Res. 12 (1984), pp [15] Reisner, H and Bucholtz. The use of various properties of amino acids in color and monochrome dot-matrix analyses for protein homologies. Bioinformatics, Volume 4, Number 3Pp [16] Nedde, D.N. and Ward, M.O. Visualizing relationships between nucleic acid sequences using correlation images. CABIOS, 9(3): [17] Trelles-Salazar, O.; Zapata, E.L.; Dopazo, J.; Coulson, A.W.F and Carazo, J.M. An Image processing approach to DotPlots : An X window-based program for interactive analysis of dotplots derived from sequence and structural data, CABIOS (11) 3: [18] Schwartz,S PipMaker- a web server for aligning two genomic DNA sequences. Genome Res., 10, , [19] Trelles-Salazar, O.; Zapata, E.L.; Dopazo, J.; Coulson, A.W.F and J.M.Carazo. An Image processing approach to DotPlots : An X window-based program for interactive analysis of dotplots derived from sequence and structural data, CABIOS (11) 3: