Computación en Manycores

Transcripción

1 Computación en Manycores Metodología de la Programación Paralela

2 Contenidos 1 Sistemas 2 GPGPU 3 Intel Xeon Phi 4 Prácticas

3 GPU: Graphic Processing Units Inicialmente para procesamiento de gráficos. También se puede hacer GPGPU: General Processing GPU MIC: Many Integrated Cores Alternativa de Intel a GPU: Xeon Phi. Programación más cercana a la paralela estándar. FPGA: Field Programmable Gate Array Bloques lógicos reprogramables. Son similares a circuitos integrados pero de propósito general. DSP: digital signal processor Hardware y software especializados para hacer operaciones numéricas a gran velocidad. Para procesado de señales.

7 General-Purpose Computation on Graphics Processing Units Procesadores gráficos en todos los sistemas computacionales. Muchas veces para juegos, pero también se pueden usar para computación. Disponen de muchos cores pequeños. Son baratos, y se puede conseguir mayores aceleraciones a un coste bajo. Pero la programación es más compleja. En algunos centros de supercomputación se incluyen GPU en los sistemas (consultar TOP 500).

8 Software para GPU 2006: NVIDIA introduce la arquitectura unificada (CUDA) con la presentación de la NVIDIA GeForce GPUs de NVIDIA compatibles con CUDA Modelos: GeForce, Tesla, Quadro 2009: OpenCL (Open Computing Language) Intenta convertirse en un estándar para programación CPU y GPU. 2012: OpenACC (for open accelerators) Para sistemas heterogéneos CPU+GPU. Hay disponibles librerías optimizadas para GPU (álgebra lineal, ordenación, transformada de Fourier...)

9 CUDA Arquitectura hardware y software: Uso de GPU, construida a partir de la replicación de un bloque constructivo básico, como acelerador con memoria integrada Estructura jerárquica de threads mapeada sobre el hardware Gestión de memoria expĺıcita Creación, planificación y ejecución transparente de miles de threads de manera concurrente Extensiones del lenguaje C/C++ junto con CUDA Runtime API

10 Arquitectura Hardware y Software GPU = N * Streaming Multiprocessors (SMs) SM = 8 * Streaming Processors (SPs)

11 Arquitectura Hardware y Software Los procesadores (SPs) Realizan operaciones escalares sobre enteros/reales 32 bits Ejecutan threads independientes pero todos deberían ejecutar la instrucción leída por la Instruction Unit (IU) en cada instante: Single Instruction Multiple Thread (SIMT), explotación de paralelismo de datos y, en menor medida, de tareas Los threads son gestionados por el hardware en cada SM: Creación y cambios de contexto con coste despreciable Se libera al programador de realizar estas tareas

12 Arquitectura Hardware y Software Las partes del código paralelizadas para ejecutarse en la GPU se denominan kernels Un kernel descompone un problema en un conjunto de subproblemas y lo mapea sobre un grid Grid: vector 1D o 2D de thread blocks. Cada thread block tiene su BID (X,Y) dentro del grid Thread blocks: vector 1D, 2D o 3D de threads. Cada thread tiene su TID (X,Y,Z) dentro de su thread block Los threads utilizan su BID y TID para determinar el trabajo que tienen que hacer (SPMD)

13 Modelo de memoria

14 Ejemplo Cálculo de y = αx +y (saxpy): void saxpy serial(int n,float *y,float alpha,float *x) { for(int i=0;i<n;i++) y[i]=alpha*x[i]+y[i]; } /* Llamada código secuencial */ saxpy serial(n,y,2.0,x); global /* Código GPU */ void saxpy parallel(int n,float *y,float alpha,float *x) { int i=blockidx.x*blockdim.x+threadidx.x; if (i<n) y[i]=alpha*x[i]+y[i]; } /* Llamada código paralelo desde código CPU */ int nblocks=(n+255)/256; saxpy parallel<<<nblocks,256>>>(n,y,2.0,x);

15 Otros ejemplos En el concurso basico en Mooshak en Heterosolar (conectarse a través de con los datos de la cuenta que se os proporcionó con vuestros apellidos), problemas E (ordenación) y F (multiplicación de matrices). En las tablas de Records y Records2017 en Ejemplos de uso en Heterosolar en el directorio /public/examples de luna.inf.um.es. Conectar con ssh usuario@luna.inf.um.es, con el usuario mpp17-xx y el password (no cambiarlo) proporcionado.

16 Ejecución

17 Resultados experimentales En Murilo Boratto, Pedro Alonso, Domingo Giménez, Alexey L. Lastovetsky: Automatic tuning to performance modelling of matrix polynomials on multicore and multi-gpu systems. The Journal of Supercomputing 73(1): (2017) Gregorio Bernabé, Javier Cuenca, Luis-Pedro García, Domingo Giménez: Auto-tuning techniques for linear algebra routines on hybrid platforms. J. Comput. Science 10: (2015) Gregorio Bernabé, Javier Cuenca, Domingo Giménez: An Autotuning Engine for the 3D Fast Wavelet Transform on Clusters with Hybrid CPU + GPU Platforms. International Journal of Parallel Programming 43(6): (2015)

18 Resultados experimentales En investigacion: Proyectos de Tomás Ramírez y Carlos Pérez, sobre cálculo de funciones de Green, 2011 y Tesis de Máster de Baldomero Imbernón, Técnicas heurísticas paralelas en acoplamiento de compuestos bioactivos, UMU, Tesis doctoral de Murilo do Carmo Boratto, Modelos paralelos para la resolución de problemas de ingeniería agrícola, UPV, 2015.

19 Características Hasta 61 cores (1.0/1.3 GHz), basados en x86 (Pentium) direccionamiento de 64 bits. Cores con una VPU con 32 registros de 512 bits (SIMD). Cada core soporta 4 threads por hardware. Interconexión de bus en anillo bidireccional. Hasta 6 GBytes GDDR5.

20 Software Intel MPSS (Manycore Platform Software Stack): permite que los programas se ejecuten y se comuniquen con el coprocesador Intel Xeon Phi. Compiladores Offload: Intel C/C++ y Fortran 2013 Capaces de generar código que se ejecuta sólo en el host o en el coprocesador, o parejas de binarios que se ejecutan tanto en el host como en el coprocesador y se comunican entre ellos. Entornos de programación paralela, los mismos que en el host: Intel Threading Building Blocks, Pthreads, OpenMP, MPI.

21 Funcionamiento El coprocesador tiene memoria flash y SMC para almacenar la BIOS, el bootloader, el firmware y un pequeño kernel embebido para el coprocesador. El coprocesador ejecuta un microkernel de Linux. El kernel embebido se carga desde la flash cuando el coprocesador se inicializa. El microkernel de Linux se carga desde el host cuando el coprocesador se arranca. El coprocesador no dispone de acceso a un sistema de archivos permanente. Los sistemas de archivos son RAM (residente en la memoria del coprocesador) o sistemas de archivos en red (montado vía NFS desde el host).

22 Ejecución Modos de ejecución: Código offload: Ejecución en el host y lanza trabajos al coprocesador. No se necesita que el usuario esté dado de alta en el coprocesador. Código nativo: Se lanza la ejecución desde el coprocesador. En OpenMP código idéntico al de multicore.

23 Ejemplo de código offload Secuencial: double reduction(double *data, int size) { double ret = 0.0; #pragma offload target(mic) in(data:length(size)) for (int i = 0; i < size; i++) { ret += data[i]; } return ret; } En OpenMP: double omp_reduction(double *data, int size) { double ret = 0.0; #pragma offload target(mic) in(data:length(size)) { #pragma omp parallel for reduction(+:ret) for (int i = 0; i < size; i++) { ret += data[i]; } }

24 Otros ejemplos Se acompaña código de una suma de matrices. En el concurso warmup+registration en mooshak/cesga.es hay una multiplicación de matrices básica (problema D).

25 MPI Modos de ejecución: Nativo: El rango de procesos MPI reside únicamente en el coproceador. La aplicación se puede lanzar desde el host o el coprocesador. Simétrico: El rango de procesos MPI reside en el host y en el coprocesador. Offload: El rango de procesos MPI reside en el host. MPI utiliza las capacidades offload de los compiladores de Intel para la descarga de trabajo al coprocesador. No disponible en venus

26 Resultados experimentales De la presentación de Luis Pedro García (el resto de transparencias también) en

27 Resultados experimentales José M. Cecilia, José-Matías Cutillas-Lozano, Domingo Giménez, Baldomero Imbernón: Exploiting Multi-level Parallelism on a Many-core System for the Application of Hyperheuristics to a Molecular Docking Problem. Journal of Supercomputing. Published online March 2017 de ejecución de distintas metaheurísticas en un Xeon Phi con 57 cores (228 virtuales)

28 Entornos de programación: De CUDA, sobre algún código de los disponibles en las tablas de records o en los concursos del Concurso de Programación Paralela. En XeonPhi, trabajo con algún ejemplo con OpenMP en modo offload. Sistemas computacionales: En Mooshak de Heterosolar. En luna.inf.um.es lanzando al sistema de colas. Se puede ver el manual básico de usuario en investigacion y ejemplos en el directorio /public/examples de luna