CÓMPUTO DE ALTO RENDIMIENTO EN MEMORIA COMPARTIDA Y PROCESADORES GRÁFICOS

Tamaño: px

Comenzar la demostración a partir de la página:

Download "CÓMPUTO DE ALTO RENDIMIENTO EN MEMORIA COMPARTIDA Y PROCESADORES GRÁFICOS"

Susana Montero Cárdenas
hace 6 años
Vistas:

1 CÓMPUTO DE ALTO RENDIMIENTO EN MEMORIA COMPARTIDA Y PROCESADORES GRÁFICOS Leopoldo N. Gaxiola, Juan J. Tapia Centro de Investigación y Desarrollo de Tecnología Digital Instituto Politécnico Nacional Avenida del Parque 1310 Mesa de Otay, Tijuana, B.C., CP Departamento de Investigación, Laboratorio de Sistemas Inteligentes Eje temático: Ciencias y Tecnologías de la Computación lgaxiola@citedi.mx, jjtapia@citedi.mx Resumen En este trabajo se presenta una comparación de cómputo de alto rendimiento entre procesadores de propósito general y unidades de procesamiento gráfico. Para los cálculos se utilizó un algoritmo de multiplicación de matrices, se ejecutó el programa paralelo en tres procesadores multicore diferentes, en todos los casos, se encontró que no es conveniente usar más hilos que la cantidad de núcleos (cores) físicos del procesador. Además, se implementó el algoritmo de multiplicación de matrices en un procesador gráfico. 1. Introducción La estrategia para mejorar el rendimiento de procesamiento de los procesadores ha cambiado dramáticamente en los últimos años. Anteriormente, la mejora en el rendimiento se basaba en el incremento de la frecuencia de reloj del procesador, en años recientes está estrategia llegó a límites físicos, ya que ocasiona un gran incremento en la temperatura y el consumo de energía del procesador. Como una alternativa para seguir incrementando el rendimiento, se diseña la arquitectura de procesadores multicore, que consiste en tener varias unidades de procesamiento en un chip, actualmente los procesadores de propósito general tienen entre 2 y 10 núcleos. La búsqueda para obtener un mayor rendimiento no solo se basa en estas arquitecturas, ya que actualmente se utilizan las Unidades de Procesamiento Gráfico (GPU, del inglés Graphic Processing Unit) que tienen cientos de núcleos, y permiten resolver problemas de cómputo de alto rendimiento, tales como procesamiento de imágenes y video, modelado en dinámica de fluidos, y en general para procesar en forma paralela una gran cantidad de datos [1]. El éxito de los procesadores multicore (CPUs), involucra fuertes cambios desde la perspectiva del software, ya que la programación secuencial (tradicional) ya no puede obtener provecho de las nuevas arquitecturas. Por lo tanto, es necesaria la implementación paralela de los programas y bibliotecas de funciones con nuevos paradigmas de programación, que optimicen el uso de las nuevas arquitecturas.

2 En este trabajo se presenta un estudio del rendimiento de procesadores multicore, implementando un algoritmo de multiplicación de matrices, que es de O(N 2 ) de almacenamiento en memoria y O(N 3 ) de procesamiento, lo que lo hace interesante para hacer pruebas de rendimiento de cómputo paralelo. Por un lado se utilizan programación paralela en memoria compartida mediante hilos POSIX, para medir el rendimiento de procesadores multicore de propósito general, por otro lado se utiliza el ambiente de desarrollo CUDA para la programación de GPU s. Este trabajo se desarrolla bajo el sistema operativo GNU/Linux. En la Fig. 1. se muestra una comparación del incremento de la capacidad computacional de procesadores gráficos y CPUs en los últimos años. Se observa que los GPUs tiene una capacidad de procesamiento mucho mayor que los CPUs. Fig. 1. Comparación del rendimiento de procesadores de procesadores de Intel y GPUs. Figura cortesía de NVIDIA y adaptada de [2]. En la Fig. 2. Se muestra una comparación del ancho de banda para el acceso a memoria de procesadores de propósito general y GPUs. El ancho de banda delo GPUs es mucho mayor que la de los CPUs, lo cual le permite procesar más datos por ciclo de reloj.

3 Fig. 2. Comparación del ancho de banda para el acceso a memoria en CPUs y GPUs.. Figura cortesía de NVIDIA y adaptada de [3]. En CUDA se cuenta con la biblioteca de funciones CUBLAS, para sistematizar el uso de matrices y resolver problemas de algebra lineal [4]. 2. Programación para el cálculo de la multiplicación de matrices E siguiente código implementa un algoritmo de multiplicación de matrices en forma secuencial, los tres ciclos for anidados muestran que el algoritmo y tiene complejidad O(N 3 ) for (i = 1 ; i <= n ; i++) for (j = 1 ; j <= n ; j++){ c[i][j]=0; for (k = 1 ; k <= n ; k++){ c[i][j] += a[i][k]*b[k][j]; La programación usando hilos POSIX, puede ser consultada en [5]. El siguiente código nos permite multiplicar matrices en paralelo usando hilos POSIX

4 int main () { for ( i = 0 ; i < NUM_THREADS ; i++) { thread_args[i].ren_ini = i* N/NUM_THREADS; thread_args[i].ren_fin = ((i+1) * N/NUM_THREADS)-1; for ( i = 0 ; i < NUM_THREADS ; i++) pthread_create (&thread_id[i], NULL, &crea_mat, &thread_args[i]); void* mul_mat (void* parameters){ for ( i = p->ren_ini ; i < p-> ren_fin ; i++){ for ( j = 0 ; j < N ; j++) { c[i][j] = 0 ; for ( k = 0 ; k < N ; k++) c[i][j] += a[i][k]*b[k][j]; A continuación se presenta el código para la multiplicación de matrices en un GPU, cada elemento de la matriz resultante es calculado por un hilo, se observa que en la función mul_mat, solo hay un ciclo for, ya que los otros dos se realizan por hardware. global void mul_mat( int *a, int *b, int *c ) { int k ; int x = threadidx.x + blockidx.x * blockdim.x; int y = threadidx.y + blockidx.y * blockdim.y; int tid = x + y * blockdim.x * griddim.x; c[tid] = 0 ; for ( k = 0 ; k < DIM ; k++ ) c[tid] += a[x+k* blockdim.x * griddim.x] * b[ k + y * blockdim.x * griddim.x ]; int main( void ) {.. dim3 grids(dim/64,dim/64); dim3 threads(64,64); mul_mat<<<grids, threads>>>( dev_a, dev_b, dev_c );

5 3. Resultados En la Tabla 1 se presenta el speedup calculado con el algoritmo de multiplicación de matrices, para el procesador Quadcore, se observa que para tres y cuatro cores el speedup no se incrementa, esto se debe a que el procesador i3 tiene solo dos cores físicos. Tabla 1. Speedup calculado para el procesador multicore i3 Speedup multicore i3 Tamaño Matriz 2 Cores 3 Cores 4 Cores En la Tabla 2 se presenta el speedup calculado con el algoritmo de multiplicación de matrices, para el procesador Quadcore, se observa que el speedup se incrementa a medida que se incrementa el número de cores. Tabla 2. Speedup calculado para el procesador Quadcore Speedup Quad core TamañoMatriz 2 Cores 3 Cores 4 Cores En la Tabla 3 se presenta el speedup calculado con el algoritmo de multiplicación de matrices, para el procesador multicore i7, se observa que el speedup se incrementa a medida que se incrementa el número de cores, hasta llegar a cuatro cores, para más de cinco cores el speedup no se incrementa, esto se debe a que el procesador i7 solo tiene cuatro cores físicos.

6 Tabla 3. Speedup calculado para el procesador multicore i7 Speedup Multicore i7 Tamañomatriz 2 Cores 3 Cores 4 Cores 5 Cores 6 Cores 7 Cores 8 Cores Conclusiones y Trabajo Futuro En este trabajo, se implementó un programa que multiplica dos matrices usando hilos POSIX en procesadores multinúcleo, se ejecuta en diferentes computadoras con procesador multinúcleo y se hace un análisis del speedup obtenido se observa que es escalable hasta en cuatro núcleos, para una cantidad mayor se pierde la escalabilidad debido posiblemente a un cuello de botella en el acceso a memoria. También se implementa el algoritmo de multiplicación de matrices en procesadores gráficos, considerando diferentes opciones en el manejo de la memoria. Comparando el tiempo de ejecución en ambas arquitecturas se observa que un procesador gráfico de mediana capacidad es 10 veces más rápido que un procesador de cuatro núcleos Como trabajo futuro se puede hacer un análisis de rendimiento en un sistema con hasta cuatro GPUs conectadas mediante el bus PCIe de una computadora personal. También se puede aprovechar el cómputo distribuido y hacer un análisis de rendimiento en un clúster de computadoras con GPUs. Agradecimientos. Este trabajo ha sido apoyado por la COFAA-IPN y el proyecto IPN-SIP Referencias [1] Sanders J., Kandrot E.: CUDA by Example: An introduction to General-Purpose GPU Programming. Addison-Wesley, [2] Nvidia: Nvidia CUDA C Programmers Guide version 4.0, [3] Nvidia: CUDA C Best Practice Guide version 4.0, [4] Igual Peña F. D.: Matrix Computation on Graphics Processors and Clusters of GPUs. Ph D. thesis, Universidad Jaume I de Catellón, [5] The Art of concurrency: A thread Monkey s Guide to Writing Parallel Applications, O Reilly, 2009.

Documentos relacionados

Multiplicación de Matrices en Sistemas cc-numa Multicore. Autor: Jesús Cámara Moreno Director: Domingo Giménez Cánovas

Multiplicación de Matrices en Sistemas cc-numa Multicore Autor: Jesús Cámara Moreno Director: Domingo Giménez Cánovas Índice de Contenido 1. Introducción 2. Línea de Investigación 3. Sistemas Empleados