CUDA Overview and Programming model

Transcripción

1 Departamento de Ciencias de la computación Universidad de Chile Modelado en 3D y sus Aplicaciones en Realidad Virtual CC68W CUDA Overview and Programming model Student: Juan Silva Professor: Dr. Wolfram Luther Date: lunes, 22 de noviembre de 2010

2 Contents Abstract... 3 Introducción... 3 Requerimientos... 4 Conceptos generales... 5 Objetivos de CUDA... 5 Conceptos de programación... 5 Device... 5 Host... 5 Kernel... 5 CUDA s... 6 Modelo de programación... 8 Modelo de memoria... 8 Registros... 8 Memoria local... 8 Memoria compartida... 8 Memoria global (Dispositivo)... 8 Memoria Host (CPU)... 9 Runtime API y Driver API: Driver API Runtime API Manejo de memoria Alocar memoria en el dispositivo Establecer valores de memoria en el dispositivo

3 Liberar memoria del dispositivo Copia de datos Ejecución de código en GPU Calificadores de función Ejecutando Kernel Descomposición de los datos Kernels de ejemplo Ejemplo de código Sincronización Proyecto Sistema usado para este proyecto Entorno de trabajo Problemas en la implantación del entorno de trabajo Resultados de la comparación Conclusiones del proyecto Conclusiones generales Referencias

4 Abstract El poder de procesamiento de hoy en día se basa en el uso de múltiples núcleos en un solo procesador para aumentar el rendimiento y poder de cómputo, sin embargo, estos procesadores involucran un gran costo debido a la tecnología involucrada, pues además del procesador, hay que comprar memorias y placa madre compatible con el procesador por lo que se podría decir que son poco escalables, por otro lado están las tarjetas de video que pueden funcionar bajo la mayoría de los computadores actuales sin restricciones como procesador o placa madre, además estas cuentan con múltiples procesadores pudiendo procesar miles de threads de forma paralela, otra ventaja es que varias tarjetas de video pueden trabajar juntas en un solo computador y pueden ser reemplazadas fácilmente. Es por este motivo que se crea CUDA, con el fin de aprovechar el poder de cómputo de las tarjetas de video, teniendo una plataforma de cómputo extensible, potente y de fácil uso. Introducción CUDA es el acrónimo para Compute Unified Device Architecture el cual es una arquitectura de cómputo desarrollada por NVIDIA. CUDA es el motor de computo en unidades de procesamiento graficas (GPUs) de NVIDIA el cual es accesible para programadores de software mediante variantes de lenguajes de programación estándar. Los desarrolladores de software pueden usar C para CUDA, el cual es el lenguaje de programación C con extensiones provistas por NVIDIA y con ciertas restricciones, y compilar el código mediante un compilador escalable Open64 C para luego ser ejecutado en tarjetas de video NVIDIA 1. CUDA aprovecha las ventajas de las tarjetas de video NVIDIA para procesar elementos dentro de múltiples procesadores con miles de threads concurrentes, facilitando el uso y facilidad de programación. NVIDIA apoyando y alentando la adopción de esta tecnología, ha sacado al mercado varios servidores de cómputo llamados TESLA orientados a estaciones de trabajo para Clusters y también para gran escala para Data Center, siendo estos promocionados por tener un rendimiento comparable con el ultimo procesador quad-core del mercado consumiendo 1/20 de energía y a un 1/10 del costo 2. En este trabajo se abordara el cómo programar sobre la plataforma CUDA, usando el sistema operativo Windows 7 Profesional versión 64bits con Microsoft Visual Studio 2008 Profesional. Se presentarán los problemas encontrados y las soluciones provistas para luego presentar el proyecto de ejemplo desarrollado en CUDA

5 Requerimientos Para desarrollar con tecnología CUDA es necesario conocer el sistema en el cual se está trabajando y el sistema objetivo a desarrollar, estos puntos son importantes ya que el kit de desarrollo de CUDA no implementa un sistema multi-plataformas por lo que es necesario descargar o compilar las bibliotecas necesarias para determinado sistema. A continuación se presentan los requerimientos mínimos para desarrollar sobre Sistema operativo Windows 3. Sistema operativo: Windows XP/Vista/7 32/64 bits. IDE Recomendado: Microsoft Visual Studio 2005 o superior. NVIDIA Driver para correr aplicaciones en CUDA. CUDA Toolkit 32/64 bits. Hardware recomendado: NVIDIA GeForce 8 series o superior. Cabe destacar que CUDA Toolkit trae un emulador incorporado en donde mediante las opciones de preferencias, se puede ejecutar el código de GPU en la CPU del equipo, evitando tener que forzadamente comprar una tarjeta de video para el desarrollo

6 Conceptos generales En esta sección se trataran los conceptos generales sobre CUDA, sus modelos de programación y modelos de memoria 4. Objetivos de CUDA Los objetivos de CUDA se basan en la escalabilidad que presentan las tarjetas gráficas de NVIDIA donde escalan mediante el aumento de multiprocesadores con múltiples núcleos de trabajo lo cual logra un total de núcleos de procesamiento del orden de y donde cada núcleo de procesamiento puede trabajar cientos de threads lo cual genera del orden de de threads para poder procesar datos. Otro punto considerado como objetivo es poder ofrecer de manera sencilla y fácil de usar el poder de procesamiento y para esto se desea facilitar la computación heterogenea de CPU + GPU. Conceptos de programación CUDA introduce varios conceptos de programación asociados a su arquitectura dentro de los cuales se distinguen el Device, Host y Kernel. Device A la unidad de procesamiento grafica o GPU se le llama Device o dispositivo, pueden haber tantos dispositivos como tarjetas de video tenga el computador distinguiéndose cada una por un identificador, nombre y poder de computo. Host A la unidad central de procesamiento se le denomina Host, es en el Host donde se ejecuta cualquier código deseado por el programado, sin restricciones y como complemento al código ejecutado por el dispositivo. Kernel Los Kernel son fragmentos de código que se ejecutaran en paralelo dentro del dispositivo. Solo un kernel es ejecutado a la vez y muchos threads son ejecutados por cada kernel. La principal diferencia entre los threads de CUDA y los de CPU son que los threads de CUDA son extremadamente ligeros, requieren un gasto de recursos muy pequeños para su creación y pueden ser conmutados rápidamente, otro punto es que CUDA ocupa miles de threads para obtener eficiencia mientras que CPUs de múltiples núcleos solo pueden usar unos pocos. 4 San Diego Supercomputer Center > Training > NVIDIA CUDA Workshop > Basic of CUDA. 5

7 CUDA s Un kernel de CUDA es ejecutado por un arreglo de threads, donde cada thread corre el mismo código y se diferencian por un identificador o threadid el cual se usa para procesar direcciones de memoria y tomar decisiones de control. threadid float x = input[threadid]; float y = func(x); output[threadid] = y; Ilustración 1: CUDA thread array. Un kernel lanza una cuadricula de bloques de thread, threads dentro de un bloque cooperan via memoria compartida o shared memory, threads dentro de diferentes bloques no pueden cooperar entre sí. Esta característica deja a los desarrolladores escalar transparentemente mediante diferentes GPUs. Cuadricula Bloque thread 0 Bloque thread 1 Bloque thread 2... Bloque thread n... Memoria compartida Memoria compartida Memoria compartida Memoria compartida Ilustración 2: Cuadricula de bloques de threads. 6

8 Cada bloque y cada thread pueden tener más de una dimensión. Un ID de bloque puede tener 1 y 2 dimensiones y cada ID de thread puede tener 1, 2 y 3 dimensiones como se muestra en la ilustración 7. Esto simplifica el acceso a memoria cuando se procesan datos multidimensionales. Dispositivo Cuadricula Bloque (0,0) Bloque (1,0) Bloque (2,0) Bloque (1,0) (0,0,0) (1,0,0) (2,0,0) Bloque (0,1) (3,0,0) Bloque (1,1) Bloque (2,1) (0,0,1) (0,1,0) (1,0,1) (1,1,0) (2,0,1) (2,1,0) (3,0,1) (3,1,0) (0,1,1) (0,2,0) (1,1,1) (1,2,0) (2,1,1) (2,2,0) (3,1,1) (3,2,0) (0,2,1) (0,3,0) (1,2,1) (1,3,0) (2,2,1) (2,3,0) (3,2,1) (3,3,0) (0,3,1) (1,3,1) (2,3,1) (3,3,1) Ilustración 3: Dimensiones de cuadricula, bloques y threads. 7

9 Modelo de programación CUDA establece un modelo de programación basado en la idea de Kernel, cuadricula o Grid, Bloques y threads. Un kernel es ejecutado por una cuadricula la cual contiene varios bloques, estos bloques son un conjunto de threads que pueden cooperar entre si compartiendo datos vía memoria compartida y sincronizando su ejecución. s de diferentes bloques no pueden cooperar entre si. Este punto es importante pues dependiendo de la complejidad del problema es que pueden ser de utilidad pocos bloques de gran tamaño o varios bloques de tamaño pequeño. Modelo de memoria CUDA establece acorde a la arquitectura de la GPU varios modelos de memoria y cada uno con un propósito y un fin distinto. Registros Los registros son los elementos más pequeños dentro de la arquitectura, estos registros se asignan por thread y tienen un ciclo de vida igual al thread. Memoria local Al igual que los registros, la memoria local es asignada a cada thread y respetan el ciclo de vida del mismo, sin embargo este tipo de memoria se encuentra físicamente en la memoria DRAM del dispositivo. Memoria compartida La memoria compartida es asignada a cada bloque de threads y se encuentra físicamente en la tarjeta de video. Esta memoria tiene un ciclo de vida igual al ciclo de un bloque. Memoria global (Dispositivo) Esta memoria es accesible por todos los threads al igual que el Host, la vida útil de este tipo de memoria respeta los alocamientos y de alocamientos de memoria y es controlado por el programador. 8

10 Memoria Host (CPU) La memoria del host respeta los alocamientos y de alocamientos y no es accesible por los threads de CUDA. Bloque 0 Registro Memoria local Memoria compartida Kernel 0 Bloque 0 Bloque 1 Bloque 2 Bloque n Kernel 1 Bloque 0 Bloque 1 Bloque 2 Bloque n Memoria Global Ilustración 4: Modelo de memoria en CUDA. 9

11 Runtime API y Driver API: Existen dos interfaces de programación de aplicaciones (API). Driver API La de más bajo nivel es la llamada Driver API la cual contiene funciones con prefijo API tiene varias ventajas, dentro de las cuales se encuentran: esta No depende de bibliotecas de tiempo de ejecución o runtime library. Posee más control sobre los dispositivos pudiendo, un thread de CPU, controlar múltiples GPUs. No existen extensiones C en el código del host, pudiendo asi usar cualquier otro compilador de CPU del por defecto en el Host( ejemplo: icc, etc ) Posibilita el uso de Parallel execution (PTX) Just-in-Time (JIT) compilation. Runtime API La API de más alto nivel es la llamada Runtime API la cual contiene funciones con prefijo esta API también tiene ventajas, dentro de las cuales se encuentran: Facilita el manejo por código del dispositivo proveyendo inicialización implícita. Provee manejo de contextos y manejo de módulos. Más fácil de utilizar que Driver API. Todo el código del dispositivo es idéntico usando una u otra API. Por razones de simplicidad se explicara el uso de Runtime API. 10

12 Manejo de memoria 5 Lo primero que hay que tener en cuenta es que tanto la memoria de uso de CPU y GPU tienen distintos espacios. Lo segundo es que la memoria del dispositivo es manejada mediante código desde el Host. El host puede alocar y liberar memoria, copiar datos hacia y desde el dispositivo y administrar la memoria global del dispositivo. Alocar memoria en el dispositivo Alocar memoria en el dispositivo permite trabajar con datos y esto se realiza mediante la función: cudaerror_t cudamalloc void pointer, size_t nbytes Esta función asigna a pointer la dirección de memoria alocada y aloca un tamaño de memoria dictado por nbytes. Devuelve un código de error dictado por cudaerror_t de existir alguno. Existen variantes de esta función las cuales son: cudamalloc3d, cudamalloc3darray, cudamallocarray, cudamallochost y cudamallocpitch. Establecer valores de memoria en el dispositivo Establecer valores en memoria del dispositivo se realiza mediante la función: cudamemset void pointer, int value, size_t count Esta función recibe como parámetro una dirección de memoria en el dispositivo referenciada por pointer, asigna los primeros count valores de la dirección de memoria el valor value. Otras funciones similares son: cudamemsetasync, cudamemset2d, cudamemset2dasync, cudamemset3d y cudamemset3dasync. 5 CUDART MEMORY.html 11

13 Liberar memoria del dispositivo Liberar memoria permite reutilizar espacios de memoria para un posterior uso, esto se realiza mediante la función: cudafree void devptr Esta función recibe como parámetro una dirección de memoria en el dispositivo referenciada por pointer para luego liberar la memoria del espacio indicado. Otras funciones similares son: cudafreearray y cudafreehost. Ejemplo de manejo de memoria int total_ints = 1024; int nbytes = total_ints*sizeof(int); int *device_allocation = 0; // Aloca nbytes en memoria y retorna la dirección mediante device_allocation cudamalloc( (void**) &device_allocation, nbytes ); // Establece en 0 todos los valores del espacio de memoria device_allocation cudamemset( device_allocation, 0, nbytes ); // Libera el espacio de memoria utilizado cudafree( device_allocation ); 12

14 Copia de datos Copiar datos permite rescatar resultados o pasar parámetros para el posterior uso, esto se realiza mediante la función: cudamemcpy void dst, const void src, size_t count, enum cudamemcopykind kind Esta función copia los count primeros bytes del área de memoria apuntada por src al espacio de memoria apuntado por dst en la dirección que indique kind la cual puede ser: cudamemcpyhosttodevice: copia desde el Host al dispositivo. cudamemcpydevicetohost: copia desde el dispositivo al Host. cudamemcpydevicetodevice: copia desde un Dispositivo a otro Dispositivo. Otras funciones similares son: cudamemcpy2d, cudamemcpy2darraytoarray, cudamemcpy2dasync, cudamemcpy2dfromarray, cudamemcpy2dfromarrayasync, cudamemcpy2dtoarray, cudamemcpy2dtoarrayasync, cudamemcpy3d, cudamemcpy3dasync, cudamemcpyarraytoarray, cudamemcpyasync, cudamemcpyfromarray, cudamemcpyfromarrayasync, cudamemcpyfromsymbol, cudamemcpyfromsymbolasync, cudamemcpytoarray, cudamemcpytoarrayasync, cudamemcpytosymbol y cudamemcpytosymbolasync. 13

15 Ejecución de código en GPU Los Kernel son funciones en C con algunas restricciones, estas restricciones son: Solo se puede acceder a memoria de GPU. Debe tener retorno de tipo void. No se aceptan argumentos variables ( varargs ). No se acepta recursión. No se aceptan variables estáticas. Los argumentos de la llamada a función son automáticamente copiados desde la memoria de la CPU a la memoria de la GPU. Calificadores de función Los Kernel deben establecer una calificación de la función que representa desde donde se puede invocar la función. Así estos calificadores son los siguientes: global : Este tipo de función se invocan desde el interior del código del host y no pueden ser llamados desde el código del dispositivo y solo pueden retornar void. device : Este tipo de función puede ser llamado desde otras funciones dentro del código del dispositivo y no pueden ser llamadas dentro del código del host. host : Solo pueden ser ejecutadas y llamadas dentro del host. Los calificadores host y device pueden ser combinados usando sobrecargas de función y el compilador generara código tanto para CPU como para GPU. 14

16 Ejecutando Kernel La sintaxis de ejecución de un kernel tiene en cuenta los parámetros de configuración de la ejecución en el dispositivo dando así la siguiente sintaxis. kernel <<< dim3 grid, dim3 block >>> args Kernel es la función que se ejecutara dentro del dispositivo, dim3 grid son las dimensiones de la cuadricula de ejecución (medidas en bloques) la cual puede tener 1 o 2 dimensiones, dim3 block son las dimensiones de cada bloque (medidas en threads) dentro de la cuadricula y puede tener 1, 2 o 3 dimensiones y args son los parámetros de ejecución de la función kernel. Así la ejecución de un kernel se puede expresar como: dim3 grid(65535, 65535); dim3 block(512, 512, 64); // Llama a la funcion kernel para ser ejecutada en el dispositivo, devuelve inmediatamente. kernel <<<grid, block>>>(args); Todos los kernel calificados como global y device tienen acceso a las siguientes variables definidas automáticamente. dim3 griddim: representa las dimensiones de la cuadricula en bloques. dim3 blockdim: representa las dimensiones del bloque en threads. dim3 blockidx: representa el índice del bloque dentro de la cuadricula. dim3 threadidx: representa el índice del thread dentro del bloque. 15

17 Descomposición de los datos Generalmente se querrá que cada thread dentro de un kernel acceda a diferentes elementos dentro de un arreglo de datos. Es así como se presenta un ejemplo de la descomposición de los datos dentro de un kernel. Grid blockidx.x Block 0 Block 1 Block 2 blockdim.x = 5 threadidx.x blockidx.x * blockdimx + threadidx.x Ilustración 5: Modelo de descomposición de datos. Kernels de ejemplo Algunos ejemplos de kernels sencillos se presentan a continuación: global void kernel_set( int* d_a) { *d_a = 13; } // Asigna a cada elemento del arreglo el valor designado por value global void assing( int* d_a, int value) { Int idx = blockdim.x * blockidx.x + threadidx.x; d_a[idx] = value; } Cabe destacar que la penúltima línea de código, donde se declara la variable idx sigue un patrón común dentro de los desarrollos y es debido al acceso a datos dentro de un arreglo mediante cada thread, así cada thread accede a un solo dato dentro de un arreglo. 16

18 Ejemplo de código A continuación se presenta un ejemplo de código que suma una constante a cada elemento de un arreglo, se presenta el código de CPU y el código en CUDA. Programa en CPU void increment_cpu(float *a, float b, int N) { for(int idx = 0; idx < N; idx ++) a[idx] = a[idx] + b; } void main() { increment_cpu(a, b, N); } Programa en CUDA gloabl void increment_gpu(float *a, float b, int N) { int idx = blockidx.x * blockdim.x + threadidx.x; if( idx < N) a[idx] = a[idx] + b; } void main() { dim3 dimblock(blocksize); dim3 dimgrid(ceil( N/ (float) blocksize)); Increment_gpu <<< dimgrid, dimblock >>> (a, b, N); } Sincronización Todas las llamadas a kernel son asíncronas, por lo que estas devuelven el control a la CPU de inmediato, además la llamada a kernel se ejecuta después de haber terminado todas las llamadas previas de CUDA. Este punto es importante para el correcto acceso a datos, para esto CUDA maneja una serie de funciones para poder sincronizar el código y dentro de estas la más útil y simple de usar es la llamada a la siguiente función: cudasynchronize void Esta función genera un bloqueo hasta que el dispositivo ha completado todas las operaciones anteriores. 17

19 Proyecto El proyecto de presentación consistió en la implantación del entorno de trabajo y el desarrollo de una comparación de tiempo entre CPU y GPU de cálculo de cuadraturas presentando previamente la información del dispositivo. Sistema usado para este proyecto A continuación se describe en detalle el sistema ocupado para el desarrollo del proyecto Sistema operativo: Windows Vista 7 Professional 64bits. IDE: Microsoft Visual Studio 2008 Professional. CUDA Toolkit 64bits versión 3.2. NVIDIA GeForce GTX 275 (Ver ilustración 1). Procesador Intel Core i5 750 (Ver ilustración 2). 4GB Ram DDR3. Ilustración 6: Detalle de tarjeta de video. Ilustración 7: Detalle de CPU 18

20 Entorno de trabajo Para empezar a desarrollar es recomendado tener instalado un entorno integrado de desarrollo, con esto en mente se recomienda instalar Microsoft Visual Studio Luego es necesario instalar el kit de desarrollo CUDA Toolkit (ver ilustración 3). Una vez instalado el Toolkit, se procede a instalar los proyectos de ejemplo llamados GPU Computing SDK code samples 7 (ver ilustración 4). Ilustración 8: NVIDIA CUDA Toolkit installer. Ilustración 9: GPU Computing SDK code samples installer. Una vez instalados estos elementos se tiene un ambiente listo para desarrollar en CUDA. Problemas en la implantación del entorno de trabajo Debido las distinciones entre sistemas operativos de 32 y 64 bits, el montaje del entorno de trabajo para 64 bits es complicado, la causa principal de esto es que los archivos de ejemplo vienen con una configuración para entornos de trabajo de 32 bits y los archivos de configuración no se encuentran debidamente escritos por lo que se debió recurrir a ayuda desde internet donde se planteaban los mismos problemas. Además, al instalar todos los elementos recomendados y los ejemplos existían conflictos por los archivos descriptores de compilación de código CUDA (*.rule) que no se encontraban en el lugar que deberían por lo que se debió copiar a la ruta indicada

21 Tiempo de procesamiento (ms) Resultados de la comparación Una vez implementada la comparación, se precedió a ejecutar el código y registrar los datos. La ejecución del código contemplo una iteración de 200 datos incrementales, estos datos fueron generados al azar mediante la función rand() iniciando con un tamaño de 1 llegando a un tamaño de Primeramente se procedió a calcular la cuadratura de cada número dentro del arreglo mediante GPU para luego medir el tiempo de cálculo mediante CPU de forma iterativa. Los resultados de esta ejecución se muestran a continuación: 100 Procesamiento de cuadraturas mediante CPU y GPU ,1 0,01 0,001 0,0001 Cantidad de numero procesados GPU-Time [ms] CPU-Time [ms] Ilustración 10: Tabla comparativa de tiempos de procesamiento de datos. 20

22 De los datos obtenidos se calculó la desviación estándar de los tiempos de GPU, tiempos de CPU y de la diferencia de tiempos, los datos son los siguientes: Tiempos Desviación Estándar (ms) GPU 0, CPU 12, Diferencia entre GPU y CPU 11, Se puede observar del gráfico que antes de los elementos la CPU procesa mucho más rápido, sin embargo la GPU procesa con tiempos casi constantes en todo su trayecto. Se obtuvo el porcentaje de la diferencia de tiempos desde que se cruzan las líneas y se obtuvieron los siguientes resultados: Porcentaje de diferencia Promedio 92,22 % Máximo 98,40 % Mínimo 16,48 % Conclusiones del proyecto Como conclusiones del proyecto, se puede notar una notable ventaja por parte de la GPU en cálculo de grandes arreglos de datos donde se puede encontrar una diferencia del 90% aproximadamente, lo cual presenta una ventaja amplia respecto de solo el cómputo dentro de la CPU. Si además le agregamos el poder de cómputo conjunto, se puede suponer un aumento del rendimiento cercano a un 100%. Conclusiones generales CUDA presenta un modelo de programación y de memoria bastante simple y de fácil uso, que facilita lidiar con procesamientos múltiples de datos y hace uso del poder de cómputo de la GPU, por lo que logra potenciar el rendimiento general a un nivel bastante amplio. CUDA además presenta un modelo escalable independiente al modelo de programación por lo que resulta un esfuerzo muy pequeño o nulo el escalar el código. 21

23 Referencias Wikipedia: NVIDIA developer zone: NVIDIA Cuda Home: Dr. Dobb s CUDA, Supercomputing for the masses: NVIDIA TESLA product information: NVIDIA CUDA Download San Diego Supercomputer Center Training NVIDIA CUDA Library Documentation 22