Taller: Introducción a GPU's y Programación CUDA para HPC

Transcripción

1 Taller: Introducción a GPU's y Programación CUDA para HPC Amilcar Meneses Viveros Departamento de Computación CINVESTAV-IPN / LUFAC Computación Julio 2011

2 CONTENIDO I.- INTRODUCCION A GPU's Y CUDA 1.1 Preliminares de programación y computación paralela. 1.2 Arquitecturas basadas en GPU's. 1.3 El ambiente de desarrollo CUDA. II. PRINCIPIOS Y CONCEPTOS DE PROGRAMACION CUDA 2.1 Tipos de funciones y manejo de memoria. 2.2 Bloques y grids. III.- ESTRUCTURA DE LOS PROGRAMAS CUDA 3.1 Uso de codigo C y C Codigo CUDA (.cu) 3.3 El ambiente de desarrollo con Eclipse IV.- EJEMPLOS Y EJERCICIOS 4.1 Ejemplos con programas de manejo de matrices y vectores: suma, resta, multiplicación, método gaussjordan. V.- COOPERACION ENTRE HILOS 5.1 Manejo de bloques 5.2 Sincronización y memoria compartida

3 Taller: Introducción a GPU's y Programación CUDA para HPC PARTE I: Introducción a GPU's y CUDA

4 Preliminares- Computación paralela Computación serial

5 Preliminares - Computación paralela Computación paralela

6 Preliminares - Computadora paralela Computadora con múltiples procesadores que soporta programación paralela. Hay dos categorias importantes de computadoras paralelas: multicomputadoras y multiprocesadores centralizados.

7 Preliminares - Computadora paralela Computadora con múltiples procesadores que soporta programación paralela. Hay dos categorias importantes de computadoras paralelas: multicomputadoras y multiprocesadores centralizados. Memoria Memoria Memoria Multicomputadora: es una computadora paralela construida por múltiples computadoras y una red de interconección. CPU CPU RED CPU

8 Preliminares - Computadora paralela Computadora con múltiples procesadores que soporta programación paralela. Hay dos categorias importantes de computadoras paralelas: multicomputadoras y multiprocesadores centralizados. Multiprocesador centralizado: (o SMP) es un sistema más integrado donde todos los CPU s comparten el acceso a una memoria global. CPU CPU CPU Memoria SMP: Symmetric Multiprocessors

9 Preliminares - Computadora paralela Computadora con múltiples procesadores que soporta programación paralela. Hay Memoria dos categorias CPU CPU importantes CPU de computadoras paralelas: multicomputadoras y multiprocesadores centralizados. CPU CPU CPU Memoria Multiprocesador centralizado: (o SMP) es un sistema más integrado donde todos los CPU s comparten el acceso a una Memoria memoria CPU CPU global. CPU CPU CPU CPU Memoria SMP: Symmetric Multiprocessors

10 Preliminares - Programación paralela Es la programación en un lenguaje que permita indicar explicitamente como distintas partes de una computación pueden ejecutarse concurrentemente por diferentes procesadores.

11 Preliminares - Tipos de paralelismo Tiempo Tiempo Pipeline Tiempo Tiempo Paralelismo a nivel dato (DLP) Paralelismo a nivel thread (TLP) Paralelismo a nivel instrucción (ILP)

12 Preliminares - Paralelización Paralelización Implícita Explícita Hardware Compilador Lenguajes Bibliotecas Arquitecturas Directivas del compilador Sentencias del lenguaje Funciones de sincronización, manejo de seccion crítica,...

13 Preliminares - Proceso Arquitectura von Neumann Programa residente en memoria MEMORIA Carga Ejecuta CPU

14 Preliminares - Proceso Programa cargado en memoria que está en ejecución o listo para ejecución Datos globales y estáticos. Memoria dinámica Código ejecutable. Área de datos Área de código... #define N int varglobal; float arregloglobal[n] int funcionsuma(int a, int b){ }... return a+b; Datos locales: argumentos y variables definidas en una función Área de pila int main(int argc, char **argv){ } int varlocal; varlocal r = suma(5,7); 14

15 Preliminares - Proceso Proceso multithreading tiene un hilo principal y un conjunto de procesos esclavos. Datos globales y estáticos. Memoria dinámica Código ejecutable. Datos locales: argumentos y variables definidas en una función Área de datos Área de código Hilo principal (512MB) Hilo esclavo 1 (4MB) Área de pila Hilo esclavo N (4MB) Esquema de multithreading Hilos de POSIX Hilos OpenMP Controlados por el SO a nivel usuario o a nivel kernel. 15

16 Preliminares - Computación de alto rendimiento Se requieren más transistores en CPU para mejorar el rendimiento (se doblan cada 18 meses según la ley de Moore) Samuel H. Fueller & Lynette I. Millett. Computer, IEEE, pp , January 2011.

17 Preliminares - Computación de alto rendimiento Se requieren más transistores en CPU para mejorar el rendimiento (se doblan cada 18 meses según la ley de Moore) ILP - Paralelismo a nivel instrucción. Superscalar - Múltiples unidades funcionales. Superpipelining - Altas frecuencias. Hyperthreading - Múltiples flujos de ejecución para utilizar recursos ociosos. Aumento en los ciclos de reloj 3.8 GHz: dispación de calor y consumo de energía

18 Preliminares - Computación de alto rendimiento CPU: Tecnologías multicore. Para 2010 no habrá más procesadores de 1 core

19 Preliminares - Computación de alto rendimiento CPU: Tecnologías multicore. Se planea que para 2010 no habrá más procesadores de 1 core

22 Preliminares - Computación de alto rendimiento Número de núcleos

23 Preliminares - Computación de alto rendimiento Teraflops

24 Preliminares - Computación de alto rendimiento Teraflops

25 Preliminares - Computación de alto rendimiento nvidia TESLA 448 cores GPU s Teraflops

26 Computación de alto rendimiento Rendimiento de tarjetas GPGPU s

27 Computación de alto rendimiento Glenn Lupton, Don Thulin, Accelerating HPC Using GPU s; white paper; Hewlett-Packard Company June 13, 2008.

28 Tecnologías de GPGPU s Unidades de procesamiento gráfico de propósito general. Procesadores vectoriales. Fabricantes: nvidia, ATI, Intel... La idea es aprovechar las unidades aritméticas y lógicas de los GPU s para hacer computaciones de alto rendimiento.

29 GPGPUS - Procesadores vectoriales Procesador escalar opera sobre números sencillos (escalares). Procesadores vectoriales operan en vectores de números.

30 GPGPUS - Procesadores vectoriales Beneficios de los procesadores vectoriales Compacto: una simple instrucción define N operaciones. Ademas reduce la frecuencia de saltos. Paralelo: N operaciones son paralelas en datos. No hay dependencias. No se requiere de HW para detectar paralelismo. Puede ejecutar en paralelo asumiento N flujos de datos paralelos. Usa patrones de acceso a memoria continua.

31 CPU vs GPU CPU GPU Baja latencia de memoria. Acceso aleatorio. 20GB/s ancho de banda. 0.1Tflop. 1Gflop/watt Modelo de programación altamente conocido. Gran ancho de banda. Acceso secuencial. 100GB/s ancho de banda. 1Tflop. 10 Gflop/watt Modelo de programación muy poco conocido.

32 CPU vs GPU

33 Que es GPGPU? Computación de propósito general usando GPU y API de gráficas en aplicación es distintas a gráficos en 3D. GPU acelera la trayectoria crítica de una aplicación. Algoritmos paralelos sobre datos aprovechan los atributos del GPU. Grandes arreglos de datos, rendimiendo de streaming. Paralelismo de grano fino SIMD. Computaciones de punto flotante de baja latencia. Aplicaciones ver //GPGPU.org Efectos físicps de video juegos (FX), procesamiento de imágenes. Modelado físico, ingeniería computacional, algebra matricial, convolución, correlación, ordenamientos. 33

34 Restricciones previas de GPGPU Trabajar con API diseñados para gráficas Modos de direccionamiento Tamaños de textura Salida limitada Conjunto de instrucciones Falta de operaciones Integer & bit Comunicación limitada Entre pixeles Dispersión a[i] = p Input Registers Fragment Program Output Registers FB Memory per thread per Shader per Context Texture Constants Temp Registers 34

35 CUDA Compute Unified Device Architecture Modelo de programación de propósito general El usuario inicializa conjuntos de threads en el GPU GPU = super-threaded dedicado para procesamiento masivo de datos (co-processor) Conjunto de software dedicado Manejadores de dispositivos, lenguaje y herramientas. Manejador para carga de programas al GPU Manejador Independiente - Optimizado para computaciones Interfaz diseñada para computaciones - API no gráfica Comparte datos con objetos OpenGL en buffer Aceleración garantizada en los accesos a memoria Manejo explicito de la memoria del GPU 35

36 Esquema general de Hardware A nivel alto, una tarjeta gráfica PCI con muchos GPU s y dispositivo de memoria de video de acceso rápido convive en un servidor con uno o dos CPU s multicore. motherboard tarjeta gráfica

37 Esquema general de Hardware Una tarjeta gráfica. Los GPU s se agrupan en módulos llamados SM (Streaming Multiprocessors). SM: grupo de GPU s Tarjeta gráfica: grupo de SM

38 GPU s en los servidores actuales Coprocesadores del CPU. Conexión PCIe (8GB/s) por direccion. Memoria independiente del GPU (gran ancho de banda local, hasta 100GB/s).

39 Un ejemplo del manejo de hardware para CUDA GPU w/ local DRAM (device) CPU (host) 39

40 Configuraciones de HW GPU1 GPU2 GPU3 GPU4 DDR 1 DDR N Chip set 1 C0 C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 Chip set 2 DDR 1 DDR N CPU1 CPU2

41 Configuraciones de HW a) b) c) d) 41

42 Ejemplo: G80 de nvidia Host Input Assembler Thread Execution Manager Parallel Data Cache Parallel Data Cache Parallel Data Cache Parallel Data Cache Parallel Data Cache Parallel Data Cache Parallel Data Cache Parallel Data Cache Texture Texture Texture Texture Texture Texture Texture Texture Load/store Load/store Load/store Load/store Load/store Load/store Global Memory 42

43 Computación paralela en GPU 8-series GPUs proporcionar de 25 a 200+ GFLOPS en aplicaciones paralelas compiladas en C Disponible en laptops, desktops, y clusters GeForce 8800 El paralelismo eh GPU se duplica cada año Modelo de programación escala de forma transparente Tesla D870 Programación en C con herramientas CUDA Modelo multihilos SPMD utiliza paralelismo en datos y en hilos. Tesla S870 43

44 Plataformas de desarrollo Frameworks, lenguajes y herramientas que nos permiten crear programas que corran en arquitecturas de GPGPU s. OpenCL CUDA Brook+ DirectCompute CAPS

46 OpenCL Open Computing Language (OpenCL). Framework para escribir programas que se ejecuten en plataformas heterogéneas (CPU s multicore y GPU s). Modelo heterogéneo

47 OpenCL Originalmente fue desarrollador por Apple (con colaboración de AMD, IBM, INTEL, nvidia). Apple manda la propuesta inicial al grupo Krhonos en 2008.

48 OpenCL Define OpenCL C - Variante del ISO C99 optimizado para la computación en GPU. Computación paralela masiva basada en SPMD. Compila para GPU Compila para CPU Código GPU Código CPU

49 OpenCL Define OpenCL C - Variante del ISO C99 optimizado para la computación en GPU. Computación paralela masiva basada en SPMD.

50 OpenCL Define OpenCL C - Variante del ISO C99 optimizado para la computación en GPU. Computación paralela masiva basada en SPMD. 1) Busca GPU disponibles y genera colas de comandos 2) Se especifican los datos y los kernel s necesarios. El RT manda los datos a la RAM de los GPU s.

51 OpenCL Modelo de memoria.

52 OpenCL Modelo de memoria.

54 CUDA Compute Unified Device Architecture Modelo de programación de propósito general El usuario inicializa conjuntos de threads en el GPU GPU = super-threaded dedicado para procesamiento masivo de datos (co-processor) Conjunto de software dedicado Manejadores de dispositivos, lenguaje y herramientas. Manejador para carga de programas al GPU Manejador Independiente - Optimizado para computaciones Interfaz diseñada para computaciones - API no gráfica Comparte datos con objetos OpenGL en buffer Aceleración garantizada en los accesos a memoria Manejo explicito de la memoria del GPU 54

55 CUDA programación basada en C Aplicacion (programa C) integrada al host+device Partes de código C no paralelo o modestamente paralelo corre en el host Partes altamente paralelas en (SPMD kernel C code) device ( host ) Serial Code ( device ) Parallel Kernel KernelA<<< nblk, ntid >>>(args);... ( host ) Serial Code ( device ) Parallel Kernel KernelB<<< nblk, ntid >>>(args);... 55

57 Brook+ Lenguaje de programación desarrollado por Stanford University. Desarrollado para utilizar tarjetas aceleradoras gráficas (GPU) para hacer computaciones de propósito general. Extención del lenguaje C.

59 DirectCompute API desarrollado por Microsoft para desarrollar aplicaciones de propósito específico en unidades de GPU. Corre en Windows Vista y Windows 7. Lenguaje HLSL, sintaxis similar a C.

61 CAPS Software desarrollado por la compañia HPC Project. Genera código para GPU s al estilo OpenMP a partir de código C o FORTRAN.

62 Contenido Introducción a HPC Tecnología de GPGPU Plataformas de desarrollo Estrategias de programación Comentarios finales y conclusiones

63 Estrategias de programación Buscar particionamiento sobre datos (SPMD). Dominio del problema. Estrategia de paralelismo incremental. Generar operaciones de grano fino. { { { Tamaño del grano: número de computaciones que se ejecutan entre la comunicación y la sincronización.

64 Ejecución de hilos SM1 SM2 SM3 SM4

66 Manejo de cache Kernel alineado Kernel disperso

67 Recordando la arquitectura FERMI Jerarquía de memoria 64 KB 64 KB 64 KB 64 KB 64 KB 64 KB 64 KB 64 KB 768 KB 64 KB 64 KB 64 KB 64 KB 64 KB 64 KB 64 KB 64 KB

68 Registros Por omisión, variables locales de cada kernel se asignan a registros. FERMI:

69 Aprovechar toda la arquitectura ii)la computación paralela llegó para quedarse. GPU1 GPU2 GPU3 GPU4 Se requiere del desarrollo de algoritmos mixtos para aprovechar la potencia computacional de los nuevos servidores y clusters. DDR 1 DDR N Chip set 1 C0 C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 Chip set 2 DDR 1 DDR N CPU1 CPU2

70 Aprovechar toda la arquitectura ii)la computación paralela llegó para quedarse. GPU1 GPU2 GPU3 GPU4 Se requiere del desarrollo de algoritmos mixtos para aprovechar la potencia computacional de los nuevos servidores y clusters. DDR 1 DDR N Chip set 1 C0 C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 Chip set 2 DDR 1 DDR N CPU1 CPU2 Comunicación entre procesos distribuidos en los CPU s: Paso de mensajes (MPI)

71 Aprovechar toda la arquitectura ii)la computación paralela llegó para quedarse. GPU1 GPU2 GPU3 GPU4 Se requiere del desarrollo de algoritmos mixtos para aprovechar la potencia computacional de los nuevos servidores y clusters. DDR 1 DDR N Chip set 1 C0 C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 Chip set 2 DDR 1 DDR N CPU1 CPU2 Cooperación entre cores: Memoria compartida o multithreading (OpenMP, pthreads,..)

72 Aprovechar toda la arquitectura ii)la computación paralela llegó para quedarse. GPU1 GPU2 GPU3 GPU4 Se requiere del desarrollo de algoritmos mixtos para aprovechar la potencia computacional de los nuevos servidores y clusters. DDR 1 DDR N Chip set 1 C0 C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 Chip set 2 DDR 1 DDR N CPU1 CPU2 Computación en la GPU: Memoria compartida de grano fino (OpenCL, CUDA, DirectCompute,CAPS,..)

73 Aprovechar toda la arquitectura Multi-GPU ii)la computación paralela llegó para quedarse. GPU1 GPU2 GPU3 GPU4 Se requiere del desarrollo de algoritmos mixtos para aprovechar la potencia computacional de los nuevos servidores y clusters. DDR 1 DDR N Chip set 1 C0 C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 Chip set 2 DDR 1 DDR N CPU1 CPU2 Computación en la GPU: Memoria compartida de grano fino (OpenCL, CUDA, DirectCompute,CAPS,..)

74 Aprovechar toda la arquitectura Programas paralelos híbridos ii)la computación paralela llegó para quedarse. GPU1 GPU2 GPU3 GPU4 Se requiere del desarrollo de algoritmos mixtos para aprovechar la potencia computacional de los nuevos servidores y clusters. DDR 1 DDR N Chip set 1 C0 C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 Chip set 2 DDR 1 DDR N MPI + CPU1 OpenMP pthreads + CPU2 OpenCL CUDA DirectCompute CAPS

75 CUDA -- Entorno de desarrollo y lenguaje Extensiones a C Declspecs global, device, shared, local, constant Palabras clave threadidx, blockidx Escencial syncthreads Runtime API Memory, symbol, execution management device float filter[n]; global void convolve (float *image) { shared float region[m];... region[threadidx.x] = image[i]; syncthreads()... image[j] = result; } // Allocate GPU memory void *myimage = cudamalloc(bytes) Funcion de lanzamiento // 100 blocks, 10 threads per block convolve<<<100, 10>>> (myimage); 75

76 CUDA -- Entorno de desarrollo y lenguaje Extensiones a C Código fuente integrado (foo.cu) cudacc EDG C/C++ frontend Open64 Global Optimizer GPU Assembly foo.s CPU Host Code foo.cpp OCG gcc / cl G80 SASS foo.sass Mark Murphy, NVIDIA s Experience with Open64, open64/2008/papers/101.doc 76

77 Compilando un programa CUDA Virtual Aplicación C/C++ CUDA NVCC Código PTX float4 me = gx[gtid]; me.x += me.y * me.z; código CPU Parallel Thread execution ( PTX ) Virtual Machine e ISA Modelo de programación Ejecución de recursos y estados Física PTX a un Compilador destino ld.global.v4.f32 {$f1,$f3,$f5,$f7}, [$r9+0]; mad.f32 $f1, $f5, $f3, $f1; G80 GPU Código destino 2877

78 Compilador CUDA nvcc Cualquier archivo fuente que contiene extensión CUDA (.cu) se debe compilar con nvcc. El nvcc es un manejador de compilación (compiler driver) que hace llamdos a las herramientas y compiladores necesarios como: cudacc, g++, cl,... nvcc produce un archivo de salida que contiene: Código C (código CPU) PTX (Parallel Thread Excecution) o código objeto. Genera código ejecutable para las plataformas como WINDOWS, LINUX o Mac OS X.

79 Ligado Cualquier archivo ejecutable con código CUDA requiere dos bibliotecas dinámicas: Biblioteca en tiempo de ejecución CUDA (cudart). Biblioteca de núcleo CUDA (cuda).

80 Taller: Introducción a GPU's y Programación CUDA para HPC PARTE II: PRINCIPIOS Y CONCEPTOS DE PROGRAMACION CUDA

81 Dispositivos y threads CUDA Un dispositivo (device) de computadora Es un coprocesador al CPU o host ( memory Tiene su propia memoria DRAM (device Ejecuta muchos threads en paralelo Es un típico GPU pero además puede ser otro tipo de dispositivo de procesamiento paralelo Partes de código con paralelismo en datos se expresan como un dispositivos kernels en los cuales se ejecutan multiples hilos. Diferencias entre hilos GPU y CPU GPU hilos son extremadamente ligeros Muy poca sobrecarga de creación GPU requiere miles de threads para una eficiencia completa CPU multi-core necesita pocos para una eficienca completa 81

82 CUDA programación basada en C Aplicacion (programa C) integrada al host+device Partes de código C no paralelo o modestamente paralelo corre en el host Partes altamente paralelas en (SPMD kernel C code) device ( host ) Serial Code ( device ) Parallel Kernel KernelA<<< nblk, ntid >>>(args);... ( host ) Serial Code ( device ) Parallel Kernel KernelB<<< nblk, ntid >>>(args);... 82

83 G80 en modo CUDA Ejemplo de dispositivo Procesadores ejecutan hilos Nuevo modo de operación / interfaz de HW para las computaciones Host Input Assembler Thread Execution Manager Parallel Data Cache Parallel Data Cache Parallel Data Cache Parallel Data Cache Parallel Data Cache Texture Texture Texture Texture Texture Load/store Load/store Load/store Load/sto Global Memory 83

84 Arreglos de Parallel Threads Un kernel de CUDA se ejecuta por un arreglo de threads Todos los threads ejecutan el mismo código (SPMD) Cada hilo tiene un ID que usa para el manejo de las direcciones de memoria y para el control de decisión threadidx.x float x = input[threadidx.x]; float y = func(x); output[threadidx.x] = y; 84

85 Thread Blocks: Cooperación Escalable Divide un arreglo monolítico de de hilos Divide en múltiples bloques Threads en un bloque cooperan via memoria compartida, operaciones atómicas y sincronización por barreras Threads en bloques distintos no pueden cooperar Thread Block 0 Thread Block 1 Thread Block N-1 threadidx.x float x = input[threadidx.x]; float y = func(x); output[threadidx.x] = y; float x = input[threadidx.x]; float y = func(x); output[threadidx.x] = y; float x = input[threadidx.x]; float y = func(x); output[threadidx.x] = y; 85

86 Identificadores de bloques y de hilos Cada hilo usa su ID para identificar el dato sobre el cual trabajara Block ID: 1D o 2D Thread ID: 1D, 2D, o 3D Simplifica el direccionamiento de memoria cuando se trabaja con datos multidimensionales Procesamiento de imágenes Resolución de PDE... 86

87 Modelo de memoria CUDA Memoria global Principalmente es la comunicación de lectura/escritura entre el host y el device ( 0 (0, Block Grid ( 0 (1, Block El contenido es visible a todos los hilos Aceso de gran latencia Registers Shared Memory Registers Registers Shared Memory Registers Veremos la memoria global ( 0 (1, Thread ( 0 (0, Thread ( 0 (1, Thread ( 0 (0, Thread Memoria constante y de texture después... Host Global Memory 87

88 Asignación de memoria al dispositivo CUDA cudamalloc() Grid Asigna un objecto de memoria en la Global Memory Usa dos parámetros Dirección del apuntador al objeto asignado Tamaño del objeto asignado ( 0 (0, Block Shared Memory Registers Registers ( 0 (1, Thread ( 0 (0, Thread ( 0 (1, Block Shared Memory Registers Registers ( 0 (1, Thread ( 0 (0, Thread cudafree() Libera un objeto de la memoria global (global memory). Apuntador del objeto a liberar Host Global Memory 88

89 Asignación de memoria al dispositivo CUDA Ejemplo: Asignar memoria para un arreglo 64 * 64 de fp-sp Asociar la memoria asignada a Md (frecuentemente d se usa para indicar una estructura para datos en un dispositivo) TILE_WIDTH = 64; Float* Md; // float *Md; int size = TILE_WIDTH * TILE_WIDTH * sizeof(float); cudamalloc((void**)&md, size); cudafree(md); 89

90 Transferencia de datos Host-Device en CUDA () cudamemcpy transferencia de datos en memoria Grid Requiere de 4 parámetros Block (0, ( 0 Block (1, ( 0 Apuntador al destino Shared Memory Shared Memory Apuntador fuente Registers Registers Registers Registers Número de bytes copiados Tipo de transferencia Thread (0, ( 0 Thread (1, ( 0 Thread (0, ( 0 Thread (1, ( 0 Host to Host Host to Device Device to Host Device to Device Transferencia síncrona Host Global Memory 90

91 Transferencia de datos Host-Device en CUDA Ejemplo Transferir un arreglo de 64 * 64 de fp-sp M esta en la memoria del host y Md en la memoria del dispositivo cudamemcpyhosttodevice y cudamemcpydevicetohost son constantes simbólicas cudamemcpy(md, M, size, cudamemcpyhosttodevice); cudamemcpy(m, Md, size, cudamemcpydevicetohost); 91

92 Revisión de la arquitectura FERMI 512 GPGPU s 16 SM de 32 cores cada uno. 6 particiones de 64 bits cada una. Soporta 6GB de memoria GDDR5 DRAM. Host Interface: conexión entre el CPU y GPU (PCI-Express). GigaThreads despacha los thread blocks a los despachadores de los SM s.

93 Revisión de la arquitectura FERMI Jerarquía de memoria 64 KB 64 KB 64 KB 64 KB 64 KB 64 KB 64 KB 64 KB 768 KB 64 KB 64 KB 64 KB 64 KB 64 KB 64 KB 64 KB 64 KB

94 Revisión de la arquitectura FERMI Jerarquía de memoria 64 KB 64 KB 64 KB 64 KB 64 KB 64 KB 64 KB 64 KB 768 KB 64 KB 64 KB 64 KB 64 KB 64 KB 64 KB 64 KB 64 KB

95 Revisión de la arquitectura FERMI Jerarquía de memoria Configuración 1. 48kb de mem. compartida. 16kb de mem. L1 cache. 64 KB 64 KB 64 KB 64 KB 64 KB 64 KB 64 KB 64 KB 768 KB Configuración 2. 16kb de mem. compartida. 48kb de mem. L1 cache. 64 KB 64 KB 64 KB 64 KB 64 KB 64 KB 64 KB 64 KB

96 Revisión de la arquitectura FERMI Espacio de direcciones de 40 bits

97 Revisión de la arquitectura FERMI Tercera generación de Streaming-Multiprocessor (SM) Grupos de 32 threads (internamente les llaman warp o urdimbre). Existen 2 despachadores de hilos. Se expiden 2 instrucciones a la ves a dos hilos diferentes (excepto si la instruccion es double). Cada instrucción se puede ejecutar en 16 cores, 16 LD/ST o en 4 SFU.

98 Revisión de la arquitectura FERMI

99 Revisión de la arquitectura FERMI Tabla de resumen

100 Taller: Introducción a GPU's y Programación CUDA para HPC PARTE III - ESTRUCTURA DE LOS PROGRAMAS CUDA

101 Aspectos relevantes del API de CUDA: Fácil y ligero El API es una extensión a ANSI C curva de aprendizaje suave El hardware está diseñado para habilitar un runtime y manejador ligero Alto desempeño 101

102 Estructura de un programa CUDA programa_generico.cu // Sentencias del precompilador #include <stdio.h> #include <stdlib.h> #include <cuda.h> #define N // Variables globales int vglobal; device float escalar; // Funciones en CPU void funcion1() {... } int funcion2(int a, int b) {... } // Funciones en GPU (kernels) device int funcionk(int a) { int resultado;... return resultado; } global void kernel1() {...} global void kernel2() {...} // Funcion principal int main(int argc, char **argv) {... }

103 Estructura de un programa CUDA El programa puede estar en varios módulos: módulos con código CUDA (.cu) módulos con código C++ (.cpp) módulos con código C (.c) Se compilan y ligan con nvcc tal y como si fuera cualquier compilador de C++ o C. Ejemplo % nvcc -o ejecu kernels.cu funciones.c main.c -lm -lc

104 Declaración de funciones CUDA device float DeviceFunc() global void KernelFunc() Se ejecuta en device device Sólo se invoca desde: device host host float HostFunc() host host global define una funcion kernel Debe regresar void

105 Estructura de un programa CUDA programa_generico.cu // Variables globales int vglobal; device float escalar; // Funciones en CPU void funcion1() {...; vglobal=valor;... } int funcion2(int a, int b) {... // llamado a kernel kernel1<<dimgrid,dimblock>>()... } // Funciones en GPU (kernels) device int funcionk(int a) { int resultado;... return resultado; } global void kernel1() { int a = escalar; } global void kernel2() {... r = funcionk(threadidx.x);... }

106 Estructura de un programa CUDA programa_generico.cu // Variables globales int vglobal; device float escalar; // Funciones en CPU void funcion1() {...; vglobal=valor;... } int funcion2(int a, int b) {... // llamado a kernel kernel1<<dimgrid,dimblock>>()... } // Funciones en GPU (kernels) device int funcionk(int a) { int resultado;... return resultado; } global void kernel1() { int a = escalar; } global void kernel2() {... r = funcionk(threadidx.x);... }

107 Proceso con código ejecutable cuda Datos globales y estáticos. Memoria dinámica Área de datos Código ejecutable. Código de CPU (funciones) Código de GPGPU (kernel... PTX) } Área de código Datos locales: argumentos y variables definidas en una función Área de pila 107

108 Declaración de funciones CUDA device functions - no se puede tener su dirección de memoria Para funciones ejecutadas en el device: No recursión No debe haber declaraciones de variables estáticas dentro de la función No pueden tener un número variable de argumentos

109 Llamado a una función de Kernel - Creación de hilos Una función de kernel debe llamarse con una configuración de ejecución: global void KernelFunc(...); dim3 DimGrid(100, 50); // 5000 thread blocks dim3 DimBlock(4, 8, 8); // 256 threads per block size_t SharedMemBytes = 64; // 64 bytes of shared memory KernelFunc<<< DimGrid, DimBlock, SharedMemBytes >>>(...); Cualquier llamado a una función de kernel function es asíncronca desde CUDA 1.0, se requiere de una síncronización explícita para el bloqueo.

110 Programa CUDA A nivel alto, tenemos un proceso principal el cual se ejecuta en el CPU y ejecuta los siguientes pasos: 1.Inicializa la tarjeta. 2.Asigna memoria en el host y en el device. 3.Copia datos del host al device. 4.Asinga multiples copias de kernel s de ejecución al device. 5.Copia datos de la memoria del device a la memoria del host. 6.Repite pasos 3 a 5 como sea necesario. 7.Libera memoria (del host y device ) y termina.

111 Ejecución de un proceso CUDA A nivel bajo, en el GPU: 1.Cada copia de ejecución de un kernel se ejecuta en un SM. 2.Si el número de copias excede el número de SM, entonces mas de una copia se ejecutará en un SM si existen recursos disponibles (registros y memoria compartida). 3.Cada hilo en una copia del kernel accesa a su propia memoria compartida, pero y no puede accesar a la memoria compartida de la copia. 4.No hay garantia del orden de ejecución de las copias del kernel.

112 Ejecución de un proceso CUDA A nivel bajo, en el GPU: 1.Cada copia de ejecución de un kernel se ejecuta en un SM. 2.Si el número de copias excede el número de SM, entonces mas de una copia se ejecutará en un SM si existen recursos disponibles (registros y memoria compartida). 3.Cada hilo en una copia del kernel accesa a su propia memoria compartida, pero y no puede accesar a la memoria compartida de la copia. SM1 SM2 SM3 SM4 4.No hay garantia del orden de ejecución de las copias del kernel.

113 EJEMPLOS - Mi primer programa CUDA Recuerde que hay código para el host y código para el device. primero.cu Código host int main(int argc, char **argv) { float *h_x, *d_x; // h=host, d=device int nblocks=2, nthreads=8, nsize=2*8; h_x = (float *)malloc(nsize*sizeof(float)); cudamalloc((void **)&d_x,nsize*sizeof(float)); my_first_kernel<<<nblocks,nthreads>>>(d_x); cudamemcpy(h_x,d_x,nsize*sizeof(float), cudamemcpydevicetohost); } for (int n=0; n<nsize; n++) printf(" n, x = %d %f \n",n,h_x[n]); cudafree(d_x); free(h_x);

114 EJEMPLOS - Mi primer programa CUDA Recuerde que hay código para el host y código para el device. primero.cu Código kernel //#include <cutil_inline.h> global void my_first_kernel(float *x) { int tid = threadidx.x + blockdim.x*blockidx.x; } x[tid] = threadidx.x;

115 Taller: Introducción a GPU's y Programación CUDA para HPC PARTE IV - EJEMPLOS Y EJERCICIOS

116 EJEMPLOS - Multiplicación de matrices Una simple ejemplo de multiplicación de matrices ilustra las características básicas de memoria y el manejo de hilos en programas CUDA. Usaremos sólo registros. Usaremos el identificador del usuario. Usaremos el API de transferencia de memoria entre host y el device. Por simplicidad, asumiremos que la matriz es cuadrada.

117 EJEMPLOS - Multiplicación de matrices C = A * B de tamaño n x n Un thread calcula un elemento de C A y B se cargan n veces desde la memoria global N B M A P C WIDTH n n WIDTH n WIDTH n WIDTH

118 EJEMPLOS - Multiplicación de matrices Almacenamiento en la memoria de una matriz, en C. M 0,0 M 1,0 M 2,0 M 3,0 M 0,1 M 1,1 M 2,1 M 3,1 M 0,2 M 1,2 M 2,2 M 3,2 M 0,3 M 1,3 M 2,3 M 3,3 M M 0,0 M 1,0 M 2,0 M 3,0 M 1,1 M 0,1 M 2,1 M 3,1 M 0,2 M 1,2 M 2,2 M 3,2 M 0,3 M 1,3 M 2,3 M 3,3

119 EJEMPLOS - Multiplicación de matrices PASO 1: La versión simple en C // Multiplicacion de matrices en el host (CPU) ( n void MatrixMulOnHost(float *A, float *B, float *C, int { } ( i ++ for (int i = 0; i < n; for (int j = 0; j < n; ++j) { } float sum = 0; for (int k = 0; k < n; ++k) { } float a = A[i * n + k]; float b = B[k * n + j]; sum += a * b; C[i * Width + j] = sum; M A i 119 N B P C j k WIDTH n n WIDTH k n WIDTH n WIDTH

120 EJEMPLOS - Multiplicación de matrices PASO 2: Transferencia de datos de la matriz de entrada void MatrixMulOnDevice(float *A, float *B, float *C, int n) { int size = n*n*sizeof(float); float *Ad, *Bd, *Cd; 1. // Asigna y carga M, N a la memoria //del dispositivo cudamalloc(&ad, size); cudamemcpy(ad, A, size, cudamemcpyhosttodevice); cudamalloc(&bd, size); cudamemcpy(bd, B, size, cudamemcpyhosttodevice); // Asigna P en el dispositivo cudamalloc(&cd, size);

121 EJEMPLOS - Multiplicación de matrices PASO 3: Transferencia de datos de la matriz de salida void MatrixMulOnDevice(float *A, float *B, float *C, int n) { int size = n*n*sizeof(float); float *Ad, *Bd, *Cd; 1. // Asigna y carga M, N a la memoria //del dispositivo cudamalloc(&ad, size); cudamemcpy(ad, A, size, cudamemcpyhosttodevice); cudamalloc(&bd, size); cudamemcpy(bd, B, size, cudamemcpyhosttodevice); 2. // Código de invocación al Kernel // - se muestra después 3. // Lee P del dispositivo cudamemcpy(c, Cd, size, cudamemcpydevicetohost); } // Libera las matrices del dispositivo cudafree(ad); cudafree(bd); cudafree(cd); // Asigna P en el dispositivo cudamalloc(&cd, size);

122 EJEMPLOS - Multiplicación de matrices PASO 4: Función del kernel // kernel de la multiplicacion matricial - por hilo global void MatrixMulKernel(float *A, float *B, float *C, int n) { } float tmp=0.0; for (int k=0; k<n; k++) { float Aelement=A[threadIdx.y*n+k]; } float Belement=B[k*n+threadIdx.x]; tmp += Aelement*Belement; C[threadIdx.y*n+threadIdx.x]=tmp; Md A k n WIDTH ty Nd B Pd C tx tx n WIDTH ty WIDTH n n WIDTH

123 EJEMPLOS - Multiplicación de matrices PASO 5: Invocación del Kernel (del lado del host ). // Se establece la configuración de ejecución dim3 dimgrid(1, 1); dim3 dimblock(n, n); // Asigna los hilos de ejecucion al dispositivo MatrixMulKernel<<<dimGrid, dimblock>>>(ad, Bd, Cd, n);

124 EJEMPLOS - Multiplicación de matrices Sólo se usa un bloque de hilos Sólo un bloque de hilos cálcula a la matriz Cd: Cada hilo calcula un elemento de Cd. Grid 1 Block 1 Thread )2, 2 ( Bd Cada hilo: Carga un renglón de la matriz Ad. Carg una columna de la matriz Ad. Realiza una multiplicación y una suma por cada par de elementos de Ad y Bd. 48 Tamaño de la matriz está limitado por el número de hilos permitidos en un bloque. WIDTH Ad Cd

125 Midiendo el tiempo de ejecución Uso de eventos. Se ejecutan desde el host // 1. Crea e inicializa las estructuras // de eventos cuda cudaevent_t start, stop; cudaeventcreate(&start); cudaeventcreate(&stop); // 2. Registra el evento inicial cudaeventrecord(start, 0); // 3. Ejecutar funciones de cuda // (asignar memoria, copiar datos, // llamar kernel s,... )

126 Midiendo el tiempo de ejecución Uso de eventos. Se ejecutan desde el host // 1. Crea e inicializa las estructuras // de eventos cuda cudaevent_t start, stop; cudaeventcreate(&start); cudaeventcreate(&stop); // 2. Registra el evento inicial cudaeventrecord(start, 0); // 3. Ejecutar funciones de cuda // (asignar memoria, copiar datos, // llamar kernel s,... ) // 4. Registra el evento final cudaeventrecord(stop, 0); cudaeventsynchronize(stop); // 5. Calcular y desplegar el tiempo // de ejecucion float elapsedtime; cudaeventelapsedtime(&elapsedtime, start, stop); printf( Tiempo %4.6f en milseg\n, elapsedtime); // 6. Dar de baja eventos cuda cudaeventdestroy(start); cudaeventdestroy(stop);

127 Ejercicios propuestos para el taller Suma de vectores (y matrices). Multiplicación de un escalar por una matriz. Método Gauss-Jordan para resolver un sistema de ecuaciones y para obtener la inversa de una matriz.

128 TALLER CUDA PARTE V - COOPERACION ENTRE HILOS

129 Ejecución de hilos #include <stdio.h> #define N (33 * 1024) global void add( int *a, int *b, int *c ) { int tid = threadidx.x + blockidx.x * blockdim.x; while (tid < N) { c[tid] = a[tid] + b[tid]; tid += blockdim.x * griddim.x; } }

130 Ejecución de hilos N esta definido por la cantidad add<<<128,128>>>(dev_a, dev_b, dev_c); Total de hilos (33792/16384) = add<<< 64,128>>>(dev_a, dev_b, dev_c); Total de hilos 8192 (33792/8192) = 4.125

134 Manejo de cache Kernel alineado Kernel disperso

135 Variables globales Variables que son visibles desde distintos kernels. Variables en la memoria del device, no en el host. Cualquier kernel puede hacer operaciones de Lectura/Escritura. Se pueden declarar arreglos de tamaño fijo.

136 Variables constantes Constantes que son visibles desde distintos kernels. constant float a[1024]; Se inicializan desde el host con la función cudamemcpytosymbol Cualquier kernel puede hacer operaciones de Lectura. Se pueden declarar arreglos de tamaño fijo.

137 Constantes Una constante es una variable cuyo valor se pone en tiempo de ejecución. Existen valores que se ponen en tiempo de compilación #define PI f a = b * 2.0f / PI; Estos valores se guardan en el área de código, no ocupan registro pues vienen en el flujo de instrucciones.

138 Registros Por omisión, variables locales de cada kernel se asignan a registros. FERMI:

139 Registros Por omisión, variables locales de cada kernel se asignan a registros. TESLA:

140 Registros

141 Registros El compilador transforma el vector a valores escalares

142 Memoria compartida Variables visibles por todos los hilos de un bloque. Se declaran dentro de un kernel. Puede ser una alternativa al uso de arreglos locales. Reduce el uso de registros cuando una variable tiene el mismo valor en todos los threads.

144 Reducción Operación producto interior <u,v>= N 1 i=0 u[i] v[i] Cada hilo hace una parte de la operación total y al final se suman los resultados parciales. En cuda podemos ver resultados parciales por hilo y por bloque.

145 Reducción Vector U Vector V

146 Reducción Vector U Vector V Bloque 1

147 Reducción Vector U Vector V Bloque 1 Bloque 2

148 Reducción Vector U Vector V Bloque 1 Bloque 2 Bloque 3

149 Reducción Vector U Vector V Bloque Bloque Bloque Bloque

150 Reducción Vector U Vector V Bloque Bloque Bloque Bloque Bloque

151 Reducción Vector U Vector V Bloque Bloque Bloque Bloque Bloque Bloque

152 Reducción Vector U Vector V Bloque Bloque Bloque Bloque Bloque Bloque Bloque

157 Reducción // Producto Punto const int N = 33*1024; const int threadsperblock = 256; const int blockspergrid = 32; global void dot(float *a, float *b, float *c) { shared float cache[threadsperblock]; int tid = threadidx.x + blockidx.x * blockdim.x; int cacheindex = threadidx.x; float temp = 0; while (tid < N) { temp += a[tid] * b[tid]; } tid += blockdim.x * griddim.x; } syncthreads(); int i = blockdim.x/2; while (i!= 0) { if (cacheindex < i) } cache[cacheindex] += cache [cacheindex + i]; syncthreads(); i /= 2; if (cacheindex == 0) { c[blockidx.x] = cache[0]; } cache[cacheindex] = temp;

158 Reducción

159 Bibiografía J. Sanders & E. Kandrot; CUDA by Example: An Introduction to General-Purpose GPU Programming; Addison-Wesley Professional, NVIDIA Corporation ; NVIDIA CUDA C, Programming Guide, Version 3.2, Septiembre NVIDIA Corporation ; NVIDIA CUDA, CUDA C Best Practices Guide, Version 3.2, Agosto NVIDIA Corporation ; The CUDA Compiler Driver NVCC; Agosto NVIDIA Corporation; NVIDIA CUDA, Reference Manual, Version 3.2 Beta, Agosto

160 Bibiografía D. Kirk & Wen-Mei W. Hwu; Programming Massively Parallel Processors: A Hands-on Approach; Morgan Kaufmann, Mike Giles; Course on CUDA Programming on NVIDIA GPUs, July NVIDIA Corporation; CUDA Presentation 4.0; Michael J. Quinn; Parallel Programming in C with MPI and OpenMP; McGrawHill, International Edition, Jack Dongara, et. al.; Sourcebook of Parallel Computing, Morgan Kaufmann Ed.;

161 Bibiografía Jack Dongara, et. al.; Sourcebook of Parallel Computing, Morgan Kaufmann Ed.; T.G. Mattson, B.A. Sanders, B.L. Massingill; Patterns For Parallel Programming; Addison Wesley, G.E. Karniadakis, R.M. Kirby II; Parallel Scientific Computing in C ++ and MPI; 2nd edition, Cambridge University Press,