Librería Thrust. Clase 4.

Tamaño: px

Comenzar la demostración a partir de la página:

Download "Librería Thrust. Clase 4. http://fisica.cab.cnea.gov.ar/gpgpu/index.php/en/icnpg/clases"

Guillermo Correa Páez
hace 8 años
Vistas:

1 Librería Thrust Clase 4

2 Hasta aquí... CUDA C/C++ Control de bajo nivel del mapeo al hardware Desarrollo de algoritmos de alta performance. cálculos ejecución en hilos en el device global void mi_kernel(...) { extern shared smem[]; int i =??? // y aqui que hago??? }... int B =???; int N =???; int S =??? mi_kernel<<<b,n,s>>>();

3 Problema a Resolver Numerica y concurrentemente Librerías para Cuda ALTO NIVEL Próximas clases... Curso hasta ahora BAJO NIVEL (drivers) Podemos delegar ciertas implementaciones...

Tareas muy especiales o muy simples, o que requieran un control total Tareas que se Descomponen en Parallel Patterns fundamentales Algebra lineal, Transformadas, Etc.

4 Tareas muy especiales o muy simples, o que requieran un control total Tareas que se Descomponen en Parallel Patterns fundamentales Algebra lineal, Transformadas, Etc. Productividad de codigo : No reinventar la rueda, delegar ciertas implementaciones de tareas comunes a libs optimizadas. Dedicar nuestro tiempo/esfuerzo/creatividad un poco menos al como y mas al que calcular... (reducir el tiempo de programacion)

Productividad de codigo : No reinventar la rueda, delegar ciertas implementaciones de tareas comunes a

5 Librería Thrust Clase 6

6 Que es Thrust? excelente documentación, muchos ejemplos

7 Necesito Thrust? Para que/quien es? Parte del actual toolkit de cuda Thrust facilita la escritura de código en CUDA C/C++ (ver CUDA Application Design and Development de Rob Farber)

toolkit de cuda https://developer.nvidia.

8 Ejemplos de clase ejemplos]$ cp -r /share/apps/codigos/alumunos_icngp2015/clase_thrust.

9 Ejemplos de clase clase_thrust]$ nvcc xxxxx.cu clase_thrust]$ qsub submit.sh ejemplos]$ more script.sh #! /bin/bash # #$ -cwd #$ -j y #$ -S /bin/bash ## pido la cola gpu.q #$ -q gpu.q ## pido una placa #$ -l gpu=1 # #ejecuto el binario./a.out

sh [koltona@gpgpu-fisica ejemplos]$ more script.sh #!

10 Suma de arrays paralela en la GPU #include <thrust/device_vector.h> #include <thrust/transform.h> using namespace thrust::placeholders; int main() { thrust::device_vector<float> x(4), y(4); x[0] = 1; x[1] = 2; x[2] = 3; x[3] = 4; suma.cu y[0] y[1] y[2] y[3] = = = = 4; 3; 2; 1; CudaMalloc?, CudaFree? CudaMemCpy? Kernel? thrust::transform(x.begin(), x.end(), y.begin(), y.begin(), _1 + _2 ); // y[] es ahora {5, 5, 5, 5} --> HANDS-ON: comprobar! }

2; x[2] = 3; x[3] = 4; suma.cu y[0] y[1] y[2] y[3] = = = = 4; 3; 2; 1; CudaMalloc?, CudaFree? CudaMemCpy?

11 Combinación lineal de arrays #include <thrust/device_vector.h> #include <thrust/transform.h> using namespace thrust::placeholders; saxpy.cu int main() { thrust::device_vector<float> x(4), y(4); x[0] = 2; x[1] = 4; x[2] = 6; x[3] = 8; y[0] = 4; y[1] = 3; y[2] = 2; y[3] = 1; float a=0.5; thrust::transform(x.begin(), x.end(), y.begin(), y.begin(), a*_1 + _2 ); // y[] ahora es {5, 5, 5, 5} --> HANDS-ON: comprobar! }

$cu int main() { thrust::device_vector<float> x(4), y(4); x[0] = 2; x[1] = 4; x[2] = 6; x[3] = 8; y[0] =$

12 Transformación arbitraria de dos arrays #include <thrust/device_vector.h> #include <thrust/transform.h> struct mi_operacion { device float operator()(float a, float b) { return sqrt(a+b); } }; int main() { transforma.cu thrust::device_vector<float> x(4), y(4); x[0] = 1; y[0] = 4; // sqrt(1+4)=sqrt(5)= X[1] = 2; y[1] = 3; x[2] = 3; y[2] = 2; X[3] = 4; y[3] = 1; thrust::transform(x.begin(), x.end(), y.begin(), y.begin(),mi_operacion()); // HANDS-ON: da bien? }

cu thrust::device_vector<float> x(4), y(4); x[0] = 1; y[0] = 4; // sqrt(1+4)=sqrt(5)=2.

13 Normalización de un array #include <thrust/device_vector.h> #include <thrust/transform.h> #include <thrust/reduce.h> struct mi_operacion // normaliza por N { float Norm; mi_operacion(float suma){norm=suma;}; device float operator()(float a) { return a/norm; } }; normaliza.cu int main() { thrust::device_vector<float> x(4), y(4); x[0] = 2; x[1] = 4; x[2] = 3; x[3] = 1; float suma = thrust::reduce(x.begin(), x.end()); thrust::transform(x.begin(), x.end(), x.begin(),mi_operacion(suma)); // HANDS-ON: chequear que este normalizado... }

$cu int main() { thrust::device_vector<float> x(4), y(4); x[0] = 2; x[1] = 4; x[2] = 3; x[3] = 1; float suma = thrust::reduce(x.$

14 Normalización de un array (versión 2) #include <thrust/device_vector.h> #include <thrust/transform.h> #include <thrust/reduce.h> using namespace thrust::placeholders; normaliza2.cu int main() { thrust::device_vector<float> x(4), y(4); x[0] = 2; x[1] = 4; x[2] = 3; x[3] = 1; float suma = thrust::reduce(x.begin(), x.end()); thrust::transform(x.begin(), x.end(), x.begin(),_1/suma); // HANDS-ON: chequear que este bien normalizado... }

$cu int main() { thrust::device_vector<float> x(4), y(4); x[0] = 2; x[1] = 4; x[2] = 3; x[3] = 1; float suma$

15 Normalización de un array (versión 3) #include <thrust/device_vector.h> #include <thrust/transform.h> #include <thrust/reduce.h> normaliza3.cu global void kernel_normaliza(float *x, float suma, int dim) { int id = threadidx.x + (blockidx.x * blockdim.x); if (id < dim){ x[id] = x[id]/suma; } } int main() { thrust::device_vector<float> x(4); x[0] = 2; x[1] = 4; x[2] = 3; x[3] = 1; float suma = thrust::reduce(x.begin(), x.end()); float * x_ptr = thrust::raw_pointer_cast(&x[0]); kernel_normaliza<<<1,4>>>(x_ptr,suma,4); // HANDS-ON: chequear que este normalizado... } Interoperabilidad

$x); if (id < dim){ x[id] = x[id]/suma; } } int main() { thrust::device_vector<float> x(4); x[0] = 2; x[1] = 4; x[2] = 3; x[3] = 1; float suma =$

16 Normalización de un array (versión 4) #include <thrust/device_ptr.h> #include <thrust/device_free.h> #include <thrust/transform.h> #include <thrust/reduce.h> using namespace thrust::placeholders; int main(void) { float *raw_ptr; cudamalloc((void **)&raw_ptr, 4*sizeof(float)); thrust::device_ptr<float> x(raw_ptr); x[0] = 2; x[1] = 4; x[2] = 3; normaliza4.cu x[3] = 1; float suma = thrust::reduce(x, x+4); thrust::transform(x,x+4,x,_1/suma);// en CPU o GPU? // HANDS-ON: chequear que este bien normalizado... thrust::device_free(x); return 0; } Interoperabilidad

$h> using namespace thrust::placeholders; int main(void) { float *raw_ptr; cudamalloc((void **)&raw_ptr, 4*sizeof(float));$

17 Ejemplos de la librería ejemplos]$ cp /share/apps/codigos/thrust_examples/xxxxx.cu. ejemplos]$ nvcc xxxxx.cu ejemplos]$ qsub script.sh ejemplos]$ more script.sh #! /bin/bash # #$ -cwd #$ -j y #$ -S /bin/bash ## pido la cola gpu.q #$ -q gpu.q ## pido una placa #$ -l gpu=1 # #ejecuto el binario./a.out

cu [koltona@gpgpu-fisica ejemplos]$ qsub script.sh [koltona@gpgpu-fisica ejemplos]$ more script.

18 Overview de thrust //#includes... int main(void) { // generate 32M random numbers serially thrust::host_vector<int> h_vec(32 << 20); std::generate(h_vec.begin(), h_vec.end(), rand); // transfer data to the device thrust::device_vector<int> d_vec = h_vec; // sort data on the device (846M keys per second on GeForce GTX 480) thrust::sort(d_vec.begin(), d_vec.end()); // transfer data back to host thrust::copy(d_vec.begin(), d_vec.end(), h_vec.begin()); return 0; }

19 Que tipo de algoritmos tiene Thrust? Parallel building blocks

20 Calcula la suma Vale para int, float, double,o cualquier tipo de dato con la operación + bien definida...

21 > > > > > 7 > 6 > 7 A > B = (A>B)?(A):(B) Calcula el máximo Vale para int, float, double,o cualquier tipo de dato con la operación > bien definida...

22 play play play play play play Mutua Madrid Open Spain Draw: 64 Surface: Clay Prize Money: 3,090, partidos en 6 jornadas ATP MADRID: 64 players 63 partidos en 6 jornadas Name: Roland Garros Category: Grand Slam Place: Paris, France Date: Draw Size: S-128 D-64 Calcula el campeón log_2(n) operaciones: Grand-Grand-Slam: 2^20 = jugadores solamente 20 jornadas!!!

23 Reducción genérica en Thrust Cualquier operacion binaria asoc. y conmutativa (+,-,*, max, min, etc, o user-defined) Generic algorithms definida sobre cualquier estructura de datos (int, float, etc, o user-defined), Viva en el HOST o en el DEVICE (GPU)

24 Thrust Thrust Content from GTC 2012: Nathan Bell Principales desarroladores: Jared Hoberock y Nathan Bell

25 Thrust Thrust Content from GTC 2012: Nathan Bell

26 Thrust Thrust Content from GTC 2012: Nathan Bell

27 Thrust MISMO código Corre en CPU Multicore!! Thrust Content from GTC 2012: Nathan Bell Delegamos la implementación de bajo nivel o mapeo al hardware a la librería

28 Thrust Portability: Hands on! Un solo codigo fuente dos ejecutables nvcc -O2 -o miprog_cpu miprog.cu -Xcompiler -fopenmp -DTHRUST_DEVICE_SYSTEM=THRUST_DEVI CE_SYSTEM_OMP -lgomp #! /bin/bash #$ -cwd nvcc -O2 -o miprog_gpu miprog.cu #! /bin/bash #$ -cwd #$ -j y #$ -j y #$ -S /bin/bash #$ -S /bin/bash #$ -q cpu.q #$ -q gpu.q #$ -pe neworte 14 #$ -l gpu=1 export OMP_NUM_THREADS=$NSLOTS echo "nro threads omp = " $OMP_NUM_THREADS./miprog_cpu./miprog_gpu

29 Thrust Portability: Hands on! cp miprog.cu miprog.cpp //extension para g++ g++ -O2 -o miprogcpu miprog.cpp -fopenmp -DTHRUST_DEVICE_SYSTEM=THRUST_DEVICE_SYSTEM_OMP -lgomp -I<path-to-thrust-headers> No necesitan el cuda toolkit para desarrollar, compilar y correr sus codigos (claro, si estos usan solo thrust). Solo copiar los headers de thrust. Pueden comparar aceleración del calculo paralelo en distintas CPU multicore, y cambiar la variable OMP_NUM_THREADS. Cuando tengan acceso a una placa, pueden comparar la aceleración simplemente recompilando con nvcc. TODO CON EL MISMO CODIGO.

30 Thrust CUDA Toolkit 5.0 Performance Report

31 Ejemplo: reducción OMP vs GPU Tareas: hacer la suma de N numeros random, usando thrust::generate y thrust::reduce. Encontrar el minimo de N numeros random, usando thrust::generate y thrust::reduce.

32 Thrust Thrust Content from GTC 2012: Nathan Bell La mayoría son Parallel primitives Thrust se puede usar para alivianar la escritura de gran parte del código: Alocación de memoria, copias, y composición de patrones paralelas.

33 Limitaciones de Thrust Review de M. Harris en: GTC 2012 Nathan Bell Usualmente en Cuda C/C++ o librerias nuevas de mas bajo nivel que Thrust como CUB

34 Resumen Review de M. Harris en: THRUST IS HIGH LEVEL THRUST IS INTEROPERABLE AND PORTABLE THRUST IS HIGH PERFORMANCE THRUST IS OPEN SOURCE THRUST IS CUSTOMIZABLE LIMITATIONS OF THRUST (DESACTUALIZADO)

Documentos relacionados

SUMA de Vectores: Hands-on

SUMA de Vectores: Hands-on Clase X http://fisica.cab.cnea.gov.ar/gpgpu/index.php/en/icnpg/clases Algunas preguntas practicas (1) Que pasa si los vectores a sumar son muy grandes? (2) Como saber en que