Explotando el rendimiento de la GPU FLOPS pico en doble precisión

Transcripción

1 Rendimiento pico en GPU vs. CPU Explotando el rendimiento de la GPU FLOPS pico en doble precisión Curso de CUDA Málaga, 13 de Julio de 2017 GPU 6x mejor en double : Manuel Ujaldón GPU: 3000 GFLOPS CPU: 500 GFLOPS CAtedrático de Univ. de Málaga CUDA Nvidia Ancho de banda GPU 6x ancho de banda: 7 GHz x 48 bytes = 336 GB/s. 2 GHz x 32 bytes = 64 GB/s. 2 El ancho de banda en un viaje de Málaga a Madrid (500 km) GFLOPS frente a la velocidad de mi coche Máxima: Tiempo efectivo en tren: 250 km/h. Preliminares: 3 minutos. Viaje: 2 horas, 30 minutos. Salida: 2 minutos. TOTAL: 2 horas, 35 minutos. Media después de 10 años de uso: 50 km/h. 200 km/h Tiempo efectivo en avión: Regularmente utilizo mi coche al 20% de su rendimiento pico. Debería estar decepcionado? Preliminares: 90 minutos. Viaje: 50 minutos. Salida: 30 minutos. TOTAL: 2 horas, 50 minutos ( y aún estás muy lejos del centro!) km/h 4

2 El ritmo en la ejecución de instrucciones: Del SM de Femi al SMX de Kepler El multiprocesador SMX en detalle Planificación y emisión de instrucciones en warps Front-end Ejecución de instrucciones. 512 unidades funcionales: para aritmética entera para aritmética s.p para aritmética d.p para carga/almacen para SFUs (log,sqrt, ) Back-end Acceso a memoria Interfaz 5 6 Expresando todo el paralelismo Tetris (baldosa = warp_instr.): - Emite 4 warp_instrs. - Ejecuta hasta 10 warps = 320 hilos. - Warp_instrs. son simétricos y se ejecutan todos en 1 ciclo. Correspondencia de colores: para instrucciones int. para instrs. float. double. Emite 4 warp_instrs. load/store. log/sqrt. El jugador planifica los warps! Se pueden rotar las fichas si no hay dependencias entre sus 4 warps Ejecuta hasta 10 warp_instrs. instr. warp G80: Tarda 4 ciclos en ejecutar cada warp_instrs. G80: 16 U.F. Ejemplo: Kernel con bloques de 384 hilos (12 warps). Fermi: - Emite 2. - Ejecuta hasta 5. SM en Fermi: 100 U.F. paralelas. Bloque 0: Bloque 1: sub fmadd fdiv64 load sqrt Kepler: - Emite 4 warps x 2 instrs. - Ejecuta hasta 16 warp_instrs. (512 unidades funcionales). 6x32 = 192 ALUs 192 FPU SP 64 FPU DP SMX en Kepler: 512 U.F. paralelas. 32 SFU 32 LD/ST 7 Paralelismo en SMX: A nivel de hilo (TLP) y a nivel de instrucción (ILP) Incrementar paralelismo verticalmente con ILP: Si las instrs. son más independientes Incrementar el paralelismo horizontalmente a través del TLP: Más warps concurrentes (bloques más grandes y/o más bloques activos en cada SMX). Los SMX pueden potenciar el ILP disponible de forma intercambiable con el TLP: Es mucho mejor que Fermi para esto. Algunas veces es más fácil incrementar el ILP que el TLP (por ejemplo, desenrrollar un lazo en un pequeño factor): El número de hilos puede estar limitado por el algoritmo o los límites HW. Necesitamos el ILP para lograr un elevado IPC (Instrs. Per Cycle). 8

3 En las GPUs Kepler concurren todas las formas de paralelismo. Ejemplo: K40. Paralelismo dependiente del volumen de datos 2: De instrs. (ILP) 1: De tareas (TLP) 3: De datos (SIMD) 4: Vectorial (warp = 32) (todo este volumen representa menos, 60x15 warps) SMX 0 La K40 puede ejecutar hasta 512x15 = 7680 hilos en un ciclo si éstos son del color adecuado. SMX 15 La K40 puede planificar y emitir hasta 64x15 warps en un ciclo: hilos en 1.14 ns. Imagina un tetris 3D con 15 cubiletes y hasta 64 baldosas cayendo simultáneamente en cada uno de ellos, porque así funciona la K40 planificando warps con el máx. paralelismo. 9 El programa paralelo más elemental: Los bucles son paralelizables. Conocemos a priori la carga de trabajo. for (j=0; j<m; j++) convolution (i, j); El programa imposible más elemental: Desconocemos la carga de trabajo. El reto es su distribución (partición de datos). for (j=0; j<elementsonrow[i]; j++) convolution (i, j); N N max(elementsonrow[i]) Una solución mala: Supercómputo. Una solución peor: Serialización. M 10 Un desafío para los programadores CUDA: Realizado en 8 países hasta la fecha Puedes probar diversos operandos y operadores Qué hace el programa? Iterar en paralelo sobre cada elemento de una matriz dispersa comprimida por columnas. La matriz dispersa puede tener N=100 o N=200 columnas, cada una con un número distinto de elementos no nulos. Se computan bucle i numops sobre cada elemento. for (j=colptr[i]; j<colptr[i+1]; j++) for (k=0;k<numops;k++) value[j] += value[j]; Todos los bucles son forall. La carga computacional se desconoce en tiempo de compilación. El desafío es la partición de datos: bucle j max(elementsoncol[i]) Desplegar streams, kernels, bloques e hilos astutamente. N 11 int float double 6x32 = 192 ALUs 192 FPU SP 64 FPU DP SMX en Kepler: 512 U.F. paralelas. Procesamiento de matrices dispersas 32 SFU 32 LD/ST int float double values[numelements]; for all elements assigned to each thread: for numops. to be done on each element values[i] *= values[i]; Cambiar el operador a más sencillo (suma) o más complejo (división) también afectará según la latencia de cada operación. 12

4 Utilizar el CUDA Visual Profiler para conocer qué tal se adapta nuestra aplicación Y hay que elegir la estrategia de paralelización ganadora Procesamiento de matrices dispersas D 3: 2: De instrs. (ILP) 1: De tareas (TLP) e s to da D) M I (S Estrategia base: 13 La relación entre nuestro juego (SW) y el front-end y back-end de la GPU (HW) 4: Vectorial (warp = 32) Nuestro código recorre toda la matriz, realizando operaciones con cada elemento de forma independiente. Lanzaremos un kernel CUDA por cada columna de la matriz. Cada kernel tendrá el menor número posible de bloques. Cada bloque tendrá el mayor número posible de warps. 14 Las instrucciones para el concurso están en nuestra web:

5 Cómo crear los streams. Un ejemplo con 3 streams, cada uno compuesto de 3 kernels Cómo se representa una matriz dispersa en formato comprimido por columnas (CCS) stream 1 stream 2 stream 3 global kernel_a(pars) {body} // Same for BZ cudastream_t stream_1, stream_2, stream_3; cudastreamcreatewithflags(&stream_1, ); cudastreamcreatewithflags(&stream_2, ); cudastreamcreatewithflags(&stream_3, ); kernel_a <<< dimgrida, dimblocka, 0, stream_1 >>> (pars); kernel_b <<< dimgridb, dimblockb, 0, stream_1 >>> (pars); kernel_c <<< dimgridc, dimblockc, 0, stream_1 >>> (pars); kernel_p <<< dimgridp, dimblockp, 0, stream_2 >>> (pars); kernel_q <<< dimgridq, dimblockq, 0, stream_2 >>> (pars); kernel_r <<< dimgridr, dimblockr, 0, stream_2 >>> (pars); kernel_x <<< dimgridx, dimblockx, 0, stream_3 >>> (pars); kernel_y <<< dimgridy, dimblocky, 0, stream_3 >>> (pars); kernel_z <<< dimgridz, dimblockz, 0, stream_3 >>> (pars); stream_1 kernel_a kernel_b kernel_c stream_2 kernel_p kernel_q kernel_r stream_3 kernel_x kernel_y kernel_z Ejemplo para una matriz 5x5: Índices de fila colptr value 0 3 número de elementos en cada columna (acumulados) según se recorren verticalmente rowidx for (j=colptr[i]; j<colptr[i+1]; j++) value[j] += value[j]; posición horizontal de cada valor Para esta estructura de datos, así recorremos la matriz: Matrices dispersas que se pueden usar (tomadas de la colección Matrix Market) Área científica Filas de la matriz Columnas de la matriz Elementos no nulos Carga de trabajo Economía Demografía Oceanografía Física cuántica Álgebra lineal Procesamiento de imágenes Astrofísica Bioquímica Base x Base x Base x Base Base x Base x Base x Base Nombres usados para las matrices: mat-f-c-n.rua, donde F, C y N son el número de filas, columnas y no-nulos. Ejemplo: La primera matriz se llama mat k.rua

6 Las 10 mejores optimizaciones realizadas por los estudiantes 1. Incrementar el número de operaciones por elemento (1024). 2. Incrementar el tamaño de la matriz dispersa (máx. 69M). 3. Cambiar el operador (add/sub/mul/div). 4. Cambiar el operando (int/float/double). 5. Optimizar el tamaño de bloque (384 hilos por bloque). 6. Agrupar bloques en kernels y éstos en streams para expresar más paralelismo. 7. Optimizar los accesos a memoria usando registros y memoria compartida. 8. Guiar al compilador a través de directivas #pragma unroll. 9. Sacar provecho a la operación madd. 10. Usar instrucciones vectoriales para explotar (x,y,z,w) y (r,g,b,a). 21 Rendimiento logrado sobre GeForce GTX480 [techo: 1330 GFLOPS sobre floats (32-bit)] Punto de partida Optimización Acceler. Rendimiento 1. Incrementar el número de operaciones por elemento (<1024) 2. Usar una matriz más grande (hasta no-ceros) 3. Elegir el operador de suma (add) 4. Sustituir el operando double (64-bits) por float (32-bit) 5. Sintonizar el tamaño de bloque (384 hilos) 6. Agrupar los kernels en streams 7. Optimizar los accesos a memoria usando la compartida y regs. 8. Desenrollar el lazo con directivas de compilación #pragma 9. Habilitar el operador FMADD (fused multiply-add) 10. Activar el procesamiento vectorial en las operaciones (4 en 1) 1.2 Saturar el número de operaciones (hasta 1M) 8.2 Saturar el factor de desenrollado del lazo (hasta 4096) 2.2 Generar una matriz enorme que explote la escalabilidad 2.3 Adaptar la matriz a la estructura del paralelismo CUDA GFLOPS x 0.20 GFLOPS x GFLOPS 1.00 x GFLOPS 1.89 x GFLOPS 1.00 x GFLOPS 1.00 x GFLOPS 3.19 x GFLOPS 4.07 x GFLOPS 2.15 x GFLOPS 1.00 x GFLOPS 1.02 x GFLOPS 1.01 x GFLOPS 1.02 x GFLOPS 1.01 x GFLOPS 22 Observaciones finales Observaciones finales No empleamos contadores de rendimiento para medir los GFLOPS en el programa del concurso. Verás la fórmula: GFLOPS attained = (nops. performed) / (elapsed time) No obstante, bajo ciertas estrategias de optimización, se permite cambiar la fórmula para contabilizar tus logros. En caso de que creas que tienes derecho a modificar dicha fórmula, consúltame! 23 Conflicto: Las comunicaciones gastan más energía que la computación, pero necesitamos intensidad operacional para que los chips exploten los GFLOPS. No pierdas de vista las latencias, tienen un peso creciente (frente al ancho de banda). Las aplicaciones científicas han evolucionado históricamente tratando de minimizar la interacción con memoria. Los GFLOPS pico no son un estimador fiable del rendimiento. La GPU requiere un esfuerzo del programador para apurar el rendimiento pero éste se amortiza con los años gracias a su escalabiidad. 24