Factores de Rendimiento en Entornos Multicore

Transcripción

1 Factores de Rendimiento en Entornos Multicore César Allande Álvarez Computer Architecture & Operating Systems Department (CAOS) Barcelona, Spain Director: Eduardo César Galobardes 14 de julio de 2010

2 Índice Introducción Objetivos Desarrollo del Estudio Análisis y Experimentación Conclusiones Trabajo actual y Líneas abiertas

3 Introducción Qué? Integración de sistemas multicore en HPC Por qué? Mejora deeficiencia eficiencia, rendimiento y consumo Cómo? Sintonizando aplicaciones paralelas Teniendo en cuenta el modelo de programación Teniendo en cuenta la arquitectura Considerando el patrón de comportamiento de la aplicación

4 Introducción Multicore en HPC? Multicore está implantado en HPC 3% 0% 1% 1% 4% Top 500 Supercomputers June 2010 Number of Cores per processor 46% 45% single core dual / 2 core 4 core 6 core 8 cores 9 cores (8+1) 12 cores

5 Introducción Ley de Moore La potencia de los ordenadores se duplica cada dos años, reduciendo además su coste. Ley de Amdahl Ley de Gustafson El incremento de velocidad de un programa utilizando múltiples procesadores en computación distribuida está limitadai por la fracción secuencial ildl del programa Cualquier problema suficientemente grande puede ser eficientemente paralelizado Kill Rule Se debe incrementar el tamaño del recurso solamente si por cada 1% de aumento del área se obtiene al menos un 1% de mejora de rendimiento del core

6 Introducción Taxonomía multicore ia Prin ncipal Memor Procesador Core Core Arquitectura Multicore vs. Manycore Homogénea / Heterogénea Interconexión Comunicación Topología Acceso a Memoria compartida Sección Crítica Transaccional Modelos de programación Paralelismo de datos Paralelismo funcional

7 Introducción Taxonomía multicore ia Prin ncipal Memor Procesador Core Core Arquitectura Multicore Arquitectura vs. Manycore Homogénea / Heterogénea Interconexión Escalabilidad Comunicación cores + complejos (multicore) + cores complejos lj (manycore) Topología Acceso Tipos a Memoria de cores compartida (funcionalidad) Sección Homogéneos Crítica Transaccional Intel Core Modelos Heterogéneos de t programación é Paralelismo PPE de & datos SPE (PowerXCell) Paralelismo funcional

8 Introducción Taxonomía multicore ia Prin ncipal Memor Procesador Core Core Interconexión Arquitectura Multicore Comunicación vs. Manycore intracore Homogénea Memoria / Heterogénea compartida Interconexión Paso de mensajes Comunicación rmpi Topología Acceso Topologías a Memoria (Network compartida On Chip) Sección Bus, Crítica anillo Transaccional Mallas, Crossbar, switched Modelos networks de programación Paralelismo Jerárquica de datos por niveles (mixta) Paralelismo funcional

9 Introducción Taxonomía multicore ia Prin ncipal Memor Procesador Core Core Arquitectura Multicore vs. Manycore Homogénea / Heterogénea Acceso a memoria Interconexión Comunicación compartida (Gestión del dlacceso concurrente) t) Topología Acceso Secciones a Memoria Críticas compartida Sección Alta Crítica latencia Transaccional Modelos Memoria de programación Transaccional Paralelismo Ejecución de datos especulativa Paralelismo funcional

10 Introducción Taxonomía multicore ia Prin ncipal Memor Procesador Core Core Arquitectura Paradigmas Homogénea / de Heterogénea programación ( cores+complex)vs(+cores complex) ( p ) Paralelismo Interconexión de datos Topología Unidad: thread Comunicación Gestión: nivel de S.O. o usuario Acceso Ejemplos: a Memoria Pthreads, OpenMP 2.5 Sección Crítica Paralelismo Transaccional funcional Unidad:tarea Software Gestión: DAGs Threads Ejemplos: Cilk, OpenMP v3.0, *Ss Tasks

11 CAOS

12 Definir un marco de trabajo acotado Paradigma de programación paralela basado en OpenMP v2.5 Paralelismo de datos Herramientas de acceso concurrente a memoria Planificación de threads a nivel de Sistema Operativo Procesadores homogéneos Dual(2 cores) memoria compartida jerárquica L2 unificada (2MB) L1 datos e instrucciones (32KB) Asociatividad por bloques (8 vías)

13 Objetivos Objetivos Identificar factores de rendimiento Estudio de los parámetros sintonizables i de una API multicore Et Estudio del dlpatrón tó de comportamientos t de una aplicación y evaluación de los factores de rendimiento

14 Desarrollo del Estudio Análisis OpenMP de GNU Compilador GCC conversión pragmas a llamadas libgomp Detectar factores de rendimiento en OpenMP Scheduling Static Dynamic Guided Selección de Aplicaciones Paralelas y Experimentación Segmentación imágenes RMI Paralelismo de grano grueso Herramientas de medición de rendimiento Profilers ompp Librería libgomp (OpenMP runtime) Librerías POSIX Thread Acceso memoria Critical Atomic Reduction Localidad de los datos Afinidad Chunksize Multiplicación de matrices Multiplicación de matrices por bloques Contadores Hardware PAPI

15 Análisis I - factor de rendimento planificación de la carga de trabajo Scheduling Static Dynamic Guided Gestión de planificación de la carga de trabajo La sintonización de las políticas de balanceo de carga puede ser determinante para el rendimiento de la aplicación

16 Análisis I Scheduling I (static) WorkLoad = Iteraciones / Num Threads Scheduling Static Dynamic Guided Core 1 Core 2 Core 3 Core 4 Tiempo

17 Análisis I Scheduling II (dynamic) WorkLoad = Chunksize (1) Scheduling Static Dynamic Guided Core 1 Core 2 Core 3 Core 4 Tiempo

18 Análisis I Scheduling III (guided) WorkLoad = Remaining iterations / Num Threads Scheduling Static Dynamic Guided Core 1 Core 2 Core 3 Core 4 Tiempo

19 Experimentación I scheduling - segmentación RMI (I) 6 T. Ejecución (umbral de precisión 0.001) imagen RMI rmci JBC JBC_12.dat Scheduling Static Dynamic Guided Segundos Número de corte

20 Experimentación I scheduling - segmentación RMI (II) Segmentación de imágenes carga desbalanceada (convergencia) 140 Scheduling Static Dynamic Guided Segundo os 80 static 60 dynamic 40 guided Número de Threads

21 Segundo os Experimentación I scheduling - segmentación RMI (II) ,4% 3,2% Segmentación de imágenes carga desbalanceada (convergencia) 7,2% 4,2% 3,5% 1,5% 0, ,04 Scheduling Static Dynamic Guided static dynamic 68 guided Número de Threads

22 Experimentación I scheduling - segmentación RMI (III) 25 T. Ejecución Distribución (145 iteraciones) imagen RMI rmci JBC JBC_12.dat Scheduling Static Dynamic Guided 20 Segundo s Númerode corte

23 Experimentación I scheduling - segmentación RMI (IV) Segmentación de imágen carga desbalanceada (límite 145 iteraciones) 400 Scheduling Static Dynamic Guided Segundo os static dynamic guided Número de Threads

24 Segundo os Experimentación I scheduling - segmentación RMI (IV) Segmentación de imágen Overhead carga desbalanceada (límite 145iteraciones) 43.4% 21,78% 21,80% 0.65% 3.41% 0.1% 3,95% 0.02% 02% Scheduling Static Dynamic Guided static dynamic guided Número de Threads

25 Análisis II - factor de rendimiento acceso concurrente a memoria Acceso memoria Critical Atomic Reduction Sincronización de hilos El mecanismo de sincronización de acceso a memoria compartida genera una sobrecarga que afecta al rendimiento

26 Análisis II sincronización de acceso a memoria Acceso memoria Critical Atomic Reduction critical atomic reduction

27 Segund dos Experimentación II sincronización Mat. Mul. (400x400) T. Ejecución Multiplicación de Matrices (400x400) Acceso memoria Critical Atomic Reduction critical reduction atomic 3 serie Número de threads

28 Experimentación II sincronización Mat. Mul. (400x400) T. Ejecución Multiplicación de Matrices (400x400) 0,7 Acceso memoria Critical Atomic Reduction 0,6 0,5 Segund dos 0,4 0,3 0,2 ideal reduction serie especulativo 0, Número de threads

29 Análisis III - factor de rendimiento localidad espacial y temporal Localidad de los datos Afinidad Chunksize Localidad de los datos Las estructuras jerárquicas de memoria con diferentes niveles de latencia y etapas de acceso a los datos se benefician de la localidad espacial y temporal

30 Análisis III - Localidad de los datos Localidad de los datos Afinidad Chunksize L1 L1 L1 L1

35 Experimentación III localidad datos Mat.Mul Mul x Bloques Multiplcación de Matrices por Bloques Tiempo total de ejecución 14 Localidad de los datos Afinidad Chunksize dos Segun Tiempo Exec X 1024 (serie) 512 x x x x x x 16 8 x 8 4 x 4 2 x 2 1 x Tamaño del bloque / Número de bloques

36 Experimentación III localidad datos Mat.Mul Mul x Bloques Fallos de Cache L2, L1 Datos y L1 Instrucciones 1,00E+08 Localidad de los datos Afinidad Chunksize Caché 1,00E+07 1,00E+06 Fallos de Nú úmero de 1,00E+05 1,00E+04 1,00E+03 1,00E+02 1,00E+01 Caché L1 Datos Caché L2 unificada Caché L1 Instrucciones 1,00E X 512 x 256 x 128 x 64 x x x 16 8 x 8 4 x 4 2 x 2 1 x (serie) Tamaño del lbl bloque / Número de bloques

37 Experimentación III localidad datos Mat.Mul Mul x Bloques Localidad de los datos Afinidad Chunksize Modificación del algoritmo para ajustar el acceso a datos para 2 niveles de caché Bloques de 64x64 elem (256 KB), ajuste L2 Sub bloques de 2x2 elem.(4kb), ajuste L1.

38 Experimentación III localidad lid d datos Mat.Mul M x Bloques (mejora) ) matriz C Localidad de los datos Afinidad Chunksize matriz A matriz B

39 Porcen ntaje de Ganancia Experimentación III localidad datos Mat.Mul Mul x Bloques 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% Porcentaje de Ganancia Mat.Mul vs Mat.Mul. Optimizada a Cache 96% 84% 85% 87% 84% Localidad de los datos Afinidad Chunksize MatMul Opt. 0% Tiempo Ciclos Fallos cache Fallos caché Fallos caché L1 Instr. L1 datos L2

40 Conclusiones (I) () Se han estudiado d factores de rendimiento i para un entorno multicore Se ha estudiado la implementación GNU OpenMP que ha permitido detectar factores de rendimiento del modelo de programación Se ha analizado el patrón de comportamiento de varias aplicaciones, y se ha evaluado el impacto de sintonizar factores de rendimiento

41 Conclusiones (II) Shdli Scheduling de la carga de trabajo. bj Sintonización: dificultad moderada. No se ha conseguido mejorar el rendimiento i modificando d el tipo de planificación para diferentes cargas de trabajo Static. Poca adaptación con carga desbalanceada Guided y Dinamic. Consiguen balanceo de carga Sincronismo de acceso concurrente a memoria. Sintonización: depende de la funcionalidad. Los primitivas ofrecen diferente latencia y flexibilidad Existe un overhead en la utilización de OpenMP.

42 Conclusiones (III) Localidad de los datos Sintonización: dificultad alta Efectuando un cambio en la granularidad de los datos por fuerza bruta, no se ha conseguido una mejora significativa Sintonizando la aplicación para hacer un ajuste en los dos niveles de caché, se ha conseguido una ganancia de 6x. (respecto a la versión paralela previa)

43 Trabajo actual y Líneas abiertas Trabajo actual Ejecución en un entorno Quad (o más cores), para evaluar el rendimiento en la definición de grupos afines en una jerarquía de memoria modular Líneas abiertas Continuar con el estudio de impacto de los factores que afectan al rendimiento Estudiar la posibilidad de alterar parámetros de la aplicación de forma dinámica para mejorar su rendimiento Estudiar los factores que será necesario monitorizar para dt detectar t los problemas de rendimiento i Sentar las bases que permitan definir un modelo de rendimiento para entornos multicore

44 Gracias por vuestra atención!

45 Experimentación IV localidad datos Mat.Mul Mul x Bloques Localidad de los datos Afinidad Chunksize Tam Bloque Tiempo Ciclos Cache L1 Fallos Instr. Cache L1 Fallos Datos Cache L2 Fallos 64x 64 6,24 seg. 1,62E+10 3,86E+03 3,40E+07 4,79E x 64 opt. 0,956 seg. 2,42E+09 4,75E+02 1,10E+06 7,41E+04