ARQUITECTURA DE SISTEMAS PARALELOS I. 4º INGENIERÍA INFORMÁTICA. PRÁCTICA 3.

Transcripción

1 ARQUIECURA DE SISEMAS PARALELOS I. 4º INGENIERÍA INFORMÁICA. PRÁCICA 3. BLOQUEOS DE COROL, DESENROLLADO DE BUCLES Y PREDICCIÓN DINÁMICA DE SALOS. OBJEIVOS. En esta práctica se trata de estudiar teóricamente, y manejar el simulador WinDLX, para analizar una de las técnicas estáticas más potentes para reducir los ciclos de bloqueo de datos y de control: el desenrollado de bucles. ambién usaremos la herramienta Visual BB para estudiar y comprender la técnica dinámica de predicción de saltos BB, analizando los demás tipos de técnicas de predicción. odo lo anterior estará sometido a una fase de optimización, basada en técnicas simples como reordenación de código, supresión de dependencias con gasto de nuevos registros, etc., que intentará minimizar en lo posible los ciclos de bloqueo. IRODUCCIÓN EÓRICA 1.- Desenrollado de bucles Vamos a usar como ejemplo el bucle SAXPY con multiplicación (ver anexo 1) y analizaremos los bloqueos de control que se producen en la herramienta de simulación WinDLX. Analizaremos teóricamente (en papel) cómo se comportarían procesadores DLX con la implementación hardware de otras soluciones y entraremos más en detalle en la solución del desenrollado de bucles. La técnica estática del desenrollado de bucles consiste agrupar varias iteraciones de un bucle en una única iteración (con más instrucciones que la iteración original, claro está) de un nuevo bucle. Al ejecutar en una sola iteración del nuevo bucle varias iteraciones del bucle inicial, y mediante el uso de nuevos registros temporales, la reordenación del código y la variación de los direccionamientos a memoria en función del incremento de los punteros, se reducirá el número de bloqueos, y se acelerará la ejecución. Hay que tener en cuenta que esta técnica no se puede aplicar directamente a todos los bucles, sino solamente a los llamados paralelizables, es decir, aquellos donde las iteraciones se pueden de alguna forma ejecutar en paralelo. Por ejemplo, cuando las iteraciones son independientes, el bucle es claramente paralelizable; pero cuando una iteración depende de los resultados de la anterior, no se puede desenrollar fácilmente tal bucle. Por ejemplo, el bucle normal para calcular la serie de Fibonacci no se puede desenrollar, puesto que el término i-ésimo depende de los anteriores. Pero el SAXPY o el bucle ejemplo que trataremos a continuación son claramente paralelizables: int i, a, x[m], y[m]; // aquí se inicializan a y los arrays. for (i=0; i<m; i++) y[i]= x[i] * a ; Vamos a mostrar el desenrollado de 4 iteraciones de tal bucle trabajando con un lenguaje de alto nivel como el C. Sencillamente como queremos que se ejecuten en paralelo 4 iteraciones, podríamos rescribir el bucle como: for (i=0; i<m; i+=4) { y[i+0]= x[i+0] * a ; y[i+1]= x[i+1] * a ; y[i+2]= x[i+2] * a ; y[i+3]= x[i+3] * a ; } De esa forma el bucle original en ensamblador sería algo como: bucle_orig: R2, 0(R1) MUL (R3)0, R2 ADDI R1, R1, 4 ADDI R3, R3, 4 SLI R7, R1, fin_array_x; esta constante apunta al final del array x[m] BNEZ R7, bucle_orig Mientras que el bucle desenrollado sería algo como: bucle_desen: MUL R2, 0(R1) (R3)0, R2 pág 1de 7

2 MUL MUL MUL R2, 4(R1) (R3)4, R2 R2, 8(R1) (R3)8, R2 R2, 12(R1) (R3)12, R2 ADDI R1, R1, 4*4 ADDI R3, R3, 4*4 SLI R7, R1, fin_array_x BNEZ R7, bucle_desen Nótese que han desaparecido una buena cantidad de instrucciones de incremento de punteros (R1 y R3) y de saltos del bucle original de la traza del código desenrollado: son las llamadas instrucciones de exceso o sobrecarga (en inglés overhead). Nótese también que tal cantidad guarda una proporción directa con el número de iteraciones desenrolladas. Sin embargo las instrucciones de cómputo y acceso a memoria (las realmente útiles en este bucle) siguen siendo las mismas. Pero para obtener más velocidad en la ejecución, se pueden reducir los bloqueos de datos reordenando el bucle desenrollado. La forma más fácil es entrelazar las diferentes iteraciones (sólo las instrucciones realmente útiles), de forma que las instrucciones que tienen dependencia RAW se alejan: bucle_entrel: R2, 0(R1) R20, 4(R1) R21, 8(R1) R22, 12(R1) MUL MUL R20, R20, R25 ; R25 contiene el valor de a MUL R21, R21, R25 ; R25 contiene el valor de a MUL R22, R22, R25 ; R25 contiene el valor de a (R3)0, R2 (R3)4, R20 (R3)8, R21 (R3)12, R22 ADDI R1, R1, 4*4 ADDI R3, R3, 4*4 SLI R7, R1, fin_array_x BNEZ R7, bucle_entrel Notar como se han renombrado registros en este proceso para que las dependencias ficticias (WAW y WAR) desaparezcan. Por tanto, la cantidad de iteraciones que se pueden desenrollar depende claramente de la cantidad de registros disponible (en un procesador CISC este proceso es prácticamente imposible). En el proceso anterior, se ha supuesto que M es divisible por 4. En caso de que no fuera así habría que dejar unas cuantas iteraciones (exactamente el resto de M/4, es decir M mod 4, o M%4) fuera de la iteración del nuevo bucle. Por ejemplo, se suelen dejar antes del nuevo bucle (lo que sería un código de comienzo, preámbulo o arranque, en inglés startup): for (i=0; i<m%4; i++) y[i]= x[i] * a ; for (i=m%4; i<m; i+=4) { y[i+0]= x[i+0] * a ; y[i+1]= x[i+1] * a ; y[i+2]= x[i+2] * a ; y[i+3]= x[i+3] * a ; } El alumno debe hacer como ejercicio el mismo desenrollado pero trabajando en ensamblador, para ello, tener en cuenta el siguiente guión: 1. Copiamos n veces la iteración, renombrando registros para cada iteración. Sea iteracione s el número de nuevas iteraciones. Así, (iteraciones mod n) son las iteraciones que faltan para n completar el total. Pág 2 de 7

3 Por tanto el número total de iteraciones será: iteraciones iteraciones = + iteraciones mod n n 2. Eliminamos los saltos intermedios (el último no). 3. Sustituimos los decrementos poniendo en los almacenamientos dicha operación como inmediato. Bucle: LD SD 0(R1),F4 SD 8(R1),F4 SD 8*(n-1)(R1),F4 SUBI R1,R1,#n*8 RBNEZ R1,Bucle 4. Reorganizamos el código de las n iteraciones como mejor convenga. Entrelazar es la forma más fácil. ambién ayuda subir las instrucciones de overhead hacia arriba para evitar riesgos RAW. Por ejemplo, sea 1 salto por cada 5 instrucciones (3 de cómputo y acceso a memoria, una de incremento de puntero y un salto), es decir un 20% de saltos. Realizando un desenrollado de 4 iteraciones quedaría 1 salto por cada 4*3+2=14 instrucciones, es decir, un 7%, casi un tercio. Como el CPI control es proporcional a la frecuencia o porcentaje de saltos, estamos reduciéndolo aprox. a la tercera parte. Además, si reordenando se consiguieran 0 bloqueos de datos en 4 iteraciones conseguiríamos CPI datos =0, lo que acercaría el CPI al ideal de 1 instr/ciclo. Los cambios a realizar a un bucle deben ser útiles para tres cosas: 1. Darse cuenta de la cantidad de paralelismo que puede o no extraerse de un código. 2. Intentar fijar las condiciones por las cuales pueden intercambiarse las instrucciones. Para ello, el compilador debería: - Ajustar los offset para cambiar direcciones, - determinar qué iteraciones son independientes para poder desenrollarlas, - usar registros diferentes para evitar dependencias, - analizar las direcciones de memoria que acceden los LD/SD para poder saber si son intercambiables, - atender a las dependencias reales y conservar su orden, - 3. Intentar resolver o eliminar las dependencias ficticias. 4. Intentar eliminar los ciclos de bloqueo por dependencias reales. 2.- Predicción dinámica de saltos. En esta práctica suponemos que trabajamos con un procesador RISC DLX, dotado en su fase ID del hardware necesario para resolver los saltos. Recordar que la técnica de implementación de saltos que Apuesta por No omado () es la solución inherente al pipeline básico. En ella se opta por suponer que el salto nunca se tomará y se comienza a ejecutar la siguiente instrucción en memoria tras el salto. Sólo cuando la apuesta sea errónea (salto sea ) se perderá un ciclo, repitiendo IF de la instrucción de la otra rama. Sin embargo cuando se dispone de un caché de predicción de saltos (Branch Prediction Buffer, BPB) y de otro caché de direcciones de destino de los saltos (Branch arget Buffer, BB), se puede predecir dinámicamente el comportamiento de un salto. Con tal predicción se podrán buscar y ejecutar las instrucciones de la rama predicha por la BPB, según la dirección de destino que indique la BB. De esta manera, al hacer IF de la instrucción de salto, se consultaría la BB y sabríamos no sólo la predicción, sino la dirección de la siguiente instrucción a ejecutar, de manera que en el siguiente ciclo comenzaría la instrucción predicha, sin bloqueos. Los bloqueos vendrían cuando la predicción fallara o no se acertara en la caché BB. Cuando hay un fallo de acceso a la caché BB (el salto no está en la caché y no hay predicción) o un fallo de predicción, es en la etapa ID cuando esto es detectado, incrementándose el CPI para estos casos. En el siguiente gráfico se especifica cuántos ciclos de bloqueo se van a considerar para cada caso en esta práctica. Se supone que existe una BB que almacena la dirección predicha de todos los saltos (ya sean predichos o ) y que se accede en IF. La BPB almacena una información completa de la historia de los saltos y se accede en ID, en paralelo con la resolución del salto, de forma que la actualización de la máquina de estados de predicción se hace justo al final de tal fase ID. Pág 3 de 7

4 Enviar PC a caché de instr y BB NO Acierto BB? SI IF NO Fue salto? SI Enviar PC predicho a IF y BB ID Ejecución normal. 0 ciclos de bloqueos SI Error de predicc.? NO Actualizar BB 1 ciclo de bloqueo si 2 ciclos de bloqueo si Mala predicción. Actualizar BB si cambia la pred. 1 ciclo de bloqueo 2 ciclos de bloqueos si cambia la pred. Predicción correcta 0 ciclos de bloqueos EXE ESUDIO PREVIO 1.- Desenrollado de bucles En el anexo 1 se encuentra el bucle SAXPY en código DLX. Realice el desenrollado sistemático de 2 y 3 iteraciones (son dos desenrollados) del bucle. 2.- Predicción dinámica de saltos (BB) Se va a manejar un simulador llamado VisualBB que simula la evolución de las máquinas BB (Branch arget Buffer, Buffer de destino de saltos) para distintos bits de historia (de 1 a 16) y bits de correlación (de 0 a 16). La entrada que recibe VisualBB para simular la evolución de la BB es muy simple, pero suficiente para entender el mecanismo de las BB. Se trata de una traza de ejecución con el formato llamado din : FORMAO DE LA RAZA: Está compuesto por dos campos. El primer campo está formado por un carácter e indica el tipo de acceso a la memoria caché que se realiza. El segundo campo (separado por un espacio) indica la dirección del acceso y se presenta en formato hexadecimal, con la opción de tener como prefijo 0x, siendo de longitud máxima de 32 bits. En el caso de que fuera menor de 32 bits se le añadirían ceros a la izquierda. Los diferentes caracteres que permite este formato para indicar el tipo de acceso son: - 0 : lectura, realiza una lectura de datos en la caché. - 1: escritura, realiza una escritura de datos en la caché. - 2: instrucción, realiza una lectura de instrucciones en la caché. Para esta práctica sólo es necesario usar el tipo de acceso 2. Con esto, Visual BB detecta qué saltos hay el programa por los cambios de PC (si un salto nunca se toma, Visual BB sólo tiene la opción de considerar que no es un salto). Para ello realiza una comprobación nada más cargar la traza, dando una pasada completa a la traza. En el ejemplo que se va a simular se usarán máquinas de 2 bits de historia. La máquina de 2 bits es la de la figura. 0/ 1/ 2/ 3/ Pág 4 de 7

5 El ejemplo que se va a simular consistirá en dos bucles anidados, es decir se trata de un programa como: Bucle: ; más código del bucle interno Branch1 R4, Bucle ; más código del bucle externo Branch2 R3, Bucle Nótese que el tipo de salto (BEQZ, BNEZ, etc.) no tiene importancia en esta práctica, ya que sólo se pretende predecir si es o (omado o No omado). La etiqueta Bucle sirve para el bucle externo y el interno. Las direcciones son las siguientes: la etiqueta Bucle es la 0x20, la dirección del primer salto es la 0x30 y la del segundo 0x40; o sea el programa ensamblado sería (los caracteres 0x no son necesarios en la traza, por defecto ésta es hexadecimal): 20: instrucción 1 24: instrucción 2 28: instrucción 3 2C: instrucción 4 30: instrucción de salto: Si condición salta a 20 34: instrucción 5 38: instrucción 6 3C: instrucción 7 40: instrucción de salto: Si condición salta a 20 44: instrucción 8 48: instrucción 9 4C: instrucción 10 50: instrucción 11 De esa forma la traza del programa irá pasando por las direcciones 20 a la 30 para iterar el primer bucle y de la 20 a la 40 para el segundo, englobando al primer bucle. El simulador de BB tiene almacenado el comportamiento de los saltos en un array binario, donde 1 es y 0. En la siguiente figura se muestra el final de la ejecución de otro ejemplo diferente de bucles anidados. El asterisco * indica que Visual BB ha detectado que tal instrucción es un salto La pantalla se divide en cuatro partes: Estado, donde se muestra la historia de las últimas operaciones realizadas por el simulador. Caché BB. Aparece el contenido de cada línea así como el estado de las máquinas. En este caso por tener 2 bits de correlación tiene 4 columnas y por tener 2 bits de historia, en cada casilla (fila y columna) se tiene una máquina de 2 bits, o sea de 4 estados posibles llamados sencillamente 0, 1, 2 y 3. ambién aparece el registro de correlación o desplazamiento que se inicializa (por defecto) a 00 (,) Ventana de traza, donde aparece el fichero de traza con un * en cada instrucción de salto. Las estadísticas separadas por categorías de fallos por distintas causas. Haciendo doble click en una línea de la BB se puede ver el estado de las máquinas y la siguiente predicción para dicho salto. Desde la barra de tareas o los menús se puede modificar el número de bits de historia, el número de bits de correlación y el tamaño de la caché (número de líneas). La ejecución de la traza puede hacerse paso a paso, de una vez o de tramo en tramo. El alumno debe previamente a la realización de la práctica. Comprender la evolución de la máquina de estados de dos bits y Calcular cuál sería la traza de ejecución del ejemplo dado para 5 iteraciones del bucle externo y 5 del interno. Pág 5 de 7

6 REALIZACIÓN EN EL LABORAORIO 1. Bloqueos de control y desenrollado de bucles. a) El simulador WinDLX sólo permite una técnica de tratamiento de los saltos. Comprobar cuál es ésta, viendo los bloqueos de control y el comportamiento del salto cuando el salto se toma y cuando no se toma. Calcular el CPI bloqueocontrol y la duración de las 10 iteraciones (quitar los NOP de tal código que introduzca el simulador o estén en el anexo). b) Simular en el WINDLX el código desenrollado de 2 iteraciones, reordenando el código para minimizar bloqueos de datos. Calcular el CPI, CPI bloqueodatos, CPI bloqueocontrol, CPI estructural del programa (bucle SAXPY) completo Hallar la aceleración entre a) y b). c) Simular en el WINDLX el código desenrollando sistemáticamente de 3 iteraciones del mismo. Notar que 3 no es divisor de 10 y sobra una iteración (se suele poner antes del bucle). y calcular el CPI, CPI bloqueodatos, CPI bloqueocontrol, CPI estructural. del programa completo. Hallar la aceleración entre a) y c). 2. Predicción dinámica de saltos: BB. Primer ejemplo: Ejecutar el programa VisualBB. Crear el fichero de traza correspondiente al bucle anidado descrito en la preparación de esta parte para el caso de 5 iteraciones del bucle interior y 5 del bucle exterior. Probar con números de línea siempre potencias de 2. Entender la evolución de la BB. Anotar el porcentaje de aciertos y finalmente calcular el número de ciclos de bloqueo en función de lo explicado en el apartado de preparación de la práctica para un DLX. Contestar a las siguientes cuestiones: a) Ejecutar la traza para una BB(2,2) de 2 bits de historia y 2 de correlación con 8 líneas de BB, con estado inicial de las máquinas de estado 2, y bits de correlación inicial también a 0. Cuál es el CPI bloqueos del programa (usar para ello el modelo del DLX de la página 1, distinguiendo a qué casos corresponde cada fallo de BB)? El porcentaje de acierto en la BB? El porcentaje de acierto de la predicción? b) Cuál es el estado de la máquina de la columna apuntada por, en el registro de correlación, para el salto 0x30 tras la ejecución completa del primer bucle interno? c) Ejecutando la traza para una BB de 4 líneas, Qué máquina (de que columna y línea) predice el salto 40 la tercera vez que se va a ejecutar (antes de ejecutarlo, puesto que se está prediciendo)? Qué predice? Acertó? ANEXO 1 ;*********** WINDLX PRACICA 4 A.S.P. 1 ************* ;*********** EVALUACION DE BLOQUEOS DE DAOS Y COROL *************.data ;*** ARRAY PARA X, Y arrayx:.word 1,2,3,4,5,6,7,8,9,10 ;/* declarado con 10 elementos, múltiplos de 1 */ arrayy:.word 3,6,9,12,15,18,21,24,27,30 ;/* declarado con 10 elementos, múltiplos de 3 */ ;/* el resultado del bucle será los múltiplos de 7 en arrayy*/ finaly:.space 4 ;/* apunta a la dirección posterior al final de x */.text ; ********** EMPIEZA CODIGO ************ addi r2, r0, arrayy addi r1, r0, arrayx addi r28, r0, 4 ; registro r28 para contener la constante (no interesa usar operandos inmediatos) bucle: ; ********** EMPIEZA BUCLE SAXPY ************ lw r4, 0(r1) lw r6, 0(r2) mult r5, r4, r28 ; r28 contiene la constante 100b addi r2, r2, 4 addi r1, r1, 4 seq r7, r2, finaly add r6, r5, r6 sw -4(r2), r6 beqz r7, bucle Fin: ;*** fin programa trap 0 ; IERRUPCION SOFWARE DE FIN DE PROGRAMA (devuelve control al S.O.) Pág 6 de 7

7 ARQUIECURA DE SISEMAS PARALELOS I 4º INGENIERIA INFORMAICA PRACICA 3: DESENROLLADO DE BUCLES, BLOQUEOS DE COROL Y PREDICCIÓN DINÁMICA DE SALOS. NUM GRUPO: ALUMNOS: ABLA DE RESULADOS: Ejercicio 1 a) CPI control b) Código CPI CPI datos CPI control CPI estruct Aceler.: c) Código CPI CPI datos CPI control Aceler.: Ejercicio 2 A CPI bloqueos control : % Acierto BB: % Acierto Predicción: B Estado máquina,: Siguiente predicción de máquina,: C Máquina: Predicción: Acertó predicción?: Pág 7 de 7