DEPENDENCIAS Y BLOQUEOS DE CONTROL (Apartado 2.8)

Transcripción

1 DEPENDENCIAS Y BLOQUEOS DE CONTROL (Apartado 2.8) 1. Introducción. 2. Dependencias, riesgos y bloqueos de control. 3. Consideraciones de implementación. 4. Comportamiento de los saltos condicionales. 5. Implementaciones alternativas de saltos. 6. Conclusiones.

2 Tipos de instrucciones de control CPI = CPI ideal + CPI estruct + CPI datos + CPI control + CPI mem SALTO Formato Rango BEQZ/BNEZ I J, JAL J 16 bits con signo 26 bits con signo Frec. INT (DLX) Frec. FP (DLX) 16% 8% 1%, 1% 0.5%, 1% JR, JALR I Registro 1% 1% Muy frecuentes (1 de cada 4 a 7 instr.) Usaremos: F saltos (INT) = 0.2 F saltos (FP) = 0.1 Bucles: saltos condicionales hacia atrás muy frecuentes 2

3 Definiciones y Nomenclatura Cond F PC+4 Instr. sig. V PCdest Instr. dest SALTOS CONDICIONALES Tomado/No Tomado (T/NT) Rama Tomada/Rama No Tomada Instr. de destino/instr. siguientes Tras resolver Instr. Válidas PCdest Instr. dest SALTOS INCONDICIONALES 3

4 Ejemplo de ejecución de instr. salto ADD R8, R0, R0 Etiq:... ; Instr. de destino... ADDI R8, R8, 1 SLTI R9, R8, 100 BNEZ R9, Etiq... ; Instr. Siguientes Rama Tomada Rama No Tomada RESOLVER SALTO (Hardw.) 1. PC dest =NPC +Desplaz (SUMADOR) Salto hacia atrás: Desplaz<0 Salto hacia delante: Desplaz>=0 2. Condición : R9 0 ( Rf=0? ) 3. Actualizar el PC: (MUX) if (Cond) PC=PC+4 ; else PC= PC dest ; Siguiente fase IF buscará instr válidas. 4

5 INDICE 1. Introducción. 2. Dependencias, riesgos y bloqueos de control. 3. Consideraciones de implementación. 4. Comportamiento de los saltos condicionales. 5. Implementaciones alternativas de saltos. 6. Conclusiones. 5

6 Dependencias de control Recordemos: Dependencia Ejec. Secuencial instr. 1 instr. 2 instr. 3 Ve todos los recursos No depend. Ejec. Encaden. Inst 1 Inst 2 Inst 3 Inst 4 Inst 5 Qué es una dependencia de control? : Uso del PC Cond F Instr. sig. V Instr. dest Fichero.exe Salto Inst sig1 Inst sig2 Inst sig3 Inst sig4

7 Riesgo Bloqueo de Control Saltos son muy comunes Cómo afecta al rendimiento? Salto Inst sig1 Inst sig2 Inst sig3 Resuelve salto: Actualiza PC IF ID EX MEM WB IF ID EX IF ID IF IF ID EX MEM WB Inst válida 3 ciclos de bloqueo: CONGELAR O VACIAR la cadena N º c. bq.( control) N º c. bq.( control) N º saltos CPI control = = = N º instr. N º saltos N º instr. PROGRAMAS INT: CPI control = 3 * 0.2 = 0.6 c.bq./instr P saltos F saltos A = t t ejec real ejec ideal = N N inst inst CPI CPI real ideal T T = % más lenta INTENTAR MEJORAR 7

8 SOLUCIÓN: Adelantar Resolución IDEAL Resuelve el salto Salto Inst válida1 Inst válida2 No hacen nada IF ID EX MEM WB IF ID EX MEM IF ID EX 0 c.bq. salto (intentar acercanos a lo anterior) Adelantar la resolución para evitar bloqueos. El coste hw adicional no debe ser alto. 8

9 INDICE 1. Introducción. 2. Dependencias, riesgos y bloqueos de control. 3. Consideraciones de implementación. 4. Comportamiento de los saltos condicionales. 5. Implementaciones alternativas de saltos. 6. Conclusiones. 9

10 Modificaciones en el esquema del DLX IF ID EX MEM WB Add M U X TRASLADAR 4 + Cero? PC Memoria Instrucc. IR 32 Rs1 Rs2 Rd dato Fichero de registros M U X M U X REPLICAR ALU Memoria de datos M U X 16 Ext. 32 signo PC dest NOTA: Faltan los bypasses 10

11 DLX con saltos adelantados IF ID EX MEM WB Add M U X PC dest Se alarga la fase ID 4 Add Cero? PC Memoria Instrucc. IR 32 Rs1 Rs2 Rd dato Fichero de registros M U X M U X ALU Memoria de datos M U X 16 Ext. signo 32 NOTA: Faltan los bypasses 11

12 Consideraciones de la nueva implementación Incompatible? con lectura de registros en el 2º semiciclo (WB, escritura en el 1º). Mayor complejidad Nuevo sumador, Nuevos caminos de desvío (Operando Rcond leído en fase ID). Nuevos bloqueos estudiar nuevos bloqueos de datos y nuevos bypasses que han de introducirse. Sol: ALU R1, 1 c.bq. BEQZ R1, etiq EJERC. Load R1, [dir] BNEZ R1, etiq Load R1, [dir] instr sin dependencias BEQZ R1, etiq 2 c.bq. 1 c.bq. EX MEM WB ID EX MEM IF ID EX IF ID EX IF ID 12

13 CPI control tras el adelantamiento TÉCNICA CONGELAR O VACIAR la cadena No hacen nada Salto Inst sig1 Inst válida IF ID EX MEM WB IF IF ID EX ABORT 1 c.bq. CPI control = F saltos * P saltos = 0.2 * (1) = 0.20 A = t t ejec real ejec ideal = % más lenta 13

14 Mejorar aún más el rendimiento Los saltos son instr. muy comunes ( Acelerar el caso común ). Muchas máquinas reales tienen muchas más fases que el DLX: Resuelven el salto en la 3ª, 4ª o más. MIPS R4000 (1992, 8 fases), en la 4ª fase (EX). Pentium (1992, 5 fases), en la 4ª fase (EX). Pentium Pro, II y III ( , 10 fases), en la 8ª fase (EX). UltraSPARC III (1999, 12 fases), en la 8ª fase (EX), etc. (hoy, tendencia hacia la supersegmentación o superencadenamiento...) 14

15 EJERC. Ejemplo: intentar aumentar el rendimiento por supersegmentación CPI control = 0.2 * 3= 0.6 DLX2: T DLX2 T DLX /2 (por similitud resolvería los saltos al final de ID2) No hacen nada Salto T Inst sig1 Inst sig2 Inst sig3 Inst válida IF1 IF2 ID1 ID2 EX1 EX2 M1 M2 WB1 WB2 IF1 IF2 ID1 3 c.bq. IF1 IF2 IF1 IF1 IF2 ID1 ID2 EX1 EX2 M1 M2 WB1 WB2 A = t t ejec DLX ejec DLX2 = N N instr instr T T DLX DLX2 CPI CPI DLX DLX2 = 2 (1+ 0.2) (1+ 0.6) = 2.4 (1.6) = 1.5 La supersegmentación no tiene por qué ser la clave! CPI control mucho mayor. Cuantificar otros bloqueos y reducción de T DLX2

16 Principales soluciones para mejorar aún más el rendimiento Muchos mecanismos de reducir más el CPI control : Estudiar su comportamiento, desde el punto de vista estático y sofisticar saltos para aprovechar ese estudio. Recoger su comportamiento con técnicas dinámicas (aptdo 2.9). Eliminándolos (si se conoce con exactitud su comportamiento, ej. bucles, se verá más adelante, tema 3). IDEA: Si se adivinara el comportamiento de un salto ( predecir ) intentar ejecutar instrucciones de rama predicha 16

17 INDICE 1. Introducción. 2. Dependencias, riesgos y bloqueos de control. 3. Consideraciones de implementación. 4. Comportamiento de los saltos condicionales. 5. Implementaciones alternativas de saltos. Saltos que apuestan. Saltos retrasados. 6. Conclusiones. 17

18 Comportamiento medio de los saltos condicionales Programas INT: Saltos Cond: %T = 60%-70% ; %NT= 40%-30% T son el doble de frecuentes CASO COMÚN Programas FP: Saltos Cond: %T = 65%-75% En f. de PC dest : Saltos Hacia atrás (PC dest <= PC salto ) %T = 85% Saltos Hacia adelante (PC dest >PC salto ) %T = 60% Saltos hacia atrás casi siempre se Toman (bucles). Estas estadísticas no varían mucho con las entradas de un prog. ÚNICA CONCLUSIÓN GENERAL ( salto): TOMADO ES EL CASO COMÚN 18

19 Comportamiento individualizado de los saltos ( profiling ) Estadísticas de ejecuciones previas Cada salto está muy polarizado (bucles, condiciones de salida, etc.). Si se asocia un comportamiento individual a cada salto: % error en la predicción (DLX) prog. INT: 15% ; prog. FP: 9% En la media: (INT) 46 instr sin errar ; (FP) 173 instr sin errar. El compilador indicaría la predicción en un bit del opcode. (Ej. Intel i960ca). IDEA BUENA, pero PROBLEMAS: Realizar ejecuciones temporales en medio de la compilación Habría doble número de tipos de saltos. Hoy tb. se implementa esto con técnicas dinámicas 19

20 INDICE 1. Introducción. 2. Dependencias, riesgos y bloqueos de control. 3. Consideraciones de implementación. 4. Comportamiento de los saltos condicionales. 5. Implementaciones alternativas de saltos (técnicas estáticas) Saltos que apuestan. Saltos retrasados. 6. Conclusiones. 20

21 CONGELAR O VACIAR LA CADENA TÉCNICA CONGELAR O VACIAR LA CADENA (Siempre se abortan las instr. siguientes). NT T 1 1 c.bq. CPI control = 0.2 * (1) = 0.2 Salto Inst sig1 Inst válida IF ID EX MEM WB IF IF ID EX Si se predice que va a hacer ser un salto, se puede apostar (implementación) empezando a ejecutar la rama predicha: APOSTAR POR NO TOMADO ABORT 1 c.bq. APOSTAR POR TOMADO (No en DLX; Falta PC ) 21

22 TÉCNICA APOSTAR POR SALTO NT Salto NT IF ID EX MEM WB Inst sig1 IF ID EX MEM 0 c.bq. Inst válida (sig2) IF ID EX Salto T Inst sig1 Inst válida (dest) NOTA: Implementación normal del DLX es Ap.NT Especulación (Concepto): se empieza a ejecutar instr sig. especulando c.bq. IF ID EX MEM WB IF NT T 0 1 IF ID EX ABORT 1 c.bq. CPI control = F saltos * P saltos =F saltos * (%NT * P saltosnt + %T * P saltost ) CPI control = 0.2 * (0.3* *1) = 0.14 no mejora mucho, favorece caso menos común 22

23 INDICE 1. Introducción. 2. Dependencias, riesgos y bloqueos de control. 3. Consideraciones de implementación. 4. Comportamiento de los saltos condicionales. 5. Implementaciones alternativas de saltos. Saltos que apuestan. Saltos retrasados. 6. Conclusiones. 23

24 CONCEPTO: SALTO RETRASADO IDEA: Aprovechar el tiempo que se tarda en resolver el salto (el hueco) ejecutando otras instrucciones. Instr ant1 Instr ant2 Instr ant3 Salto IF ID EX MEM WB Instr sig1 ant2 IF ID EX MEM WB Inst válida IF ID IF IF Instr ant1 Instr ant2 Instr ant3 Salto Instr sig1 Instr ant1 Instr ant3 Salto Retr. Instr ant2 Instr sig1 HUECO DEL SALTO ( delay slot ) No es fácil que el compilador (planificación estática) encuentre instrucciones anteriores sin dependencia de datos para rellenar (efectividad en el rellenado). Mnemotécnicos: DBNEZ, DBEQZ NOTA: DLX (resuelve saltos en ID) sólo una instrucción en hueco. 24

25 Salto retrasado con anulación Si el salto es capaz de anular o cancelar instrucciones del hueco No tantos problemas para rellenarlo con instr. de una u otra rama (Efectividad 90%) CBEQZ o CBNEZ (C de cancelling ) Más complejo de implementar, pero más prestaciones. Aprovecha que los saltos están muy polarizados. Compilador introduce la instrucción de la rama predicha CBNEZ.pt y CBNEZ.pnt 25

26 Cronogramas para saltos retrasados con anulación CBEQZ.pt (T) Inst dest1(hueco) Inst válida(dest) IF ID EX MEM WB IF ID EX MEM IF ID EX 0 c.bq. CBEQZ.pt (NT) Inst dest1(hueco) Inst válida(sig1) IF ID EX MEM WB IF IF ID EX CANCEL 1 c.bq. CBEQZ.pnt (NT) Inst sig1 Inst válida (sig2) IF ID EX MEM WB IF ID EX MEM IF ID EX 0 c.bq. CBEQZ.pnt (T) Inst sig1 Inst válida(dest) IF ID EX MEM WB IF IF ID EX CANCEL 1 c.bq. 26

27 Penalidad saltos retrasados con anulación NOTA: CBEQZ.pnt BEQZ Apostar por NT (TÉCNICA 2) CBEQZ.pnt CBEQZ.pt NT T CBEQZ Ac. Fall 0 1 Ej. Calcular CPI control medio para programas FP e INT. Suponer la predicción se hace por ejecuciones previas (profiling) y 100% de efectividad en el relleno del hueco. INT: CPI control = F saltos * (%Ac * 0 + %Fall * 1) = = 0.2*(0.15 * 1) = 0.03 c.bq./instr FP: CPI control = F saltos * (%Ac * 0 + %Fall * 1) = = 0.1*(0.09 * 1) = c.bq./instr 27

28 Problemas de los saltos retrasados Técnica estática, prob. de compatibilidad futura (tamaño del hueco variará con la versión del procesador) Problemas de herencia. Nuevos procesadores llevan ya otros mecanismos hardware tendrá que implementar tales saltos para que el software antiguo sea compatible. Implementar un nuevo tipo de salto (se acerca a CISC) Técnicas dinámicas son trasparentes al usuario (ventaja). Hoy existe una técnica similar a CBEQZ pero dinámicamente (caché de predicción). Muy efectiva. 28

29 CONCLUSIONES SALTOS SON MUY COMUNES CPI CONTROL ALTO. IMPORTANTE ADELANTAR LA RESOLUCIÓN (PCdest y Cond) IMPORTANTE: CONOCIMIENTO DE SALTOS. SALTOS CON AYUDA DEL COMPILADOR (TÉCN. ESTÁTICA) : PROBLEMAS (herencia, etc.) VEREMOS LA EXTENSIÓN DE ESTAS TÉCNICAS DE FORMA DINÁMICA. 29

30 EJERCICIOS (I). (Apartado 2.8) TRANSPARENCIA Tipos de instrucciones de control Ejemplo de ejecución de instr. salto Riesgo Bloqueo de Control Cómo afecta al rendimiento? SOLUCIÓN: Adelantar Resolución DLX con saltos adelantados Consideraciones de la nueva implementación CPIcontrol tras el adelantamiento Mejorar aún más el rendimiento Ejemplo: intentar aumentar el rendimiento por supersegmen... Escribir en ensamblador del DLX una estructura condicional tipo: if-then ó if (cond) {... } (necesita un único Salto Cond.) Idempara: if-then-else ó if (cond) {... } else {... } (necesita Salto Cond. + Salto incond. ) Idem para estruct. iterativa: for ( ; cond ; ) {... }, while (cond) {... } (necesita Salto cond+salto incondicional) Idem para estruct. iterativa: do {... } while (cond); (necesita sólo un Salto cond) Qué tiene un porcentaje de saltos mayor: una traza de ejecución o el código estático. Pensar que debe hacerse en el DLX para resolver un salto tipo JR y otro tipo JAL Calcular la deceleración típica producida por los saltos en un programa FP respecto del DLX ideal. Idem para un programa entero, donde la penalidad de los saltos tomados es de 3 ciclos, y la de los No tomados, de 0. Suponer % saltos tomados=70% Aumenta la penalidad de control si todos los saltos van precedidos de un dependencia de datos que bloquea 1 ciclo el DLX? Por qué no se puede resolver un salto en la fase IF en un DLX? CUESTIONES Si el tiempo de propagación de los siguientes circuitos es de 1 ns, calcular el incremento del periodo de un DLX que lee en el segundo semiciclo los registros fuente, y en el cual todas las fases duraban exactamente lo mismo antes de adelantar los saltos:comparador con cero, MUX, Sumador, escritura en un registro Dibujar los cronogramas de los ejemplos. Dibujar un esquemático con los bypasses nuevos para los saltos resueltos en ID. Calcular la deceleración típica producida por los saltos en un programa entero (respecto del DLX ideal), donde la penalidad de los saltos tomados es de 1 ciclos, y la de los No tomados, de 0 (Suponer % saltos tomados=70%). Dibujar una gráfica con la deceleración introducida por los saltos en un programa entero para un procesador de N etapas (respecto del procesador con CPI=1), si la penalidad de los saltos tomados es de N-3 ciclos, y la de los No tomados, de 0. Poner N en abscisas y deceleración en ordenadas. Suponer % saltos tomados=70% Dibujar una gráfica con la deceleración entre el DLX y un procesador supersegmentado de 5*K etapas, si la penalidad de los saltos es de 2*K-1 ciclos, y el periodo obedece a la fórmula 9/K+1 ns. Poner K en abscisas y deceleración en ordenadas. Suponer % saltos tomados=70% 30

31 EJERCICIOS (II). (Apartado 2.8) TRANSPARENCIA CUESTIONES Principales soluciones para mejorar aún más el rendimiento Comportamiento medio de los saltos condicionales Comportamiento individualizado de los saltos ( profiling ) TÉCNICA APOSTAR POR SALTO NT CONCEPTO: SALTO RETRASADO Salto retrasado con anulación Penalidad saltos retrasados con anulación Problemas de los saltos retrasados Qué tendrá menos CPI de control, un bucle for () o un bucle do...while (), según la traducción propuesta anteriormente? Calcular la deceleración típica producida por los saltos en un programa entero (respecto del DLX ideal), donde la penalidad de los saltos hacia atrás es de 2 ciclos, y la de los saltos hacia delante de 1 ciclo Idem para programas enteros y también para programas FP, si la penalidad en los saltos donde se acierta en la predicción es de 0 ciclos, y 2 ciclos para aquellos donde se yerra en la predicción. Cuántos saltos habría en un DLX, donde el opcode debe llevar un bit indicando la predicción hecha por el compilador? Para el DLX que resuelve completamente los saltos en fase MEM, calcular el CPIcontrol con esta técnica para programas enteros. Para un hipotético DLX que apostara por salto tomado (y las penalidades fueran las contrarias de apostar por NT), calcular la aceleración con la técnica anterior. Para el DLX que resuelve completamente los saltos en ID, calcular el CPIcontrol, si la efectividad en encontrar una instrucción es del 60%, y el DLX solo tiene saltos retrasados (en caso de no encontrar instrucción para el hueco, inserta un bloqueo software, NOP). Idem si el DLX tiene saltos retrasados y no retrasados (apuestan por NT). Para el DLX que resuelve completamente los saltos en fase MEM, calcular el tamaño del hueco y la probabilidad de rellenarlo completamente, si la efectividad en encontrar una instrucción es del 60%. Rescribir el siguiente programa usando un salto CBEQZ.pt: BUCLE: LW R1, (R3)0 ADDI R3, R3, 4 BEQZ R1, BUCLE Para programas FP en el DLX que resuelve completamente los saltos en MEM, calcular el CPIcontrol, si la efectividad en encontrar tres instrucciones para el hueco es del 80%, y tiene saltos retrasados con anulación y normales (apuestan por NT). En caso de no encontrar instrucción para el hueco, usa el salto normal. Usar los porcentajes de acierto en predicción de esta transparencia. %Tomados=70% El código generado por un compilador para un DLX (de 5 etapas), usando saltos retrasados con anulación, es compatible con un DLX supersegmentado de 10 etapas? Por qué? 31