ADDI R4,R0,#2 ADDI R1,R0,#40 LOOP: LW R2,0(R1) SUBI R3,R2,#1 MUL R2,R3,R2 DIV R2,R3,R4 SW 0(R1),R2 SUBI R1,R1,#4 BNEZ R1, LOOP ADDI R4,R0,#0

Tamaño: px

Comenzar la demostración a partir de la página:

Download "ADDI R4,R0,#2 ADDI R1,R0,#40 LOOP: LW R2,0(R1) SUBI R3,R2,#1 MUL R2,R3,R2 DIV R2,R3,R4 SW 0(R1),R2 SUBI R1,R1,#4 BNEZ R1, LOOP ADDI R4,R0,#0"

Laura Gutiérrez Vidal
hace 6 años
Vistas:

1 P2. (3 puntos) El siguiente código en ensamblador recorre un vector v, que comienza en la posición 0, calculando para cada v[i] el número de combinaciones que pueden darse con v[i] elementos tomados de dos en dos. El número de combinaciones de n elementos tomados de k en k es: n ( n 1) K ( n k + 1) C k n = k! Se pide: DIV R2,R3,R4 SW 0(R1),R2 SUBI R1,R1,#4 ADDI R4,R0,#0 a) Realizar la secuencia de ejecución del programa suponiendo un DLX con todos los desvíos de datos necesarios y una BTB (Branch Target Buffer). Indicar los bloqueos que se producen y que desvíos se activan en cada caso. Calcular el tiempo necesario para su ejecución suponiendo un reloj de 100Mhz. Qué diferencia de tiempo habrá si se utilizan uno o dos bits para almacenar el estado de la BTB? b) Con objeto de añadir instrucciones ALU con un operando en memoria (ADD R1, 0(R2), R3) la cadena de ejecución del DLX se ha modificado de la siguiente manera: IF ID EX1 MEM EX2 WB. La etapa EX se ha divido en dos: en EX1 se calcula la dirección efectiva y en EX2 la operación aritmético-lógica. Se dispone de todos los desvíos de datos necesarios. Realizar la secuencia de ejecución del programa, indicando los bloqueos que se producen y los desvíos que se activan cada vez. Calcular también el tiempo de ejecución suponiendo un reloj de 80Mhz. Cuánta reducción de tiempo de ejecución se obtendría si el código se re-escribe utilizando las nuevas instrucciones? Nota: Explicar y justificar cualquier decisión tomada

2 Solución: a) DLX con todos los desvíos de datos necesarios y con BTB Primera iteración: IF IF ID EX R4,R0,#2 IF ID IF IF EX ID M EX WB LOOP: LW ADDI R2,0(R1) R1,R0,#40 IF ID IF EX ID M EX WB LOOP: LW SUBI R2,0(R1) R3,R2,#1 IF ID IF IF EX ID M - - WB EX SUBI R3,R2,#1 IF ID IF IF - - EX ID ID M EX WB MUL R2,R3,R2 IF - ID IF IF EX ID M EX WB DIV SW 0(R1),R2 R2,R2,R4 IF ID IF IF EX ID ID M EX WB SW SUBI 0(R1),R2 R1,R1,#4 IF ID IF IF EX ID ID M EX WB SUBI BNEZ R1,R1,#4 LOOP IF ID IF IF EX - - M ID ID WB EX IF IF IF - ID - EX ID M EX Ciclos_1=13 La instrucción de salto requiere dos ciclos de penalización (el salto no se encuentra en la BTB y se toma) Iteración n: SUBI R1,R1,#4 IF ID EX Ciclos_n=9 La instrucción de salto no requiere ningún ciclo de penalización (el salto se encuentra en la BTB y se acierta) No se requiere bypass IF - ID EX IF ID EX Última iteración: El salto se encuentra en la BTB pero se falla. En la última iteración hay que incluir las etapas que restan por ejecutarse. a1) BTB con dos bits para almacenar el estado (dos fallos consecutivos provocan actualización) IF - ID EX ADDI R4,R0,#0 IF - ID EX Aunque se falle en la última iteración no hay que modificar la predicción (1 ciclo de penalización) Ciclos_10_1=10+5=15 Ta1 = (Ciclos_1 + 8*Ciclos_n + Ciclos_10) * Periodo de reloj = (13+8*9+15) * 10 ns = 1000 ns 2.- BTB con sólo un bit para almacenar el estado (cada fallo provoca actualización) IF - ID EX ADDI R4,R0,#0 IF - - ID EX Hay que modificar la predicción (2 ciclos de penalización) Ciclos_10_2=11+5=16 Ta2 = (Ciclos_1 + 8*Ciclos_n + Ciclos_10) * Periodo de reloj = (13+8*9+16) * 10 ns = 1010 ns

3 b) Suponiendo que la cadena es: IF ID EX1 MEM EX2 WB b1) Sin modificar el código IF ID EX1 M EX2 WB IF ID EX1 M EX2 WB IF ID - - EX1 M EX2 WB IF - - ID EX1 M EX2 WB IF ID EX1 M EX2 WB DIVI R2,R2,R4 IF ID EX1 M EX2 WB SW 0(R1),R2 IF ID EX1 - SUBI R1,R1,#4 IF ID - EX1 M EX2 WB (*) IF ID EX1 M IF IF ID (*) Este desvío puede no ser necesario si en el segundo medio ciclo de reloj de ID puede leerse el operando y resolver el salto Última iteración: IF ID EX1 M EX2 WB ADDI R4,R0,#0 IF ID EX1 M EX2 WB Tb1 = Número de ciclos * Periodo de reloj = (16+12*8+17) * 12,5 ns = 1612,5 ns b2) Adaptando el código a las nuevas instrucciones LOOP: SUBI R3,0(R1),#1 MUL R3,R3,0(R1) DIV R3,R3,R4 SW 0(R1),R3 SUBI R1,R1,#4 ADDI R4,R0,#0 Ahorramos un ciclo de reloj en cada iteración (una instrucción menos). El número de bloqueos es el mismo. Tb2 = Número de ciclos * Periodo de reloj = (15+11*8+16) * 12,5 ns = 1487,5 ns Tb2/Tb1=0,9225 (Reducción del 7,75%)

4 P2. (3 puntos) El siguiente código en ensamblador recorre un vector v, que comienza en la posición 0, calculando para cada v[i] el número de combinaciones que pueden darse con v[i] elementos tomados de dos en dos. El número de combinaciones de n elementos tomados de k en k es: n ( n 1) K ( n k + 1) C k n = k! SW 0(R1),R2 SUBI R1,R1,#4 Las instrucciones MUL y DIV tienen los operandos en registros de propósito general como ocurre en el WinDLX Se pide: a) Realizar la secuencia de ejecución del programa suponiendo un DLX con todos los desvíos de datos necesarios y con apuesta por salto no tomado. Indicar los bloqueos que se producen y que desvíos se activan en cada caso. Calcular el tiempo necesario para su ejecución suponiendo un reloj de 100Mhz. b) Realizar la secuencia de ejeución del programa suponiendo un DLX sin ningún tipo de desvío. Para optimizar la ejecución desenrollar el bucle 2 veces, reordenar y usar la técnica del salto retrasado. Calcular el tiempo necesario para su ejecución y la aceleración respecto a la máquina del apartado a suponiendo también un reloj de 100Mhz. c) Generalizar los resultados obtenidos en el apartado a para programas que calculen C n 3, C n 4,, C n k Nota: Explicar y justificar cualquier decisión tomada

5 Solución: a) DLX con todos los desvíos de datos necesarios y con apuesta por salto no tomado IF ID EX IF ID EX IF ID EX IF ID - EX IF - ID EX IF ID EX SW 0(R1),R2 IF ID EX SUBI R1,R1,#4 IF ID EX IF - ID EX IF IF ID EX M Ta = (Ciclos_1 + 8*Ciclos_n + Ciclos_10) * Periodo de reloj = (12+8*10+13) * 10 ns = 1050 ns En la última iteración hay que incluir las 4 etapas que restan por ejecutarse. Al considerar salto no tomado, si hubiera instrucciones después del bucle, la última iteración tardaría un ciclo menos ya que no habría que repetir la etapa IF. b) Suponiendo que no hay ningún desvío de datos, desenrollando el bucle 2 veces y utilizando salto retrasado SW 0(R1),R2 LW R5,-4(R1) SUBI R6,R5,#1 MUL R5,R5,R4 DIV R5,R5,R4 SW -4(R1),R5 SUBI R1,R1,#8 LW R5,-4(R1) SUBI R1,R1,#8 SUBI R6,R5,#1 MUL R5,R6,R5 DIV R5,R5,R4 SW 8(R1),R2 D SW 4(R1),R5 Tb = (Ciclos_1 + 3*Ciclos_n + Ciclos_5) * Periodo de reloj = (18+3*15+19) * 10ns = 820 ns IF ID EX IF ID EX IF - ID EX LW R5,-4(R1) IF ID EX SUBI R1,R1,#8 IF ID EX IF ID EX SUBI R6,R5,#1 IF ID EX IF - ID EX MUL R5,R6,R5 IF ID EX IF - ID EX DIV R5,R5,R4 IF ID EX SW 8(R1),R2 IF - ID EX D IF ID EX SW 4(R1),R5 IF ID LW R2,0(R1) IF S = Ta/Tb = 1050/820 = 1,28 (mejora del 28%) El primer bloqueo sólo va a ocurrir en la primera iteración.

6 Una posible mejora (difícilmente obtenible por el compilador) sería la siguiente: Aprovechando que la multiplicación y la división tienen la misma prioridad el código podría reordenarse de la siguiente manera: LW R5,-4(R1) SUBI R1,R1,#8 SUBI R6,R5,#1 DIV R5,R5,R4 MUL R5,R6,R5 SW 8(R1),R2 SW 4(R1),R5 De esta manera conseguiríamos eliminar un bloqueo más en cada iteración. c) Generalizando los resultados del aparatado a para C n k ADDI R4,R0,#k! SUB R3,R2,#1 SUBI R3,R3,#1 (k-2 veces) SUBI R3,R3,#1 SW 0(R1),R2 SUBI R1,R1,#4 Tc = (Ciclos_1 + 8*Ciclos_n + Ciclos_10) * Periodo de reloj = [(12 + (k-2)*2) + 8*(10+(k-2)*2) + (13 + (k-2)*2)] * 10 ns = 200*k+650ns Las nuevas instrucciones no producen bloqueos.

7 P2. (3 puntos) Para el siguiente código en ensamblador, se pide: ADDI R3,R2,#400 LOOP: LW R1,0(R2) ADDI R1,R1,#1 SW 0(R2),R1 ADDI R2,R2,#4 SUB R4,R3,R2 BNEZ R4,LOOP SUBI R2,R2,#400 a) Realizar la secuencia de ejecución del programa suponiendo un DLX sin ningún desvío de datos y con apuesta por salto tomado. Para ello, suponed que en la etapa ID se calcula la dirección efectiva del salto y en la etapa EX se resuelve la condición. Indicar los bloqueos que se producen y calcular el tiempo necesario para su ejecución suponiendo un reloj de 200Mhz b) Si se utilizaran todos los desvíos de datos necesarios, qué aceleración se conseguiría respecto a la máquina del aparado a? Nota: Justificar cualquier decisión tomada

8 Solución: a) Primera iteración: ADDI R3,R2,#400 IF ID EX LOOP: LW R1,0(R2) IF ID EX ADDI R1,R1,#1 IF - - ID EX SW 0(R2),R1 IF - - ID EX ADDI R2,R2,#4 IF ID EX SUB R4,R3,R2 IF - - ID EX (*) BNEZ R4,LOOP IF ID EX M LOOP: LW R1,0(R2) IF ID (*) Se supone que en el segundo medio ciclo de ID no puede calcularse la dirección efectiva Iteración n: LOOP: LW R1,0(R2) IF ID EX ADDI R1,R1,#1 IF - - ID EX SW 0(R2),R1 IF - - ID EX ADDI R2,R2,#4 IF ID EX SUB R4,R3,R2 IF - - ID EX BNEZ R4,LOOP IF ID EX M LOOP: LW R1,0(R2) IF ID Última iteración: LOOP: LW R1,0(R2) IF ID EX ADDI R1,R1,#1 IF - - ID EX SW 0(R2),R1 IF - - ID EX ADDI R2,R2,#4 IF ID EX SUB R4,R3,R2 IF - - ID EX BNEZ R4,LOOP IF ID EX SUBI R2,R2,#400 IF IF (*) (*) La etapa IF debe repetirse ya que la apuesta ha sido por salto tomado y no se ha tomado ID EX Ta= (Ciclos_1 + 98*Ciclos_n + Ciclos_100) * Periodo de reloj = (17+98*16+23) * 5 ns = 1608 ns b) El único bloqueo de datos que no se evitaría es el que se da entre las instrucciones segunda y tercera. Por tanto: Tb=(Ciclos_1 + 98*Ciclos_n + Ciclos_100) * Periodo de reloj = (8+98*7+14) * 5 ns = 708 ns a=ta/tb=1608/708=2.27

Documentos relacionados

Arquitectura de Computadores Problemas (hoja 4). Curso

Arquitectura de Computadores Problemas (hoja 4). Curso 2006-07 1. Sea un computador superescalar similar a la versión Tomasulo del DLX capaz de lanzar a ejecución dos instrucciones independientes por ciclo