Arquitectura de Computadores II Clase #16

Transcripción

1 Arquitectura de Computadores II Clase #16 Facultad de Ingeniería Universidad de la República Instituto de Computación Curso 2010

2 Organización general Superescalar Varios pipelines. 2 operaciones enteras, 2 de PF y una de memoria se pueden ejecutar simultáneamente.

3 Scheduling estático y dinámico Instruction level parallelism (ILP) Inherente al código de cada programa. Depende de la cantidad de instrucciones independientes que existan en la secuencia de instrucciones, cuya ejecución se pueda solapar Limitaciones: dependencias de datos y procedimientos. Tarea del compilador (static scheduling). Machine Parallelism Capacidad del hardware para explotar el ILP. Recurso clave: cantidad de pipelines paralelos. Técnicas para identificar instrucciones independientes y ejecutarlas en paralelo, incluso alterando potencialmente el orden secuencial establecido por el programa (dynamic scheduling).

4 Limitaciones al paralelismo Limitaciones o hazards (recordar Clase #5): Hazards estructurales: conflicto de recursos HW que impide determinada combinación de instrucciones. Hazards de control (o dependencias de procedimiento): retardos entre el fetch de instrucciones y la decisión de cambios en el flujo de instrucciones (bifurcaciones, saltos). Hazards de datos: instrucción actual depende del resultado de una instrucción previa que aún está en el pipeline: Dependencia de datos ( true data dependency ): Read After Write (RAW) Dependencia de salida ( Output dependency ): Write After Write (WAW) Antidependencia: Write After Read (WAR)

5 True Data Dependency Ejemplo ADD r1, r2 (r1 := r1+r2;) MOVE r3,r1 (r3 := r1;) Se puede hacer el fetch y decodificar la primera y segunda instrucción en paralelo, pero NO se puede ejecutar la segunda instrucción hasta que se actualice r1. En general, existe dependencia verdadera si Instrucción i produce un resultado utilizado por instrucción j, o Instrucción j es dependiente de los datos de instrucción k, e instrucción k depende de los datos de instrucción i. Si son dependientes, no se pueden ejecutar en paralelo Fácil de determinar para registros (nombres fijos). No tan fácil para memoria: 100(r4) = 20(r6)? En diferentes iteraciones de loop, es 20(R6) = 20(R6)? Read After Write (RAW)

6 Procedural Dependency Ejemplo if p1 {S1;}; if p2 {S2;}; S1 es dependiente de control de p1 y S2 es dependiente de control de p2 pero no de p1. Dos restricciones (obvias) sobre las dependencias de control: Una instrucción que es dependiente de control de un salto no puede ser ejecutada antes del salto pues sino su ejecución deja de ser controlada por el mismo. Una instrucción que no es dependiente de control de un salto no puede ser movida después del salto sino su ejecución pasa a ser controlada por el mismo.

7 Conflictos de recursos Intento de usar el mismo hardware para dos propósitos diferentes a la vez. Ej. dos instrucciones aritméticas. Solución 1: Esperar Se debe detectar el problema Y tener mecanismos para no hacer nada. Solución 2: agregar más hardware Por ejemplo, tener dos unidades aritméticas.

8 Efecto de algunas dependencias

9 Antidependencia y dependencia de salida Otro tipo de dependencia denominado dependencia de nombres: dos instrucciones utilizan el mismo nombre (registro o lugar de memoria) pero no intercambian datos. Antidependencia (WAR) Instrucción j escribe un registro o lugar de memoria que la instrucción i lee y la instrucción i se ejecuta primero. Ejemplo R3:=R3 + R5; (I1) R4:=R3 + 1; (I2) R3:=R5 + 1; (I3) R7:=R3 + R4; (I4) I3 no se puede completar antes que I2 porque I2 necesita R3 que es afectado por I3. Dependencia de salida (WAW) Instrucción i e instrucción j escriben el mismo registro o lugar de memoria; se debe preservar el orden entre instrucciones.

10 Register Renaming Dependencias de salida y antidependencias ocurren porque los contenidos de los registros pueden modificarse en un orden que no es el dictado por el programa. Renaming: registros dinámicamente asignados por el hardware. Ejemplo Recordar: R3b:=R3a + R5a (I1) R4b:=R3b + 1 (I2) R3c:=R5a + 1 (I3) R7b:=R3c + R4b (I4) R3:=R3 + R5; (I1) R4:=R3 + 1; (I2) R3:=R5 + 1; (I3) R7:=R3 + R4; (I4) Agregamos un subíndice que indica cómo se asignan por el hardware. Notar que la asignación R3c en I3 evita la antidependencia con I2 y permite que I4 acceda al valor correcto de R4.

11 Políticas de emisión ( issue ) de instrucciones Nos interesa: Orden en que se hace el fetch de instrucciones. Orden en que se ejecutan las instrucciones. Orden en el cual las instrucciones almacenan resultados en banco de registros y memoria. Algunas políticas posibles: In-Order Issue In-Order Completion. In-Order Issue Out-of-Order Completion. Out-of-Order Issue Out-of-Order Completion.

12 In-Order Issue In-Order Completion Emisión de instrucciones en el orden en que ocurren en el programa. No es un esquema eficiente. Si alguna instrucción debe esperar por algún recurso, todas las sucesoras deben esperar.

13 In-Order Issue In-Order Completion (Diagrama) Se captan dos instrucciones a la vez Se debe esperar hasta que la pareja de pipelines de decodificación esté vacía Tres unidades funcionales I1 lleva dos ciclos de ejecución I3 e I4 compiten por la misma Unidad Funcional I5 depende de un valor producido por I4 I5 e I6 compiten por la misma Unidad Funcional

14 In-Order Issue Out-of-Order Completion Usado en RISC para sobrellevar las instrucciones que consumen muchos ciclos (ej. fallo de cache). La finalización desordenada hace surgir la output dependency R3:= R3 + R5; (I1) R4:= R3 + 1; (I2) R3:= R5 + 1; (I3) R7:= R3 + R4; (I4) I2 depende del resultado de I1 dependencia de datos. Si I3 se completara antes que I1, I4 usaría un valor erróneo de R3 (output dependency). Se decodifican instrucciones hasta el punto de dependencia o conflicto. Observación: el tratamiento de interrupciones se complica notoriamente con finalización desordenada.

15 In-Order Issue Out-of-Order Completion (Diagrama)

16 Out-of-Order Issue Out-of-Order Completion Se desacopla el pipeline de decodificación del pipeline de ejecución. Ventana de instrucciones. Se puede continuar trayendo y decodificando instrucciones hasta que se llene este buffer. La unidades funcionales se pueden utilizar inmediatamente que estén disponibles (siempre que no existan dependencias). Dado que las instrucciones han sido decodificadas, el procesador puede anticipar (look ahead) instrucciones independientes para cargar los pipelines.

17 Out-of-Order Issue Out-of- Order Completion (Diagrama)

18 Ejecución Superescalar Etapa de commit o retire Necesario por finalización fuera de orden y/o por ejecución especulativa descartada. Implica registros temporales no visibles.

19 Implementación Superescalar Estrategias para captar múltiples instrucciones simultáneamente. Lógica para determinar dependencias verdaderas entre valores de registros, y mecanismos para disponer de esos valores donde sea necesario durante la ejecución (forwarding). Mecanismos para iniciar múltiples instrucciones en paralelo. Recursos para ejecución en paralelo de múltiples instrucciones. Múltiples unidades funcionales. Múltiples accesos a memoria. Mecanismos para hacer el commit en orden correcto.

20 Paralelismo a nivel de máquina Duplicación de recursos. Out of order issue. Renaming. Es fundamental el renombrado para aprovechar adecuadamente la duplicación de recursos. Ventana de instrucciones suficientemente grande (más de 8 en la práctica) para que puedan aprovecharse efectivamente todas las unidades funcionales. Otras técnicas: Dynamic Branch Prediction (ver Clase #5). Ejecución especulativa. Instrucciones condicionales o predicated.

21 Ejecución especulativa Una instrucción que depende de un salto que se predice como a tomarse es despachada para ejecución cuidando que no se realice ninguna acción irreversible (incluyendo excepciones). Es necesario usar almacenamiento temporal para los resultados. Combina predicción de saltos con despacho dinámico para ejecutar antes que los saltos sean resueltos. Cuando una instrucción deja de ser especulativa (porque se resolvió el o los saltos de los que dependía), se escriben los resultados de la instrucción (instruction commit) o se descartan. Ejecuta fuera de orden pero hace commit in-order para prevenir una acción irreversible (actualización del estado o excepción) hasta que la instrucción haga su commit.

22 Alternativas para CPI < 1: Despachando Múltiples Instrucciones/Ciclo Dos variaciones: Superscalar: número variable de instrucciones despachadas por ciclo, dependiendo de hazards. Scheduling estático (por el compilador) o dinámico (por el hardware). (Very) Long Instruction Words (V)LIW: Paquetes de instrucciones de largo fijo, acomodadas por el compilador. El procesador despacha simultáneamente cada instrucción de un paquete a una unidad funcional distinta. Intel Itanium: Explicitly Parallel Instruction Computer (EPIC). Inspirado en VLIW.

23 VLIW vs. Superscalar Código mas pequeño. Compatibilidad Binaria entre generaciones de hardware. Hardware simplificado para la decoficación y despacho de instrucciones. Potencialmente mayor frecuencia de reloj gracias a la simplificación del hardware.

24 Ejemplo: Pentium y anteriores CISC. Pentium algunos componentes superescalares Dos unidades separadas de ejecución entera. Pentium Pro primer superescalar. Modelos siguiente refinan y mejoran el diseño superescalar.

25 Pentium 4 : diagrama de bloques

26 Pentium 4: operación Fetch de instrucciones de memoria in order del programa estático. Traducción de instrucciones en una o más instrucciones (micro-operaciones) RISC de largo fijo (118 bits). Ejecución de micro-ops en el pipeline superescalar. Las micro-ops pueden ser ejecutadas fuera de orden. Los commit de resultados se hacen en el orden del flujo de programa original. Arquitectura CISC implementada con un núcleo RISC. El pipeline del núcleo RISC tiene del orden de 20 etapas. Algunas micro-ops requiren múltiples pasos de ejecución. Pipeline más largo.

27 Pentium 4: pipeline

28 Operación del Pipeline del Pentium 4 (1/6)

34 Próxima clase Arquitecturas paralelas