Arquitectura de Computadores II Clase #16

Transcripción

1 Arquitectura de Computadores II Clase #16 Facultad de Ingeniería Universidad de la República Instituto de Computación Curso 2009 Organización general Superescalar Varios pipelines 2 ops. Enteras, 2 de PF y una de memoria se pueden ejecutar simultáneamente 1

2 Scheduling estático y dinámico Instruction level parallelism (ILP) Detectar instrucciones independientes en una secuencia, cuya ejecución se pueda solapar Limitaciones: dependencias de datos y procedimientos Tarea del compilador, o static scheduling Machine Parallelism Capacidad de usar adecuadamente el ILP Recurso clave: cantidad de pipelines paralelos Técnicas de hardware para reordenar instrucciones en tiempo de ejecución, o dynamic scheduling Scoreboard Tomasulo Limitaciones al paralelismo Instruction level parallelism Optimización basada en el compilador Técnicas de Hardware Limitaciones o hazards (recordar Clase #10): Hazards estructurales: conflicto de recursos HW que impide determinada combinación de instrucciones Hazards de control (o dependencias de procedimiento): retardos entre el fetch de instrucciones y la decisión de cambios en el flujo de instrucciones (bifurcaciones, saltos) Hazards de datos: instrucción actual depende del resultado de una instrucción previa que aún está en el pipeline Dependencia de datos ( true data dependency ): Read After Write (RAW) Dependencia de salida ( Output dependency ): Write After Write (WAW) Antidependencia: Write After Read (WAR) 2

3 True Data Dependency Ejemplo ADD r1, r2 (r1 := r1+r2;) MOVE r3,r1 (r3 := r1;) Se puede hacer el fetch y decodificar la primera y segunda instrucción en paralelo, pero NO se puede ejecutar la segunda instrucción hasta que se actualice r1! En general, existe dependencia verdadera si Instrucción i produce un resultado utilizado por instrucción j, o Instrucción j es dependiente de los datos de instrucción k, e instrucción k depende de los datos de instrucción i Si dependientes, no se pueden ejecutar en paralelo Fácil de determinar para registros (nombres fijos) Difícil para memoria: 100(r4) = 20(r6)? En diferentes iteraciones de loop, es 20(R6) = 20(R6)? Read After Write (RAW) Procedural Dependency Ejemplo if p1 {S1;}; if p2 {S2;}; S1 es dependiente de control de p1 y S2 es dependiente de control de p2 pero no de p1. Dos restricciones (obvias) sobre las dependencias de control: Una instrucción que es dependiente de control de un salto no puede ser movida antes del salto pues sino su ejecución deja de ser controlada por el mismo. Una instrucción que no es dependiente de control de un salto no puede ser movida después del salto sino su ejecución pasa a ser controlada por el mismo. Estas dependencias son más flexibles para obtener paralelismo 3

4 Conflictos de recursos Intento de usar el mismo hardware para dos propósitos diferentes a la vez Ej. dos instrucciones aritméticas Solución 1: Esperar Se debe detectar el problema Y tener mecanismos para no hacer nada Solución 2: agregar más hardware Por ejemplo, tener dos unidades aritméticas Cuando se diseña el set de instrucciones Mirando los códigos de operación sabemos los recursos que usa cada instrucción Buscar uniformidad en el uso de estos recursos Efecto de algunas dependencias 4

5 Antidependencia y dependencia de salida Otro tipo de dependencia denominado dependencia de nombres: dos instrucciones utilizan el mismo nombre (registro o lugar de memoria) pero no intercambian datos Antidependencia (WAR) Instrucción j escribe un registro o lugar de memoria que la instrucción i lee y la instrucción i se ejecuta primero Ejemplo R3:=R3 + R5; (I1) R4:=R3 + 1; (I2) R3:=R5 + 1; (I3) R7:=R3 + R4; (I4) I3 no se puede completar antes que arranque I2 porque esta necesita R3 que es afectado por I3 Dependencia de salida (WAW) Instrucción i e instrucción j escriben el mismo registro o lugar de memoria; se debe preservar el orden entre instrucciones Register Renaming Dependencias de salida y antidependencias ocurren porque los contenidos de los registros pueden no reflejar el orden correcto del programa Pueden resultar en un stall del pipeline Renaming: registros dinámicamente asignados por el hardware Ejemplo Recordar: R3b:=R3a + R5a (I1) R3:=R3 + R5; (I1) R4b:=R3b + 1 (I2) R4:=R3 + 1; (I2) R3c:=R5a + 1 (I3) R3:=R5 + 1; (I3) R7b:=R3c + R4b (I4) R7:=R3 + R4; (I4) Agregamos un subíndice que indica como se asignan por el hardware Notar que la asignación R3c en I3 evita la antidependencia en I2 y permite que I4 acceda al valor correcto 5

6 Políticas de emisión ( issue ) de instrucciones Nos interesa: Orden en que se hace el fetch de instrucciones Orden en que se ejecutan las instrucciones Orden en el cual las instrucciones cambian registros y memoria Podemos tener las siguientes políticas: In-Order Issue In-Order Completion In-Order Issue Out-of-Order Completion Out-of-Order Issue Out-of-Order Completion In-Order Issue In-Order Completion Issue de instrucciones en el orden en que ocurren en el programa No es un esquema eficiente Instruccions deben esperar ( stall ) si es necesario 6

7 In-Order Issue In-Order Completion (Diagrama) Se captan dos instrucciones a la vez Se debe esperar hasta que la pareja de pipelines de decodificación esté vacía Tres unidades funcionales I1 lleva dos ciclos de ejecución I3 e I4 compiten por la misma Unidad Funcional I5 depende de un valor producido por I4 I5 e I6 compiten por la misma Unidad Funcional In-Order Issue Out-of-Order Completion Usado en RISC para sobrellevar las instrucciones que llevan muchos ciclos La finalización desordenada hace surgir la output dependency R3:= R3 + R5; (I1) R4:= R3 + 1; (I2) R3:= R5 + 1; (I3) I2 depende del resultado de I1 dependencia de datos Si I3 se completa antes que I1, el resultado de I1 será erróneo (output dependency) Se decodifican instrucciones hasta el punto de dependencia o conflicto Obs: el tratamiento de interrupciones se complica notoriamente con finalización desordenada 7

8 In-Order Issue Out-of-Order Completion (Diagrama) Out-of-Order Issue Out-of-Order Completion La idea es desacoplar el pipeline de decodificación del pipeline de ejecución Ventana de instrucciones Se puede continuar trayendo y decodificando instrucciones hasta que se llene este pipeline La unidades funcionales se pueden utilizar inmediatamente que estén disponibles Siempre que no existan dependencias Dado que las instrucciones han sido decodificadas, el procesador puede anticipar (look ahead) instrucciones independientes para cargar los pipelines 8

9 Out-of-Order Issue Out-of- Order Completion (Diagrama) Paralelismo a nivel de máquina Duplicación de recursos Out of order issue Renaming Es fundamental el renombrado para aprovechar adecuadamente la duplicación de recursos Ventana de instrucciones suficientemente grande (más de 8 en la práctica) Otras técnicas Dynamic Branch Prediction Ejecución especulativa Instrucciones condicionales o predicated 9

10 Ejecución Superescalar Etapa de commit o retire Necesario por finalización fuera de orden y/o por ejecución especulativa descartada Implica registros temporales no visibles Implementación Superescalar Estrategias para captar múltiples instrucciones simultáneamente Lógica para determinar dependencias verdaderas entre valores de registros, y mecanismos para disponer de esos valores donde sea necesario durante la ejecución (forwarding) Mecanismos para iniciar múltiples instrucciones en paralelo Recursos para ejecución en paralelo de múltiples instrucciones Unidades Funcionales Jerarquía de memoria Mecanismos para hacer el commit en orden correcto 10

11 Ejecución especulativa Una instrucción que depende de un salto que se predice como a tomarse es despachada sin ninguna consecuencia (incluyendo excepciones) si el salto es realmente no tomado; se denomina boosting Combina predicción de saltos con despacho dinámico para ejecutar antes que los saltos sean resueltos Cuando la instrucción no es mas especulativa escribe los resultados de la instrucción boosted (instruction commit) o los descarta Ejecuta fuera de orden pero hace commit in-order para prevenir una acción irrevocable (actualización del estado o excepción) hasta que la instrucción haga su commit Alternativas para CPI < 1: Despachando Múltiples Instrucciones/Ciclo Dos variaciones: Superscalar: variando el número de instrucciones / ciclo (1 to 8), acomodadas por el compilador o el hardware IBM PowerPC, Sun UltraSparc, DEC Alpha, HP 8000 (Very) Long Instruction Words (V)LIW: número fijo de instrucciones (4-16) acomodadas por el compilador; colocando los operadores en formatos anchos Arquitectura Intel 64 (IA-64) con direccionamiento de 64- bit: Explicitly Parallel Instruction Computer (EPIC) 11

12 VLIW vs. Superscalar Código mas pequeño Compatibilidad Binaria entre generaciones de hardware Hardware simplificado para la decoficación y despacho de instrucciones No Interlock Hardware (el compilador verifica?) Mas registros, pero Hardware simplificado para los Puertos de Registros (multiples conjuntos de registros independientes? Ejemplo: Pentium y anteriores - CISC Pentium algunos componentes superescalares Dos unidades separadas de ejecución entera Pentium Pro primer superescalar Modelos siguiente refinan & mejoran el diseño superescalar 12

13 Pentium 4 : diagrama de bloques Pentium 4: operación Fetch de instrucciones de memoria in order del programa estático Traducción de instrucciones en una o más instrucciones (micro-operaciones) RISC de largo fijo Ejecución de micro-ops en el pipeline superescalar Las micro-ops pueden se ejecutadas fuera de orden Los commit de resultados al set de registros se hacen en el orden del flujo de programa original Carcaza CISC con corazón RISC El pipeline del core RISC tiene del orden de 20 etapas Algunas micro-ops requiren múltiples pasos de ejecución Pipeline más largo 13