Procesadores Superescalares

Transcripción

1 Departamento de Electrónica y Circuitos EC3731 Arquitectura del Computador II Prof. Osberth De Castro Prof. Juan C. Regidor Prof. Mónica Parada Segmentación de Cauce y Paralelismo Multiples unidades de ejecución: Procesadores Superescalares Unidad para Carga y Almacenamiento Unidades de Cálculo Entero Unidades de Cálculo en Punto Flotante. Paralelismo a Nivel de Instrucciones (Instruction Level Parallelism, ILP) Paralelismo a Nivel de Instrucciones y Máquina Procesadores Superescalares Planificación Dinámica de Ejecución Dependencias y Riesgos Paralelismo a Nivel de Instrucciones 2 Mas allá del Cauce Segmentado Dependencias de datos típica. Posible Finalización Desordenada de Instrucciones: Conflictos por orden de escritura en registros. Cauce Segmentado Cauce Supersegmentado Instrucciones (pipeline) (Superpipelined) Cauce Superescalar (Superscalar) 3 Tiempo 4

2 Procesador Superescalar: Estructura Básica Procesador Superescalar Características Procesador de N Cauces Ejecución Paralela de N instrucciones. Es posible la Ejecución Desordenada de instrucciones. Se mantienen los Riesgos del Cauce Segmentado (Pipeline Hazards) Gran complejidad de circuitos y algoritmos de control. 5 6 Procesador Superescalar Flujo de Instrucciones Procesador Superescalar Organización típica del Núcleo de Ejecución Banco de Registros de Enteros Banco de Registros de Punto Flotante Unidades de Ejecución Segmentadas Operadores de Enteros Operadores de acceso a Memoria Operadores de Punto Flotante: add, sub, and, or, Load, Store, Add, sub, mul, div, 7 8

3 Procesador Superescalar MIPS R10000 (MIDAS/Sihan-Fuss07) Consideraciones para la Ejecución Paralela de Instrucciones Paralelismo de Instrucciones Dependencia de Datos. Dependencia por Saltos. Conflicto de Recursos. Dependencias por alteración del Orden de Ejecución: Conflicto entre 2 escrituras de un mismo Registro. Conflicto entre lecturas y Escrituras de un mismo Registro. Paralelismo de Máquina Planificación Dinámica Orden de Captación de las Instrucciones (desde la Memoria) Cuántas a la vez? Cuáles? Orden de Emisión de las Instrucciones (a las Unidades de Ejecución) Ordenada Desordenada Orden de Finalización de las Instrucciones (escritura de Registros / Memoria). Ordenada Desordenada 9 10 Paralelismo de Instrucciones y de Máquina Instrucciones Independientes Dependencia de Datos (i1 necesita el resultado de i2) Dependencia por Salto (i2 es la instrucción Objetivo del Salto) Conflicto de Recursos (i0 e i1 usan la misma unidad funcional) 11 Paralelismo de Instrucciones Dependencia por Saltos ó Dependencia Relativa al Procedimiento Predicción de saltos: Dinámica + Estática Saltó Saltó Saltar No Saltar No Saltó No Saltó Saltó Saltar Ejecución Especulativa: Se ejecutan instrucciones de ambas ramas posteriores al salto condicional, guardándose los resultados en Buffers. Cuando se tiene el objetivo del salto, se finalizan sólo las instrucciones de la rama objetivo. 12 No Saltó No Saltar No Saltó

4 Paralelismo de Instrucciones Dependencias de Datos generadas por Ejecución Desordenada Paralelismo de Instrucciones Dependencias de Datos generadas por Ejecución Desordenada Dependencia de Salida ó Dependencia WAW (Write After Write) Antidependencia ó Dependencia WAR (Write After Read) I1:R3 = R3 (op) R5 I2:R4 = R3 + 1 I3:R3 = R5 + 1 I4:R7 = R3 (op) R4 Si I3 Termina (1) antes que I1, I4 usará un valor incorrecto de R3 I1:R3 = R3 (op) R5 I2:R4 = R3 + 1 I3:R3 = R5 + 1 I4:R7 = R3 (op) R4 Si I3 Termina (1) antes de que I2 lea R3, I2 usará un valor incorrecto de R3 (1) La Finalización de una instrucción es la escritura del resultado en el registro correspondiente. 13 (1) La Finalización de una instrucción esla escritura del resultado en el registro correspondiente. 14 Paralelismo de Máquina Políticas de Ejecución de Instrucciones Emisión Ordenada y Finalización Ordenada Dependencia Verdadera (RAW) Emisión Ordenada y Finalización Desordenada Dependencia Verdadera (RAW) Dependencia de Salida (WAW) Emisión Desordenada y Finalización Desordenada Dependencia Verdadera (RAW) Dependencia de Salida (WAW) Antidependencia (WAR) Ejemplo de Ejecución Superescalar Especificaciones del procesador Captación: 2 instrucciones a la vez. Ejecución: 3 Unidades funcionales independientes. Escritura: 2 Unidades de Escritura. Especificaciones de un programa de 6 Instrucciones I1 tarda 2 ciclos en ejecutarse. I3 e I4 usan la misma unidad funcional. I5 depende de un valor producido por I4. I5 e I6 usan la misma unidad funcional 15 16

5 Ejemplo de Ejecución Superescalar Ejemplo de Ejecución Superescalar Emisión Ordenada y Finalización Ordenada Emisión Ordenada y Finalización Desordenada Especificaciones del procesador Captación: 2 instrucciones a la vez. Ejecución: 3 Unidades funcionales independientes. Escritura: 2 Unidades de Escritura. Especificaciones del programa I1 tarda 2 ciclos en ejecutarse. I3 e I4 usan la misma unidad funcional. I5 depende de un valor producido por I4. I5 e I6 usan la misma unidad funcional Condición Especial de esta política La emisión de instrucciones se detiene si hay conflicto de recursos ó si una instrucción requiere mas de 1 ciclo de ejecución. Unidades de Decodificación Unidades de Ejecución Unidades de Escritura Ciclos Especificaciones del procesador Captación: 2 instrucciones a la vez. Ejecución: 3 Unidades funcionales independientes. Escritura: 2 Unidades de Escritura. Especificaciones del programa I1 tarda 2 ciclos en ejecutarse. I3 e I4 usan la misma unidad funcional. I5 depende de un valor producido por I4. I5 e I6 usan la misma unidad funcional Condición Especial de esta política La emisión de instrucciones se detiene si hay conflicto de recursos ó dependencia de datos / saltos. Unidades de Decodificación Unidades de Ejecución Unidades de Escritura Ciclos EMISION TERMINACION EMISION TERMINACION Ejemplo de Ejecución Superescalar Ejemplo de Ejecución Superescalar Especificaciones del procesador Captación: 2 instrucciones a la vez. Ejecución: 3 Unidades funcionales independientes. Escritura: 2 Unidades de Escritura. Especificaciones del programa I1 tarda 2 ciclos en ejecutarse. Emisión Desordenada y Finalización Desordenada I3 e I4 usan la misma unidad funcional. I5 depende de un valor producido por I4. I5 e I6 usan la misma unidad funcional Decodificación Ventana Buffer de Instrucciones Unidades de Ejecución Unidades de Escritura Emision Ordenada Y Finalización Ordenada Emision Ordenada Y Finalización Desordenada Emision Desordenada Y Instrucción I1 F1 D1 E1 E1 W1 I2 F2 D2 E2 E2 W2 I3 F1 D1 D1 E3 W1 I4 F2 D2 D2 D2 E3 W1 I5 F1 F1 F1 D1 E2 W1 I6 F2 F2 F2 D2 D2 E2 W1 I1 F1 D1 E1 E1 W1 I2 F2 D2 E2 W1 I3 F1 D1 E3 W2 I4 F2 D2 D2 E3 W1 I5 F1 F1 D1 E2 W1 I6 F2 F2 D2 D2 E2 W1 I1 F1 D1 E1 E1 W1 I2 F2 D2 E2 W1 I3 F1 D1 E3 W2 Ciclos Finalización Desordenada I4 F2 D2 ventana E3 W1 I5 F1 D1 ventana E2 W1 I6 F2 D2 E2 W2 EMISION TERMINACION 19 20

6 Resolución de Conflictos de Almacenamiento Evitar atascos debido a Dependencias de Salida (WAW) y Antidependencias (WAR) Asignación Dinámica de Registros Físicos. A cada nuevo Registro Destino se le asigna un nuevo registro físico, que será repetido como fuente en las instrucciones que usen ese resultado. I1:R3 b = R3 a (op) R5 a I2:R4 = R3 b + 1 I3:R3 = R5 + 1 c a I4:R7 = R3 (op) R4 b c El Registro R3 b es un registro físico distinto a R3 c. Algoritmo de Tomasulo para Secuenciación Dinámica Diseñado para el IBM 360/91 en años después del CDC 6600 Meta: Alto rendimiento sin compiladores especiales Diferencias entre el IBM 360 y el CDC 6600 IBM tiene instrucciones registro memoria IBM tiene 4 FP registros vs. 8 del CDC 6600 IBM tiene Unidades funcionales segmentadas (3 el adds y 2 el mult) El Algoritmo de Tomasulo maneja las dependencias WAW y WAR eficientemente utilizando renombramiento de registros SUB F1, F2, F0 DIVF F2, F3, F2 ADDF F3, F0, F0 MULF F3, F1, F1 21 Arquitectura para Tomasulo 24

7 Componentes de una Estación de Reserva Op Operación que realizará la unidad (ejemplo, + ó ) Qj, Qk Estaciones de Reserva que producen datos necesarios en registros fuente. Vj, Vk Valor de operandos fuente Rj, Rk Banderas que indican si Vj, Vk ya estàn disponibles. Busy Indica si la Estación de Reserva y la FU están en uso. Estado del Registro Resultado Indica cual FU escribirá en cada registro, si lo hay. Un campo por registro, y están en blanco cuando no hay instrucciones pendientes por escribir el registro. Etapas del Algoritmo de Tomasulo 1.Emisión Tomar instrucción de la cola de Operaciones FP (FP Op Queue) Si hay un Slot en la Estación de Reserva de la correspondiente FU, emite la instrucción y envía los operandos (y renombra los registros si es necesario). 2.Ejecución Operación (EX) Ejecutar la operación si se tienen los 2 operandos. Si no, esperar por el resultado del bus CDB. 3.Escribir Resultado (WB) Escribir en el Bus Común de Datos (CDB). Liberar Slot en la Estación de Reserva de origen. Ejemplo Tomasulo Ciclo 0 Ejemplo Tomasulo Ciclo 1 Yes

8 Ejemplo Tomasulo Ciclo 2 Ejemplo Tomasulo Ciclo 3 Ejemplo Tomasulo Ciclo 4 Ejemplo Tomasulo Ciclo 5

10 Ejemplo Tomasulo Ciclo 10 Ejemplo Tomasulo Ciclo 11 6 Ejemplo Tomasulo Ciclo 12 Ejemplo Tomasulo Ciclo 13

12 Ejemplo Tomasulo Ciclo 55 Ejemplo Tomasulo Ciclo 56 Ejemplo Tomasulo Ciclo 59 Resumen de Secuenciación con Algoritmo de Tomasulo Ventajas Previene los cuellos de botella por registros. Maneja dependencias WAR y WAW Permite desenrollado de lazos por Hardware. El Bus Común de Datos (CDB) Ofrece resultado a múltiples instrucciones. Es un cuello de botella en sí mismo. Contribuciones que permanecen hasta hoy Secuenciaciòn Dinàmica Renombramiento de Registros Separación de Load y Store como unidades.