Pipeline de instrucciones

Tamaño: px

Comenzar la demostración a partir de la página:

Download "Pipeline de instrucciones"

Monica Camacho Ávila
hace 6 años
Vistas:

1 Pipeline de instrucciones Manejo de Interrupciones Tipos: - Síncronas - Asíncronas Asíncronas: No están asociadas a ninguna instrucción. Se atienden normalmente al final de la instrucción en ejecución. Permiten cierta flexibilidad. E 5 Rut. E E E E5 t INT Aceptación Síncronas: Pipeline: Interrupciones Se producen siempre en el mismo lugar, cada vez que se ejecuta el mismo programa con los mismos datos. Se dan y deben atenderse en mitad de una instrucción. Implican la detención y, en general, el reinicio de dicha instrucción. El tratamiento de la mayoría de estas excepciones requiere: Salvar el estado. Ejecutar una rutina de tratamiento. Restaurar el estado y reiniciar. Interrupciones Precisas. Las instrucciones que preceden a la que produjo la excepción se completan y las que le suceden se reinician. El mismo comportamiento que en un computador sin pipeline. Page

2 Pipeline: Interrupciones Interrupciones síncronas. Ejemplo: Fallo de página. Reinicio E 5 5 E 5 E S. O. E E5 t Fallo de página Pipeline: Excepciones Problemas que plantea el pipeline de instrucciones.. Pueden producirse varias excepciones en el mismo ciclo. Reinicio E E E E E5 t Desbord. Fallo de página Desbord. Page

3 Pipeline: Excepciones. Pueden aparecer las excepciones fuera de orden. E E E E Anotación en vector de * N N * NOP Reinicio * E5 t Fallo de página Fallo de página Exámen del vector de (trata º fp de ) después se trata Si interrupciones precisas: No siempre se pueden tratar en el instante en el que se producen. 5 Pipeline: Excepciones. En saltos retardados. Pueden tener que reiniciarse instrucciones correspondientes a distintos flujos de control. dir: bz r, $dir ld r, #[r5]... add r, r, r Reinicio de instrucciones no consecutivas. E BZ 5 E BZ E BZ E BZ E5 BZ t Fallo de página 6 Page

4 Operaciones multiciclo Operaciones enteras complejas (mult, div). Operaciones de coma flotante. Necesitan más tiempo en la etapa EJ. Cómo abordar el pipeline, considerando estas operaciones?. Prolongando la etapa EJ de estas operaciones varios ciclos. No cambia el T.ciclo. Alus especializadas vs. Alus multifunción. División de la labor de Ejecución en varias unidades independientes: enteros, coma flotante,..., algunas con pipeline. 7 Estructura del pipeline: Operaciones multiciclo EJ Enteros () MEM BI DLR MULT ()p ADF/SUBF ()p ER DIV (0)np Detección de dependencia estructural e inhibición de la entrada de nuevas instrucciones add subf div div mult 8 Page

5 Operaciones multiciclo Diferencias con el pipeline original: ) Posibilidad de dependencias estructurales (U.F. sin pipeline). Detención de las instrucciones posteriores. Parones en el pipeline y pérdida de prestaciones. E Div Div Add Sub E Div Div Add E Div Div Div Div.... Div Div Div Div E E5 0 ciclos t 9 Operaciones multiciclo ) Varias instrucciones pueden llegar a la etapa ER en el mismo ciclo parón estructural. ) Las instrucciones pueden finalizar fuera de orden. Mayor complejidad en el tratamiento de excepciones. Dos escrituras en el mismo ciclo E E E E : MUL : : : SUB finalización fuera de orden 0 Page 5

6 Operaciones multiciclo ) Pueden aparecer dependencias de datos WAW. E E E : MUL R8, R, R : R8, #0[R] E E5 Escribe R8 Escribe R8 Operaciones multiciclo 5) Los parones debidos a dependencias RAW serán más frecuentes, debido a la mayor latencia de algunas operaciones. E 5 E E E 5 : MUL R, R, R6 : F R, R, R8 : ST R, #0[R] E5 Si las dependencias se detectan en E, antes de enviar una instrucción a E han de comprobarse:»las dependencias estructurales.»las dependencias RAW y WAW. Page 6

7 Superpipeline/Hiperpipeline Gananciaideal = nº de etapas. Número elevado de etapas. Procesadores Superescalares OBJETIVO : CPIideal < Para ello es necesario realizar en un mismo ciclo: Fetch Decodificación y lectura de operandos. Ejecución. Almacenamiento de resultados. De varias instrucciones! Múltiples pipelines en paralelo. I I I I I6 I5 I8 I7 I0 I9 I I I I I I I6 I5 I I I8 I7 I6 I5 I0 I9 I8 I7 I0 I9 instrucciones por ciclo CPIideal = 0,5 I I I I I I I6 I5 I I I8 I7 I6 I5 t Page 7

8 Procesadores Superescalares Posibilidad de emitir instrucciones fuera de orden. Mejora de prestaciones. div r, r, r addf r0, r, r8 Dependencia RAW subf r, r8, r ld r5, #0(r0) Instrucciones independientes Pueden aparecer dependencias WAR. ld r7, r5, #0[r] addf r6, r, r8 div r, r, r6 subf r, r5, r Dependencia RAW WAR si subf finaliza antes que div WAR y WAW son falsas dependencias. Se resuelven mediante Renombrado de registros estático o dinámico. 5 Procesadores Superescalares Ejemplo de renombrado de registros: r <- r op r5 r <- r op r6 r <- r5 op r r <- r8 op r RAW WAR WAW 6 Page 8

9 Aplicación: Procesadores Vectoriales Problemas que requieren mucho cálculo y pueden ser formulados en términos de vectores y matrices. - Solución convencional: for (i=; i<00; i++) c[i] = a[i] + b[i] - Solución vectorial: c[i] = a[i] + b[i] (I=,00) Modelos de Ejecución: Memoria-Memoria (Primeros vectoriales) Alto ancho de banda de la memoria (CYBER: 5 bits) Registro-Registro. Registros de alta capacidad (CRAY: 6 elementos de 6 bits). Uso intensivo de pipeline aritmético 7 Procesadores Vectoriales Estructura. Procesador Escalar Datos escalares Registros Escalares PE- PE- PE-k Memoria principal Fetch Decod. Busq escalar Busq. Vectorial Procesador Vectorial Datos vectoriales Registros Vectoriales PV- PV- PV-k Unidades funcionales con pipeline. 8 Page 9

10 Procesadores SIMD (Matriciales) Estructura. Bus de datos Host E/S Datos e instrucciones Control Bus control EP-0 M-EP-0 EP- M-EP EP-n M-EP-n Illiac IV Red de interconexión La U.C. lanza la misma instrucción a todos los EP, que la ejecutan sobre sus datos locales (síncronos). 9 Características globales: Sistemas MIMD Dos o más procesadores con la misma capacidad de cálculo. Funcionamiento asíncrono. Cada procesador tiene su propia U. Control. Grado de acoplamiento.(grado de interacción entre procesadores): Débil (Multicomputadores). Moderado (NUMA) Fuerte (UMA) Escalabilidad: Escalables. No escalables. Simetría. Simétricos Asimétricos (procesadores dedicados para E/S: attached). 0 Page 0

11 Clasificación de MIMDs MULTIPROCESADORES Memoria compartida (Lógica) P0 P..... Pk Red de interconexión Comunicación a través de memoria M0 M..... Mn Espacio global de direcciones MULTICOMPUTADORES Memoria distribuida Comunicación mediante paso de mensajes Multiprocesadores Un solo espacio de direcciones lógico visible a todos los procesadores. Dependiendo de la organización física de la memoria: UMA. - Memoria física y lógica compartida - Acceso uniforme a memoria. NUMA - Memoria lógica compartida - Acceso no uniforme a memoria. Page

12 ª GENERACIÓN: UMA s con bus compartido. Multiprocesadores Problemas de latencia de memoria: Acceso de varios procesadores al mismo módulo de memoria. Retrasos introducidos por la red de interconexión y conflictos en la propia red. Cuanto mayor es el nº de procesadores, mayor será la latencia media Baja escalabilidad (6-6 procesadores) Multiprocesadores UMA: Ejemplo - CPU s de bits y 000 MIPS - Arquitectura RISC -Nº de CPU s = 0 - El 0% de las instrucciones son Load o Store: 70% Load y 0% Store Nº de Accesos a memoria por segundo y por CPU: Fetch de instrucción: Búsqueda de operando (load): x 0, x 0,7 Escritura de resultado (store): x 0, x 0, peticiones/s Ancho de banda necesario en la memoria compartida: 0 x palabras/s = palabras/s T. Acceso necesario: 0,08 ns! Page

13 Multiprocesadores UMA Para reducir tráfico, contención y latencia: Uso de memorias cache locales PROBLEMA: Coherencia de caches Por compartición de datos modificables. Por migración de procesos. SOLUCIONES: Usar la CACHE sólo para código (read-only) y datos privados. Algoritmos de coherencia: Protocolos snoopy (ej: MESI) 5 Protocolos snoopy Dotar a las Mca de la habilidad de escuchar las peticiones que van por el bus y actuar en consecuencia. Caches con write-through: Invalidación (write invalidate) Actualización(write update) Caches con copy-back: protocolos más complejos: write once MESI Invalidado AL FL AE Write invalidate AE Modificado AL AE Exclusivo AL 6 Page

14 Multiprocesadores UMA Ejemplos: Compaq Proliant 5000 Pentium Pro 00MHz.08MB Digital AlphaServer800 Alpha6 0MHz 8.67MB HP9000 K60 PA MHz.096MB IBM RS/6000 R0 8 PowerPC 60 MHz.08MB SGI Power Challenge 6 MIPS R MHz 6.8MB Sun Enterprise UltraSparc 67MHz 0.70MB 7 Multiprocesadores ª GENERACIÓN: NUMAs. Distribución física de la memoria entre los procesadores. Redes de interconexión más complejas que bus. Alta escalabilidad y no coherencia de caches. ª GENERACIÓN: CC-NUMAs. Grandes caches locales y utilización de protocolos de coherencia no snoopy (directorio). Cray TE 08 Alpha 6 50MHz 5.88MB -SMP (NUMA) Convex 6 PA MHz 65.56MB -SMP Exemplar Sequent Pent.Pro 00MHz.07MB -SMP NUMA-Q SGI 8 MR MHz.07MB -SMP Origin000 Sun Enterprise 6 UlltraSparc 50MHz 65.56MB -SMP Page

15 Diversas topologías. Redes de interconexión DINÁMICAS: Utilizadas en multiprocesadores UMA. Bus compartido Crossbar MEMORIA M-M M-M M-M M-M CPU- CPU- CPU- CPU- CPU- CPU- CPU- CPU- 9 DINÁMICAS: Red multietapa Redes de interconexión Page 5

16 Redes de interconexión ESTÁTICAS: Utilizadas en multiprocesadores NUMA Red hipercubo Malla y Toroide Page 6

Documentos relacionados

Definición de prestaciones

Definición de prestaciones En términos de velocidad. Diferentes puntos de vista: Tiempo de ejecución. Productividad (throughput) Medidas utilizadas En función de la duración del ciclo de reloj y del número