La GPU. I. La tarjeta gráfica y su GPU. Indice de contenidos [36 diapositivas] El diagrama de bloques de la tarjeta gráfica

Documentos relacionados
Inside Kepler. I. Presentación de la arquitectura. Índice de contenidos [25 diapositivas] Kepler, Johannes ( )

Innovaciones y futuro de la GPU. Contenidos de la charla [30 diapositivas] Estados Unidos construirá dos supercomputadores insignia

Tema 3 GPUs: Introducción

La elección de la CPU. 1. Introducción. Indice de contenidos [23 diapositivas] El procesador central o CPU

Funcionamiento y futuro de la memoria del PC. I. Tecnología actual. Índice de contenidos [44 diapositivas]

Kepler. 1. Presentación de la arquitectura. Índice de contenidos [25 diapositivas] Kepler, Johannes ( )

Funcionamiento y futuro de la memoria del PC. I. Tecnología actual. Índice de contenidos [45 diapositivas]

Conociendo la CPU a través de la página Web del fabricante. 1. Introducción. Indice de contenidos [30 diapositivas] El procesador central o CPU

Kepler. Contenidos de la charla. Kepler, Johannes ( ) 1. Presentación de la arquitectura

Arquitectura de aceleradores. Carlos Bederián IFEG CONICET GPGPU Computing Group FaMAF UNC

La memoria del PC. 1. La saga DDR. Índice de contenidos [25 diapositivas] Comparativa frente a otras tecnologías de almacenamiento de datos

FUNDAMENTOS DE COMPUTACION INVESTIGACION PROCESADORES DIANA CARRIÓN DEL VALLE DOCENTE: JOHANNA NAVARRO ESPINOSA TRIMESTRE II

El zócalo de la CPU. I. Introducción. Índice de contenidos [25 diapositivas]

Arquitecturas GPU v. 2015

MEMORIA DE ANCHO DE BANDA ALTO (HBM) PARTE UNO MAYO DE 2015

Electrónica Digital II

Introducción a la Arquitectura y Plataforma de Programación de Cómputo Paralelo CUDA (36 hrs) Instructor M. en C. Cristhian Alejandro Ávila-Sánchez

POTENCIA PERFECTA. Aspire A715 71G 70P3. Aspire 7. Una impresión duradera

Estructura de un Ordenador

Múltiples GPU (y otras chauchas)

RECONOCIMIENTO DE SUS COMPONENTES - LA PC POR DENTRO:

Tema 1:Arquitectura de ordenadores

Motherboard. Daniel Rúa Madrid

T. DE VIDEO PNY PCIE X NVIDIA GEFORCE GT1030/2GB/GDDR5/ESTANDAR Y BAJO PERFIL/DVI+HDMI/PC. NVIDIA? Quadro? K2000 VCQK2000-PB 2GB #VCQK2000-PB

Kepler. 1. Presentación de la arquitectura. Contenidos de la charla. Kepler, Johannes ( )

MAGMA. Matrix Algebra on GPU and Multicore Architecture. Ginés David Guerrero Hernández

Arquitecturas de Altas Prestaciones y Supercomputación

MINISTERIO DE EDUCACIÓN PÚBLICA IPEC DE SANTA BÁRBARA MANTENIMIENTO DE EQUIPO DE COMPUTACIÓN. Memoria Principal RAM Memoria de acceso aleatorio

MODULO DE MEMORIA RAM. Ing. Raúl Rojas Reátegui

Consiste en un conjunto de circuitos impresos y conectores integrados en una única placa donde se alojan todos los componentes internos del ordenador

La compra del PC modelo para un ingeniero. Manuel Ujaldón Martínez Departamento de Arquitectura de Computadores Universidad de Málaga

NVIDIA Confidential. La GPU más veloz, eficiente y poderosa jamás fabricada

Procesador: Pentium 4 SL6S9. Año 2001, 2.4 GHZ 512 KB L2 caché Hecho en Filipinas

Computadora SMX SMX074-A, Intel Core i GHz, 8GB, 1TB - sin Sistema Operativo

También denominada adaptador de vídeo, es uno de los componentes más básicos e importantes del ordenador, ya que nos va a permitir visualizar toda la

Quinta tarea: Existen varias versiones del 80486:

GPGPU ( GENERAL PURPOSE COMPUTING ON GRAPHICS PROCESSING UNITS)

Descubriendo Kepler. 1. Presentación de la arquitectura. Agradecimientos. Indice de contenidos [46 diapositivas]

Programación Gráfica de Altas Prestaciones

Planilla de trabajo: Investigue los componentes de la computadora

Computación de Propósito General en Unidades de Procesamiento Gráfico GPGPU. Clase 0 Lanzamiento del Curso. Motivación

Tipos De Procesadores

Estructura Interna de La PC. 1. Microprocesadores 2. I/O ( Entrada / Salida) 3. Memoria

La placa base: Una evolución retrospectiva. I. Modelos comerciales y sus componentes esenciales. Indice de contenidos

DE LA LICITACION SIMPLIFICADA RELATIVA A LA ADQUISICIÓN DE EQUIPO ELECTRONICO PARA RADIOTELEVISION DE VERACRUZ

En una placa base del ordenador personal, tenemos:

MICROPROCESADORES Y CHIPSETS DE INTEL Mayo de 1999

HP ENVY 20-D030 TouchSmart All-in-One. Especificaciones del producto

Fundamentos del hardware

1. Partes del ordenador. Nuevas Tecnologías y Sociedad de la Información

GPUs para HPC: Logros y perspectivas futuras

Francisco J. Hernández López

Contienen: - Chipset. -Zócalo para el procesador (socket). -Zócalos para memoria RAM. -Conectores para alimentación, panel de carcasa y altavoz.

GRADO EN INGENIERÍA DE COMPUTADORES

Herramientas Informáticas I

Unidad IV. Chipset Controlador bus Puertos de E/S Controlador de Irrupciones

Arquitectura de placas

G - SERIES PREDATOR G QJ

29/8/2015 GIGABYTE Motherboard, Graphics Card, Notebook, Slate, Mini PC, Server, PC Peripherals and more / GA H81M S1 (Rev. 2.

Que comiencen los juegos

Tema 1. Hardware. Fundamentos de Informática Grado en Ingeniería Mecánica

Memorias RAM. Basilio B. Fraguela Rodríguez. Copyright Basilio B. Fraguela 2006

FLAG/C. Una API para computación matricial sobre GPUs. M. Jesús Zafont Alberto Martín Francisco Igual Enrique S. Quintana-Ortí

Soporte para procesadores Intel Core i7 / Intel Core i5 / Intel Core i3 procesadores / Intel Pentium / Intel Celeron en LGA1155

Programación de GPUs con CUDA

GPU-Ejemplo CUDA. Carlos García Sánchez

Estudio de la Wii U: CPU y GPU. Michael Harry O'Gay García Microprocesadores para comunicaciones ULPGC

Introducción TEMA 1 TECNOLOGÍA DE LOS CI. ME Tema 1 Aspectos generales sobre diseño microelectrónico 1

Tema 2.1. Hardware. Arquitectura básica

ELEMENTOS HARDWARE DEL ORDENADOR. Tarjeta gráfica

Nitro 5 AN V5

MULTIPROCESADORES COMERCIALES. José M. Cámara v. 2.0

INTRODUCCIÓN A LA COMPUTACIÓN PARALELA CON GPUS

Aspire E Mejor Informática

Procesamiento Paralelo

Montaje y Reparación de Sistemas Microinformáticos

Tile64 Many-Core. vs. Intel Xeon Multi-Core

La memoria del ordenador

Equipos microinformáticos

0,00. Home Basic. Descripción. Unidades. Pista Cero tienda.pistacero.es ,00 + IVA

PORTATIL LENOVO Y70-70 TOUCH I7/16/1TERA 17,3"


Procesamiento de imágenes en GPUs mediante CUDA. I. Introducción. Indice de contenidos

Asus M5A99FX PRO Socket AM3+ MB90-MIBIT0-G0EAY0VZ

Computación de Propósito General en Unidades de Procesamiento Gráfico GPGPU

Francisco Javier Hernández López

LENOVO ESSENTIAL B GHZ I3-5005U 15.6" 1366 X 768PIXELES NEGRO

cuevogenet Paralelización en CUDA de la Dinámica Evolutiva de Redes Génicas Dirigido por: Fernando Díaz del Río José Luis Guisado Lizar

Juan Pablo Jaramillo Valencia Planilla de trabajo: Investigación de componentes de PC

Recomendaciones de Hardware para SOLIDWORKS 2017

Organización de Procesadores


Periféricos. Departament d Informàtica de Sistemes i Computadors. Introducción a la informática. Preliminares

Aspire F Potencia Informática cotidiana

Asus N750JK-T4188H. i7-4710hq. 8Gb. 1Tb. Intel HD Graphics ". PO90NB04N1-M02450

J. Nicolás Bustos Pieper. Microprocesadores en. Microprocesadores para Comunicaciones Curso 2009/2010 5º E.T.S.I.T. - ULPGC

Tema: Componentes físicos de un ordenador. Dónde se lleva a cabo el procesamiento de los datos en un ordenador? Qué unidades conforman el procesador?

Contenidos [62 diapositivas] Málaga, del 15 al 24 de Julio, 2015

MINISTERIO DE EDUCACIÓN PÚBLICA IPEC DE SANTA BÁRBARA MANTENIMIENTO DE EQUIPO DE COMPUTACIÓN. Tarjetas Madres Placas Base - Motherboard

MEMORIA RAM. La memoria RAM es una colección de circuitos integrados que almacenan la información de manera volátil y representada como 0 s y 1 s

Transcripción:

Indice de contenidos [36 diapositivas] 1. La tarjeta gráfica y su GPU [7]. Perfiles de usuario [5] 3. Generaciones y modelos comerciales [4] La GPU 1. Pascal [7]. Volta [6] 3. Resumen de modelos comerciales [5] Manuel Ujaldón Martínez Departamento de Arquitectura de Computadores Universidad de Málaga El diagrama de bloques de la tarjeta gráfica I. La tarjeta gráfica y su GPU 3 4

Elementos de la tarjeta gráfica Evolución y retrospectiva 199: Realtek RTG3106 ATI RAGE (199): (1) Punto de anclaje. () RAMDAC. (3) Punto de sujeción. (4) Conectores extra. (5) Oscilador de reloj. (6) BIOS de vídeo. (7) GPU. () Jumper de config. (9) Memoria de vídeo. (10) Conector AGP. 1996: S3 Virge/DX 004: GeForce 600 GT 000: SiS 63 00: GeForce 900 GX 5 Un modelo de Maxwell (014) 6 Un modelo de Pascal (0) con memoria 3D 7

Implementación sobre zócalo SMX Un modelo de Volta (01) m. 7. 14 c cm. 9 10 Nuevo perfil de usuario en Nvidia II. Perfiles de usuario GeForce Jugones: Ocio y entretenimiento Quadro Gráficos profesionales: Diseño y creación Tesla Computación de altas prestaciones Todos ellos basados en una misma microarquitectura 11 1

Y después de Tesla, llega Tegra Tegra: Dimensiones físicas 13 Tegra: Elementos integrantes 14 GeForce y Tesla frente a frente GeForce GTX Titan Diseñada para jugar: Orientada a HPC: El precio es prioritario (<500 ). Fiabilidad (tres años de garantía). Gran disponibilidad/popularidad. Pensada para conectar en clusters. Poca memoria de vídeo (1- GB.). Más memoria de vídeo (6-1 GB.). Relojes un poco más rápidos. Ejecución sin descanso (4/7). Hyper-Q sólo para streams CUDA. Hyper-Q para procesos MPI. Perfecta para desarrollar código GPUDirect (RDMA) y otras que luego pueda disfrutar Tesla. coberturas para clusters de GPUs. 15

Las generaciones hardware de CUDA GFLOPS en doble precisión por cada vatio consumido III. Generaciones y modelos comerciales 17 El modelo hardware de CUDA: Un conjunto de procesadores SIMD La GPU consta de: GPU N multiprocesadores, cada uno dotado de M cores (o procesadores streaming). Volta 4 Pascal 0 Memoria 3D NVLink 1 14 Maxwell 1 Memoria unificada DX1 10 Kepler Paralelismo dinámico 6 4 Tesla Fermi FP64 CUDA 00 010 01 014 0 01 1 Memoria 3D de Pascal Multiprocesador N Multiprocesador Multiprocesador 1 Computación heterogénea: Core 1 Core Core M Unidad de Control SIMD GPU: Intensiva en datos. Paralelismo fino. CPU: Saltos y bifurcaciones. Paralelismo grueso. G0 (Tesla) Marco temporal N (multip.) M (cores/mult.) # cores GT00 (Tesla) GF100 (Fermi) 006-07 00-09 30 1 40 GK110 (Kepler) GM00 (Maxwell) GP100 (Pascal) GV100 (Volta) 010-11 01-13 014-15 0-17 01-? 14-13-15 4-4 56 0 3 19 1 64 64 44-51 496-0 51-307 354 510 Integración chip-en-oblea 3D. 3x ancho de banda (vs. GDDR5)..5x capacidad. 4x eficiencia energética. 19 0

La hoja de ruta de Nvidia La integración en silicio de la memoria 3D Las celdas de DRAM se organizan en torres gemelas (vaults), que suscriben el entrelazado matricial en bancos de los chips de memoria DRAM coetánea. El controlador DRAM se sitúa en la capa inferior, y las matrices de celdas en las capas superiores. Controlador y datos se conectan con vías TSV (through-silicon vias) verticales, con surcos esculpidos en silicio de entre 4 y 50 micras (según el fabricante), y cuya latencia vertical es de sólo 1 picosg. para recorrer la altura de 0 capas. 1 Lo que cuesta a cada tecnología alcanzar 640 GB/s. Circuitería necesaria DDR3L-00 DDR4-300 Ancho de banda unidirecc. (GB/s.) 1. por módulo 5.6 por módulo 0 por enlace de bits Items necesarios para 640 GB/s. Actividad eléctrica 50 módulos 5 módulos 3 enlaces ( chips 3D) DDR3L-00 DDR4-300 Stacked DRAM HMC 1.0 Líneas eléctricas activas necesarias 143 por módulo 14 por módulo Número total de líneas activas Consumo energético Vatios (W.) Consumo total para 640 GB/s. Espacio ocupado en placa base Área del módulo (ancho x alto) Area total ocupada para 640 GB/s. 7150 70 por chip 3700 0 (ahorro el 70%) Stacked DRAM HMC 1.0 DDR3L-00 DDR4-300 6. por módulo.4 por módulo 5 por enlace 310 W. 10 W. 0 W. (ahorro el 50%) DDR3L-00 DDR4-300 5 mm. x 10 mm. = 50 mm 5 cm 41.5 cm Pascal Stacked DRAM HMC 1.0 Stacked DRAM HMC 1.0 109 mm por chip 43.5 cm (ahorro 95%) 3 4

La placa de circuito impreso de Pascal 3 veces más eficiente en rendimiento. 15.300 M. transistores FinFET nm. en un área de 610 mm : Fabricado por TSMC. Cubos de memoria HBM dotados de 4096 líneas: Fabricado por Samsung. Pascal y sus 4 cubos de memoria 3D: Envés y revés Modelo Tesla P100: GPU: 56 SMs de 64 cores. Rendimiento pico: 5.3 TFLOPS (FP64). 10.6 TFLOPS (FP3). 1. TFLOPS (FP). Memoria: Más bancos de registros y memoria compartida que Maxwell (mismos tamaños por cada SMX, pero hay 56 SMX, frente al techo de 4 en Maxwell). Bus NVLINK: 0 GB/s. 0 GB/s. bidireccionales. 5 6 Primer modelo comercial: GeForce GTX 100. Comparativa con las generaciones anteriores Primer modelo Tesla para Pascal: P100. y comparativa con las generaciones previas GTX 60 (Kepler) GTX 90 (Maxwell) GTX 100 (Pascal) Tesla K40 (Kepler) Tesla M40 (Maxwell) P100 & NV-link P100 & PCI-e Fecha de lanzamiento 01 014 0 Fecha de lanzamiento 01 Noviembre, 015 Abril, 0 Transistores 3.54 B @ nm. 5. B @ nm. 7. B @ nm. Transistores 7.1 B @ nm. B @ nm. 15.3 B @ nm. FinFET (610 mm ) Consumo y área int. 195 W & 94 mm 5 W & 39 mm 10 W & 314 mm Multiprocesadores 15 4 56 Multiprocesadores 40 Cores fp3 / Multiproc. 19 1 64 Cores / Multiproc. 19 1 64 Cores fp3 / GPU 0 307 354 Cores / GPU 1536 04 560 Cores fp64 / Multiproc. 64 4 3 Reloj (sin y con GPU Boost) 1006, 105 MHz 1, 1 MHz 07, 1733 MHz Cores fp64 / GPU 960 (1/3 fp3) 96 (1/3 fp3) 179 (1/ fp3) Rendimiento pico 350 GFLOPS 490 GFLOPS 73 GFLOPS Frecuencia de reloj 745,10,75 MHz 94, 1114 MHz 13, 140 MHz 1, 1303 MHz Memoria compartida, 3, 4 KB 64 KB Consumo energético 35 W. 50 W. 300 W. 50 W. Tamaño de caché L1 4, 3, KB Integrada con la caché de texturas Rendimiento pico (DP) 0 GFLOPS 13 GFLOPS 5304 GFLOPS 4670 GFLOPS Tamaño de caché L (recortada respecto a Teslas) 51 KB 04 KB Tamaño de la caché L 1536 KB 307 KB 4096 KB Memoria DRAM: Interfaz 56-bit GDDR5 56-bit GDDR5 56-bit GDDR5X Memoria: Interfaz 34-bit GDDR5 34-bit GDDR5 4096-bit HBM Memoria DRAM: Frecuencia x 3000 MHz x 3500 MHz 4x 500 MHz Memoria: Tamaño Hasta 1 GB Hasta 4 GB GB Memoria DRAM: Ancho banda 19. GB/s 4 GB/s 30 GB/s 7 Memoria: Ancho banda GB/s GB/s 70 GB/s

Los dos formatos: Zócalo (PCI-e) vs. Socket (NVLINK, SXM) Disposición física de sus multiprocesadores, buses y controladores de memoria 9 30 El multiprocesador CUDA de Pascal Volta 31 3

La GPU GV100: 6 GPC, 4 SM, 4 TPC y contr. de memoria de 51 bits (Tesla V100 sólo usa 0 SMs) Primer modelo comercial y comparativa con generaciones anteriores en la gama Tesla K40 (Kepler) GPU (chip) Millones de transistores Área de integración M40 (Maxwell) P100 (Pascal) GK110 GM00 GP100 7100 000 15300 1100 601 mm 610 mm 15 mm Fabricación nm. nm. nm. FinFET 1 nm. FinFET Disipación de calor (TDP) 35 W. 50 W. 300 W. 300 W. 0 (15 x 19) 307 (4 x 1) 354 (56 x 64) 510 (0 x 64) 960 96 179 560 75 MHz 1114 MHz 140 MHz 1455 MHz 5.04 / 1.6 6. /.1 10.6 / 5.3 15 / 7.5 Número de unidades fp64 Frecuencia máx. (boost) TFLOPS (fp3 / fp64) Interfaz de memoria Memoria de vídeo Caché L GV100 551 mm Número de cores V100 (Volta) GDDR5 de 34 bits HBM de 4096 bits Hasta 1 GB Hasta 4 GB GB GB 1536 KB 307 KB 4096 KB 6144 KB Memoria compartida / SM 4 KB 96 KB 64 KB Hasta 96 KB Banco de registros / SM 65536 65536 65536 65536 33 Evolución del multiprocesador: Desde Pascal a Volta 34 Estructura del core tensor ( por multiprocesador) Matriz de procesamiento 4x4x4 para computar D=A*B+C. 64 madd operaciones de precisión mixta por ciclo de reloj: Dos matrices de entrada de precisión mixta (fp) con producto de precisión simple (fp3). Acumulación y resultado final en precisión simple (fp3). 35 36

Eficiencia energética Acceso a memoria y rendimiento Volta es un 50% más eficiente energéticamente que Pascal. Nuevos modos de Gestión de Consumo: Migración: Memoria unificada En GV100: Nuevos contadores de acceso para mejorar la migración de las páginas de memoria al procesador que accede a ellas de forma más frecuente. En plataformas Power de IBM: Nuevos servicios de traducción de direcciones para permitir a la GPU acceder a las tablas de páginas de la CPU de forma directa. Máximo rendimiento: Opera sin restricciones hasta el TDP (300W) Maxima eficiencia: Rendimiento/vatio óptimo. Se puede establecer un límite para el consumo en el conjunto de GPUs pertenecientes a un rack. Ancho de banda: Memoria HBM de GB Memoria HBM de nueva generación (de Samsung): Ancho de banda pico de 900 GB/s (1.5x frente a los 70 GB/s pico en Pascal). Nuevo controlador de memoria (de Nvidia): Eficiencia del ancho de banda superior al 95% ejecutando muchos programas de prueba. 37 3 Síntesis de cuatro generaciones (006-015) Resumen de modelos comerciales Tesla Arquitectura Marco temporal 39 Fermi Kepler G0 GT00 GF100 GF104 006 00 /07 /09 Maxwell GK104 GK110 GK110 GK10 GM107 GM04 (K10) (K0X) (K40) (K0) (GTX750) (GTX90) 010 011 01 013 013 /14 014 014 /15 014 /15 CUDA Compute Capability 1.0 1.3.0.1 3.0 3.5 3.5 3.7 5.0 5. N (multiprocs.) 30 7 14 15 30 5 M (cores/multip.) 3 4 19 19 19 19 1 1 Número de cores 1 40 51 336 1536 6 0 5760 640 04 40

Las nuevas generaciones (0-1) Para identificar las series de Nvidia en un catálogo comercial Arquitectura Marco temporal CUDA Compute Capability N (multiprocs.) M (cores/multip.) Número de cores GM107 GM04 (GTX750) (GTX90) 014 /15 Maxwell Pascal Volta 014 /15 GM00 (Titan X) (Tesla M40) GP104 (GTX100) GP100 (Titan X) (Tesla P100) GP10 (Tesla P40) GV100 (Tesla V100) 0 0 017 017 01 5.0 5. 5.3 6.0 6.0 6.1 7.0 5 4 40 56 60 0 1 1 1 64 64 64 64 640 04 307 560 354 340 510 41 00: Desarrollada durante 3T 0, hasta 4T 09. Mejora la G0 con 40 cores (GTX60 and GTX0). 400: Arranca en 1T 10, inaugurando Fermi. Hasta 3T 11. 500: Empieza en 4T 10 con la GTX50 [GF110], y termina la generación Fermi en 1T 1. 600: 01-13. Presenta Kepler, pero también tiene Fermis. 700: 013-14. Centrada en Kepler, incluye las últimas Fermis [GF10] y las primeras Maxwells [GM107, GM10]. 00M: 1T 14 sólo para portátiles, combinando Fermi [GF117], Kepler [GK104] y Maxwell [GM107, GM10]. 900: Comienza en 4T 14, mejorando Maxwell [GM0x]. 1000: Empieza en T con las primeras Pascal [GP10x]. 4 Los modelos favoritos del curso pasado Prestaciones más votadas 43 44