High Performance Computing and Architectures Group



Documentos relacionados
Técnicas SuperEscalares en la Paralelización de Bibliotecas de Computación Matricial sobre Procesadores Multinúcleo y GPUs

Solving Dense Linear Systems on Platforms with Multiple Hardware Accelerators

Arquitecturas GPU v. 2013

FUNDAMENTOS DE COMPUTACIÓN PARA CIENTÍFICOS. CNCA Abril 2013

GRUPOS DE INVESTIGACIÓN EN ARQUITECTURA DE COMPUTADORES GAC-USC y GAC-UDC

Modelo de aplicaciones CUDA

EL CLUSTER FING: COMPUTACIÓN DE ALTO DESEMPEÑO EN FACULTAD DE INGENIERÍA

Talleres CLCAR. CUDA para principiantes. Título. Mónica Liliana Hernández Ariza, SC3UIS-CRC NVIDIA Research Center

Procesamiento de imágenes en GPUs mediante CUDA. I. Introducción. Indice de contenidos

Equipos de Cálculo LinuxVixion basados en GPU. Sistemas de Modelización Molecular Certificados para Amber Molecular Dynamics

Seminario II: Introducción a la Computación GPU

CAPÍTUL07 SISTEMAS DE FILOSOFÍA HÍBRIDA EN BIOMEDICINA. Alejandro Pazos, Nieves Pedreira, Ana B. Porto, María D. López-Seijo

CLUSTER FING: PARALELISMO de MEMORIA DISTRIBUIDA

Grupo de Computación de Altas Prestaciones GCAPULL, Univers. GCAPULL, Universidad de La Laguna, Tenerife

Ejemplos de optimización para Kepler. 1. Balanceo dinámico de la carga. Contenidos de la charla [18 diapositivas]

4. Programación Paralela

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

GUÍA DOCENTE. Computación Paralela y Arquitecturas Específicas y de Altas Prestaciones

Desarrollo de un cluster computacional para la compilación de. algoritmos en paralelo en el Observatorio Astronómico.

Grado en Ingeniería Informática

:Arquitecturas Paralela basada en clusters.

FLAG/C. Una API para computación matricial sobre GPUs. M. Jesús Zafont Alberto Martín Francisco Igual Enrique S. Quintana-Ortí

Computación Híbrida, Heterogénea y Jerárquica

Electrónica Digital II

DESARROLLO DE SOFTWARE MODULAR, ABIERTO Y COLABORATIVO PARA SIMULACIÓN DE MÁQUINAS Y MECANISMOS

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

Computación de Propósito General en Unidades de Procesamiento Gráfico GPGPU

Soluciones para entornos HPC

Heterogénea y Jerárquica

Arquitectura: Clusters

Módulo: Modelos de programación para Big Data

Máster en Investigación en Sistemas

Grids. Departamento de Supercómputo - DGSCA UNAM

Plataformas paralelas

Nombre de la asignatura: Programación Estructurada. Créditos: Aportación al perfil

CLUSTER FING: ARQUITECTURA Y APLICACIONES

Evaluación del rendimiento de procesadores Intel Nehalem. Modelos x7550, x5670 y x5570

Programación híbrida en arquitecturas cluster de multicore. Escalabilidad y comparación con memoria compartida y pasaje de mensajes.

- Capacidad para dirigir las actividades objeto de los proyectos del ámbito de la informática de acuerdo con los conocimientos adquiridos.

Recursos y servicios HPC en el BIFI

UNIVERSIDAD DEL VALLE DE MÉXICO PROGRAMA DE ESTUDIO DE LICENCIATURA PRAXIS MES XXI

Introducción. Por último se presentarán las conclusiones y recomendaciones pertinentes.

Microsoft HPC. V 1.0 José M. Cámara (checam@ubu.es)

GRADO DE INGENIERÍA INFORMÁTICA INFORMÁTICA

PERFIL DE CARGOS. I. Identificación del Cargo. Objetivo del Cargo.

CARRERA TITULO DEL TRABAJO CURSO

Tarjetas gráficas para acelerar el cómputo complejo

O jeto de apre r ndizaje

Competencias generales vinculadas a los distintos módulos Módulo de Formación Básica

Laboratorio Nacional de Cómputo de Alto Desempeño: Fortalecimiento de la Infraestructura 2015

CLUSTERS. Antonio Antiñolo Navas ESI-UCLM. Profesor: Serafín Benito Santos. Arquitectura e Ingeniería de Computadores

Tema 4. Gestión de entrada/salida

Capitulo I. Introducción

Capítulo 5: Comparación con ScaLAPACK

Arquitecturas de computadoras

RECURSOS SUPERCOMPUTACIÓN BSC- CNS RES PRACE

Ingeniero en Informática

HERRAMIENTAS DE LA CALIDAD

Tabla Tabla de equivalencia entre asignaturas de Ingeniería Técnica en Informática de Gestión al Grado en Ingeniería Informática. Créd LRU.

RODRIGO TAPIA SANTIS com) has a. non-transferable license to use this Student Guide

UAEM 2015, Estado de México

Tema 1. Conceptos básicos

EVALUACIÓN COMPARADA DEL RENDIMIENTO DEL PROCESADOR INTEL 5570 (NEHALEM)

Carrera: Ingeniera en Tecnologías de la Información y Comunicaciones

REVISTA COLOMBIANA DE FÍSICA, VOL. 34, No CONTEO Y CARACTERIZACIÓN DE REGIONES COMPLETAS EN IMÁGENES 2D: APLICACIÓN A NÚCLEOS CELULARES

PONTIFICIA UNIVERSIDAD CATÓLICA DE CHILE VICERRECTORÍA ACADÉMICA

Coordinador general: José Luis Gordillo Ruiz. Informe Técnico Final.

ARQUITECTURA DE DISTRIBUCIÓN DE DATOS

INDICE Sección Uno: Al Principio 1: Introducción a la familia de Macintosh 2: Empezando a conocer Sección Dos: Entendiendo el Macintosh

soluciones en Fotogrametría Digital El software de análisis más potente basado en objetos de datos geoespaciales. Fotogrametría Digital

Resolución de problemas en paralelo

Universidad Autónoma del Perú Ingeniería de Sistemas. Ing. Heyner Ninaquispe Castro Sesión 1

Tecninorte Programación y Mantenimiento Parque Empresarial Tirso González, 22 - oficina Astillero - Cantabria

PLATAFORMA DE ENVÍO DE SMS CON MÁXIMA DISPONIBILIDAD

15. Arquitectura de los multiprocesadores. 16. Multiprocesadores de memoria compartida. 17. Multicomputadores.

TEMA 37: Arquitecturas Cliente / Servidor. Tipos de cliente. Tipos de Servidor. Clasificación del software.

Palabras Clave: Vídeo en FPGA, Procesamiento en Tiempo Real RESUMEN

FORMACIÓN E-LEARNING. Curso de Marketing Operativo

1. Introducción. Indice de contenidos [70 diapositivas] Aplicaciones bioinformáticas en GPUs: Imágenes de alta resolución y análisis genómico

PERFIL TÉCNICO ANALISTA-PROGRAMADOR

PACS. Picture Archiving and Communication Systems

ACTIVIDAD No. 2 REPASO DE REDES INFORMATICAS

Implementando CMMI 2 con el Proceso Unificado de Desarrollo de Software. Ing. Patricia Forradellas Ing. Guillermo Pantaleo

GMF Gestor de incidencias

INFORME TÉCNICO PREVIO DE EVALUACIÓN DE SOFTWARE

Cómputo Paralelo en Redes Locales de Computadoras

Introducción a Computación

Transcripción:

HPCA Group 1 High Performance Computing and Architectures Group http://www.hpca.uji.es Universidad Jaime I de Castellón ANACAP, noviembre de 2008

HPCA Group 2 Generalidades Creado en 1991, al mismo tiempo que la Universidad Jaime I Investigación en el uso de técnicas de computación de altas prestaciones en aplicaciones de ciencia e ingeniería: Optimización en procesadores de propósito general y hardware específico (FPGAs, GPUs y otros aceleradores) Paralelización en sistemas con memoria compartida (SMP, NUMA y multicore) y distribuida (clusters) 11 PDI doctores, 6 PDI no doctor Línea de investigación relacionada con GPUs: 6 PDI

HPCA Group 3 Proyectos en curso Diseño y desarrollo de una biblioteca de cálculo sobre GPUs. Fundación Caixa- Castelló/Bancaja y UJI, 2008-2009 Desarrollo de una librería de cálculo matricial para procesadores gráficos. Generalidad Valenciana, 2008 COMPARHE: Computación en paralelo y sistemas heterogéneos. CICYT, 2005-2008 COPABIB: Construcción y optimización automáticas de bibliotecas de computación científica. CICYT, 2009-2011 CAPAP-H: Red de computación de altas prestaciones sobre arquitecturas paralelas heterogéneas. MEC, 2008-2009 2008 NVIDIA Professor Partnership Award

HPCA Group 4 Plataformas de cálculo disponibles http://www.hpca.uji.es/?q=node/4 http://www.hpca.uji.es/gpgpu/machines.html A finales de 2008: PCs con 1 GPUs de NVIDIA: GTX280, 8800 Ultra, T10P PCs con múltiples GPUs de NVIDIA: 4x9800GX2, Tesla S870, Tesla S1070 Cluster de 5 PCs: Tesla C1060

HPCA Group 5 Líneas de investigación Computación matricial densa (CMD) Procesamiento de imágenes biomédicas (PIB) Motivación Estado Líneas de desarrollo y resultados

HPCA Group 6 CMD: Motivación Los problemas de CMD aparecen en casi todas las aplicaciones científicas y de ingeniería con base numérica: Resolución de sistemas de ecuaciones lineales Problemas de mínimos cuadrados Cálculo de valores propios y singulares de matrices El coste de resolver de manera fiable estos problemas es cúbico con la dimensión del problema. Cuando éste último es de tamaño considerable, resulta necesario utilizar técnicas de computación de altas prestaciones O(100-1,000) es habitual O(10,000-100,000) también se da en algunas pocas aplicaciones

HPCA Group 7 CMD: Estado Existen bibliotecas para computación matricial sobre plataformas tradicionales : BLAS específico para procesadores de Intel, AMD, IBM, etc. Algunas de estas implementaciones son multihebra procesadores multinúcleo y multiprocesadores con memoria compartida (MMC) LAPACK/FLAME para operaciones más avanzadas, haciendo uso de BLAS ScaLAPACK/PLAPACK para clusters de computadores Algunas implementaciones de BLAS ya disponibles para aceleradores gráficos: NVIDIA, AMD, ClearSpeed. No hay bibliotecas para operaciones avanzadas (tipo LAPACK) No hay bibliotecas para arquitecturas multi-gpu No hay bibliotecas para clusters de computadores equipados con GPUs

HPCA Group 8 CMD: Líneas de desarrollo y resultados Optimización de rutinas de CUBLAS

HPCA Group 9 CMD: Líneas de desarrollo y resultados Resolución de sistemas de ecuaciones lineales

HPCA Group 10 CMD: Líneas de desarrollo y resultados Desarrollo de bibliotecas para plataformas multi-gpu (Tesla S870, S1070, etc.). En colaboración con The University of Texas at Austin (proyecto FLAME) Memoria en GPUs distribuida Sin coherencia hardware Transferencias a través de la RAM Programación como una arquitectura con memoria distribuida (paso de mensajes)? La facilidad de programación es la clave Algoritmo independiente de la arquitectura Run-time encargado de extraer el paralelismo

HPCA Group 11 CMD: Líneas de desarrollo y resultados Desarrollo de bibliotecas para plataformas multi-gpu Primera etapa: Ejecución simbólica del código while ( /*...*/ ) { /*...*/ FLAG_Chol_unb_var3( A11 ); FLAG_Trsm( /*...*/ FLA_ONE, A11, A21 ); FLAG_Syrk( /*...*/ FLA_MINUS_ONE, A21, FLA_ONE, A22 ); /*...*/ } Runtime Grafo de tareas

HPCA Group 12 CMD: Líneas de desarrollo y resultados Desarrollo de bibliotecas para plataformas multi-gpu Segunda etapa: Ejecución real del grafo de tareas (planificación y asignación) 1 2 4 7 Runtime 3 5 6 8 9 10

HPCA Group 13 CMD: Líneas de desarrollo y resultados Desarrollo de bibliotecas para plataformas multi-gpu Speed-up de 3.25 respecto al algoritmo en un G80

HPCA Group 14 CMD: Líneas de desarrollo y resultados Paralelización automática de códigos para plataformas con múltiples aceleradores, posiblemente heterogéneos En colaboración con el Barcelona Supercomputing Center Extensión de StarSs con GPUSs: #pragma css task input(a[b][b], B[b][b]) inout(c[b][b]) device CUDA global void matmul(float *A, float *B, float *C) { /* Código CUDA */ /*...*/ }

HPCA Group 15 CMD: Líneas de desarrollo y resultados Otros: Uso de aceleradores en la resolución de problemas CMD en disco Adaptación de bibliotecas CMD para clusters de computadores equipados con aceleradores

HPCA Group 16 PIB: Motivación Campo de aplicación: detección temprana de tejido canceroso Justificación: muestras digitalizadas de tejido de enormes dimensiones Muestras típicas: 120K x 120K píxeles Más de 40 Gbytes por imagen Múltiples muestras por paciente Problemática: el tiempo de procesamiento es vital para el diagnóstico Implementaciones actuales en Matlab o C/C++ sobre multicores El procesamiento puede llevar días, incluso semanas por paciente Solución: aplicación de técnicas GPGPU Reducción a minutos en clusters de CPU/GPU En colaboración con la Universidad de Málaga y Ohio State University

HPCA Group 17 PIB: Estado Proceso de clasificación

PIB: Estado BIPGPU: biblioteca para procesamiento de imágenes biomédicas sobre GPUs Biblioteca desarrollada en CUDA Comprende todas las fases del proceso: Conversión de color: RGB, XYZ, LA*B*,... Operadores para extracción de características: Operador LBP Matrices de coocurrencia Momentos de Zernike Clasificadores Kernels optimizados atendiendo a la arquitectura CUDA Líneas de trabajo futuras: Procesamiento en el dominio de la frecuencia Wavelets, filtros de Gabor,... HPCA Group 18

HPCA Group 19 PIB: Resultados El tipo de operador determina la ganancia a la hora de utilizar GPUs Operadores totalmente orientados a flujos de datos: Conversiones de color: speedup 200x Operadores de naturaleza recursiva: Momentos de Zernike: speedup 2x Operadores con baja/media carga computacional: LBP: speedup 50x Matrices de coocurrencia: speedup 80x

HPCA Group 20 High Performance Computing and Architectures Group http://www.hpca.uji.es Universidad Jaime I de Castellón Contacto: Enrique S. Quintana (quintana@icc.uji.es)