CACIC 2007 Tecnologías Grid Autores de la presentación original (08/2006): Ramón Doallo Juan Touriño Grupo de Arquitectura de Computadores Universidade da Coruña Elisa Heymann Universidad Autónoma de Barcelona Revisión / adaptación (09/2007): Josemar Rodrigues de Souza Núcleo de Arquitetura de Computadores e Sistemas Operacionais ACSO Universidade do Estado da Bahia UNEB http://www.acso.uneb.br CYTED-Grid - Tecnología GRID como motor del desarrollo regional CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 1
Tecnologías Grid 1. Conceptos fundamentales de la computación Grid, y visión general de proyectos internacionales de temática Grid. 2. La herramienta Globus Toolkit y sus componentes básicos para el despliegue de una infraestructura Grid. 3. Experiencias prácticas dentro de un proyecto interdisciplinar para el desarrollo de herramientas de soporte a la computación Grid. CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 2
Qué significa Grid Una primera respuesta básica: Mientras que la Web es un servicio para compartir información a través de Internet, el GRID es un servicio para compartir potencia de cálculo y almacenamiento a través de la red. Esta compartición se realiza abstrayendo/virtualizando los recursos que participan en una infraestructura grid, de manera que para el usuario final actúan como un único y potente ordenador. CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 3
La analogía con la Red Eléctrica (I) La Red Eléctrica (Power Grid): A comienzos del siglo XX para obtener electricidad era preciso estar situado cerca de un generador eléctrico. En la actualidad, en lugar de muchos generadores individuales se dispone de unos pocos supergeneradores que abastecen a muchos clientes: Red Electrica (Power Grid). Los clientes desconocen de dónde proviene la energía eléctrica que permite que los dispositivos enchufados a la Red funcionen. CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 4
La analogía con la Red Eléctrica (II) La Red Computacional (the Grid): Cuando una organización quiere disponer de cierto recurso computacional o de almacenamiento debe comprarlo. Una alternativa es subcontratar el acceso a dicho recurso a otra organización: Acuerdo específico entre ambas organizaciones. La alternativa Grid: acceder a recursos computacionales geográficamente dispersos de forma transparente tanto para el que solicita el recurso como para el que lo cede. CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 5
Grid computing frente a HPC Es una estrategia alternativa y complementaria a la concepción clásica del HPC (High Performance Computing) basada en: - supercomputadores - clusters de procesadores. CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 6
Supercomputación basada en servidor Algunos inconvenientes de la supercomputación basada en servidor - Falta de escalabilidad - Equipos muy caros - Mantenimiento muy caro - Las demandas de cálculo podrían ser puntuales CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 7
Computación cluster Alternativa económica a la adquisición de un multiprocesador/supercomputador. - Mejor relación coste/rendimiento (3-10 veces). - Mantenimiento caro y a menudo ineficiente. - Modelo de programación. - Alto coste de las comunicaciones con respecto a los multiprocesadores. CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 8
Computación Intranet Computación en red dentro de un mismo departamento u organización. Surge ante la necesidad de: - aprovechar el máximo tiempo posible los recursos de un departamento u organización. - hacer frente a picos de demanda de CPU mediante los recursos distribuidos que puedan estar infrautilizados. Se ejecutan trabajos secuenciales o paralelos por medio de una herramienta de gestión de carga. Explotación de potencia computacional distribuida. CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 9
Computación Intranet Ventajas - Aumentar el aprovechamiento de los recursos informáticos - Ciclos de CPU a coste bajo - Mejora de la escalabilidad - Mejora de fiabilidad - Facilidad de administración - Facilidad de sustitución de equipos obsoletos CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 10
Computación Intranet Inconvenientes - No pueden gestionar recursos fuera del dominio de administración - No respetan las políticas de seguridad y de gestión de recursos de las organizaciones - Protocolos e interfaces básicos no basados en estándares abiertos - El único recurso que gestionan es la CPU CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 11
Metacomputación Conjunto de sistemas cluster/superordenadores interconectados por red localizados en diferentes puntos geográficos con el objeto de cooperar en tareas intensivas computacionalmente. - Proto-Grids : tecnología todavía inmadura para cumplir sus propósitos - Problemas tecnológicos y admistrativos: diferentes clusteres y superordenadores con diferentes arquitecturas y sistemas operativos; tecnologías de red WAN con latencias inaceptables; cómo afrontar los desafíos de seguridad entre distintas organizaciones; condiciones de compartición de recursos entre diferentes instituciones. - Soluciones/plataformas para metacomputación: Ninf, Netsolve, Unicore, Condor, Globus, Legion CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 12
Computación Grid: definiciones large-scale, coordinated resource sharing in a distributed, dynamic environment, crossing administrative domains Foster, Kesselman and Tuecke (1998-2000) CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 13
Computación Grid: definiciones - Nuevas tecnologías cuyo objetivo es la compartición de recursos en Internet de forma uniforme, transparente, segura, eficiente y fiable - Ofrecen un único punto de acceso a un conjunto de recursos heterogéneos distribuidos geográficamente en diferentes dominios de administración (supercomputadores, clusters, almacenamiento, fuentes de información, instrumentos, personal, bases de datos...) - Permite interconectar recursos en diferentes dominios de administración respetando sus políticas internas de seguridad y su software de gestión de recursos en la Intranet CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 14
Computación Grid: definiciones IMPLICACIONES: Usuario final: - Acceso transparente a recursos en múltiples Organizaciones Virtuales. - Mayor facilidad de colaboración con otros investigadores. Administrador de sistemas: - Poseer un entorno seguro para la puesta en práctica de la compartición de recursos distribuidos. - Los administradores de recursos locales pueden mantener el control de acceso a sus recursos Gestor de la organización: - Mejor utilización de los recursos económicos - Poseer una herramienta que ayuda a romper barreras entre organizaciones CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 15
Computación Grid: definiciones Sin embargo -Esta definición puede resultar un poco ambigua: Todavía muchos sistemas distribuidos podrían recibir el calificativo de grid. CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 16
Computación Grid: definiciones A Three-Point Checklist: a system could be called a Grid if it: 1.was decentralized; 2. used open protocols; 3. delivered nontrivial QoS Ian Foster, 2002 -Definición ampliamente aceptada en el mundo académico. -Sin embargo no es tan bien recibida en el mundo comercial: el requerimiento de descentralización excluía prácticamente todos los sistemas grid operativos en la industria. CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 17
Computación Grid: definiciones Grid computing is the technology that enables resource virtualization, on-demand provisioning, and service (resource) sharing between organizations. Using the utility computing model, Grid computing aims at providing ubiquitous digital market of services. Frameworks providing these virtualized services must adhere to the set of standards ensuring interoperability, wich are well described, open, non propietary, and commonly accepted in the community Plaszczak, Wellner, 2006 CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 18
Computación Grid: definiciones Definición más descriptiva y menos estricta, pero - También incluye algunas palabras clave adicionales que no aparecen de forma explícita en las anteriores definiciones tales como: provisión bajo demanda, interoperabilidad. - Contiene los ingredientes necesarios para caracterizar de forma ideal un grid público completamente operacional, capaz de involucrar instituciones comerciales y por tanto hacer visible el negocio Grid. CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 19
Construcción de un Grid (I) Un Grid no se compra sino que se construye Algunos desafíos: - Rendimiento fiable - Relaciones de confianza entre múltiples dominios de seguridad - Implantación y mantenimiento de middleware grid sobre cientos o miles de nodos. - Acceso a datos a través de WAN s - Acceso a información de estado de procesos remotos. - Gestión de dependencias y flujo de trabajo entre procesos - Gestión de licencias y de software distribuidos - Gestión de cuentas de usuarios y facturación CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 20
Construcción de un Grid (2) Grid Middleware: la construcción de un Grid es posible gracias a un software especial que permite la integración de todos los distintos tipos de recursos que participan en él. - Una definición de middleware (Wikipedia): En un entorno de computación distribuida, el middleware se define como la capa de software que se encuentra entre el sistema operativo y las aplicaciones en cada host que participa en el sistema - Grid middleware : middleware que se usa en el Grid. CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 21
Grid Middleware (I) -En la actualidad, el grid middleware ha evolucionado hacia los llamados servicios grid, a su vez basados en la tecnología de servicios Web. Servicios web: - Tecnología de middleware distribuido (tipo Corba, RMI, ) - Utilizan XML para la descripción (WSDL), localización (UDDI) y comunicación (SOAP): alta interoperabilidad. - Especificación a cargo de la organización W3C. CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 22
Grid Middleware (II) Paso de servicios web a servicios grid: - Los servicios web carecen de algunas características básicas para su adopción por parte de un middleware grid: estado, transitoriedad, servicio de notificaciones - En Enero de 2004 se liberó el estándar WSRF (Web Service Resource Framework): se incorporan a los servicios web las funcionalidades propias de un servicio grid. - Especificación de WSRF a cargo del grupo OASIS. CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 23
Grid Middleware (III) OGSA: Open Grid Service Architecture - Especificación que trata de estandarizar el acceso a los servicios presentes en una infraestructura grid. - Se definen un conjunto de interfaces que deben cumplir los grid services más comunes tales como: job management services, resource management services, security services - Especificación a cargo del Global Grid Forum (GGF) CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 24
Grid Middleware (IV) Frameworks/Plataformas Grid: -Globus Toolkit - Implementa la extensión WSRF, y un conjunto de servicios de alto nivel (OGSA compliant) necesarios para el desarrollo de aplicaciones grid. - Licencia libre (GPL) - Estándar de facto para desarrollo de grid middleware. - Desarrollado por la Globus Alliance. - glite - Otra plataforma de fuerte implantación auspiciada por el proyecto EGEE y sus antecesores. CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 25
Proyectos/Iniciativas Grid Iniciativas Grid en el mundo científico/académico Iniciativas Grid comerciales CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 26
Grid en el mundo científico El Grid es una tecnología que ha nacido y todavía se sigue desarrollando mayoritariamente en el mundo científico. - Instrumento fundamental de la e-ciencia - Definición de e-ciencia ( enhanced-science, UK): conjunto de actividades científicas desarrolladas mediante el uso de recursos distribuidos accesibles a través de Internet (Fuente: libro blanco de la e-ciencia en España) CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 27
Grid en el mundo científico Campos representativos de aplicaciones científicas dónde el uso de la tecnología Grid está siendo utilizada: - Simulación molecular - Física de partículas - Modelado del clima - Observación de la Tierra - Estudio del genoma humano. Física de altas energías (HEP), biomedicina y química computacional son áreas científicas dónde sobresale el grado de explotación de la tecnología Grid. CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 28
Grid en el mundo científico Multitud de proyectos Grid en el ámbito científico y académico. Diferentes finalidades de los proyectos Grid: algunos se concentran en el desarrollo de herramientas software (middleware), otros en el desarrollo de servicios, y otros en la puesta a punto para aplicaciones científicas específicas o en la optimización de la red de interconexión. CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 29
Grid en el mundo científico Clasificación según la finalidad principal del proyecto: -Proyectos para el desarrollo de tecnología Grid -Proyectos testbeds -Proyectos para aplicaciones en campos específicos -Iniciativas Grid colaborativas -Proyectos de computación voluntaria CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 30
Desarrollo de tecnologías Grid (I) Proyectos que se centran primariamente en el desarrollo de tecnología Grid-enabled, tal como middleware y hardware: - BIOGRID: Construction of a Supercomputer Network, Japón. - CONDOR: Condor High Troughput Computing. USA. - CROSSGRID: Large Scale Grid-enabled Simulations. Unión Europea. Este proyecto tiene su continuación actualmente en el int.eu.grid. - DAMIEN: Distributed Applications and Middleware for Industrial use of European Networks. Unión Europea. - DATAGRID: Grid for computing and analysis of shared large-scale databases. Unión Europea. - DATATAG: Research and Tecnological Development for a TransAtlantic Grid. Unión Europea, Canada, USA. CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 31
Desarrollo de tecnologías Grid (II) - ESnet: High-speed Networking (major DOE sites + other networks). USA - DOE SciDAC: Scientific Discovery through Advanced Computing. USA - GEANT: The pan-european Gigabit Research Network. Unión Europea. - GLOBUS: The Globus Project. USA. - GRACE: GRid search and Categorization Engine. Uníón Europea. - GRIDBUS: The Gridbus Project. Australia. - GRIP: GRid Interoperability Project. Unión Europea. - LEGION: Worlwide Virtual Computer. USA. - NAREGI: National Research Grid Initiative. Japón. - UNICORE: Uniform Interface to Computing Resources. Alemania CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 32
Testbeds Se centran en el desarrollo y mantenimiento de testbeds en producción utilizando la tecnología Grid existente. - EGEE: Enabling Grids for E-sciencE. Unión Europea. - DOE SCIENCE GRID: US Department of Energy Science Grid. USA. - EUROGRID: Application testbed for European GRID Computing. Unión Europea. - GriDis: The Grid for Dissemination. Italia. - GRIDPP: The Grid for UK Particle Physics. Reino Unido. - IPG: NASA Information Power Grid. - NORDUGRID: Nordic Testbed for Wide Area Computing and Data Handling. Dinamarca, Finlandia, Noruega, Suecia. - OSGC: Open Science Grid Consortium. USA. CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 33
Grids para aplicaciones específicas (I) Exploran e interrelacionan diferentes tecnologías Grid en el contexto de campos específicos de la investigación científica. - ASTROGRID: UK Contribution to the Global Virtual Observatory. Astronomía, física solar, física del plasma espacial. Reino Unido. - BIOINFORMATICS: Bioinformatics and e-science programme. Bioinformática, genómica, biología estructural, biodiversidad. Reino Unido. - BIRN: Biomedical Informatics Research Network. Biomedicina. USA. - ESGII: Earth System Grid II. Investigación climática. USA. - ECOGRID: Economic Paradigm for Resource Mangement and Scheduling for Service-Oriented Grid Computing. Modelado molecular, Física de altas energías. Australia. - EUROGRID: Application Testbed for European Grid Computing. Simulaciones biomoleculares, predicción climática, análisis estructural, procesamiento de datos en tiempo real. Unión Europea. - FUSIONGRID: Fusión Magnética. USA. CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 34
Grids para aplicaciones específicas(ii) - GriPhyN: Grid Physics Network. Astronomía, Física de altas energías, ondas gravitacionales. USA. - ivdgl: International Virtual Datagridlab. Astronomía, Física de altas energías. USA, Unión Europea, Asia y Sudamérica. - NEES grid: Network for Earthquake Engineering Simulation. Actividad sísmica. USA. - PPDG: Particle Physics Data Grid. Física de altas energías. USA. CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 35
Iniciativas Grid colaborativas Dedicadas a catalizar, estimular y promover la colaboración entre diferentes proyectos Grid existentes: - AP GRID: Asia-Pacific Grid. 16 países del área. - CLARA: Interconexión de redes académicas avanzadas nacionales de América Latina, junto con Europa (GEANT) y el Mundo. - CYTEDGRID: Tecnología Grid como Motor del Desarrollo Regional. 16 universidades de Latinomérica, Portugal, y España. - EELA GRID: E-Infraestructure shared between Europe and Latin America. 22 instituciones de la Unión Europea y América Latina. - GGF: Global Grid Forum. 400 organizaciones en más de 50 países. - GRAMA: Grid Acacémica Mexicana. México. - PRAGMA: Pacific Rim Applications and Grid Middleware Assembly. 10 países del área. - DUTCHGRID: Large-scale Distributed Computing in the Netherlands. Holanda. CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 36
Grids para computación voluntaria Computación distribuida o a través de Internet en la que múltiples usuarios particulares contribuyen con sus computadores personales. - Climateprediction.net - Compute Against Cancer - Distributed Folding - fightaids@hole - Folding@Home - Genome@home - LHC@home - Mersenne Prime Search - Screensaver Lifesaver - SETI@home CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 37
Inicitivas Grid Comerciales (I) Grid start-ups: Avaki, Axceleon, Data Synapse, Entropía, Grid Infraestructure, GridSystems, GridXpert, Parabon, Platform Computing, United Devices, Digipede Technologies. Grid consulting: AIMES, Decker Consulting, Grid Technology Partners, GridSystems, Gridwise Tech. Grandes corporaciones: HP, IBM, Oracle, Sun Microsystems CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 38
Inicitivas Grid Comerciales (II) Grandes corporaciones: - HP: gran actividad como grid consulting, además de desarrollos de infraestructuras grid (Dreamworks) - IBM: Grid Toolbox (basado en GT) - Oracle: OGDK (Oracle Globus Development Kit) - Sun Microsystems: Sun Grid Engine Enterprise - CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 39
Muito obrigado! Muchas gracias! Moltes gràcies! josemar@uneb.br CACIC 2007, Resistencia-Chaco, Argentina, Septiembre 2007 40