T E R C E R A E D I C I Ó D E S A B A D E L L U N I V E R S I T A T D E L 5 A L 9 D E J U L I O L D E 2 0 0 4 L'evolució d'internet i la Web cap a una infraestructura Digital Global S11. III Seminari internacional sobre imatge mèdica i les tecnologies de la informació Prof. Manuel Delfino, director Port d'informació Científica (PIC), Universitat Autònoma de Barcelona Sabadell, 9 de juliol de 2004
9 julio 2004 Evolución Internet y Web a Infraestructura Digital Global / M. Delfino / Sabadell Universitat 2 PIC La evolución de la Internet y la Web hacia una Infraestructura Digital Global III Seminario Internacional sobre Imagen Médica y Tecnologías de la Información Prof. Manuel Delfino Director, Port d Informació Científica (PIC) Coordinador del área sudoeste proyecto EGEE de la UE
Colaboración fluída: Clave a la innovación y el bienestar La colaboración fluída, interactiva, configurable y segura entre instituciones diversas será una clave para la innovación y el bienestar en esta década. Ejemplos: Universidades Empresas Hospitales Centros de Asistencia Centros de Investigación Ciudadanos Entidades gubernamentales Grupos de ciudadanos Grupos de ciudadanos etc. Para lograr esta meta, necesitamos evolucionar la Internet y la Web hacia una Infraestructura Digital Internacional, de manera similar a la creación del sistema telefónico global en el siglo XX. En el caso de la colaboración en el ámbito de la Ciencia y la Tecnología, se necesita acceso a grandes bancos de datos y a grandes batería de ordenadores. La Grid es una Infraestructura Digital Internacional que enfatiza estos aspectos.
Características de la Internet y la Web Característica común: Arquitecturas distribuídas sin control central Escalables, en principio, a un gigantesco número de nodos Arquitectura Internet: Interconexión de instancias de red (net) Presupone una correlación entre localización geográfica y dominio de administración/seguridad Interacción entre iguales (peers) utiliza protocolos Los protocolos utilizan voluntariamente puertos determinados Arquitectura Web: Crea un espacio de nombres uniforme (URL) y entrelazable Enfatiza gran facilidad de leer páginas de información ofrecidas en servidores. Pero todo es visible a todos. Publicar ( escribir ) es relativamente difícil y el acceso se basa en información de la red local donde se encuentra el servidor. Introduce una nueva familia de protocolos en Internet (http, port 80)
Qué problemas se han ido encontrando en la Internet y la Web? La Web es una idea brillante y exitosa. Pero su unidireccionalidad limita los esquemas de colaboración. Las aplicaciones Internet de hoy están limitadas por: Una arquitectura red-red en un mundo persona-persona, lo cual lleva a la necesidad de corta-fuegos (firewalls) Muchos protocolos de escritura presumen ausencia de abusos, pero los abusos existen tales como el spam El modelo de administración/seguridad basado en localización geográfica es demasiado rígido en un mundo de personas en constante movimiento, no existe el roaming Internet La mayoría de las transmisiones son sin encriptación, por lo tanto los pinchazos virtuales son habituales. Quizás el peor peligro todavía no ha sido explotado: Es relativamente fácil simular ser miembro de una net sin serlo.
Una caricatura para ilustrar
The Power Grid: On-Demand Access to Electricity Quality, economies of scale Decouple production & consumption, enabling On-demand access Economies of scale Consumer flexibility New devices Adapted by permission from Ian Foster, University of Chicago and US Argonne National Lab Time
But Computing Isn t Really Like Electricity! How about access computing resources like we access Web content? We have no idea where a website is, or on what computer or operating system it runs Two interrelated opportunities 1) Enhance economy, flexibility, access by virtualizing computing resources 2) Deliver entirely new capabilities by integrating distributed resources Adapted by permission from Ian Foster, University of Chicago and US Argonne National Lab
Virtualization Applications: Delivery Application Services: Distribution Application Virtualization Automatically connect applications to services Dynamic & intelligent provisioning Servers: Execution Infrastructure Virtualization Dynamic & intelligent provisioning Automatic failover Source: The Grid: Blueprint for a New Computing Infrastructure (2 nd Edition), 2004
Architecture, Automation and Quality of Service for the Users
Evolution of data-processing environments Decade 2020 2010 2000 1990 1980 1970 Ambient Computing Ubiquitous wireless self-configuring devices Virtual Communities sharing Digitized Data Digital ID infrastructure, Grid Infrastructures The Network Society Fiber optics, Ethernet, TCP/IP, Internet Personal Productivity Microprocessors, PC, Mac Process Automation Mini-computers, Relational Databases Time-sharing computing Operating systems Commoditization More users, new markets 1960 Numerical methods Mainframes 1950 Programming Computers 1 10 100 1000 10000 100000 1000000 10000000 Complexity and Functionality
Evolution of data-processing environments 2020 Ambient Computing Ubiquitous wireless self-configuring devices 2010 Virtual Communities sharing Digitized Data Digital ID infrastructure, Grid Infrastructures We are here 2000 The Network Society Fiber optics, Ethernet, TCP/IP, Internet Decade 1990 1980 Personal Productivity Microprocessors, PC, Mac Process Automation Mini-computers, Relational Databases WWW invented here Internet born here 1970 Time-sharing computing Operating systems First e-mail ever sent 1960 Numerical methods Mainframes 1950 Programming Computers 1 10 100 1000 10000 100000 1000000 10000000 Complexity and Functionality
Lead-times and momentum in R+D Internet Web Web Services Grid DNS, Akamai, SSL, Yahoo, co-location, Web Hosting, etc.
La arquitectura Internet y Web Aplicación Transporte Internet Circuito Arquitectura Internet Aplicaciones originales de Internet: Transferencia de ficheros (ftp) Terminal remota (telnet) Correo electrónico (smtp, pop) Noten que todas estas son intrusivas ya que escriben en máquinas ajenas La Web también es una aplicación. Su gran éxito es atribuíble a un cambio de paradigma: Ofrecer abiertamente páginas a browsers. Posibilita la construcción dinámica de catálogos. AltaVista (1995), Google hoy
La arquitectura Grid Servicios Grid Aplicación Servicios especializados para aplicaciones/usuarios específicos Acceso a recursos agrupados a través de infraestructura de servicios Abstracción y Virtualización de cada servicio. Identidad en red. Re-utilizar Internet entrelazando seguridad y deslocalización Gestión de dispositivos: ordenadores, almacenamiento, etc. Individuo Grupo Gestión Recursos Interconexión Tejido Digital Aplicación Transporte Internet Circuito Arquitectura Internet Adaptado bajo permiso de Foster and Kesselman
Infraestructura Grid: Punto de vista del usuario Infraestructura Grid Middleware específico Personas Colaborando Tejidos Digitales que reaccionan a las demandas de una comunidad distribuída Middleware general
Una Infraestructura Grid permite la existencia de muchas Grids Infraestructura Grid Middleware general Middleware específico Middleware específico Middleware específico Tejidos Computacionales utilizados de manera mas flexible y eficiente Comunidades de personas de diversos ámbitos que colaboran a distancia
Grids e Infraestructura Grid: Perspectiva del Proveedor Infraestructura Grid Múltiples organizaciones virtuales presentan demandas sobre los servicios Computadores y Almacenamiento en Grid Infraestructura de Red Middleware
El próximo paso en el ámbito de apoyo a I+D: Catalizador Grid para la e-ciencia en Europa
VI Programa Marco de la UE: Apuesta definitiva por Grid Proyecto EGEE: 70 instituciones, financiación 32 M en 2004-2005 PIC coordina el centro regional de operaciones del Sudoeste de Europa
Status of centers connected to the EGEE Grid Infrastructure HP Labs Puerto Rico
20.000 colas batch en ordenadores 42.000 Gigabytes de almacenamiento
Sumario: Un dibujo vale mil palabras Catàleg local PIC Infraestructura Grid RAIM Catàleg de Rèpliques Transformador de dades Lectora Servidor de cintes Catàleg local Servidor de cintes Lectora
PIC: Centro de apoyo a investigación que utilize cantidades masivas de datos Edifici D Campus UAB
PIC: 2 Areas: Racks + Robot(s)
PIC: 2 Areas: Racks + Robot(s) 1000 u of Racks ready for CPU and disk servers LAN: All switched Gbps Ether WAN: Dedicated VLAN 500 Mbps 6000 slot STK L5500 Robot 2 9940B drives (need to get more!) Space for 3 more Robots with virtually no construction work.
Farm, Disk+Tape Servers, Grid Plug 120 Dell P4 3 GHz HT SuperMicro IDE Disk Servers Grid UI, RB, BDII, SE, CE HP DL140 Pizza Boxes Dell Poweredge Tape Servers
PIC: Electrical safety features Individual Rack Smoke Detectors connected to Electrical Breakers
PIC: Safety features Global Laser-based smoke detection Potassium Carbonate powder fire extinguishing bombs
Enormous amount of data to be stored and analyzed experiment) (CMS 40 MHz 40 MHz (1000 TB/sec) (1000 TB/sec) 75 KHz 75 KHz (75 GB/sec) Level 1 - Special Hardware (75 GB/sec) 5 KHz 5 KHz (5 GB/sec) (5 GB/sec) Level 2 - Embedded Processors 100 Hz 100 Hz (100 MB/sec) (100 MB/sec) Level 3 Farm of commodity CPUs 4 experiments: 10 Petabytes/year to be analyzed by worldwide community during >10 years Data Recording Recording & Offline Offline Analysis Analysis 100 MB/sec ~ 2 Petabytes/year
Economías de escala: Datos de Física de Partículas (PIC tendrá que gestionar un 5%) 140 Automated Tape Storage Estimates at CERN 120 100 Accumulation: 10 PB/year 1 0,8 Petabytes 80 60 40 20 0,6 Cern fixed target 0,4 0,2 LHC Cern LEP 0 1995 1996 1997 1998 1999 2000 0 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015
UDIAT PIC Collaboration on Medical Image Archive Build virtualized storage resource to enhance UDIAT online capabilities at low cost Make available UDIAT data for research using medical images Proof of principle and calibration of effort for embedding a PACS into a Grid Infrastructure Possible long-term benefits: Vastly enhanced volume of data for research Secure, location independent access to patient data without homogeneization of hardware and software Status today: Few months to get organized: Build dictionary so that we could understand each other. Agree on anonimization protocol (Spanish Data Privacy law, etc.) Finally start test of data migration. One week of test (34 Mbps WAN): 200 GB migrated (0.5% of PIC data), 125K files (25% of PIC files)
Mas información: www.pic.org.es y www.eu-egee.org 9 julio 2004 Evolución Internet y Web a Infraestructura Digital Global / M. Delfino / Sabadell Universitat 33 PIC Catàleg local PIC Infraestructura Grid RAIM Catàleg de Rèpliques Transformador de dades Lectora Servidor de cintes Catàleg local Servidor de cintes Lectora