Pasos para plantearse una continuidad de negocio José A. Higuera IBM Systems Architect jhiguera@ve.ibm.com 11/21/2007 1
Bienvenidos al Forum Margarita! 11/21/2007 2
Agenda Introducción Continuidad de Negocio Soluciones Preguntas y Respuestas 11/21/2007 3
11/21/2007 4
11/21/2007 5
11/21/2007 6
11/21/2007 7
11/21/2007 8
11/21/2007 9
11/21/2007 10
11/21/2007 11
11/21/2007 12
11/21/2007 13
Background José A. Higuera Systems Architect: - En la actualidad pertenece a la unidad de Systems and Technology Group (STG) con una posición regional cubriendo Venezuela y Colombia como Arquitecto de Sistemas, apoyando en el diseño y desarrollo de arquitecturas de servidores y almacenamiento basados en los productos de hardware IBM, a decir: IBM System Storage, System x, System p, System i y System z. Entre sus responsabilidades el diseño de soluciones para continuidad de negocio. - Ocho años de experiencia en IBM 11/21/2007 14
Introducción Continuidad del negocio y resiliencia son el conjunto de mejores prácticas, servicios, hardware y software que permiten mantener las operaciones de negocio bajo virtualmente cualquier condición, cumplir con regulaciones gubernamentales y de la industria y ganar la habilidad para recuperarse de desastres. Un plan integrado para la continuidad del negocio le ayuda a reducir los impactos al negocio de un evento disruptivo, acelerar los tiempos de recuperación y mejorar la disponibilidad. Nuestras soluciones de disponibilidad, respaldo y recuperación pueden ayudarle a mantener la continuidad de las operaciones de negocio con infraestructura y procesos que son responsivos, altamente disponibles y escalables. Conozca cuales son los pasos que IBM propone para poder plantearse una continuidad operativa de su negocio. 11/21/2007 15
Establecer un plan de recuperación de su centro de datos es crítico para el éxito de su negocio Las consecuencias potenciales de no tener un plan de recuperación incluyen: Inhabilidad de recuperar y continuar haciendo negocios Perdida significativa de ingresos Daños a su imagen y reputación de su negocio Disminución de satisfacción de clientes Inhabilidad de cumplir con regulaciones 11/21/2007 16
11/21/2007 17
Todavía muchas empresas no tienen soluciones viables de recuperación ante desastres Por falta de disponibilidad de tiempo y/o recursos para hacer un análisis comprehensivo de vulnerabilidades potenciales Disponibilidad de presupuesto y experticia para desarrollar soluciones adecuadas en-casa Costos de infraestructura que pueden incurrirse al tener una segunda instalación física (mas los gastos asociados a electricidad, aire, seguridad física y mantenimiento), equipos de almacenamiento y personal adicional. Se requiere un conocimiento en profundidad para diseñar, planificar, implementar y manejar una solución de recuperación, en adición a las areas de especialización tales como cumplimiento regulatorio Inhabilidad para conseguir soluciones de recuperación de datos de terceras partes compatibles con las necesidades de las empresas Falso sentido de seguridad ( Nuestra compañía probablemente no va a tener un desastre u otro evento disruptivo ) 11/21/2007 18
Las paradas planificadas y no planificadas son costosas Financieramente y en términos de percepción de los clientes Costos promedios de caídas son 3.6% de los ingresos anuales Infonetics Muchos estudios estiman que el costo promedio de una caída por encima de US$ 5,000/hora Los sitios web mas populares estiman que el costo por caídas es del orden de millones de dólares Una caída de 22-horas en Junio de 2003 le costó a ebay un estimado de US$ 5 millones 11/21/2007 19
El hardware no es la única causa de caídas Muchos estudios indican que incide entre un 20% y un 45% La mayoría de las caídas están relacionadas con errores humanos, errores de software y mantenimiento planificado. 11/21/2007 20
Tres aspectos de la Continuidad del Negocio: Alta Disponibilidad, Operaciones Continuas y Recuperación ante Desastres Continuidad del Negocio Alta Disponibilidad Operaciones Continuas Infraestructura resistente a caídas, Respaldos no disruptivos y mantenimiento Tolerante a fallas, que soporta un de sistemas acoplados con disponibilidad continuo procesamiento de aplicaciones Continua de aplicaciones Recuperación ante desastres Protección contra caídas no Planificadas tales como desastres, a través de una recuperación confiable y predecible Protección de datos críticos del negocio La recuperación es predecible y confiable Las operaciones continúan después de un desastre Los costos son predecibles y manejables 11/21/2007 21
Hoja de Ruta para la Continuidad de Negocio de T.I. Integración por Software de tecnologías core especificas de las aplicaciones Integración por Hardware de tecnologías core Tecnologías core de Almacenamiento de Sistemas Automatización de tecnologías core especificas de aplicaciones y bases de datos para continuidad de negocio Integración de tecnologías core dentro de los ambientes de servidores y automatización para permitir continuidad de negocio Tolerante a fallas, altamente disponible Tecnologías Core para realizar respaldos y recuperaciones, recuperación ante desastres y operaciones continuas Confiabilidad en la infraestructura de hardware 11/21/2007 22
Portafolio para Resiliencia IBM System Storage Integración por Software de tecnologías core especificas de las aplicaciones Integración por Hardware de tecnologías core Tecnologías core de Almacenamiento de Sistemas Tolerante a fallas, altamente disponible Servicios Automatización para Aplicaciones, Bases de Datos, DB2, Notes, Exchange, SAP, Oracle, etc Automatización para IBM Mainframe, UNIX, Windows y ambientes heterogéneos Point in Time Copy Storage Mirroring Storage Management software Infraestructura de Hardware Confiable DS8000, DS6000, DS4000, DS3000, N Series, SVC, SAN, Tape, Virtualization Engine for Tape Administración TI 11/21/2007 23
Ejemplo de Sistemas Altamente Disponibles zos AIX UNIX OTHER PERFORMANCE RAS SEGURIDAD DE DATOS 11/21/2007 24
RTO/RPO vs. Valor para el negocio Recuperación desde una imagen en disco Recuperación desde cartucho (tape) Nivel 7 Centro Espejo con recuperación automática Valor (Costo) Nivel 6 Espejo de Almacenamiento (con o sin automatización) Nivel 5 Replicación por Software (integridad transaccional) Nivel 4 Copias en disco (Point in Time Copy), Tivoli Storage Manager Nivel 3 Bóveda Electrónica, Tivolli Storage Manager Nivel 2 Hot Site, Restauración de Cartuchos Nivel 1 Restauración de Cartuchos Recovery Time Objective (RTO) 11/21/2007 25
Soluciones para continuidad de negocio de IBM HACMP (UNIX and Linux on POWER) - HACMP/XD GDPS (Mainframe) SVC Clustered iasp and Cross Site Mirroring (iseries) Otras soluciones: Continuous Availability for Open Systems (GDOC) 11/21/2007 26
HACMP protege contra las caídas mediante la detección de problemas y failover hacia el hardware de recuperación Dos nodos (A y B) Dos redes Red Privada (interna) Red Publica (compartida) Disco Compartido Todos los datos en el disco compartido está disponible a ambos Aplicaciones Críticas Bases de Datos Web servers Dependientes de la BD server Red Pública Compartida IBM Web Srv A pseries Red Privada pseries server B IBM Base Datos Un cluster HACMP puede escalar hasta 32 nodos Disco Compartido 11/21/2007 27
Ejemplo de falla: Falla de un nodo El nodo A falla completamente El nodo B detecta la pérdida del nodo A El nodo B inicia su propia instancia de la aplicación Web IBM Web Srv Red Pública Compartida IBM Database! Los servicios web son prestados temporalmente por el nodo B mientras se resuelve la falla en el nodo A server A pseries Red Privada server pseries B Disco Compartido 11/21/2007 28
La configuración de un servidor Capacity BackUp permite establecer una continuidad de la operación HACMP detecta una falla En el centro alterno, una micro-partición corriendo HACMP en el servidor CBU crece los recursos de la partición automaticamente, mediante la activación de procesadores inactivos y toma control de la aplicación Capacity BackUp Server Servidor de Base de Datos de Producción (corriendo aplicaciones en los procesadores activos) Procesadores Activos Procesadores Inactivos Databas e Server HACMP Disco Replicado Web Server Order Entry HACMP 11/21/2007 29
Cluster geográfico HACMP/XD con Mutual takeover STATE MAPS STATE MAPS STATE MAPS STATE MAPS LV00 LV01 LV02 LV03 LV04 LV05 GMD Recuperación ante desastres en forma remota para uno o mas centros Sistema cluster de 2 a 8 nodos Replicación en tiempo real de datos y archivos Respaldo en caliente remoto.capacidad de auto takeover automática Mutual takeover remoto GMD LV00 LV01 LV02 LV03 LV04 LV05 11/21/2007 30
Soluciones para continuidad de negocio de IBM HACMP (UNIX and Linux on POWER) - HACMP/XD GDPS (Mainframe) SVC Clustered iasp and Cross Site Mirroring (iseries) Otras soluciones: Continuous Availability for Open Systems (GDOC) 11/21/2007 31
GDPS/PPRC Multi-Platform Resiliency Site 1 GDPS Site Takeover Capacity Upgrade on Demand CBU z/os z/os z/os z/os z/vm z/vm GDPS Hyperswap ESS PPRC ESS Disponibilidad casi continua coordinada y solución de recuperación ante desastres para z/os y Linux corriendo bajo z/vm Para clientes con aplicaciones distrubuídas en System z Application servers de SAP corriendo en Linux en z9-109 Base de datos SAP corriendo en z/os Reconfiguraciones planificadas y no planificadas 11/21/2007 32
Soluciones para continuidad de negocio de IBM HACMP (UNIX and Linux on POWER) - HACMP/XD GDPS (Mainframe) SVC Clustered iasp and Cross Site Mirroring (iseries) Otras soluciones: Continuous Availability for Open Systems (GDOC) 11/21/2007 33
Continuidad de Negocio con el IBM SAN Volume Controller SAN tradicional Los APIs de replicación varían por fabricante El destino de replica debe ser igual a la fuente Drivers para multipasos diferentes para cada tipo de arreglo Los discos de bajo costo ofrecen esquemas primitivos de replicación de datos SAN Volume Controller Un API de replicación común, a lo largo de toda la SAN, que no cambia cuando el hardware de almacenamiento cambie Un driver común para multipasos para todos los arreglos Los targets de replicación pueden ser discos de menor costo, reduciendo el costo total de utilizar servicios de replicación FlashCopy PPRC SAN TimeFinder SRDF SAN SAN Volume Controller SVC IBM DSx IBM DSx EMC Sym EMC Sym IBM DS8000 IBM DS4000 EMC Sym HP MA IBM S-ATA 11/21/2007 34
Función SVC FlashCopy Permite realizar funciones de replicaciones a nivel de volumenes locales Diseñado para crear copias para respaldos, procesamiento paralelo, pruebas, etc Copia disponibible inmediatamente para ser utilizada Servicio de copia en segundo plano, y servicio de copia al escribir Hasta dieciseis copias de un mismo volumen fuente Los volumenes fuentes y destino pueden estár en cualquier disco soportado por SVC Relaciones para Flashcopy vdisk Fuente Hasta16 destinos 11/21/2007 35
Función SVC Metro Mirror Funciones de replicación sincrona en un área Metropolitana Hasta 300km entre los centros para continuidad de negocio Los requerimientos de performance pueden limitar la distancia utilizable El I/O hacia el servidor se completa solamente cunado los datos están almacenados en ambas localidades Diseñado para mantener totalmente sincronizadas las copias en ambas localidades Una vez que la copia inicial haya sido completada Metro y Global mirror empaquetadas como una única opción Ofrece gran flexibilidad de implementación Opera entre clusters de SVC entre las localidades Los volúmenes locales y remotos pueden estar en los discos soportados por SVC 11/21/2007 36
SVC Global Mirror Function Función de replicación de volúmenes remota en forma asíncrona Hasta 8000km de distancia entre sitios para continuidad de negocio No es necesario esperar por la completación de escritura en el sitio remoto antes de completar el I/O del servidor local Ayuda a reducir el impacto de performance en las aplicaciones Diseñado para mantener consistencias en las copias todo el tiempo Una vez se haya completado la copia inicial Basado en la funcionalidad de Metro Mirror 11/21/2007 37
Ambientes soportados por SAN Volume Controller Version 4.2 Novell NetWare Clustering VMware Win / NW guests IBM AIX Microsoft MSCS HACMP 5.4/XD MPIO, VSS, GDS GPFS / VIO x64, ia64 OracleRAC 10g Sun Solaris VCS/SUN clustering HP-UX, Tru64 OpenVMS ServiceGuard with SDD SGI IRIX Linux (Intel/Power/zLinux) RHEL/SUSE RHEL 5 ia32, x64 RHEL 3 POWER SLES 9 ia64 IBM N series Gateway NetApp V-Series IBM BladeCenter Win/Linux/VMWare/AIX OPM/FCS/IBS 1024 Hosts Cisco McData Brocade iscsi to hosts Via Cisco IPS Point-in-time Copy Full volume, Copy on write Multiple targets SAN with 4Gbps fabric Continuous Copy Metro Mirror Global Mirror SAN SAN Volume Controller SAN Volume Controller IBM ESS, FAStT IBM IBM Hitachi HP EMC Sun NetApp NEC Bull DS N series Lightning MA, EMA CLARiiON StorageTek FAS istorage StoreWay DS4000 Thunder MSA, EVA CX3 Models 10, 80 6120, 6130, S1500 FDA1500 DS6000 TagmaStore XP Symmetrix 6140, 6540, 6930 S2500 FDA2500 DS8000 MSA1000, 1500 AMS, WMS DMX-4 S2900 FDA2900 11/21/2007 38 Fujitsu Eternus 3000 4000 8000
Soluciones para continuidad de negocio de IBM HACMP (UNIX and Linux on POWER) - HACMP/XD GDPS (Mainframe) SVC Clustered iasp and Cross Site Mirroring (iseries) Otras soluciones: Continuous Availability for Open Systems (GDOC) 11/21/2007 39
Soluciones de Alta Disponibilidad para System i 11/21/2007 40
Replicación por Software en System i Software Data Replication 11/21/2007 41
System i switchable resources (iasp) Software Data Replication 11/21/2007 42
System i External Storage iasp 11/21/2007 43
iseries i5 iseries i5 i5 Site Replication 9406-570 9406-570 Centro Principal Centro Alterno 9406-570 HSL-2 loop switchable tower switchable tower PPRC Network Nota: el uso de PPRC requiere la implementación del Copy Services Toolkit 11/21/2007 44
Soluciones para continuidad de negocio de IBM HACMP (UNIX and Linux on POWER) - HACMP/XD GDPS (Mainframe) SVC Clustered iasp and Cross Site Mirroring (iseries) Otras soluciones: Continuous Availability for Open Systems (GDOC) 11/21/2007 45
Continuos Availability for Open Systems (GDOC) Geographical Dispersed Open Cluster IP Network IP Network Business Application(s) Failover via Veritas Cluster Server Disk Site Migration Managed by Veritas Global Cluster Manager Replication via Veritas Volume Replicator Disk Business Application(s) Backup Manejo automatizado de failover/switchover Establece el estandar de tecnología para failover Provee disponibilidad casi continua de las aplicaciones Replicación de datos entre sitios Recuperación confiable de desastres Administración basada en browser SITE A SITE B 11/21/2007 46
Servicios y Soluciones IBM Servicios de Continuidad de Negocio Soluciones de Continuidad de Negocio Servicios de Manejo de Crisis Servicios de Continuidad de Datos Servicios de Recuperación ante Desastres Servicios de Alta Disponibilidad Servicios de Cumplimiento Regulatorio www.ibm.com/services/continuity 11/21/2007 47
Resumen: Pasos para plantearse una continuidad de negocio (BCP) Análisis Análisis de Impacto (BIA) Análisis de amenazas Escenarios de impacto al negocio Diseño de Solución RPO/RTO Manejo de Crisis Ubicación Centro Secundario Telecomunicaciones Metodología para replicación de datos Aplicaciones y Software requerido Implementación Pruebas y aceptación organizacional Mantenimiento Actualización de información y pruebas Verificación de soluciones técnicas Verificación de procedimientos de recuperación de la organización Manejo de pruebas fallidas 11/21/2007 48
Preguntas y Respuestas 11/21/2007 49
Contacto José Antonio Higuera Rapa Phone: +58-212-9088868 Mobile: +58-416-6203946 Fax: +58-212-9088902 e-mail: jhiguera@ve.ibm.com IBM Systems Architect IBM de Venezuela, S.A. Av. Ernesto Blohm, Edificio IBM, Piso 6, Caracas, Venezuela 11/21/2007 50
Gracias! Gracias! 11/21/2007 51