Seguridad y Alta Disponibilidad Implantacion de soluciones de Alta Disponibilidad Javier Ayllón Pérez Escuela Superior de Informática Universidad de Castilla-La Mancha Contenidos PRIMERA PARTE Introducción teórica Conceptos Demostración práctica RHCS Soluciones virtualización INTRODUCCIÓN TEÓRICA http://www.esi.uclm.es 2 http://www.esi.uclm.es 3 Motivación Definición El mundo de los servicios IT requiere servicio sin paradas: Usuarios 24x7 Globalización El ROI de los sistemas nos obliga a no parar. La tecnología está madura para ofrecerlo. Los recursos humanos se han dispuesto correctamente. Según Sociedad de fiabilidad de IEEE : Fiabilidad es una disciplina del diseño de sistemas que aplica conocimiento científico para asegurar que un sistema funcionará como está supuesto que lo haga y durante el tiempo que se le requiera. Debe ser una caracteristica objetiva a la hora de diseñar el sistema. No esperemos que sea lo mejor que se pueda Concepto clave de diseño. Punto único fallo. http://www.esi.uclm.es 4 http://www.esi.uclm.es 5
Medida alta disponibilidad Elementos del sistema La alta disponibilidad se mide en % Según número de 9 en este porcentaje. Ej 99,99 significa 53 minutos de caida en un año. Ej 99,999 significa 5 minutos al año. En general a sistema se debe exigir según el SLA correspondiente. Intervenciones planificadas Horas de las caidas El hardware también debe estar certificado según MTBF y MTTR http://www.esi.uclm.es 6 Elementos de entorno. Alimentación. Humedad y temperatura. Seguridad de acceso. Equipos de proceso de datos. Redundancia Configuración software Equipos de almacenamiento http://www.esi.uclm.es 7 Elementos del sistema II Entorno Equipos de respaldo de datos Red Sistema de monitorización y alertas Redundancia de CPD Alianzas con proveedores de equipos y servicios UPS Baterías de plomo Caducidad en 2 años aprox Problemas de calentamiento Gestionables en remoto Generadores Conjunto de politicas internas Equipos humanos de atención Directivas de empresa Motores de explosión.combustible Arranques automáticos periódicos Seguridad de acceso. Lectores biométricos http://www.esi.uclm.es 8 http://www.esi.uclm.es 9 Equipos de proceso Almacenamiento de datos Servidores en Rack Redundancia n+1 Hot Stand by Clusters alta disponibilidad Cluster de alto rendimiento. Virtualización Contratos de soporte Tiempos de respuesta Procedimentación de atención de incidencias Configuraciones DAS, NAS y SAN Redundancia almacenamiento RAID Raid 0,1,5 Composiciones Segunda copia de datos, backup Cintas LTO Arrays discos backup. Terceras copias http://www.esi.uclm.es 10 http://www.esi.uclm.es 11 Red Sistema de monitorización Cableado estructurado Redundancia en acceso Dimensionamiento adecuado Velocidad Latencia Balanceadores de carga Firewalls y detectores de intrusión Red área de sistema en cluster Servicio de chequeo de salud de servicios Monitoriza cada elemento hardware y software Envía alertas a equipo de respuesta mediante SMS, e- mail Servicio de informes Seguimiento de SLA s Se tiende a que se conviertan en consolas de gestión Ejs Nagios, Hp Software o MS SCOM http://www.esi.uclm.es 12 http://www.esi.uclm.es 13
Escalabilidad Copias de seguridad Se refiere a capacidad de ampliar el sistema. Estas ampliaciones afectan a Número de serivicios Capacidad de respuesta Mayor velocidad Algunas ampliaciones se pueden hacer sin parada de servicio: Componentes Hot plug Rolling upgrades en clusters Otras requieren parada total del sistema Ej. Las que afectan a alimentación del sistema Otras no son posibles. Sistema no escala. A pesar de todas las medidas en ocasiones ocurren pérdidas de datos Desastres naturales, terrorismo Errores humanos. Un operador borra datos. Sistemas de segunda copia de datos Politicas de copia según tiempo de recuperación o volumen de datos Total, Incremental y diferencial Plan de gestión Obligación en determinados casos por LPD Disaster Recovery. http://www.esi.uclm.es 14 http://www.esi.uclm.es 15 Software HA Virtualización Sistemas operativos de cluster Sistemas de archivos de cluster Servidores de aplicaciones Aplicaciones Balanceadores de carga Tipo proxy inverso Tipo Linux Virtual Server Tecnología de optimización de uso de recursosbasado en tratar como lógicos los componentes físicos de los sistemas IT. A nivel de servidores hablamos de Servidor virtualizado Múltiples instancias de SO concurrentes Hypervisor A nivel de almacenamiento LUN s en redes de almacenamiento. A nivel de red Puertos ethernet virtuales. http://www.esi.uclm.es 16 http://www.esi.uclm.es 17 Virtualización de servidores Componentes de sistema Iniciado por el proceso de consolidación de datacenters al final del boom de las.com Mejora el uso de recursos. Paso de un 20% a un 120%? Facilidad de gestión de servidores Seguridad ante fallo de un sistema. Contenedores aislados Diferentes opciones en el mercado Soluciones OpenSource Soporte de empresas Certificación de grandes fabricantes de HW Hardware servidores Capacidades de virtualización Intel/AMD Gran capacidad de cpu, multicore, memoria y disco Sistema Operativo Hypervisor, Virtualización completa Sistema operativo, Paravirtualización Sistema de gestión de máquinas virtuales Crear, modificar, arrancar, parar, congelar Migración. Migración en vivo http://www.esi.uclm.es 18 http://www.esi.uclm.es 19 Componentes de sistema II Virtualización de escritorios Discos virtuales Regreso al futuro? Gestionados desde cabina Gestión de snapshots Red virtual Red interna de servidores Red hacia Exterior Bonding VLAN s Ventajas para el equipo IT Posibilidad de reutilizar antiguos equipos Reducción de costes de gestión y mantenimiento Reducción de costes de licencias Ventajas para el usuario Transparencia de puesto de cliente Integridad de datos Poder retomar estado de aplicaciones. http://www.esi.uclm.es 20 http://www.esi.uclm.es 21
Virtualizacion para HA Referencias Cluster para Virtualizacion Arranque automático de máquinas virtuales Virtualizacion de Escritorios http://www-07.ibm.com/solutions/in/education/download/virtualization%20in%20education.pdf Migración en vivo Balanceo de carga de servidores físicos IEEE Reliability Society. http://www.ieee.org/portal/site/relsoc/index.jsp?pageid=relsoc_home Myth of nines http://www.pipelinepub.com/0407/pdf/article%204_carrier%20grade_ltc.pdf Posibilidad de rolling maintenance http://www.esi.uclm.es 22 http://www.esi.uclm.es 23 SEGUNDA PARTE Soluciones alta disponibilidad DEMOSTRACIÓN PRÁCTICA - Ejemplo Red Hat Cluster Suite - Solución compilada por Red Hat - Conjunto de tecnologías - Disponible solo bajo suscripción o por CentOs - Necesita de hardware especifico - Más de un servidor - Al menos dos interfaces de red por máquina - Dispositivos de fencing http://www.esi.uclm.es 24 http://www.esi.uclm.es 25 Componentes RHCS Sistema de configuración - Sistema de configuración de cluster - Gestión de bloqueos - Fencing - Gestión de cluster - GFS - Se encarga de distribuir entre todos los nodos del cluster la configuración Gestiona las versiones Actualiza en vivo cuando hay reconfiguración http://www.esi.uclm.es 26 http://www.esi.uclm.es 27 Sistema de gestión Gestión de bloqueos - Encargado de gestionar el quorum - Miembros - Votos - Disco Quorum - Gestión de servicios - Perdida de quorum - Disolución de cluster - Fencing - Recolocación de servicios - Subsistema para asegurar funcionamiento correcto de servicios - Concepto de bloqueo Distributed Lock Manager - Principal usuario: GFS - Provee de API s. http://www.esi.uclm.es 28 http://www.esi.uclm.es 29
Fencing <?xml version="1.0"?> <cluster alias="meteowc" config_version="12" name="meteowc"> <quorumd device="/dev/mapper/quorum" interval="1" label="quorum" min_score="1" tko="10" votes="1" stop_cman="1"> - En el caso en que tengamos un fallo software o hw - Todos los nodos se deben asegurar de que todo funciona OK - En caso contrario se debe cortar el acceso a I/O e invalidar todos los bloqueos del DLM. - Ejemplos de dispositivo - Corte de corriente - Corte de acceso a Fibre Channel </quorumd> <fence_daemon post_fail_delay="0" post_join_delay="3"/> <clusternodes> <clusternode name="meteo0" nodeid="1" votes="1"> <fence> <method name="1"> <device lanplus="" name="ipmi-meteo0"/> </method> </fence> </clusternode> <clusternode name="meteo1" nodeid="2" votes="1"> <fence> <method name="1"> <device lanplus="" name="ipmi-meteo1"/> </method> </fence> </clusternode> </clusternodes> http://www.esi.uclm.es 30 http://www.esi.uclm.es 31 <cman expected_votes="2" two_node="0"/> <resources> <fencedevices> <fencedevice agent="fence_ipmilan" auth="password" ipaddr="10.0.50.40" login="root" name="ipmi-meteo0" passwd= contraseña"/> <fencedevice agent="fence_ipmilan" auth="password" ipaddr="10.0.50.41" login="root" name="ipmi-meteo1" passwd= contraseña"/> </fencedevices> <ip address="10.0.50.44" monitor_link="1"/> <script file="/etc/init.d/mysqld" name="script_mysql"/> <script file="/etc/init.d/httpd0" name="httpd0"/> <script file="/etc/init.d/httpd1" name="httpd1"/> <rm> <failoverdomains> <failoverdomain name="nodo0" restricted="1"> <failoverdomainnode name="meteo0" priority="1"/> </failoverdomain> <failoverdomain name="nodo1" restricted="1"> <failoverdomainnode name="meteo1" priority="1"/> </failoverdomain> <failoverdomain name="cluster_all" restricted="0"/> </failoverdomains> </resources> <service autostart="1" domain="cluster_all" name="mysql"> <script ref="script_mysql"> <ip ref="10.0.50.44"/> </script> <service autostart="1" domain="nodo0" name="apache0"> <script ref="httpd0"/> <service autostart="1" domain="nodo1" name="apache1"> <script ref="httpd1"/> </rm> </cluster> http://www.esi.uclm.es 32 http://www.esi.uclm.es 33 Soluciones virtualización - Xen - Oracle VirtualBox - VMWare - KVM - Hyper-V http://www.esi.uclm.es 34