Clusters de Computadores Tolerantes a Fallos" Dolores I Rexachs (UAB)

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Clusters de Computadores Tolerantes a Fallos" Dolores I Rexachs (UAB)"

Transcripción

1 SEMINARIO DE SUPERCOMPUTACION: Simplificación del uso de los computadores paralelos, acercando el computador paralelo al usuario Clusters de Computadores Tolerantes a Fallos" Dolores I Rexachs (UAB) 1

2 SEMINARIO DE SUPERCOMPUTACION: Simplificación del uso de los computadores paralelos, acercando el computador paralelo al usuario Clusters de Computadores Tolerantes a Fallos" Dolores I Rexachs (UAB) 2

3 Clusters de Computadores Tolerantes a Fallos Introducción. Conceptos básicos. Fallos y Errores Medidas de fiabilidad Técnicas de Redundancia Protocolos de rollback-recovery basados en Checkpoint y log de mensajes Replicación de Datos Arquitectura distribuida para tolerancia a fallos en grandes Clusters: Redundant Array of Distributed Independent Checkpoints (RADIC): Replicación de Datos para Tolerancia a Fallos en multiclusters: FTDR 3

4 Bibliografía Fault Tolerance in Distributed Systems. P. Jalote. Prentice Hall 1994 Elnozahy, E.N.; Alvisi, L.; Wang, Y. & Johnson, D.B. A Survey of Rollback-recovery Protocols in Messagepassing Systems. ACM Computing Surveys, ACM Press, 2002, 34, Introduction to Parallel Computing (2nd Edition). A. Grama, A. Gupta, G. Karypis, V. Kumar. Pearson Addison Wesley,

5 Cluster: Objetivos de funcionamiento Cluster de alto rendimiento (HP) Enlazar muchos ordenadores para conseguir que funcionen en equipo y obtengan la solución de un problema más rápida trabajando todos juntos en el mismo problema independientemente. Cluster de alta disponibilidad (HAC) Conseguir un sistema de ordenadores mas fiable, compartiendo trabajos y con un funcionamiento redundante, de tal manera que si un ordenador falla otro se encarga de realizar su trabajo. Alta disponibilidad de Procesamiento: Cluster; Nodo; Red de Interconexión Datos: Almacenamiento: RAID 5

6 Introducción Clusters cada vez mas grandes y complejos. Tiempos de cómputo ininterrumpido más largos Componentes trabajando cerca de los límites tecnológicos. Importante: Fiabilidad / Disponibilidad del sistema. La probabilidad de fallos es mucho mayor Es crítico mantenerlos funcionando Es necesario considerar técnicas de Tolerancia a Fallos

7 Cluster de alta disponibilidad (HAC) Intenta mantener en todo momento la prestación de servicio encubriendo los fallos que se pueden producir Requisitos de un HAC Fiabilidad Disponibilidad: Porcentaje del tiempo en el cual el sistema está disponible para el usuario Facilidad de mantenimiento: Facilidad de mantener el sistema en condiciones de operación (reparaciones, actualizaciones, etc) tanto a nivel hardware como software El sistema está disponible el máximo tiempo posible (availability) 7

8 Grandes sistemas Charng-da Lu 8

9 Fiabilidad en grandes sistemas Charng-da Lu 9

10 Necesidad de los sistemas Tolerantes a Fallos Es un problema? Actualmente Aplicaciones Propósito general Históricamente Militares Telemáticas (comunicaciones) Sistemas Fiables Aplicaciones Industriales (Tiempo real) Espaciales y Aeronáuticas Aumenta el número de componentes aumenta probabilidad de fallo Funcionamiento 24 horas x 7 días Tareas críticas que no pueden interrumpir el servicio Computador / Aplicación Paralelo Aumentan el tiempo de ejecución 10

11 Fiabilidad Fiabilidad: (reliability) Medida del éxito con el que el sistema cumple con alguna de las especificaciones obligatorias de su comportamiento Importante: Tiempo durante el cual el sistema puede operar sin pararse (MTTF) Avería (failure) : Cuando el comportamiento de un sistema se desvía del especificado, se dice que se ha producido una avería. Las averías se manifiestan en el comportamiento externo del sistema, pero son el resultado de errores (errors) internos Las causas mecánicas o algorítmicas de los errores se llaman fallos (faults) Fiabilidad 11

12 Retos a la fiabilidad Charng-da Lu 12

13 Tiempo sin servicio anual Tiempo sin servicio anual % de Uptime % de Dowtime Anual Normalizado (segundos) 98,0000% 2,0000% 7,30 días ,0 99,0000% 1,0000% 3,65 días ,0 99,8000% 0,2000% 17 horas, 30 minutos 63000,0 99,9000% 0,1000% 8 horas, 45 minutos 31500,0 99,9900% 0,0100% 52 minutos, 30 segundos 3150,0 99,9990% 0,0010% 5 minutos, 15 segundos 315,0 99,9999% 0,0001% 31,5 segundos 31,5 13

14 Ejemplos: VISA Visa Internacional tuvo 92 minutos sin servicio en los últimos 12 años (99.998%). Es probablemente la instalación comercial más segura del mundo 5 minutos sin servicio significan dejar de procesar 55 millones de dólares en pagos transacciones por segundo (100 trx por segundo) 14

15 Problemas que ocasionan los fallos Crash Omisión Tiempo Bizantino Crash: un componente se para o pierde su estado interno Omisión: Causa que un componente no responda a alguna entrada Tiempo: El componente responde demasiado pronto o demasiado tarde (fallo de rendimiento) Bizantino: Fallos arbitrarios 15

16 Estrategias para obtener fiabilidad Especificación, diseño e implementación 16

17 Limitaciones de la prevención n de fallos Los componentes de hardware fallan, a pesar de las técnicas de prevención La prevención es insuficiente si: La frecuencia o la duración de las reparaciones es inaceptable no se puede detener el sistema para efectuar operaciones de mantenimiento Ejemplo: naves espaciales no tripuladas La alternativa es utilizar técnicas de tolerancia de fallos Informalmente: la capacidad de un sistema a comportarse de una forma bien definida a pesar de que ocurra un fallo 17

18 Diseño o de sistemas tolerantes a fallos Lo ideal es identificar todos los posibles fallos y evaluar las técnicas adecuadas de tolerancia a fallos Fallos que se pueden anticipar, (fallos de disco, sensores para monitorización) Predicción Fallos que no se pueden anticipar Recuperación Objetivo Maximizar la fiabilidad del sistema Minimizar la redundancia. Cuanto mayor es la redundancia mayor complejidad tiene es sistema siendo más propenso a errores Es necesario gestionar adecuadamente la redundancia 18

19 Sistema tolerante a fallos Un Sistema Tolerante a Fallos es aquel que posee la capacidad interna para preservar la ejecución correcta de las tareas a pesar de la ocurrencia de fallos Hardware o Software. 19

20 Fallo / Error / Avería F E A! La garantía de funcionamiento de un sistema disminuye debido a la existencia de: Fallo: defecto o imperfección física en el HW o SW del sistema Error estado interno incorrecto del sistema. Es consecuencia de un fallo Puede ocasionar una avería Avería: El servicio entregado por el sistema no es el especificado. Usuario: el sistema no funciona bien. Debe impedirse que los fallos de todos estos tipos causen averías 20

21 Objetivo El OBJETIVO de la la Tolerancia a Fallos: Evitar la la avería del sistema, incluso en presencia de fallos, es es decir, tratar de conseguir que el el sistema sigua funcionando En sistemas Tolerantes a Fallos, se enmascara la presencia de los fallos usando redundancia (en cualquier nivel). Basado en proteger el trabajo no el computador 21

22 Sistema tolerante a fallos = sistema redundante. La tolerancia de fallos se basa en la redundancia Se utilizan componentes adicionales para detectar los fallos y recuperar el comportamiento correcto. Esto aumenta La complejidad del sistema y puede introducir fallos adicionales El coste del sistema El overhead Puede haber redundancia en cualquier nivel: Redundancia en el hardware: utilización de componentes hardware extra Redundancia temporal: repetición de las operaciones y comparación de los resultados Redundancia en la información: codificación de los datos Redundancia en el software: realización de varias versiones de un mismo programa y del uso de técnicas de consistencia para comprobar que el sistema funciona correctamente. 22

23 Reto: Balancear 23

24 Grados de tolerancia de fallos Tolerancia completa (fail operational) El sistema sigue funcionando, al menos durante un tiempo, sin perder funcionalidad ni prestaciones Degradación aceptable (fail soft, graceful degradation) El sistema sigue funcionando con una pérdida parcial de funcionalidad o prestaciones hasta la reparación del fallo Parada segura (fail safe) El sistema se detiene en un estado que asegura la integridad del entorno hasta que se repare el fallo El grado de tolerancia de fallos necesario depende de la aplicación 24

25 Capas Aplicación (libre de fallos) Middleware (tolerancia a fallos) Cluster (fallos posibles) 25

26 Incorporar Tolerancia a Fallos en clusters Diseñar estrategias para que: Proporcione un sistema fiable con elementos no fiables No degrade prestaciones en ausencia de fallos Mínima sobrecarga (Overhead) Degrade lo mínimo en presencia de fallos: Tolere un número razonablemente alto de fallos Detecte y No deshabilite nodos sanos Bajo Coste: No requiera demasiado hardware extra No introduzca penalizaciones: aumento de la latencia, overhead Sea escalable Sea transparente, M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M Necesitamos Sistemas fiables que permiten la construcción de aplicaciones masivamente paralelas M M M M M M M 26

27 Fiabilidad tolerancia a fallos Requiere Seleccionar el tipo de fallos a proteger Protección: Redundancia Detección Diagnóstico Recuperación: En caso de fallos volver a uno de estos estados y reiniciar la ejecución Reconfiguración: si es necesario Por qué tiene una rueda de repuesto en el coche? Fiabilidad Por qué se van quitando? 27

28 Seleccionar el tipo de fallos a proteger El diseño de la tolerancia a fallos requiere Especificar la clase de fallos que pueden ser tolerados. Especificar los componentes o conceptos que proporcionan protección contra los fallos de todas las clases de fallos toleradas. Cuantos más fallos son tolerados, mejor logramos un sistema con alta disponibilidad (HA) Problema: Coste 28

29 Hardware es sólo s un enlace en la cadena de la disponibilidad (availability) Untested environment No Change Management Overloaded Weak Problem Detection Application Failure 40% Forgot Something Lack of Procedures Backup Errors / Security Operator Error 40% Other 20% but there is more to be considered - Gartner Group,

30 Tipos de fallos: Clasificación n dependiendo de la duración Fallos permanentes: Permanecen hasta que se reparan Ejemplo: roturas de hardware, errores de diseño de software Fallos transitorios: Desaparecen solos al cabo de un tiempo. Se deben a interferencias externas. La forma en que aparecen y la duración es aleatoria Ejemplo: interferencias en comunicaciones Fallos intermitentes: Fallos transitorios que ocurren de vez en cuando, se deben a cierta combinación específica del sistema Ejemplo: calentamiento de un componente de hardware Debe impedirse que los fallos de todos estos tipos causen averías 30

31 Alternativas para incorporar la protección n a Fallos Redundancia de componentes. Hardware extra Redundancia a nivel de información. Realizado desde la aplicación: aplicaciones que incorporan mecanismos de TF. Transparente al usuario (middleware): mecanismos transparentes al usuario, para proteger, detectar fallos, recuperar cuando ocurre un fallo Técnicas: Checkpoint y log de mensajes Replicación de datos 31

32 Mecanismos para Tolerancia a fallos Los nodos en los clusters fallan Cuál es la solución? Re-ejecución de procesos en el nodo fallado? Reparación No siempre es posible o aceptable Re-ejecución de procesos en otros nodos? Redundancia Replicación de datos: Requiere tenerlo en cuenta (SPMD, MW) Checkpointing y migración: Puede ocasionar problema de consistencia Checkpointing y log: Puede ocasionar un gran overhead Dificultades con algunos tipos de aplicaciones Consistencia: Efecto dominó, Aplicaciones que modifican el entorno 32

33 Software view of hardware failures Two classes of faults Fail-stop: a failed processor ceases all operation and does not further corrupt system state Byzantine: arbitrary failures Our focus: Nothing to do with adversaries Fail-Stop Faults 33

34 Posibles configuraciones de Tolerancia a Fallos en Clusters: Activo-Pasivo: Las aplicaciones se ejecutan sobre un conjunto de nodos (activos), mientras que los restantes actúan como backups redundantes de los servicios ofrecidos. Activo-Activo: Todos los nodos actúan como servidores activos de una o más aplicaciones y potencialmente como backups para las aplicaciones que se ejecutan en otros nodos. En cualquier caso, el fallo de un nodo, provoca la migración de las aplicaciones que ejecutaba, a otro nodo del sistema. Si la migración es automática se denomina failover, si es manual switchover. 34

35 Activo-Activo Activo: O 0 O O 2 2 O 3 3 P 1 P 2 P 4 Recursos constantes: degradación Nodo Nodo sobre sobre cargado cargado Posibilidad: Reparación 35

36 Activo-Pasivo Pasivo: P e Prestaciones constantes: Módulos de reserva 36

37 El reto de la recuperación Recovery Point Objective (RPO) How fresh does your data need to be? Recovery Time Objective (RTO) What is your downtime tolerance? Wks Days Hrs Mins Secs Secs Mins Hrs Days Wks Recovery Point Recovery Time File and Print Web Server ebusiness 37

38 Recuperación Rehacer el trabajo debe llevar menos tiempo que hacerlo No es invariable en el tiempo, dependiendo del momento varía Latencia Overhead Coste Se debe equilibrar redundancia y recuperación Time Disaster Recovery Time Objective Business Resumes Ciclo adecuado Ciclo demasiado largo 38

39 Problema: Fallos en clusters La probabilidad de fallos incrementa con el número de nodos (se reduce el MTBF) Aplicaciones con tiempos de ejecución largos (más sensibles al MTBF) Acabar correctamente la aplicación a pesar del fallo de algún nodo Requiere: Detección, Diagnóstico Prevención Recuperación Reconfiguración No siempre es posible o aceptable Re-ejecución de la aplicación Tolerancia a fallos Introduce: Overhead Coste,.. 39

40 Tolerancia a fallos: resumen Capacidad de continuar el procesamiento en presencia de fallos. Alta Disponibilidad: requiere duplicidad y redundancia El fallo debe ser transparente al usuario Lo ideal es identificar todos los posibles fallos y evaluar las técnicas adecuadas de tolerancia a fallos Predicción de fallos (Fault Forecasting): Fallos que se pueden anticipar, por ejemplo, fallos de disco Obtención a priori de la garantía de funcionamiento del sistema. Se realiza una evaluación del comportamiento del sistema ante la ocurrencia del fallo. Fallos que se pueden eliminar: (Fault Removal): Mantenimiento Reducir la presencia (número, seriedad) y el alcance de los fallos mediante: verificación, diagnosis y corrección Tolerancia a Fallos (Fault Tolerant): Fallos que se pueden recuperar Minimizar la redundancia. Mayor redundancia mayor complejidad tiene el sistema más propenso a errores Es necesario gestionar adecuadamente la redundancia Maximizar la fiabilidad del sistema 40

41 Introducción. Conceptos básicos. Organización Definición de fallo, error y avería Garantía de funcionamiento Medidas de fiabilidad Técnicas para aumentar la fiabilidad de un sistema: Técnicas de Redundancia: Checkpoint Modelos, terminología y aspectos generales del rollbackrecovery 41

42 Garantía a de funcionamiento (Dependability) Garantía de Funcionamiento (Confiabilidad) de un sistema informático es la propiedad que permite a sus usuarios depositar una confianza justificada en el servicio que les proporciona. 42

43 Garantía a de funcionamiento (Dependability) Dependiendo de la aplicación, la garantía de funcionamiento pondrá énfasis en un subconjunto de estas características: El sistema funciona sin interrupciones: Fiabilidad (Reliability) El sistema está disponible el máximo tiempo posible (Availability) El sistema no provoca averías catastróficas: Seguridad (Safety)(Proporciona los resultados correctamente) El sistema es fácilmente reparable o utilizable (Serviceability o maintainability) El sistema impide el acceso no autorizado: confidencialidad (confidentiality) El sistema impide la alteración inadecuada de la información: Integridad (integrity) R A S 43

44 Garantía a de funcionamiento: Medidas Confiabilidad (Medidas) Servicio disponible continuamente Disponibilidad de utilización Aptitud para reparaciones y cambios Fiabilidad (R) Disponibilidad (A) Utilizable (S) Fiabilidad -λt = R(t) = e MTBF =1 λ Tiempo Pr oductivo*100 UtilizaciónSistemaTotal(%) = TiempoTotal 44

45 Garantía a de funcionamiento Componentes Garantía de funcionamiento (confiabilidad) Impedimentos (Problemas/daños) Medios (herramientas) Atributos (medidas) Fallo Ejecución Especificación Validación Disponibilidad Fiabilidad Avería Predicción de fallos Tolerancia a fallos Eliminación de fallos Prevención de fallos Seguridad Error circunstancias que causan o son producto los el métodos, modo de y la las herramientas no medidas confiabilidad mediante y soluciones las cuales requeridas se puede estimar para la entregar calidad un de servicio un servicio confiable confiable Mantenimiento 45

46 Medidas de tolerancia a fallos Medida MTTF (mean time to failure) MTTR (mean time to repair) MTBF (mean time between failure) MTBI (mean time between interrupts) Significado Tiempo esperado hasta la ocurrencia de la avería Tiempo medio para reparar el sistema Tiempo medio entre los defectos del sistema Tiempo medio entre las interrupciones del sistema 46

47 Soporte para Disponibilidad Un diseño de alta disponibilidad y robusto requiere Fiabilidad: Durante cuanto tiempo puede operar un sistema sin pararse (MTTF) Disponibilidad: Porcentaje del tiempo que el sistema está disponible para el usuario (MTBF) o (MTBI: Tiempo medio entre interrupciones) Facilidad de Mantenimiento: Indica la facilidad de mantener el sistema en condiciones de operación (reparaciones, actualizaciones, ), tanto a nivel hardware como software (MTTR) MTBI = Tiempototal N º deint errupciones Reliability (Fiabilidad) Availability (Disponibilidad) Serviceability (Reparable) 47

48 Fiabilidad y seguridad Fiabilidad: probabilidad de proporcionar el servicio especificado Para una tasa de fallos de λ averías/hora la media de tiempo entre averías MTTF=1/ λ Si MTTF > 10 9 hablamos de sistemas ultrafiables Seguridad: Los sistemas críticos deben ser fiables. Ciertos proyectos requieren certificación oficial Según Hecht y Hecht (1986), los sistemas software complejos, por cada millón de líneas de código contienen una media de errores El 90% de esos errores pueden ser detectados con sistemas de comprobación. 200 errores de los restantes se detectan durante el primer año. Los 1800 restantes permanecen sin detectar Los requisitos de fiabilidad y seguridad en los STR son mayores que en el resto 48

49 Disponibilidad Disponibilidad = MTBF MTBF + MTTR MTBF = Mean Time Between Failure (Tiempo Medio Entre Fallos) MTTR = Maximun Time To Repair (Máximo Tiempo de Reparación) MTBF MTBF Nodo Sistema Tiempode Pr oducción = N º defallosdeln odo Tiempode Pr oducción = N º defallosdelsistema 49

50 Ciclo de operación-reparaci reparación n de un cluster Disponibilidad = MTTF MTTF + MTTR MTTF (Mean Time To Failure): Tiempo esperado hasta la ocurrencia de la avería MTTR (Mean Time To Repair): Tiempo medio para reparar el sistema 50

51 Aumentar la disponibilidad Opciones Incrementar MTTF incrementar la fiabilidad (difícil) Reducir MTTR Reducir el tiempo de reparación es más habitual en clusters. Se puede conseguir mediante: componentes hardware redundantes aislados programación crítica sujeta a votación (redundancia de ejecución con posterior votación de los resultados) 51

52 Overhead por tolerancia a fallos Overhead que se introduce en cada una de las fases de la tolerancia a fallos: Qué medimos? Protección: Overhead: redundancia, envío, almacenamiento Checkpoint Overhead: es el incremento en el tiempo de ejecución de la aplicación debido a la realización de checkpoint Latencia del Checkpoint: es el tiempo necesario para salvar el checkpoint (depende del tamaño del checkpoint) Detección del error Latencia del error Diagnóstico Latencia del error Recuperación del error: Overhead: Controlador + Reejecución Reconfiguración: consistencia global del sistema overhead controlador 52

53 Relación n temporal en el proceso de creación n de los fallos, errores y averías as Tiempo de inactividad (Fallo dormido): TI = te - tf Tiempo de latencia (Fallo latente): TL = td - te Cobertura es la probabilidad de detectar el fallo (Cobertura en la detección, en la localización, en el aislamiento, en la reconfiguración y en la recuperación) 53

54 Detección n de errores Los fallos no pueden ser observados de forma directa, sino que deben ser deducidos a través de la presencia de errores. Método o error a comprobar función a observar Temporizadores de guardia Heartbeat: Mecanismo de diagnosis de fallo: los nodos del cluster envían un flujo periódico de mensajes de control a los demás. Si el flujo se interrumpe, se diagnostica un fallo en algún nodo o en la red. Puede haber nodos de diagnosis que se dedican a controlar este flujo de mensajes de control. Cuando se detecta el fallo, el nodo que lo detecta debe notificar a los otros nodos que hay un componente con fallo. Seguidamente, el gestor de recursos debe reasignar los servicios de ese componente fallado. 54

55 Latencia Latencia del error: desde el instante en que se produce el fallo hasta que se manifiesta el error. Durante este tiempo de latencia, se dice que el fallo no es efectivo y que el error está latente. Latencia de detección del error Latencia de la producción de la avería. Semanas Días Horas Minutos Segundos Segundos Minutos Horas Días Semanas 55

56 Modelo de Recuperación Se trata de situar el sistema en un estado correcto desde el que pueda seguir funcionando Hay dos estrategias básicas de llevarla a cabo: Recuperación directa (hacia adelante) (FER): Se avanza desde un estado erróneo haciendo correcciones sobre partes del estado Recuperación inversa o Recuperación hacia atrás (BER): Se retrocede a un estado anterior correcto que se ha guardado previamente Los procesos en ejecución periódicamente guardan un estado consistente (checkpoint) en un almacenamiento estable. Tras el fallo, el sistema se reconfigura para aislar el componente erróneo, recupera el último estado consistente y reanuda las operaciones (esto se denomina rollback recovery) Quién: El humano: administrador o propietario del trabajo El sistema: distintas políticas para recuperar 56

57 Recuperación n hacia atrás 57

58 Recuperación n inversa Consiste en retroceder a un estado anterior correcto y ejecutar un segmento de programa alternativo (con otro algoritmo) El punto al que se retrocede se llama punto de recuperación (recovery point) La acción de guardar el estado se llama chekpointing No es necesario averiguar la causa ni la situación del fallo Sirve para fallos imprevistos No puede deshacer los errores que aparecen en el sistema controlado! Tiempo Punto de Recuperación Objetivo (RPO) Estado Consistente (Checkpoint) Crash 58

59 Modelo de Recuperación n transparente El sistema: Se pueden utilizar distintas políticas para recuperar Recuperar los procesos en otros recursos del sistema y continuar la ejecución: ejemplo: RADIC Recuperar los procesos en un nuevo conjunto de recursos, si es posible: Ejemplo RADIC-X Recuperar los procesos en el mismo recurso al que fue asignado, después de reparado: Ejemplo RADIC-X Poner los procesos en la cola y esperar a que se le asignen recursos para continuarlo: Ejemplo: FTDR 59

60 Checkpointing Checkpoint-Recovery: da a una aplicación o sistema la capacidad de salvar su estado, y tolerar fallos permitiendo que una ejecución que ha fallado, recuperar en un estado salvado en un punto anterior. Ideas claves Salvar estado de ejecución Proporcionar mecanismos de recuperación en presencia de fallos Permitir tolerancia de fallos previstos. Proporciona el mecanismo para la migración de proceso en los sistemas distribuidos por razones de la tolerancia de avería o balancear de la carga 60

61 Checkpoint Recovery La imagen básicab Una vez el fallo ha sido detectado y el proceso se ha recuperado, en su último checkpoint es necesario asegurar la consistencia del estado causada por la interdependencia entre tareas 61

62 Introducción. Conceptos básicos. Organización Definición de fallo, error y avería Garantía de funcionamiento Medidas de fiabilidad Técnicas para aumentar la fiabilidad de un sistema: Técnicas de Redundancia: Checkpoint Modelos, terminología y aspectos generales del rollbackrecovery 62

63 Checkpoint Checkpoint: Lugar en el programa, en que se interrumpe el procesamiento normal, para preservar la información del estado necesaria para permitir reasumir el procesamiento en un instante posterior Periódicamente se salva el estado del proceso Después del fallo, el proceso puede ser recomenzado desde un estado conocido almacenando Requiere que el proceso se suspenda durante el tiempo que se almacena su estado Consume recursos de E/S Checkpointing: es el proceso de salvar la información del estado 63

64 Checkpointing-Recovery Checkpoint: da a una aplicación o sistema la capacidad de salvar su estado y tolerar fallos capacitando una fase ejecutiva de tratamiento de fallo para recuperar a un estado salvado anterior al fallo. Rollback recovery: El proceso de reasumir un cómputo volviendo al estado salvado Cuestiones claves Salvar estado periódicamente Proporcionar mecanismos de recuperación en la presencia de fallos que garanticen la consistencia Proporcionar mecanismos para migración de procesos en sistemas distribuidos Puede requerir balanceo de carga 64

65 Aspectos de checkpointing Frecuencia de checkpointing: relacionado con el overhead. Depende de la probabilidad de fallo y la importancia de la computación. Nos interesa Overhead mínimo Recuperación rápida Tiempo de Computación perdida: poca Contenido del checkpointing: el estado del proceso debe salvarse en un almacenamiento estable 65

66 Algoritmos de checkpointing Algoritmos de checkpointing Sistemas uniprocesador Sistemas Multiprocesador Enfoques estáticos Enfoques Dinámicos Enfoques estáticos Enfoques Dinámicos Métodos basados en grafos Sistemas con Memoria Compartida Métodos basados En el compilador Enfoques basados en cache Sistemas con Memoria Compartida Distribuida Enfoques basados en memoria Sistemas de Paso de Mensajes 66

67 Clasificación: Checkpoint / Restart (Elnozahy 96) Checkpoint Coordinación Checkpoint distribuido Salvar el estado No coordinado Inducido por comunicación Coordinado Aplicación Sistema No bloqueante Bloqueante 67

68 Checkpoint Coordinado No Bloqueante (Chandy/Lamport). Todos los procesos coordinan sus checkpoints, de forma que el estado global del sistema es coherente (Chandy & Lamport Algorithm) El objetivo es hacer un checkpoint de la aplicación cuando no exista tránsito de mensajes entre dos nodos sincronización global flush de la red Gran overhead en ejecución libre de fallos En el caso de fallo, todos los procesos hacen roll back a sus checkpoints Alto coste para recuperación de fallo Eficiente cuando la frecuencia es baja No escalable restart detección/ global stop fallo Ckpt Sync Nodos 68

69 Checkpoint coordinado No bloqueante 69

70 Checkpointing Co-ordinado ordinado Bloqueante: Barreras P Q R Barrier Barrier Barrier Many programs are bulk-synchronous (BSP model of Valiant) At barrier, all processes can take checkpoints. assumption: no messages are in-flight across the barrier Parallel program reduces to sequential state saving problem But many new parallel programs do not have global barriers.. 70

71 Checkpoint Inducido por Comunicación No requiere sincronización global para proporcionar una coherencia global El nº de checkpoint forzado incrementa linealmente con el nº de nodos No escala Es impredecible la frecuencia de checkpoint Detección de un posible estado inconsistente obliga a checkpoint bloqueante de algunos procesos Gran overhead en ejecución libre de fallos Poco usado en la práctica 71

72 Checkpoint no coordinado No existe una sincronización global (escalable) Nodos: pueden hacer checkpoint en cualquier momento (independientemente de los otros) Necesita log no determinístico de eventos: Mensajes en transito restart detección fallo Ckpt Nodos 72

73 Checkpoint en Computadores Paralelos Problema: existen múltiples flujos de ejecución y no existe un reloj global Es difícil iniciar checkpoints en todos los flujos de ejecución en el mismo instante de tiempo para tener checkpoint concurrentes que permitan un rollback recovery consistente 73

74 Consistencia en Sistemas con Paso de Mensaje Estado consistente: Debe reflejar la recepción de mensajes Métodos de checkpointing en clusters Debemos tener en cuenta los mensajes y sus dependencias Después de un fallo deberían ejecutarse en el mismo orden previo al fallo Este mensaje no está en el estado del remitente 74

75 Definiciones Relación de Precedencia: ocurren antes (LAMPORT): a y b son 2 eventos del mismo proceso si a ocurre antes que b : a b si el evento a envía un mensaje y b es el evento que recibe dicho mensaje: a b Eventos concurrentes: 2 eventos a y son concurrentes : a b si a / b yb / a Checkpoint local: evento que guarda el estado de un proceso en un procesador en un instante dado Checkpoint global: conjunto de checkpoints locales, uno de cada procesador Checkpoint global consistente: Un estado global es consistente si todos los eventos incluidos forman un conjunto concurrente. Un Checkpoint global consistente es un conjunto de checkpoint locales, uno de cada procesador, tal que cada checkpoint local es concurrente a cada uno de los otros checkpoint locales Rollback recovery: es un proceso de reasumir/recuperar un computo de un checkpoint global consistente 75

76 Estados consistentes Dos procesos P y Q, cada uno tiene 2 checkpoint realizados El mensaje m es enviado por P a Q Conjuntos de checkpoint que representan estados consistentes del sistema: {P_1, Q_1}: Ningún checkpoint tiene información sobre m {P_2, Q_2}: P_2 indica que m fue enviado; Q_2 indica que fue recibido {P_2, Q_1}: P_2 indica que m fue enviado; Q_1 no tiene información sobre la recepción de m P Q P_1 Q_1 m Q_2 P_2 Tiempo 76

77 Estados inconsistentes: Mensajes huérfanos Mensajes huérfanos: {P_1, Q_2} es un estado inconsistente; P_1 no recuerda el envío de m, mientras Q_2 recuerda haberlo recibido Línea de recuperación: El conjunto de checkpoints que representan un estado del sistema consistente El rollback debe volver a un estado consistente, es decir buscar una línea de recuperación para hacer el restart a partir de ahí {P_1, Q_1}: Corte consistente {P_2, Q_1}: P no retransmite m ; Q no recuerda haber recibido m. El proceso de recuperación necesita añadir al checkpoint un log de mensajes separado recordando lo recibido por Q 77

SEMINARIO DE SUPERCOMPUTACION: Procesamiento Paralelo

SEMINARIO DE SUPERCOMPUTACION: Procesamiento Paralelo SEINARIO E SUPERCOPUTACION: Procesamiento Paralelo Cluster de Computadores: Tolerancia a Fallos 1 Organización * Introducción. * Tolerancia a fallos en cluster * Alternativas Usuarios expertos: Aplicaciones

Más detalles

Computación de Alta Performance Curso 2009 TOLERANCIA A FALLOS COMPUTACIÓN DE ALTA PERFORMANCE 2009 TOLERANCIA A FALLOS

Computación de Alta Performance Curso 2009 TOLERANCIA A FALLOS COMPUTACIÓN DE ALTA PERFORMANCE 2009 TOLERANCIA A FALLOS Computación de Alta Performance Curso 2009 TOLERANCIA A FALLOS INTRODUCCIÓN Clusters cada vez más grandes y complejos. Tiempo de cómputo ininterrumpidos cada vez más largos. Componentes trabajando cerca

Más detalles

COMPUTACIÓN DE ALTA PERFORMANCE

COMPUTACIÓN DE ALTA PERFORMANCE COMPUTACIÓN DE ALTA PERFORMANCE 2011 1 TOLERANCIA A FALLOS COMPUTACIÓN DE ALTA PERFORMANCE Curso 2011 Sergio Nesmachnow (sergion@fing.edu.uy) Santiago Iturriaga (siturria@fing.edu.uy) Gerardo Ares (gares@fing.edu.uy)

Más detalles

TEMA 37: Arquitecturas Cliente / Servidor. Tipos de cliente. Tipos de Servidor. Clasificación del software.

TEMA 37: Arquitecturas Cliente / Servidor. Tipos de cliente. Tipos de Servidor. Clasificación del software. . TEMA 37: Arquitecturas Cliente / Servidor. Tipos de cliente. Tipos de Servidor. Clasificación del software. Índice 1 INTRODUCCIÓN 2 2 CARACTERÍSTICAS 2 2.1 Características del cliente...2 2.2 Características

Más detalles

Tema 3. Tecnologías y arquitecturas tolerantes a errores. Alta disponibilidad. Gestión de la redundancia, clustering.

Tema 3. Tecnologías y arquitecturas tolerantes a errores. Alta disponibilidad. Gestión de la redundancia, clustering. Tema 3. Tecnologías y arquitecturas tolerantes a errores. Alta disponibilidad. Gestión de la redundancia, clustering. Esquema Índice de contenido 1 Introducción... 2 2 Arquitecturas redundantes y su gestión...

Más detalles

Plataformas operativas de tecnologías de información. Afinación del rendimiento

Plataformas operativas de tecnologías de información. Afinación del rendimiento Plataformas operativas de tecnologías de información Afinación del rendimiento Afinación del Rendimiento Tolerancia a fallos. Fiabilidad. Recuperación. Alta disponibilidad. Interoperabilidad con otros

Más detalles

Protección de Datos y Backup

Protección de Datos y Backup Protección de Datos y Backup José M. Peña 1 Contenidos 1. Definiciones y términos 2. Requisitos de usuario: Plazos de recuperación Planificación de la organización 3. Granularidad de

Más detalles

Sistemas Operativos Distribuidos

Sistemas Operativos Distribuidos Fiabilidad y Seguridad Fallos Conceptos Básicos Diversos elementos de un sistema distribuido pueden fallar: Procesadores, red, dispositivos, software, etc. Tipos de fallos: Transitorios: Falla una vez

Más detalles

ARQUITECTURA DE INVULNERABILIDAD DE DATOS DE EMC DATA DOMAIN: MEJORA DE LA CAPACIDAD DE RECUPERACIÓN Y LA INTEGRIDAD DE LOS DATOS

ARQUITECTURA DE INVULNERABILIDAD DE DATOS DE EMC DATA DOMAIN: MEJORA DE LA CAPACIDAD DE RECUPERACIÓN Y LA INTEGRIDAD DE LOS DATOS Informe ARQUITECTURA DE INVULNERABILIDAD DE DATOS DE EMC DATA DOMAIN: MEJORA DE LA CAPACIDAD DE RECUPERACIÓN Y LA INTEGRIDAD DE LOS DATOS Análisis detallado Resumen Ningún mecanismo por sí mismo es suficiente

Más detalles

Sistemas Operativos de

Sistemas Operativos de Sistemas Operativos de Tiempo Real Ing. José Roberto Vignoni Año 2004 1 Un sistema de tiempo real es un sistema informático que: Interacciona repetidamente con su entorno físico Responde a los estímulos

Más detalles

ARQUITECTURA DE INVULNERABILIDAD DE DATOS DE EMC DATA DOMAIN: MEJORA DE LA CAPACIDAD DE RECUPERACIÓN Y LA INTEGRIDAD DE LOS DATOS

ARQUITECTURA DE INVULNERABILIDAD DE DATOS DE EMC DATA DOMAIN: MEJORA DE LA CAPACIDAD DE RECUPERACIÓN Y LA INTEGRIDAD DE LOS DATOS Informe técnico ARQUITECTURA DE INVULNERABILIDAD DE DATOS DE EMC DATA DOMAIN: MEJORA DE LA CAPACIDAD DE RECUPERACIÓN Y LA INTEGRIDAD DE LOS DATOS Análisis detallado Resumen Ningún mecanismo por sí mismo

Más detalles

RADIC: Un middleware de tolerancia a fallos que. preserva el rendimiento.

RADIC: Un middleware de tolerancia a fallos que. preserva el rendimiento. Escola d Enginyeria Department d Arquitectura de Computadors i Sistemes Operatius Màster en Computaciò d Altes Prestacions RADIC: Un middleware de tolerancia a fallos que preserva el rendimiento. Memoria

Más detalles

Tema 1: Introducción a la gestión y planificación de redes

Tema 1: Introducción a la gestión y planificación de redes Tema 1: Introducción a la gestión y planificación de redes 1. Introducción general 2. Objetivos de la gestión de redes 3. Objetivos de la planificación de redes 4. Sistemas de gestión de red Gestión de

Más detalles

Sistemas Distribuidos. Sistemas Distribuidos. Definiciones. Definición

Sistemas Distribuidos. Sistemas Distribuidos. Definiciones. Definición Sistemas Distribuidos Sistemas Distribuidos Por: Mariela Curiel Basado en los textos: Sistemas Distribuidos Conceptos y Diseño G. Coulouris, J. Dollimore, TimKinberg Definiciones Ejemplos Desafíos en el

Más detalles

Soluciones de Replicación en PostgreSQL 9.1

Soluciones de Replicación en PostgreSQL 9.1 Soluciones de Replicación en PostgreSQL 9.1 Objetivo Definir de forma simple y sintética algunos conceptos vinculados con la replicación. Introducir al alumno a la comprensión de las distintas técnicas

Más detalles

Plataforma Cloud con HP 3PAR y VMware vsphere

Plataforma Cloud con HP 3PAR y VMware vsphere Mayo 2011 Elaborado por nerion Todos los derechos reservados. Plataforma Cloud con HP 3PAR y VMware vsphere SOBRE NERION nerion es una de las principales Empresas españolas de registro de dominios, hosting

Más detalles

Introducción al Cluster

Introducción al Cluster Centro de Teleinformática y Producción Industrial - Regional Cauca Pág. 1 de 11 Nombre del Introducción al Cluster Historial Fecha Razón de cambio (s) Autor(es) 26 / 10 /2011 Documento Inicial, Primer

Más detalles

:Arquitecturas Paralela basada en clusters.

:Arquitecturas Paralela basada en clusters. Computación de altas prestaciones: Arquitecturas basadas en clusters Sesión n 1 :Arquitecturas Paralela basada en clusters. Jose Luis Bosque 1 Introducción Computación de altas prestaciones: resolver problemas

Más detalles

Especificación de la secuencia de mensajes que se han de intercambiar. Especificación del formato de los datos en los mensajes.

Especificación de la secuencia de mensajes que se han de intercambiar. Especificación del formato de los datos en los mensajes. SISTEMAS DISTRIBUIDOS DE REDES 2.- MODELOS ORIENTADOS A OBJETOS DISTRIBUIDOS 2.1. Tecnologías de sistemas distribuidos Para la implementación de sistemas distribuidos se requiere de tener bien identificados

Más detalles

DISCOS RAID. Se considera que todos los discos físicos tienen la misma capacidad, y de no ser así, en el que sea mayor se desperdicia la diferencia.

DISCOS RAID. Se considera que todos los discos físicos tienen la misma capacidad, y de no ser así, en el que sea mayor se desperdicia la diferencia. DISCOS RAID Raid: redundant array of independent disks, quiere decir conjunto redundante de discos independientes. Es un sistema de almacenamiento de datos que utiliza varias unidades físicas para guardar

Más detalles

Módulo 2 Comunicación

Módulo 2 Comunicación Sistemas Distribuidos Módulo 2 Comunicación Facultad de Ingeniería Departamento de Informática Universidad Nacional de la Patagonia San Juan Bosco Comunicación en Sistemas Distribuidos Modelos de Comunicaciones

Más detalles

Sistemas de memoria robustos o tolerantes a fallos. Noel Palos Pajares Rubén Suárez del Campo Jorge Martín Vázquez

Sistemas de memoria robustos o tolerantes a fallos. Noel Palos Pajares Rubén Suárez del Campo Jorge Martín Vázquez Sistemas de memoria robustos o tolerantes a fallos Noel Palos Pajares Rubén Suárez del Campo Jorge Martín Vázquez Índice Introducción Qué son los sistemas tolerantes a fallos o robustos. Tipos de fallos

Más detalles

Nicolás Zarco Arquitectura Avanzada 2 Cuatrimestre 2011

Nicolás Zarco Arquitectura Avanzada 2 Cuatrimestre 2011 Clusters Nicolás Zarco Arquitectura Avanzada 2 Cuatrimestre 2011 Introducción Aplicaciones que requieren: Grandes capacidades de cómputo: Física de partículas, aerodinámica, genómica, etc. Tradicionalmente

Más detalles

RAID. Los detalles de las características segunda y tercera, cambian según los distintos niveles RAID. RAID 0 no soporta la tercera característica.

RAID. Los detalles de las características segunda y tercera, cambian según los distintos niveles RAID. RAID 0 no soporta la tercera característica. RAID Como se dijo anteriormente, el ritmo de mejora de prestaciones en memoria secundaria ha sido considerablemente menor que en procesadores y en memoria principal. Esta desigualdad ha hecho, quizás,

Más detalles

Nombres y Sistemas de Archivos en Sistemas Distribuidos

Nombres y Sistemas de Archivos en Sistemas Distribuidos Nombres y Sistemas de Archivos en Sistemas Distribuidos Definiciones Nombre: cadena de bits o caracteres que se usan para referirse a una entidad. Entidad: casi cualquier cosa en un sistema distribuido.

Más detalles

Arquitectura y Diseño de Software

Arquitectura y Diseño de Software Arquitectura y Diseño de Software Atributo de Calidad: Disponibilidad Tácticas, Estrategias y Patrones de Diseño Agenda Contexto Índice de Disponibilidad Tácticas y Estrategias Costos Directos / No-Disponibilidad

Más detalles

Clase 1: Estructuras, Procesos y Diccionario de Datos

Clase 1: Estructuras, Procesos y Diccionario de Datos Clase 1: Estructuras, Procesos y Diccionario de Datos Estructura de la memoria System Global Area Buffer Cache Redo Log Buffer Share Pool Dictionary Cache Large Pool Process Global Area Private SQL Area

Más detalles

[TECNOLOGÍA RAID] Documentos de formación de SM Data: http://www.smdata.com/formacion.php

[TECNOLOGÍA RAID] Documentos de formación de SM Data: http://www.smdata.com/formacion.php 2011 Documentos de formación de SM Data: http://www.smdata.com/formacion.php [] Introducción a la tecnología RAID; Qué es RAID?; ventajas de RAID; definición de los más populares niveles de RAID y diferentes

Más detalles

Redes Informáticas Temas: Concepto de Red de computadoras, Propósito de la Red, Clasificación según su cobertura geográfica. Topologías.

Redes Informáticas Temas: Concepto de Red de computadoras, Propósito de la Red, Clasificación según su cobertura geográfica. Topologías. Redes Informáticas Temas: Concepto de Red de computadoras, Propósito de la Red, Clasificación según su cobertura geográfica. Topologías. Docente: Lic. Mariela R. Saez Qué es una Red Informática? Una red,

Más detalles

1. Introducción a la Gestión de Redes

1. Introducción a la Gestión de Redes 1. Concepto de gestión de red. 2.1. Gestión Autónoma. 2.2. Gestión Homogénea. 2.3. Gestión Heterogénea. 2.4. Gestión Integrada. 3. Recursos utilizados en gestión de red. 4.1. Monitorización de red. 4.2.

Más detalles

GRID COMPUTING MALLA DE ORDENADORES

GRID COMPUTING MALLA DE ORDENADORES GRID COMPUTING MALLA DE ORDENADORES Introducción Concepto Compartir potencia computacional; Aprovechamiento de ciclos de procesamiento; El Grid Computing se enmarca dentro de la tecnología de computación

Más detalles

RAID. Características, ventajas y aplicaciones. Porqué utilizar RAID? Beneficios y ventajas. white paper

RAID. Características, ventajas y aplicaciones. Porqué utilizar RAID? Beneficios y ventajas. white paper white paper RAID Características, ventajas y aplicaciones. El término RAID (Redundant Array of Independent -or Inexpensive- Disks), cuyos orígenes datan de 1989, hace referencia a una arquitectura para

Más detalles

Procedimientos de recuperación

Procedimientos de recuperación Ingeniería Técnica en Informática Escuela Universitaria de Informática Universidad Politécnica de Madrid Asignatura: Administración de Bases de Datos Tema 6: Técnicas de Backup y Recuperación de Bases

Más detalles

Análisis de disfrazado de fallas y recuperación usando redundancia física en sistemas distribuidos

Análisis de disfrazado de fallas y recuperación usando redundancia física en sistemas distribuidos Universidad Católica Andrés Bello Ingeniería en Informática Sistemas Distribuidos Análisis de disfrazado de fallas y recuperación usando redundancia física en sistemas distribuidos Redundancia Física en

Más detalles

Base de Datos Oracle 10g: Taller de Administración I 1-1

Base de Datos Oracle 10g: Taller de Administración I 1-1 Base de Datos Oracle 10g: Taller de Administración I 1-1 Productos Oracle Bases de datos Oracle: La base de datos Oracle es la primera base de datos diseñada para Enterprise Grid Computing (el modo más

Más detalles

Monitorización y control Las funciones de gestión de red se pueden agrupar en dos grandes categorías:

Monitorización y control Las funciones de gestión de red se pueden agrupar en dos grandes categorías: Tema 2: Áreas funcionales de la gestión de redes 1. Introducción 2. Gestión de prestaciones 3. Gestión de fallos 4. Gestión de costes 5. Gestión de configuración 6. Gestión de seguridad Monitorización

Más detalles

SISTEMAS DE GESTIÓN DE BASE DE DATOS SGBD / DBMS

SISTEMAS DE GESTIÓN DE BASE DE DATOS SGBD / DBMS Universidad de Carabobo Facultad Experimental de Ciencias y Tecnología Departamento de Computación Unidad Académica Base de Datos SISTEMAS DE GESTIÓN DE BASE DE DATOS SGBD / DBMS Integrantes: Fidel Gil

Más detalles

Diseño del Sistema de Información

Diseño del Sistema de Información Diseño del Sistema de Información ÍNDICE DESCRIPCIÓN Y OBJETIVOS... 2 ACTIVIDAD DSI 1: DEFINICIÓN DE LA ARQUITECTURA DEL SISTEMA... 7 Tarea DSI 1.1: Definición de Niveles de Arquitectura... 9 Tarea DSI

Más detalles

Acoplamiento e interoperabilidad

Acoplamiento e interoperabilidad Máster Universitario en Ingeniería Informá3ca Acoplamiento e interoperabilidad Sistemas de Información Orientados a Servicios RODRIGO SANTAMARÍA 2 Acoplamiento débil Tipos de acoplamiento Cabalgando el

Más detalles

Introducción al Sistema PI en Alta Disponibilidad

Introducción al Sistema PI en Alta Disponibilidad Introducción al Sistema PI en Alta Disponibilidad Hacer una pregunta Descargar documentación adicional Configurar Audio y Video Copyrig h t 2014 OSIso f t, LLC. 1 Introducción al Sistema PI en Alta Disponibilidad

Más detalles

Diseño del Sistema de Información

Diseño del Sistema de Información Diseño del Sistema de Información ÍNDICE DESCRIPCIÓN Y OBJETIVOS...2 ACTIVIDAD DSI 1: DEFINICIÓN DE LA ARQUITECTURA DEL SISTEMA...7 Tarea DSI 1.1: Definición de Niveles de Arquitectura...9 Tarea DSI 1.2:

Más detalles

Sistemas Distribuidos

Sistemas Distribuidos Objetivos del curso Sistemas Distribuidos Presentar una visión global del estado del arte y los aspectos más novedosos del diseño y construcción de sistemas distribuidos. Desarrollar ejemplos prácticos

Más detalles

BASES DE DATOS TEMA 5 RECUPERACIÓN DE FALLAS

BASES DE DATOS TEMA 5 RECUPERACIÓN DE FALLAS BASES DE DATOS TEMA 5 RECUPERACIÓN DE FALLAS 5.1 Clasificación de fallas El sistema debe estar preparado para recuperarse no sólo de fallas puramente locales, como la aparición de una condición de desborde

Más detalles

TEMA 12 DISEÑO SEGURO DE REDES: ALTA DISPONIBILIDAD Y REDUNDANCIA

TEMA 12 DISEÑO SEGURO DE REDES: ALTA DISPONIBILIDAD Y REDUNDANCIA TEMA 12 DISEÑO SEGURO DE REDES: ALTA DISPONIBILIDAD Y REDUNDANCIA INTRODUCCIÓN Cuando se habla de alta disponibilidad se habla de los tres nueves (99,999% del tiempo del año funcionando correctamente),

Más detalles

Alta Disponibilidad y Virtualización con soluciones de bajo costo. Sistemas RAID. Conceptos básicos

Alta Disponibilidad y Virtualización con soluciones de bajo costo. Sistemas RAID. Conceptos básicos Sistemas RAID Conceptos básicos Programa Que es RAID? Particularidades hardware vs. software Niveles de RAID Comparando niveles Tolerancia a fallas Confiabilidad y disponibilidad Implementando en Linux

Más detalles

LABORATORIO 10. ADMINISTRACIÓN DE COPIAS DE SEGURIDAD EN ORACLE

LABORATORIO 10. ADMINISTRACIÓN DE COPIAS DE SEGURIDAD EN ORACLE LABORATORIO 10. ADMINISTRACIÓN DE COPIAS DE SEGURIDAD EN ORACLE GUÍA DE LABORATORIO Nº 1O Actividad de Proyecto No. 12: ESTABLECER PLANES DE RESGUARDO, RESTAURACION Y CONTINGENCIA. Estructura de contenidos.

Más detalles

Redes de Altas Prestaciones

Redes de Altas Prestaciones Redes de Altas Prestaciones TEMA 3 Redes SAN -Alta disponibilidad -Sistemas Redundantes -Curso 2010 Redes de Altas Prestaciones - Indice Conceptos Componentes de un SAN Términos más utilizados Topología

Más detalles

HA Clusters. Usualmente utilizan una red privada donde constantemente se monitorea el estatus de cada nodo, a esto se lo conoce como heartbeat.

HA Clusters. Usualmente utilizan una red privada donde constantemente se monitorea el estatus de cada nodo, a esto se lo conoce como heartbeat. Qué es un Clúster? Definición: Un conjunto de cosas similares que ocurren juntas http://www.merriam-webster.com/dictionary/cluster Un cluster de computadores es un conjunto de computadoras interconectadas

Más detalles

Los autores del presente documento lo ha publicado bajo las condiciones que especifica la licencia

Los autores del presente documento lo ha publicado bajo las condiciones que especifica la licencia Los autores del presente documento lo ha publicado bajo las condiciones que especifica la licencia Creative Commons Attribution-NonCommercial-ShareAlike 3.0 http://creativecommons.org/licenses/by-nc-sa/3.0/

Más detalles

Arquitectura completa de almacenamiento y protección de datos de VMware vsphere

Arquitectura completa de almacenamiento y protección de datos de VMware vsphere Arquitectura completa de almacenamiento y protección de datos de VMware vsphere Resumen ejecutivo Las ventajas que suponen el ahorro de costes y la agilidad de la virtualización de servidores están más

Más detalles

SOLUCIÓN DE ALTA DISPONIBILIDAD DE BASE DE DATOS POR HARDWARE O POR SOFTWARE?

SOLUCIÓN DE ALTA DISPONIBILIDAD DE BASE DE DATOS POR HARDWARE O POR SOFTWARE? UNIVERSIDAD DE SAN CARLOS DE GUATEMALA FACULTAD DE INGENIERÍA ESCUELA DE INGENIERÍA EN CIENCIAS Y SISTEMAS SOLUCIÓN DE ALTA DISPONIBILIDAD DE BASE DE DATOS POR HARDWARE O POR SOFTWARE? EDGAR FELIPE ALEJANDRO

Más detalles

15. Arquitectura de los multiprocesadores. 16. Multiprocesadores de memoria compartida. 17. Multicomputadores.

15. Arquitectura de los multiprocesadores. 16. Multiprocesadores de memoria compartida. 17. Multicomputadores. UNIDAD TEMÁTICA 5: MULTIPROCESADORES. 15. Arquitectura de los multiprocesadores. 16. Multiprocesadores de memoria compartida. 17. Multicomputadores. 15-1 TEMA 15: ARQUITECTURA DE LOS MULTIPROCESADORES.

Más detalles

Alta Disponibilidad. SISTEMAS DISTRIBUIDOS Departamento de Sistemas e Informática Escuela de Ingeniería Electrónica FCEIA

Alta Disponibilidad. SISTEMAS DISTRIBUIDOS Departamento de Sistemas e Informática Escuela de Ingeniería Electrónica FCEIA Alta Disponibilidad SISTEMAS DISTRIBUIDOS Departamento de Sistemas e Informática Escuela de Ingeniería Electrónica FCEIA Temario Disponibilidad y performance Tolerancia a Fallas y Alta Disponibilidad Soluciones

Más detalles

Conceptos de Q-flow Enterprise Edition

Conceptos de Q-flow Enterprise Edition Q-flow 2.2 Código de Manual: Qf22008ESP Versión del Manual: 1.1 Última revisión: 17/3/2006 Se aplica a: Q-flow 2.2 Enterprise Edition Conceptos de Q-flow Enterprise Edition Qf22008ESP v1.1 Q-flow Conceptos

Más detalles

Tema 1: Implementación del sistema de archivos

Tema 1: Implementación del sistema de archivos Tema 1: Implementación del sistema de archivos 1. Introducción 2. Implementación 3. Estructura del almacenamiento secundario Dpto. Tema Lenguajes 1: Implementación y Sistemas del Informáticos. sistema

Más detalles

Arquitectura de sistema de alta disponibilidad

Arquitectura de sistema de alta disponibilidad Mysql Introducción MySQL Cluster esta diseñado para tener una arquitectura distribuida de nodos sin punto único de fallo. MySQL Cluster consiste en 3 tipos de nodos: 1. Nodos de almacenamiento, son los

Más detalles

CENTRO DE DATOS Y POP

CENTRO DE DATOS Y POP Virtual y física. Pública y privada. Por horas o por meses. Nuestra plataforma unificada proporciona infraestructuras en la nube a nivel de Internet. Todo lo que quiera, desplegado bajo demanda y en tiempo

Más detalles

Autor: Neelesh Kamkolkar, gerente de producto. Inteligencia de negocios muy rápida y esencial para la misión a través de Tableau Server

Autor: Neelesh Kamkolkar, gerente de producto. Inteligencia de negocios muy rápida y esencial para la misión a través de Tableau Server Autor: Neelesh Kamkolkar, gerente de producto Inteligencia de negocios muy rápida y esencial para la misión a través de Tableau Server 2 Índice La inteligencia de negocios es esencial para la misión...3

Más detalles

Unidad 1: Conceptos generales de Sistemas Operativos.

Unidad 1: Conceptos generales de Sistemas Operativos. Unidad 1: Conceptos generales de Sistemas Operativos. Tema 3: Estructura del sistema operativo. 3.1 Componentes del sistema. 3.2 Servicios del sistema operativo. 3.3 Llamadas al sistema. 3.4 Programas

Más detalles

Soluciones VMware para la Continuidad del Negocio y la Recuperación ante Desastres

Soluciones VMware para la Continuidad del Negocio y la Recuperación ante Desastres Soluciones VMware para la Continuidad del Negocio y la Recuperación ante Desastres Diego Cicero VMware Sr. Systems Engineer Qué son la continuidad del negocio y la recuperación ante desastres (BCDR)? Continuidad

Más detalles

Redes de Almacenamiento

Redes de Almacenamiento Redes de Almacenamiento Las redes de respaldo o backend se utilizan para interconectar grandes sistemas tales como computadores centrales y dispositivos de almacenamiento masivo, el requisito principal

Más detalles

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE PRUEBAS DE SOFTWARE La prueba del software es un elemento crítico para la garantía de la calidad del software. El objetivo de la etapa de pruebas es garantizar la calidad del producto desarrollado. Además,

Más detalles

II MARCO CONCEPTUAL. 2.1 Auditorías. 2.1.1 Proceso de Auditorías

II MARCO CONCEPTUAL. 2.1 Auditorías. 2.1.1 Proceso de Auditorías II MARCO CONCEPTUAL 2.1 Auditorías En general podemos considerar una auditoría como un proceso sistemático y formal en el que se determina hasta qué punto una organización está cumpliendo los objetivos

Más detalles

No se requiere que los discos sean del mismo tamaño ya que el objetivo es solamente adjuntar discos.

No se requiere que los discos sean del mismo tamaño ya que el objetivo es solamente adjuntar discos. RAIDS MODO LINEAL Es un tipo de raid que muestra lógicamente un disco pero se compone de 2 o más discos. Solamente llena el disco 0 y cuando este está lleno sigue con el disco 1 y así sucesivamente. Este

Más detalles

Universidad Nacional del Sur Departamento de Ciencias e Ingeniería de la Computación Elementos de Bases de Datos 2do. Cuatrimestre de 2004

Universidad Nacional del Sur Departamento de Ciencias e Ingeniería de la Computación Elementos de Bases de Datos 2do. Cuatrimestre de 2004 2do. Cuatrimestre de 2004 Elementos de Bases de Datos Dpto.Ciencias e Ingeniería de la Computación Universidad Nacional del Sur Lic. María Mercedes Vitturini [mvitturi@cs.uns.edu.ar] Clase 19 1er. Cuatrimestre

Más detalles

Identificación rápida de cuellos de botella: Una mejor manera de realizar pruebas de carga. Documento técnico de Oracle Junio de 2009

Identificación rápida de cuellos de botella: Una mejor manera de realizar pruebas de carga. Documento técnico de Oracle Junio de 2009 Identificación rápida de cuellos de botella: Una mejor manera de realizar pruebas de carga Documento técnico de Oracle Junio de 2009 Identificación rápida de cuellos de botella: Una mejor manera de realizar

Más detalles

5. MODELOS DE CLIENTE Y SERVIDOR ORIENTADOS A AGENTES MÓVILES

5. MODELOS DE CLIENTE Y SERVIDOR ORIENTADOS A AGENTES MÓVILES SISTEMAS DISTRIBUIDOS DE REDES 5. MODELOS DE CLIENTE Y SERVIDOR ORIENTADOS A AGENTES MÓVILES Programación remota: Introducción y generalidades INTRODUCCIÓN Debido a la dificultad de la arquitectura actual

Más detalles

Unidad I Fundamentos de Sistemas Distribuidos. M.C. Juan Carlos Olivares Rojas

Unidad I Fundamentos de Sistemas Distribuidos. M.C. Juan Carlos Olivares Rojas Unidad I Fundamentos de Sistemas Distribuidos M.C. Juan Carlos Olivares Rojas Temario 1.1. Características de un sistema distribuido 1.2. Objetivos de los sistemas distribuidos 1.3. Ventajas y desventajas

Más detalles

QUÉ ES UNA RED DE ÁREA METROPOLITANA?

QUÉ ES UNA RED DE ÁREA METROPOLITANA? QUÉ ES UNA RED DE ÁREA METROPOLITANA? Una red de área metropolitana es una red de alta velocidad (banda ancha) que dando cobertura en un área geográfica extensa, proporciona capacidad de integración de

Más detalles

Sistemas Distribuidos. (Arquitecturas)

Sistemas Distribuidos. (Arquitecturas) (Arquitecturas) Dr. Víctor J. Sosa Sosa vjsosa@cinvestav.mx II-1 Arquitecturas Los SD son los sistemas de software más complejos Nortel Networks crea switches los cuales pueden contener entre 25-30 millones

Más detalles

ORA-137 Base de Datos Oracle 11g: Administración de Real Application Clusters

ORA-137 Base de Datos Oracle 11g: Administración de Real Application Clusters ORA-137 Base de Datos Oracle 11g: Administración de Real Application Clusters Introducción Este curso ofrece a los estudiantes una introducción a las características generales y capacidades de Oracle Database

Más detalles

MECANISMOS DE PROTECCIÓN Y RESTAURACIÓN

MECANISMOS DE PROTECCIÓN Y RESTAURACIÓN MECANISMOS DE PROTECCIÓN Y RESTAURACIÓN Sistemas de Telecomunicación Alumnos: Pablo Núñez López Alberto Garzón Leo INDICE 1. Índice 2. Introducción y objetivos Definiciones Mecanismos de protección y restauración

Más detalles

15. Recuperación de fallos del sistema

15. Recuperación de fallos del sistema 15. Recuperación de fallos del sistema Objetivos Apreciar la necesidad de establecer un producto fiable, capaz de proteger la información frente a fallos del sistema Identificar los tipos de fallos que

Más detalles

Implantación de Sistemas

Implantación de Sistemas Implantación de Sistemas Maria Ines Parnisari 17 de Diciembre de 2014 Índice Parte 1: Implantación... 2 Factores clave para una implantación exitosa... 2 Etapas de un proyecto de Sistemas... 2 Fases de

Más detalles

Procesos. Bibliografía. Threads y procesos. Definiciones

Procesos. Bibliografía. Threads y procesos. Definiciones Procesos Prof. Mariela Curiel Bibliografía A. Tanembaum & M. Van Steen. Sistemas Distribuidos. Principios y Paradigmas. 2da. Edición. Smith & Nair. The Architecture of Virtual Machines. IEEE Computer.

Más detalles

Documentación Técnica Storage Cluster Almacenamiento Fujitsu ETERNUS DX

Documentación Técnica Storage Cluster Almacenamiento Fujitsu ETERNUS DX Documentación Técnica Storage Cluster Almacenamiento Fujitsu ETERNUS DX Introducción al concepto, la tecnología y la configuración de la solución de Failover Transparente Fujitsu ETERNUS DX para optimizar

Más detalles

FAMILIA EMC VPLEX. Disponibilidad continua y movilidad de datos en los centro de datos y entre ellos

FAMILIA EMC VPLEX. Disponibilidad continua y movilidad de datos en los centro de datos y entre ellos FAMILIA EMC VPLEX Disponibilidad continua y movilidad de datos en los centro de datos y entre ellos MOVILIDAD DE DATOS Y DISPONIBILIDAD CONTINUAS PARA APLICACIONES DE MISIÓN CRÍTICA La infraestructura

Más detalles

Implementación de una estrategia integral de continuidad de negocio y recuperación ante desastres con VMware

Implementación de una estrategia integral de continuidad de negocio y recuperación ante desastres con VMware Implementación de una estrategia integral de continuidad de negocio y recuperación ante desastres con VMware VMware vforum, 2014 2014 VMware Inc. Todos los derechos reservados Temas del programa Definición

Más detalles

Resolución de problemas en paralelo

Resolución de problemas en paralelo Resolución de problemas en paralelo Algoritmos Paralelos Tema 1. Introducción a la computación paralela (segunda parte) Vicente Cerverón Universitat de València Resolución de problemas en paralelo Descomposición

Más detalles

Gestión de contingencia en entornos de aplicaciones complejas. IBM Software

Gestión de contingencia en entornos de aplicaciones complejas. IBM Software Gestión de contingencia en entornos de aplicaciones complejas IBM Software Un esquema simplificado de un CPD con configuración para D/R Los CPD necesitan disponer de una localización de recuperación, con

Más detalles

Bases de Datos I. Cursada 2008. Clase 7: Recuperación de BD. Introducción a la Seguridad. Introducción a la Seguridad

Bases de Datos I. Cursada 2008. Clase 7: Recuperación de BD. Introducción a la Seguridad. Introducción a la Seguridad Bases de Datos I Cursada 2008 Clase 7: Recuperación de BD Facultad de Ciencias Exactas Universidad Nac. Centro de la Pcia. de Bs. As. 1 Introducción a la Seguridad Una base de datos es: Un conjunto de

Más detalles

Sistemas Operativos. Pedro Cabalar TEMA III. PROCESOS. Depto. de Computación Universidade da Coruña

Sistemas Operativos. Pedro Cabalar TEMA III. PROCESOS. Depto. de Computación Universidade da Coruña Sistemas Operativos Pedro Cabalar Depto. de Computación Universidade da Coruña TEMA III. PROCESOS P. Cabalar Sistemas( Operativos Depto. de Computación Universidade Tema da Coruña III. Procesos ) 1 / 41

Más detalles

CUALIFICACIÓN OPERACIÓN DE REDES DEPARTAMENTALES PROFESIONAL. Nivel 2. Versión 5 Situación RD 1201/2007 Actualización

CUALIFICACIÓN OPERACIÓN DE REDES DEPARTAMENTALES PROFESIONAL. Nivel 2. Versión 5 Situación RD 1201/2007 Actualización Página 1 de 16 CUALIFICACIÓN OPERACIÓN DE REDES DEPARTAMENTALES PROFESIONAL Familia Profesional Informática y Comunicaciones Nivel 2 Código IFC299_2 Versión 5 Situación RD 1201/2007 Actualización Competencia

Más detalles

Concepto de Procesamiento Distribuido y Centralizado

Concepto de Procesamiento Distribuido y Centralizado Concepto de Procesamiento Distribuido y Centralizado Procesamiento Centralizado: En la década de los años 50 s las computadoras eran máquinas del tamaño de todo un cuarto con las siguientes características:

Más detalles

Proyecto Infraestructura Virtual

Proyecto Infraestructura Virtual 2011 Proyecto Infraestructura Virtual Integrates: RevolucionUnattended 01/01/2011 CONTENIDO ESCUELA POLITÉCNICA NACIONAL 1. INTRODUCCION 1.1. Propósito 1.2. Ámbito del Sistema 1.2.1 Descripción 1.2.2 Objetivos

Más detalles

CURSOS DE VERANO 2014

CURSOS DE VERANO 2014 CURSOS DE VERANO 2014 CLOUD COMPUTING: LA INFORMÁTICA COMO SERVICIO EN INTERNET LA PLATAFORMA GOOGLE CLOUD PLATFORM. GOOGLE APP ENGINE Pedro A. Castillo Valdivieso Universidad de Granada http://bit.ly/unia2014

Más detalles

Monitoreo de Nubes Privadas

Monitoreo de Nubes Privadas White Paper Monitoreo de Nubes Privadas Whitepaper Autores: Dirk Paessler, CEO de Paessler AG Dorte Winkler, Editor Técnico de Paessler AG Publicado: Mayo 2011 Ultima Actualización: Febrero 2012 Contenido

Más detalles

Oracle Database 10g: Taller de Administración I 1-2

Oracle Database 10g: Taller de Administración I 1-2 Oracle Database 10g: Taller de Administración I 1-2 Estructuras lógicas y físicas de la BD Bloque dedatosoracle:eselnivellógico másfinodegranularidad,dondesealmacenanlosdatosdelabd. Un bloquededatosse

Más detalles

RAID nivel 5 (RAID 5): En RAID 5 los bloques de datos que se almacenan en la unidad, y la información redundante de dichos bloques se distribuye cíclicamente entre todos los discos que forman el volumen

Más detalles

T2. Áreas funcionales de la gestión de red. Gestión de Redes de Comunicaciones 2002/03

T2. Áreas funcionales de la gestión de red. Gestión de Redes de Comunicaciones 2002/03 T2. Áreas funcionales de la gestión de red Gestión de Redes de Comunicaciones 2002/03 GdR Áreas funcionales de la gestión de red Configuración (Configuration) Fallos (Fault) Prestaciones (Performance)

Más detalles

Replicación de datos en PVFS2 para conseguir tolerancia a fallos

Replicación de datos en PVFS2 para conseguir tolerancia a fallos Replicación de datos en PVFS2 para conseguir tolerancia a fallos Erik Nieto Tovar 1, Raúl Hernández Palacios 1, Hugo E. Camacho Cruz 1, Antonio F. Díaz García 1, Mancia Anguita López 1, Julio Ortega Lopera

Más detalles

Backup Online Semana de la Seguridad y la Prevención CTCR Jornada 11 de Abril 2013

Backup Online Semana de la Seguridad y la Prevención CTCR Jornada 11 de Abril 2013 Backup Online Semana de la Seguridad y la Prevención CTCR Jornada 11 de Abril 2013 Qué es? Backup Online es un servicio de copia remota de datos, vía Internet, con máximas garantías de seguridad y confidencialidad.

Más detalles

CAPITULO 1. Introducción a los Conceptos Generales de Bases de Datos Distribuidas

CAPITULO 1. Introducción a los Conceptos Generales de Bases de Datos Distribuidas CAPITULO 1 Introducción a los Conceptos Generales de 1.1 Preliminares Las empresas necesitan almacenar información. La información puede ser de todo tipo. Cada elemento informativo es lo que se conoce

Más detalles

PostgreSQL, Oracle, MySQL y otros. Sahyra Yépez

PostgreSQL, Oracle, MySQL y otros. Sahyra Yépez PostgreSQL, Oracle, MySQL y otros Sahyra Yépez Caracas, agosto 2011 Introducción Transacciones Clasificación de los fallos Tipos de almacenamiento Técnicas de Recuperación ante fallos Técnicas basadas

Más detalles

Redes de comunicación

Redes de comunicación Redes de comunicación Conmutación de circuitos Conmutación de paquetes Dpt. Arquitectura de Computadores 1 Redes conmutadas Conmutación (nodos) de los datos que se reciben de una estación emisora hasta

Más detalles

Sistemes d'emmagatzemament avançats: RAID, SAN i NAS

Sistemes d'emmagatzemament avançats: RAID, SAN i NAS Índice de contenido Sistemes d'emmagatzemament avançats: RAID, SAN i NAS Sistemes d'emmagatzemament avançats: RAID, SAN i NAS...1 Licencia...1 Introducción al almacenamiento...1 JBOD: Just a Bunch Of Disks...1

Más detalles

Apuntes Recuperación ante Fallas - Logging

Apuntes Recuperación ante Fallas - Logging Lic. Fernando Asteasuain -Bases de Datos 2008 - Dpto. Computación -FCEyN-UBA 1 Apuntes Recuperación ante Fallas - Logging Nota: El siguiente apunte constituye sólo un apoyo para las clases prácticas del

Más detalles

Monitoreo de Nubes Privadas

Monitoreo de Nubes Privadas Monitoreo de Nubes Privadas Whitepaper Autores: Dirk Paessler, CEO de Paessler AG Gerald Schoch, Editor Técnico de Paessler AG Publicado: Mayo 2011 Ultima Actualización: Febrero 2015 PÁGINA 1 DE 7 Contenido

Más detalles

Técnicas empleadas. además de los discos las controladoras.

Técnicas empleadas. además de los discos las controladoras. RAID Introducción En los últimos años, la mejora en la tecnología de semiconductores ha significado un gran incremento en la velocidad de los procesadores y las memorias principales que, a su vez, exigen

Más detalles

CUALIFICACIÓN OPERACIÓN DE REDES DEPARTAMENTALES PROFESIONAL. Nivel 2. Versión 6. Actualización

CUALIFICACIÓN OPERACIÓN DE REDES DEPARTAMENTALES PROFESIONAL. Nivel 2. Versión 6. Actualización Página 1 de 17 CUALIFICACIÓN OPERACIÓN DE REDES DEPARTAMENTALES PROFESIONAL Familia Profesional Informática y Comunicaciones Nivel 2 Código IFC299_2 Versión 6 Situación Contraste externo Actualización

Más detalles