SISTEMA DE MONITOREO DE DATACENTERS DIEGO ALBERTO RINCÓN YÁÑEZ JULIAN MAURICIO ANGEL ÁLVARO SEBASTIÁN MIRANDA FORERO PONTIFICIA UNIVERSIDAD JAVERIANA MAESTRÍA EN INGENIERÍA DE SISTEMAS Y COMPUTACIÓN SISTEMAS MULTIAGENTES BOGOTA, 2010
CONTENIDO 1. Motivación. 2. Contextualización del Problema. a. Visión General. b. Restricciones. c. Alcances. d. Figura Ilustrativa. 3. Análisis Nivel Sistema. 4. Análisis del Entorno. 5. Bibliografía.
1. Motivación y Contextualización del Problema Día a día las empresas tienen la necesidad de poder tener toda la información disponible para cada uno de sus usuarios. Para este fin utilizan uno o varios servidores en donde almacenan la información de la compañía. Sin embargo, estos servidores pueden sufrir diferentes tipos de fallas, desde catastróficas hasta sencillas, pero de las cuales se debe saber y tomar las acciones correspondientes. 2. Descripción de la Aplicación Empresarial Distribuida a) Visión General Se plantea desarrollar un sistema multi-agente que este distribuido en los diferentes servidores a lo largo de un DATACENTER, en donde uno o varios agentes serán responsables de revisar el estado de un servidor, como: espacio de disco disponible, memoria usada, puertos abiertos, entre otros. Con base del estado del servidor los agentes deben tomar las acciones correspondientes para que los servidores sigan funcionando después de la existencia de una falla. Las acciones que pueden tomar los agentes están limitadas por las restricciones que cada servidor posee como los recursos físicos de todos los servidores. b) Restricciones y Alcances La solución será implementada en servidores Unix con sistemas RHEL.. Los agentes se comunicaran por medio de conexión segura usando protocolo SSH.
Los equipos que se monitorean en el sistema deben tener un contenedor BESA corriendo en background para que los agentes que llegan a la maquina puedan vivir. Se debe tener acceso a la cuenta de root en las maquinas monitoreadas con el fin de que el manejador y el agente monitoreador tenga la capacidad de ejecutar y correr procesos en los equipos. El agente manejador deberá tener una lista de los equipos que monitoreara, mapeados en un archivo de texto cargado previamente. Cuando alguna variable del equipo monitoreado presenta algo que no corresponde este podrá tomar una (1) acción para corregirla. Si un parámetro es solucionado correctamente este lo devolverá a el manejador que lo almacenara en una bitácora de errores corregidos. Cada vez que un equipo presenta una anomalía irreparable el manejador lanzara un mensaje de error y lo almacenada en una cola de alertas, para que un administrador pueda atenderlo. Durante el monitoreo de los equipos se generara un log con la evidencia de conexiones y eventos del sistema c) Figura Ilustrativa
3. Análisis Nivel Sistema Debido a que se necesita tener control y estar constantemente monitoreando gran cantidad de equipos con servicios diferentes dentro de una organización como por ejemplo: Manejadores de bases de datos Servidores de Aplicaciones Web Services Se necesita crear un sistema distribuido que pueda ser parametrizable y altamente escalable, para esto se utilizara la plataforma BESA. Existen soluciones que sirven para monitoreo de servidores como por ejemplo SNMP y MIB, pero el anterior tiene una limitante debido a que este protocolo es orientado a dispositivos. Con el sistema multi agente se pretende que el agente tenga contacto con el bash de la máquina para que pueda ejecutar comandos libremente y tener acceso a todos los servicios que provee la maquina. La ventaja que provee un SMA en este problema es que los agentes que viajaran por la red y se ejecutaran en las maquinas no vivirán en estas, sino que simplemente ejecutan su acción y devuelve el mensaje a el agente manejador, asegurando que no se ejecuta constantemente carga extra en la maquina. 4. Bibliografía Stuart J. Rusell., Norvig Peter.: Inteligencia Artificial Un Enfoque Moderno. Madrid. (2004). Gerhard Weiss.: Multiagent Systems - A Modern Approach to Distributed Modern Approach to Artificial Intelligence, Massachusetts Institute of Technology (1999).