TITULO ID PREGUNTA RESPUESTA Procedimiento Incidentes Masivos KBA00003605 Cómo se establece el procedimiento para el manejo de incidentes masivos y elaboración de reportes de falla por degradación de los servicios en la infraestructura? Este artículo aplica para todos los incidentes masivos de los servicios de la Dirección de Información Tecnológica, presentados en el ICBF. 1. GENERALIDADES La gestión de incidentes masivos se considera una labor de carácter prioritario debido al impacto que genera a un grupo de usuarios y a la urgencia dada por el cliente para lograr la restauración del servicio. Un incidente masivo para el ICBF se define cuando hay una afectación de 5 o más usuarios reportando la misma falla sobre un servicio. Un incidente masivo puede ser identificado por: El grupo del NOC El grupo de especialistas El grupo MIS El cliente (ICBF) Un tercero 2. PROCEDIMIENTOS INCIDENTES MASIVOS Detección o Identificación Un incidente masivo se identifica cuando hay una afectación de 5 o más usuarios reportando la misma falla sobre un servicio. Al identificar un incidente masivo, se debe informar al gestor de incidentes de la UT para que éste realice la verificación, análisis de la prioridad del caso conforme a la matriz de prioridades para así realizar el tratamiento debido del caso. Registro y Categorización Al registrar y clasificar el incidente masivo sobre la herramienta de gestión (BMC Remedy) se realiza la documentación y categorización según el servicio que esté afectado. Registro
Sobre el módulo de Gestión de Incidentes ingresamos para crear un nuevo incidente, documentamos detalladamente en las notas la falla reportada: Determinación de la Prioridad Para la determinación de la prioridad se maneja la matriz de prioridades conforme al documento IP-ID-CO-ICBFOI-241-IM_Matriz_Prioridades en cual se clasifica la prioridad que identifica a un Incidente masivo, la cual para la organización es: Alta y Critica Categorización Las categorizaciones sobre la herramienta de Gestion se basan en el diagnóstico del agente que lo recibe y a la vez clasifica el incidente conforme al análisis de primer nivel. Este a su vez puede ser re categorizado por el usuario asignado para solucionar el incidente quien en un escalamiento de segundo nivel identifica plenamente la raíz de la Incidencia. Escalamiento del incidente masivo MIS o el grupo NOC, escalan el incidente masivo al grupo resolutor del servicio. Investigación y Diagnostico El grupo resolutor al recibir el Incidente Masivo entra a investigar y a diagnosticar la causa de la falla e inicia validando el estado del servicio que administra. Si la revisión de la afectación necesita la participación de varios grupos resolutores estos son participes de las actividades a realizar para la restauración del servicio. Elevación de un Incidente a Problema
Cuando la Incidencia no tiene una solución temporal o se desconoce la causa raíz Se eleva el proceso desde la plantilla de Incidencias con la mayor información posible al Gestor de Problemas vía correo electrónico se notifica incluyendo al grupo de interesados sobre la restauración del servicio. Cierre Incidentes Masivos El Incidente masivo se resuelve solo con la recuperación de operatividad del servicio afectado, esto contrastado a través del informe generado por parte del Especialista o grupo resolutor asignado quien determina su correcto funcionamiento. 3. RESPONSABILIDADES - Responsabilidades Mesa Informatica de Soluciones (MIS) En el momento que el gestor de incidentes autoriza la generación del incidente masivo, se debe generar el registro sobre la herramienta de gestión este llamado Padre. Divulgará al interior de la mesa de servicios el número del incidente creado y lo relacionara con los reportes que evidencien la misma afectación del servicio. Debe escalar el incidente masivo al grupo resolutor. Los Incidentes con los mismos síntomas llamados Hijos reportados deberán ser relacionado con el tipo de relación: Duplicado De y escalarlo sobre la herramienta de gestión al GRUPO ITIL / INCIDENTES / por los volúmenes de registros de este tipo de incidentes se asignan al Gestor de Incidentes directamente. Enviar los informes a Gestion de Conocimiento para que contribuya en la alimentación sobre la base de conocimientos Responsabilidades del NOC Debe generar el registro sobre la herramienta de Gestion documentarlo, categorizarlo y escalarlo al grupo resolutor. Divulgara al Gestor de Incidentes de la UT y a MIS vía telefónica y por correo electrónico el número del Incidente masivo. Informará vía telefónica y correo electrónico al responsable del servicio afectado dando las primeras alarmas de la afectación del servicio. Responsabilidades Gestor de Incidentes Generar la plantilla de notificación de Incidente Masivo (Ver anexo Notificaciones) Divulgando la información del servicio afectado a los interesados del servicio y a los diferentes grupos de soporte o áreas afectadas.
Publicar sobre la herramienta de Gestion el banner informativo de la afectación que se presenta y los avances en la solución del caso. Informar al Gestor de Incidentes de ICBF por vía telefónica y correo electrónico sobre la afectación que se presenta. Realizar notificaciones constantemente llevando control sobre la afectación de umbrales en ANS. Estará informando constantemente los avances de la solución del incidente masivo. Solicitará la elevación del Incidente Masivo a Problema cuando la afectación de un servicio no ha tenido solución o ha sido recurrente. Publicar el informe del incidente masivo en el repositorio donde se aloja la información de los incidentes masivos. Enviar los informes a Gestion de conocimiento para que queden publicados y registrados los antecedentes de falla y soluciones ejecutadas. Realizar el respectivo direccionamiento si en alguna parte del ciclo de vida del Incidente se determina que es un Incidente de seguridad y realizarlo conforme al procedimiento de Incidentes de seguridad. Responsabilidades del Grupo Resolutor Centrar sus actividades para la pronta normalización del servicio afectado. Realizar el informe detallado de las circunstancias que llevaron a la afectación del servicio y las medidas tomadas para su restauración. Anexar la plantilla de notificación de cierre del Incidente al Informe a entregar. Enviar el informe a los líderes involucrados en los servicios de operación y gestores de incidentes tanto de ICBF como de UT. Si la causa del error es desconocida y esto afecta su solución se debe elevar la falla problema a través de la gestión de problemas. Si en el ciclo de vida del incidente se detecta que es un Incidente de seguridad debe notificar la gestor de Incidentes de la UT para dar el tratamiento según al procedimiento de Incidentes de seguridad. PPC-ID-CO-ICBFOI-243-Procedimi_gest_inc 4. Notificaciones Plantilla correo electrónico
NOTAS TECNICAS DEFINICIONES Acuerdo de Niveles de Servicio (ANS): Documento en el cual se establecen en términos, medibles y cuantificables, todas las condiciones para la prestación de los servicios, responsabilidades de las partes, ofrecimiento estándar del servicio, variables que miden la gestión, indicadores de servicio, estándares de rendimiento y tipos de reportes. Catálogo de Servicio Una base de datos o un documento estructurado con información sobre todos los Servicios de TI en vivo, incluyendo aquellos que están disponibles para la Implementación. El catálogo de servicios es solamente una parte del Portafolio de Servicios que se publica para los Clientes, y se usa con el fin de dar apoyo a la prestación de los Servicios de TI. El catálogo de servicios cuenta con información sobre los Servicios a prestar, la criticidad de los mismos, los puntos de contacto y la solicitud de Procesos. Incidente Cualquier evento o degradación de un elemento de la infraestructura tecnología que causa o puede causar una interrupción o una reducción a la calidad del servicio. Incidente normal Es todo incidente de TI presentado, cuyo impacto es menor para la operación de servicio de la organización. Generalmente obedece a incidentes que afectan a un número reducido de usuarios o sobre servicios que no son de criticidad para la organización. Incidente de seguridad
Un incidente de seguridad de la información es la violación o amenaza inminente a una política de seguridad de la información implícita o explícita. Un incidente de seguridad compromete la seguridad de un sistema (confidencialidad, integridad y disponibilidad). Plataforma Tecnológica Expresión que abarca, en forma enunciativa y no taxativa: cableado, líneas telefónicas, equipos de comunicaciones, redes, equipos de cómputo, periféricos, servidores de red de área local, servidores de aplicaciones, paquetes, programas y productos. Ítem de Configuración (CI) Componente o elemento de configuración que incluye la información de Servicios de tecnología y Activos de Hardware o Software. Prioridad La prioridad se basa en el impacto y urgencia, y se utiliza para identificar el tiempo necesario para ejecutar las acciones que deban tomarse en un Incidente, Problema o Cambio. Problema Un problema es la causa subyacente, aún no identificada, de una serie de incidentes o un incidente aislado de importancia significativa. BMC Remedy Herramienta para gestión y registro de incidentes, requerimientos, problemas cambios y generación de conocimiento. Tecnología Información y Comunicaciones (TIC) Componente o elemento de configuraciones que incluye la información de Servicios de tecnología y Activos de Hardware o Software. Tiempo de Respuesta Es el tiempo máximo para recibir la asignación de la falla y/o solicitud del usuario y realizar el primer contacto con el usuario. Tiempo de Solución Es el tiempo en el cual se entrega una solución al usuario y/o se le mantiene informado sobre el estado en la solución de su servicio.
Urgencia Medida que indica cuánto tiempo pasará hasta que un incidente tiene un impacto significativo en el negocio. Refleja la criticidad de la falla. Indica el tiempo que se tiene según el acuerdo de servicio para resolver la falla. Workaround Soluciones temporales que permitan minimizar el impacto de los incidentes asociados mediante el registro de los errores conocidos. Incidente Masivo Es un incidente de impacto alto para la prestación del servicio, afectando la prestación del servicio en un grupo de usuarios considerados como masivos. Incidente Hijo Es un incidente que se crea con la misma sintomatología del incidente masivo SIGLAS ANS Acuerdo de Niveles de Servicio MTBF Tiempo Medio entre Fallos MTBSI Tiempo Medio entre Incidencias del Servicio MTTR Tiempo Medio de Reparación. NSO Nivel de Servicio Objetivo CI Configuration Ítem TIC Tecnologías de Información y Comunicaciones ACR Análisis de Causa Raíz