Este documento espera reflejar todo el trabajo realizado en este tiempo y servir de guía y explicación de la aplicación realizada.



Documentos relacionados
UNIVERSIDAD DE SALAMANCA

Firewall Firestarter. Establece perímetros confiables.

WINDOWS : TERMINAL SERVER

ANÁLISIS DE DATOS NO NUMERICOS

COMO CONFIGURAR UNA MAQUINA VIRTUAL EN VIRTUALBOX PARA ELASTIX

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

Guía de uso del Cloud Datacenter de acens

AGREGAR UN EQUIPO A UNA RED Y COMPARTIR ARCHIVOS CON WINDOWS 7

Internet aula abierta

Departamento CERES Área de Tarjetas Inteligentes Manual de Usuario

App para realizar consultas al Sistema de Información Estadística de Castilla y León

Covarianza y coeficiente de correlación

Sitios remotos. Configurar un Sitio Remoto

Redes de área local: Aplicaciones y servicios WINDOWS

Análisis de aplicación: Cortafuegos de la distribución Zentyal

Práctica del paso de generación de Leads

UAM MANUAL DE EMPRESA. Universidad Autónoma de Madrid

Capítulo 5: Pruebas y evaluación del sistema. A continuación se muestran una serie de pruebas propuestas para evaluar varias

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007

Indicaciones específicas para los análisis estadísticos.

Guía de Instalación para clientes de WebAdmin

Tecnologías De La Información Y Comunicación I. Firewall Y Proxy. Integrantes: Héctor Duran. Katherine Zumelzu

Base de datos en Excel

MANUAL DE AYUDA TAREA PROGRAMADA COPIAS DE SEGURIDAD

Internet Information Server

Administración Local Soluciones

REDES DE ÁREA LOCAL. APLICACIONES Y SERVICIOS EN WINDOWS

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Redes de área local: Aplicaciones y servicios WINDOWS

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

Manual CMS Mobincube

INSTALACIÓ N A3ERP. Informática para empresas INTRODUCCIÓN CONSIDERACIONES GENERALES DE LA INSTALACIÓN PAQUETES DE INSTALACIÓN PREDEFINIDOS

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

Acronis License Server. Guía del usuario

Escudo Movistar Guía Rápida de Instalación Dispositivos Symbian

Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología

Programa de Ayuda EMCS Instalación Versión SQL Server Versión Marzo 2010

Tema 2. Espacios Vectoriales Introducción

TABLA DE DECISION. Consideremos la siguiente tabla, expresada en forma genérica, como ejemplo y establezcamos la manera en que debe leerse.

Manual SBR. Pero antes de explicar las actividades que principalmente podemos desarrollar vamos a dar una visión global de la aplicación.

Redes Locales: El protocolo TCP/IP

Análisis de aplicación: Cortafuegos de la distribución clearos

SERVIDOR WEB PARA ACCESO EN TIEMPO REAL A INFORMACIÓN METEOROLÓGICA DISTRIBUIDA

GUIA APLICACIÓN DE SOLICITUDES POR INTERNET. Gestión de Cursos, Certificados de Aptitud Profesional y Tarjetas de Cualificación de Conductores ÍNDICE

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

Instalar protocolo, cliente o servicio nuevo. Seleccionar ubicación de red. Práctica - Compartir y conectar una carpeta

MANUAL DE USUARIO APLICACIÓN SYSACTIVOS

Ecuaciones de primer grado con dos incógnitas

ESTIMACIÓN. puntual y por intervalo

Resumen ÁREA DE FACTURACIÓN::INFORMES::Pedidos Detalle Resumen ÁREA DE

TPVFÁCIL. Caja Real. Definiciones.

CONFIGURACIÓN TERMINAL SERVER EN WINDOWS 2003

Matrices equivalentes. El método de Gauss

Seguridad en Administración de Redes. INTEGRANTES: Santa Elena Rodríguez Calzada María de los Ángeles Ramírez Ortiz Liliana Gpe. Olivares Valdovinos.

Software Criptográfico FNMT-RCM

Dispositivos de Red Hub Switch

Pasamos ahora a definir brevemente cual es el método de conexión más habitual usando un entorno gráfico.

Tema 12: Contrastes Paramétricos

Aproximación local. Plano tangente. Derivadas parciales.

QUÉ ES UN SERVIDOR Y CUÁLES SON LOS PRINCIPALES TIPOS DE SERVIDORES? (PROXY, DNS, WEB, FTP, SMTP, ETC.) (DV00408A)

CASO PRÁCTICO. ANÁLISIS DE DATOS EN TABLAS DINÁMICAS

MANUAL DE AYUDA. SAT Móvil (Movilidad del Servicio Técnico)

Notas para la instalación de un lector de tarjetas inteligentes.

AGREGAR COMPONENTES ADICIONALES DE WINDOWS

5.4. Manual de usuario

Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente

1.1. Introducción y conceptos básicos

ÍNDICE DISEÑO DE CONTADORES SÍNCRONOS JESÚS PIZARRO PELÁEZ

INSTALACIÓN A3ERP INTRODUCCIÓN CONSIDERACIONES GENERALES DE LA INSTALACIÓN PAQUETES DE INSTALACIÓN PREDEFINIDOS

GESTIÓN DOCUMENTAL PARA EL SISTEMA DE CALIDAD

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

ICARO MANUAL DE LA EMPRESA


Capítulo VI. Diagramas de Entidad Relación

Plataforma e-ducativa Aragonesa. Manual de Administración. Bitácora

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE

La ventana de Microsoft Excel

Gracias a ese IP único que tiene cada ordenador conectado a la red de internet se pueden identificar y comunicar los ordenadores.

CAPITULO 4. Requerimientos, Análisis y Diseño. El presente capítulo explica los pasos que se realizaron antes de implementar

Qué son y cómo combatirlas

Con esta nueva versión, si un artículo que está incluido dentro de un Paquete de Ventas tiene precio 0,00, significará gratis.

Datos del autor. Nombres y apellido: Germán Andrés Paz. Lugar de nacimiento: Rosario (Código Postal 2000), Santa Fe, Argentina

Ministerio de Educación, Cultura y Deporte. Joomla! La web en entornos educativos. Guía del alumnado

Creado dentro de la línea de sistemas operativos producida por Microsoft Corporation.

15 CORREO WEB CORREO WEB

Prototipo de un sistema. interactivo de soporte y ayuda a los compradores de un centro. comercial de equipamiento del hogar

Guía Rápida de Inicio

Reporte inicial. Metodología

Análisis de aplicación: Virtual Machine Manager

Eduardo Kido 26-Mayo-2004 ANÁLISIS DE DATOS

Ministerio de Educación,Cultura y Deporte. Aulas en Red.Aplicaciones y servicios Windows. Módulo 3: Gestión de equipos.

Internet aula abierta

CAPITULO I El Problema

MANUAL COPIAS DE SEGURIDAD

Los mayores cambios se dieron en las décadas de los setenta, atribuidos principalmente a dos causas:

5.2.- Configuración de un Servidor DHCP en Windows 2003 Server

MACROS. Automatizar tareas a través del uso de las macros.

Módulo 7: Los activos de Seguridad de la Información

Transcripción:

. INTRODUCCIÓN Este documento espera reflejar todo el trabajo realizado en este tiempo y servir de guía y explicación de la aplicación realizada. Inicialmente este proyecto forma parte del proyecto global llamado Diadem Firewall [] el cual es fruto de la colaboración de diferentes universidades como Tübingen Univerversität donde surgió la idea de este proyecto durante mi estancia de intercambio allí, y de diferentes multinacionales como France Telecom entre otras muchas. El objetivo global del proyecto Diadem Firewall es el diseño de un potente firewall de red capaz de detectar los posibles ataques que sufra la red adaptándose a la naturaleza y a los cambios de la misma. Para lograr dicho objetivo es indispensable un fuerte análisis del tráfico que curse, que es donde principalmente se desarrolla este trabajo: aplicar algoritmos estadísticos no paramétricos para poder determinar si el comportamiento de la red es el normal o si por el contrario dicha red está sufriendo un ataque. Para tal fin, en este proyecto se han realizado una serie de módulos de detección de ataques, cada uno emulando a un análisis estadístico no paramétrico, capaces de adaptarse a la evolución que pueda tener la red y cada uno de ellos independiente de los resultados del otro, para dotar así de una mayor fiabilidad al firewall. El desarrollo de este documento queda estructurado de la siguiente forma:. En primera instancia intentaremos aclarar conceptos básicos para la comprensión del mismo Página de 4

. Posteriormente intentaremos aclarar la situación de este trabajo dentro del entorno global de desarrollo del proyecto Diadem Firewall. Intentaremos dar una visión general del mismo y explicar de una manera más concreta la función de los módulos de detección de ataques implementados en este trabajo. 3. A continuación intentaremos explicar la diferencia entre estadística paramétrica y la no paramétrica [] y las razones que nos ha llevado a decidir que el uso de la estadística no paramétrica es más adecuado para la implementación de los módulos de detección. 4. Citaremos después los teoremas estadísticos implementados, como son los test de chi-cuadrado [3], el test de Wilcoxon [4] y el test de Kolmogorov-Smirnov [5] 5. Continuaremos explicando cómo se desarrolló la aplicación que engloba a los tres módulos, las herramientas utilizadas para la implementación de la misma, el esquema de navegación por la herramienta, etc. 6. Pasaremos a explicar a continuación la lógica de implementación de cada uno de los módulos, con las funciones principales en las que se descompone cada uno y un diagrama de flujo de funcionamiento de cada módulo. 7. El siguiente punto tratará de recopilar los resultados de las pruebas realizadas a cada uno de los módulos para posteriormente evaluar estos resultados. Página de 4 8. Tras estas pruebas, se expondrán una serie de conclusiones que se desprenden de la ejecución de los módulos.

9. Para finalizar se expondrán una serie de ideas que darían pie a un trabajo futuro como complemento a este trabajo. Sin más preámbulos, comenzaremos citando unos cuantos conceptos básicos que se consideran fundamentales para entender el desarrollo del trabajo posterior. Página 3 de 4

. CONCEPTOS GENERALES. FIREWALL Un corta fuegos (o firewall en inglés), es un elemento de hardware o software utilizado en una red de computadoras para controlar las comunicaciones, permitiéndolas o prohibiéndolas según las políticas de red que haya definido la organización responsable de la red. Su modo de funcionar es indicado por la recomendación RFC 979, que define las características de comportamiento y requerimientos de interoperabilidad. La ubicación habitual de un cortafuegos es el punto de conexión de la red interna de la organización con la red exterior, que normalmente es Internet; de este modo se protege la red interna de intentos de acceso no autorizados desde Internet, que puedan aprovechar vulnerabilidades de los sistemas de la red interna. También es frecuente conectar al corta fuegos una tercera red, llamada zona desmilitarizada o DMZ, en la que se ubican los servidores de la organización que deben permanecer accesibles desde la red exterior. Un corta fuegos correctamente configurado añade protección a una instalación informática, pero en ningún caso debe considerarse como suficiente. La Seguridad informática abarca más ámbitos y más niveles de trabajo y protección. Se pueden distinguir varios tipos de firewalls, como los siguientes: Página 4 de 4

.. Cortafuegos de capa de red o de filtrado de paquetes Funciona a nivel de red (nivel 3) de la pila de protocolos (TCP/IP) como filtro de paquetes IP. A este nivel se pueden realizar filtros según los distintos campos de los paquetes IP: dirección IP origen, dirección IP destino. A menudo en este tipo de cortafuegos se permiten filtrados según campos de nivel de transporte (nivel 4) como el puerto origen y destino, o a nivel de enlace de datos (nivel ) como la dirección MAC... Cortafuegos de capa de aplicación Trabaja en el nivel de aplicación (nivel 7) de manera que los filtrados se pueden adaptar a características propias de los protocolos de este nivel. Por ejemplo, si se trata de tráfico HTTP se pueden realizar filtrados según la URL a la que se está intentando acceder. Un corta fuegos a nivel 7 de tráfico HTTP es normalmente denominado Proxy y permite que los computadores de una organización entren a Internet de una forma controlada...3 Cortafuegos personal Es un caso particular de cortafuegos que se instala como software en un computador, filtrando las comunicaciones entre dicho computador y el resto de la red y viceversa. Página 5 de 4

. TIPOS DE ATAQUES A UNA RED Los diferentes ataques que se pueden sufrir en una red de computadores pueden ser clasificados según estos tipos:.. Ataques de intromisión: Este tipo de ataque es cuando alguien abre archivos, uno tras otro, en nuestra computadora hasta encontrar algo que le sea de su interés. Puede ser alguien externo que acceda a la máquina remotamente, o alguien que tenga acceso a la máquina localmente... Ataque de espionaje en líneas: Se da cuando alguien escucha la conversación y en la cual, él no es un invitado. Este tipo de ataque, es muy común en las redes inalámbricas y no se requiere, como ya lo sabemos, de un dispositivo físico conectado a algún cable que entre o salga del edificio. Basta con estar en un rango donde la señal de la red inalámbrica llegue, a bordo de un automóvil o en un edificio cercano, para que alguien esté espiando nuestro flujo de información...3 Ataque de intercepción: Este tipo de ataque se dedica a desviar la información a otro punto que no sea la del destinatario, y así poder revisar archivos, información y contenidos de cualquier flujo en una red...4 Ataque de modificación: Este tipo de ataque se dedica a alterar la información que se encuentra, de alguna forma ya validada, en computadoras y bases de datos. Es muy común este tipo de ataque en bancos y casas de bolsa. Principalmente los intrusos se dedican a cambiar, insertar, o eliminar información y/o archivos, utilizando la vulnerabilidad del los sistemas operativos y sistemas de seguridad (atributos, claves de accesos, etc.). Página 6 de 4

..5 Ataque de denegación de servicio: Son ataques que se dedican a negarles el uso de los recursos a los usuarios legítimos del sistema, de la información o inclusive de algunas capacidades del sistema. Cuando se trata de la información, esta, se es escondida, destruida o ilegible. Respecto a las aplicaciones, no se pueden usar los sistemas que llevan el control de la empresa, deteniendo su administración o inclusive su producción, causando demoras y posiblemente pérdidas millonarias. Cuando es a los sistemas, los dos descritos anteriormente son inutilizados. Si hablamos de comunicaciones, se puede inutilizar dispositivos de comunicación (tan sencillo como cortar un simple cable), como saturar e inundar con tráfico excesivo las redes para que estas colisionen...6 Ataque de suplantación: Este tipo de ataque se dedica a dar información falsa, a negar una transacción y/o a hacerse pasar por un usuario conocido. Este tipo de ataque está de actualidad; los "nuevos ladrones" han hecho portales similares a los bancarios, donde las personas han descargado sus datos de tarjetas de crédito sin encontrar respuesta; posteriormente sus tarjetas de crédito son vaciadas. Los métodos más avanzados son: Rastreo de redes conmutadas (transmisión de paquetes entre nodos o redes); métodos de falseamiento y enmascaramientos de IP ; códigos malintencionados y virus. Página 7 de 4

.3 TIPOS DE RESULTADOS ANTE ATAQUES DE RED Al analizar los resultados de la ejecución de un firewall o antivirus, estos mismos se pueden clasificar de diversos modos según si el firewall ha lanzado alarma o no, y en función de si esta alarma es o no es cierta; así tenemos:.3. FALSO POSITIVO: definimos como falso positivo las alarmas que el sistema de monitorización, en nuestro caso, lance al nivel superior, y sin embargo, estas alarmas sean falsas ya que no se está sufriendo ningún ataque de red..3. FALSO NEGATIVO: Un falso negativo se produce cuando el sistema no reporta ninguna alarma y sin embargo si se está sufriendo un ataque de red..3.3 VERDADERO POSITIVO; Un verdadero positivo se produce cuando el sistema reporta alarma de ataque de red y realmente se está sufriendo dicho ataque..3.4 VERDADERO NEGATIVO: Se llama verdadero negativo a la cantidad de datos que el sistema clasifica como libres de ataques y realmente lo son. Página 8 de 4

3. DIADEM FIREWALL Una vez conocido el concepto de firewall y los diferentes tipos que podemos encontrar, podemos hacer una descripción más amplia de Diadem firewall. Como hemos descrito anteriormente se trata de un cortafuegos inteligente, capaz de adaptarse a la red en la que trabaja, detectar posibles ataques y tomar medidas para actuar frente a ellos. Dentro de la arquitectura general del proyecto de investigación Diadem Firewall, este trabajo pretende centrase en el nivel de monitorización del mismo, donde, en base a la información que le suministra su nivel inferior, sea capaz de analizar dicha información y detectar posibles ataques que estén aconteciendo en la red monitorizada. Pretende desarrollar un nuevo mecanismo de seguridad para redes de servicios distribuidos, donde, a diferencia del resto de firewalls tal y como los comprendemos actualmente, sea capaz de controlar el tráfico a tiempo real de todo el sector de red que se le asigne, no centrándose en ninguna posición física determinada, sino, implantándose en un nivel lógico paralelo a la red, donde pueda analizar el tráfico cursado en tiempo real en diferentes puntos de la misma. Diadem Firewall podría encajar, según la clasificación de los firewall expuesta anteriormente, dentro del tipo: Cortafuegos de capa de red o filtrado de paquetes, ya que, a efectos prácticos, recibe información del volumen de paquetes cursados por la red en diferentes puntos e intenta detectar posibles ataques a la misma. Página 9 de 4

La arquitectura general de Diadem Firewall la podemos resumir en un diagrama de bloques como el siguiente: Página de 4 Procedemos a desglosar cada uno de estos niveles y enumerar sus funciones. 3. NIVEL DE DATOS El nivel inferior, nivel de datos, vemos que está formado por lo que concebimos como una red de conmutación de paquetes de datos. Dentro de esta red, definiremos una serie de puntos de observación de red, los cuales, además de cumplir con sus funciones dentro de la red de datos, los dotaremos de una función más, que será la de reportar periódicamente al nivel superior, el volumen de tráfico cursado por dicho punto de observación. 3. NIVEL DE ELEMENTO Con estos datos reportados al nivel superior, el nivel de, y más concretamente, el elemento de monitorización recoge estos paquetes de información de volumen de tráfico y los analiza, en base a unos test estadísticos, para determinar si el comportamiento

de la red está siendo anómalo o por el contrario, el tráfico cursado es el normal. 3.3 NIVEL DE DOMINO ADMINISTRATIVO Estos elementos de monitorización reportan a su vez a su nivel superior, el nivel de dominio administrativo, una serie de eventos, o alarmas de diferentes criticidades, en base al comportamiento de la red. El módulo encargado de recoger esta información es el Módulo de detección de Violaciones, el cual está encargado de discernir si realmente las alarmas reportadas por el módulo de monitorización son ciertas o no, es decir, si realmente está habiendo un ataque, o por el contrario, estas alarmas recibidas desde el módulo de monitorización son falsas y por tanto, se requiere ajustar los módulos de monitorización para que la detección sea más eficiente. Por tanto, podemos decir que entre los diferentes niveles de la arquitectura hay una comunicación bidireccional, una retroalimentación que hace que el sistema global sea capaz de adaptarse a las variaciones en el tráfico cursado por una red de datos como puede ser Internet, la cual no tiene un volumen de tráfico homogéneo, si no que sus picos varían en función de la franja horaria y en función de la naturaleza del tráfico que se curse, ya que no es lo mismo el tráfico FTP, el cual se caracteriza por un volumen homogéneo en el tiempo, que el tráfico HTTP, cuya naturaleza es a ráfagas, coincidiendo con las descargas de páginas Web. Dentro del marco global del Proyecto Diadem Firewall, como se puede observar, este trabajo pretende centrarse en el nivel de elemento, y más concretamente, lo que se pretende es realizar la implementación de una serie de módulos de monitorización que en base a los datos reportados por el nivel inferior, el nivel de datos, Página de 4

éste sea capaz de detectar los posibles ataques que la red esté sufriendo. Si focalizamos gráficamente la parte desarrollada será la siguiente: Módulo policía Reconfiguración de parámetros Módulo monitor Módulo monitor Módulo monitor Colector IPFIX Base de datos Página de 4 Dentro de este marco, este trabajo pretende centrarse en la implementación de los diferentes módulos de monitorización definidos; para ello, debe recibir la información del tráfico almacenada en la BBDD, procesarla y enviar los posibles ataques detectados al Módulo Policía, que será el encargado de decidir si realmente se está sufriendo un ataque, o por el contrario, se trata de una falsa alarma y actuar en consecuencia; bien mandando las órdenes correspondientes al control del sistema, o bien, reajustando los módulos de monitorización para optimizar sus resultados. Centrándonos pues en los módulos de monitorización, como hemos citado, estos módulos deben ser capaces de detectar las posibles variaciones del tráfico en la red monitorizada y distinguir si se está sufriendo un posible ataque. Para este cometido, se debe

estudiar muy bien la naturaleza del tráfico a examinar, ya que, como venimos advirtiendo, la naturaleza del tráfico de una red puede ser muy heterogénea, con tiempos de inutilización muy prolongados, y tiempos de saturación relativamente cortos. Nuestros módulos de monitorización, deben ser capaces de, además de adaptarse a los distintos tipos de tráfico, poder asumir cambios graduales en el tráfico de la red que analice; queremos referirnos a cambios graduales como pueden ser largos períodos de bajo tráfico (debido a diferentes causas posteriormente analizadas), así como períodos en los que la red tenga un alto porcentaje de utilización, (hechos también citados a continuación). Por todo ello, se pensó en hacer uso de la estadística no paramétrica para la implementación de estos módulos, al igual que también se pensó en dotarles de memoria para que ellos mismos sean capaces de auto ajustarse a las necesidades a corto/medio plazo de la red monitorizada. Se pensó en el uso de la estadística no paramétrica [] ya que esta ciencia da la posibilidad de estudiar muestras discretas y aleatorias sin necesidad de tener conocimiento previo acerca de las funciones de distribución [6] de las variables estudiadas. La estadística paramétrica necesita de una serie de requisitos para ser efectiva, es decir, para poder aplicarla debemos tener datos suficientes acerca de las variables estudiadas, como son su ecuación, su función de distribución, etc. La estadística no paramétrica es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su distribución no puede ser definida a priori, pues son los datos observados los que la determinan. Página 3 de 4

La utilización de estos métodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribución normal o cuando el nivel de medida empleada no sea, como mínimo, de intervalo. Por todas estas características de la estadística no paramétrica se decidió utilizar ésta para la implementación de los módulos. Página 4 de 4

4. MODELOS ESTADÍSTICOS NO PARAMÉTRICOS A continuación haremos referencia a los algoritmos estadísticos utilizados en el desarrollo de este proyecto. Las técnicas estadísticas de estimación de parámetros, intervalos de confianza y prueba de hipótesis son, en conjunto, denominadas estadística paramétrica y son aplicadas básicamente a variables continuas. Estas técnicas se basan en especificar una forma de distribución de la variable aleatoria y de los estadísticos derivados de los datos. En estadística paramétrica se asume que la población de la cual la muestra es extraída es normal [7] o aproximadamente normal. Esta propiedad es necesaria para que la prueba de hipótesis sea válida. Sin embargo, en un gran número de casos no se puede determinar la distribución original ni la distribución de los estadísticos por lo que en realidad no tenemos parámetros a estimar. Tenemos sólo distribuciones que comparar. Esto se llama estadística no paramétrica. Dada la naturaleza de una red de datos como puede ser Internet, hay opiniones que consideran que la estadística no paramétrica puede proporcionarnos unos métodos de análisis de tráfico bastante eficaces, ya que, si tratamos de modelar el comportamiento de la misma observamos que no responde a ningún patrón lineal, si no que se asemeja más a una distribución no homogénea donde las muestras tomadas en un determinado período no tienen porqué estar correladas con las tomadas instantes después. Página 5 de 4

Esto es debido a que si analizamos los factores que pueden intervenir en el volumen de tráfico cursado por una red, obtenemos lo siguiente: 4. Franja horaria de las tomas de las muestras En primera instancia cabe esperar que el tráfico en Internet refleje los hábitos humanos, siendo mucho mayor durante el día, cuando las personas desempeñan sus labores, que por la noche, cuando las personas duermen. Así pues, como podemos ver en las siguientes gráficas obtenidas de la página Web Internet World Statistics [8], donde se pueden consultar estadísticas de la red de redes a nivel mundial, el volumen de tráfico en la red de redes aumenta considerablemente en los períodos considerados laborables (de lunes a viernes de 7: a :) y sufriendo un considerable descenso durante la noche y fines de semana. Como vemos, en la gráfica anterior se muestra el ancho de banda consumido en Europa en las últimas 4 horas. En la siguiente gráfica también podremos observar cómo la densidad del tráfico en Internet varía según el día de la semana, reflejando como advertimos, lo hábitos humanos. Página 6 de 4

Si ahora tomamos como referencia el ancho de banda consumido mundialmente en 4 horas, vemos que la el tráfico se mantiene más constante (los picos se suavizan), debido a las diferencias horarias entre los distintos países de muestra. Si ahora nos centramos en la gráfica que nos muestra el tráfico mundial de Internet en los últimos 7 días, observamos variaciones tanto en los máximos (color rosa) como en la media (color púrpura) entre los días laborables y los no laborables. En este caso ha analizar vemos como el día 6 de mayo del 7 (domingo), hubo un decremento significativo en el tráfico a nivel mundial. Página 7 de 4

Si ahora pasamos a analizar el tráfico cursado en el último mes, vemos que durante las primeras semanas de abril hubo un descenso del mismo, coincidiendo con el período vacacional de Semana Santa por lo que nos concierne a España y varios países de mundo, y para otros tantos, este mismo período coincide con el período de vacaciones estipulado en la mayoría de los países cuya mayoría no es católica. Para ver mejor el hecho que mencionamos, vamos a centrarnos en la distribución del tráfico a nivel nacional; podemos hacer uso de los siguientes datos. Se trata de la medición del tráfico cursado por un enlace troncal de la RedIRIS [9] a lo largo de un día laborable y de una semana: a) Evolución diaria b) evolución semanal Página 8 de 4 Con todo esto, queda demostrado que la distribución horaria del tráfico de Internet atiende a las costumbres humanas, por lo tanto, si lo que deseamos es desarrollar un firewall capaz de detectar un

ataque basándose en la cantidad de tráfico que se esté cursando por la red, éste debe ser capaz de amoldarse a los cambios (modificar sus umbrales) en función de la franja horaria en la que se esté trabajando. 4. Las características del propio tráfico en red Si analizamos la composición del tráfico vemos que gran proporción del mismo son peticiones http, las cuales se caracterizan por su envío de información en ráfagas; es decir; el usuario navegando lanza las peticiones de carga de paginas Web, las cuales se resuelven en un corto espacio de tiempo, y hasta que el usuario no vuelva a cargar otra página, la red no cursará tráfico, lo que nos muestra a nivel de red picos de tráfico y periodos de inactividad. Otro tanto porcentaje del tráfico en Internet es el formado por la transferencia de archivos, donde si que podemos observar una distribución más lineal del mismo. Página 9 de 4

Las gráficas mostradas también referidas a los datos tomados por un enlace troncal de la RedIRIS [9], nos dejan ver la naturaleza del tráfico cursado por la red, donde la mayoría de los paquetes son peticiones http, las cuales explican el comportamiento de la red. Derivando de la descomposición de los distintos tipos de paquetes que cursa la red, en función de los protocolos de aplicación, también podemos ver la distribución del tráfico en función de la cantidad de paquetes cursados clasificados en los diferentes tamaños de los paquetes, como se muestra a continuación. En estas gráficas podemos observar la longitud de los paquetes IP por servicio, el gráfico a) muestra los valores medios de la longitud de los paquetes IP para cada uno de los servicios estudiados, como complemento a dicha gráfica, en la figura b) se muestra el porcentaje de paquetes capturado para cada servicio. Página de 4

a) Longitud media de los paquetes por servicio b) Porcentaje de paquetes IP capturados por servicio Por estas razones es por las que se piensa que el tráfico en Internet se ajusta más a los modelos estadísticos no paramétricos que a los lineales, y por ello, se han desarrollado tres módulos emulando análisis no paramétricos para la detección de ataques de red. Los test implementados son los siguientes: Página de 4

5. TEST ESTADISTICOS NO PARAMÉTRICOS IMPLEMENTADOS 5. CONTRASTES DEL CHI DE BONDAD DE AJUSTE El contenido de este apartado ha sido extraído de la siguiente referencia y traducido al castellano []. Para explicar el desarrollo del test de! supongamos una extensa población de elementos de k diferentes tipos. Sea p i la probabilidad de que una muestra seleccionada al azar pertenezca al tipo i donde ( i ",..., k ). Por supuesto p # para i ",..., k y $ " p ". Sean i k i i p,..., pk números específicos tal que p % para i ",..., k y $ " p ", y i suponemos que las siguientes hipótesis son las que queremos que sean probadas: k i i H : p " para i ",..., k i p i H : p i & p i para al menos un valor de i Asumiremos que se coge una muestra aleatoria de tamaño n de la población tomada. Esto es, n observaciones independientes serán tomadas, y existe la probabilidad observación sea del tipo i ( i ",..., k ). p i de que cada Para i ",..., k denotaremos N i el número de veces que se observa en la muestra aleatoria elementos del tipo i. Por dicha razón, N,..., N son números enteros positivos tal que $ " N " k k i i n. Por lo que se desprende que ( N,..., N ) tienen una distribución multinomial cuyos parámetros son n y p " p,..., p ). Página de 4 k ( k

Cuando la hipótesis nula es cierta H, el número de observaciones esperadas de tipo i es np ( i ",..., k ). La diferencia i entre el número actual de observaciones N i y el número esperado np i tenderá a ser más pequeña cuando la hipótesis nula es cierta que cuando no lo sea. Lo expuesto parece razonable, por lo tanto, basaremos el test de hipótesis en los valores de las diferencias N i ' np i para i ",..., k y rechazaremos la hipótesis H cuando las magnitudes de esas diferencias sean relativamente grandes. En 9, Kart Pearson propuso el uso del siguiente estadístico: k ( N i ' np Q " $ i " np i i ) Además, Pearson demostró que si la hipótesis nula es cierta, luego, si el tamaño de la muestra tiende a infinito, la función de densidad (d. f.) de Q converge a una d.f. distribución! con k ' grados de libertad. Esto es, si H es cierta, y el tamaño de la muestra es suficientemente grande, la distribución Q puede ser aproximada a! con ' k grados de libertad. Esta discusión que hemos presentado indica que H puede ser rechazada cuando Q # c donde c es una constante apropiada. Si lo deseado es llevar a cabo el test con un nivel de significado!, c debe ser elegido para ser el -! cuantil de la distribución con k ' grados de libertad.! A esto es a lo que llamamos el test! de bondad de ajuste. Página 3 de 4

Página 4 de 4 5. TEST DE WILCOXON o DE MANN-WHITNEY El contenido de este apartado ha sido extraído de la siguiente referencia y traducido al castellano []. También se puede consultar el funcionamiento del test en la siguiente dirección [4]. Se conoce, también, como contraste de la suma de rangos y es una de las pruebas no paramétricas más potentes para verificar la hipótesis de que las distribuciones de probabilidad de dos poblaciones son iguales, contra la hipótesis alternativa de que las dos poblaciones difieren sólo respecto a su localización (mediana). Se supone que las dos poblaciones son continuas y que se dispone de dos muestras independientes. Los datos, por tanto, no tienen que ser pareados y, además, los tamaños muestrales pueden ser diferentes. Sean x, x,..., x ) y y, y,..., y ) dos muestras aleatorias de ( n ( n tamaño n y n, respectivamente, tomadas de dos poblaciones, cuyas funciones de densidad (continuas) son f (x) y f (y), respectivamente. La hipótesis que se desea contrastar es si ambas funciones son iguales o están desplazadas una respecto a la otra. Si la hipótesis de igualdad es cierta, los valores x i, i ",,... n y los y j, j ",,..., n, representan, en realidad, valores muestrales aleatorios de la misma población. Por tanto, el conjunto combinado x, x,..., x, y, y,..., y ) puede ser considerado como una única ( n n muestra aleatoria, de tamaño n ( n procedente de esa población. Si se le adjudica un rango, de hasta n ( n, a cada elemento de esta muestra conjunta, puesto que cualquier ordenación de las observaciones es igualmente probable, debería ocurrir que la suma de rangos de los elementos procedentes de la muestra n y la correspondiente a la muestra n, fuesen muy similares. Si no es así, habría que pensar que ambas muestras provienen de

poblaciones diferentes. Si llamamos R R min y max, a las sumas de los rangos en la muestra más pequeña y más grande, respectivamente, tendremos que, relación, si R min ( R max n( n ( ) ". Según esta R min es muy pequeña, R max será muy grande, y viceversa. Por tanto, cuanto más pequeña sea una de las dos sumas de rangos, mayor será la evidencia de que las muestras provienen de poblaciones distintas. El contraste se basa sólo en la suma de rangos de la muestra con menor número de elementos, que nosotros consideraremos que es la muestra de tamaño n. Si los tamaños muestrales son iguales, se puede usar cualquiera de ellas. Bajo la hipótesis nula, R min puede ser considerado como un estadístico muestral, que depende solamente de los tamaños de n y n. La probabilidad de obtener una determinada suma de rangos se puede obtener mediante métodos combinatorios sencillos, si los tamaños muestrales son pequeños. Para muestras pequeñas, se dispone de una tabla que recoge los valores inferior, superior, R U, que debe tomar R L, y R min de ser cierta la hipótesis nula, para diferentes combinaciones de tamaños de n y n. La aplicación del contraste, para las distintas hipótesis alternativas, se hará como sigue:. Si H : M M ), rechazaremos la hipótesis nula siempre que R min * R L, ya que R min sería la menor de las dos sumas.. Si H : M % M, rechazaremos la hipótesis nula siempre que R min # R U, puesto que, en este caso, Rmin las dos sumas. sería la mayor de Página 5 de 4

3. Si H : M & M, no se sabe si Rmin es la mayor o la menor. Por eso, rechazaremos la hipótesis nula siempre que R * R # R min R L o min U tabla para un contraste de dos colas., obteniendo los puntos críticos de la Para muestras grandes n, n ), se puede aproximar una ( % n ( n ( n ( ) distribución normal de media E ( Rmin ) " y varianza nn ( n ( n ( ) Var ( Rmin ) ". Al ser un contraste para variables continuas, no deberían producirse muchas repeticiones en los valores muestrales (teóricamente, la probabilidad sería cero). Pero si los hubiere, por redondeo o cualquier otro motivo, hay que decir que el contraste no tiene la garantía necesaria, especialmente si el número de repeticiones es relativamente importante. Por esta razón, sería conveniente no aplicarlo a variables discretas. Por otro lado, para establecer el rango asignado a observaciones repetidas, se procederá de forma similar a la vista en contrastes anteriores. Unos años más tarde, Mann y Whitney propusieron otro contraste y demostraron que era equivalente al de Wilcoxon. Por esta razón, hay literatura estadística que conoce el contraste como el contraste de Wilcoxon-Mann-Whitney. También es verdad, que algunos paquetes estadísticos presentan sólo la versión de estos dos últimos autores para el caso de dos muestras independientes, dejando el contraste de Wilcoxon para el caso de datos pareados. Por eso es conveniente recordar, siquiera sea brevemente, el contraste de Mann-Whitney y su relación con el propuesto por Wilcoxon. Página 6 de 4