CAPÍTULO 4: ALGORITMOS DE APRENDIZAJE



Documentos relacionados
Aprendizaje Automatizado. Redes Neuronales Artificiales

CAPITULO 3 REDES HIBRIDAS-COMPLEJAS. 3.1 Descripción de la Red Híbrida Compleja (HCNN)

CAPÍTULO 5: MODELADO DEL IDS CON REDES NEURONALES

UNIVERSIDAD AUTONOMA DEL ESTADO DE MEXICO CENTRO UNIVERSITARIO UAEM ATLACOMULCO REPORTE DE INVESTIGACION

CAPÍTULO 10 Aplicaciones de la Derivada a Funciones Económicas

x

CAPÍTULO 1. PROPAGACIÓN DE LAS ONDAS PLANAS UNIFORMES

Sistema de Gestión Académica TESEO. Revisión 1.0. Servicio de Informática Área de Gestión (GESTIÓN DE RESÚMENES DE TESIS DOCTORALES)

Conclusiones. Particionado Consciente de los Datos

Implementación de algoritmos genéticos paralelos de grano burdo en redes locales de computadoras. Resumen

Unidad 3 Direccionamiento IP (Subnetting)

MANUAL DE USUARIOS DEL MODULO DE EVALUACIÓN DE DESEMPEÑO SISTEMA DE ADMINISTRACIÓN DE SERVIDORES PÚBLICOS (SASP)

Como registrar tu Equipo en un Evento

Lección 4: Suma y resta de números racionales

Unidad 5 Utilización de Excel para la solución de problemas de programación lineal

CAPITULO II CARACTERISTICAS DE LOS INSTRUMENTOS DE MEDICION

Capitulo V Administración de memoria

Primeros pasos para una configuración rápida de la tienda.

ADALINE Y PERCEPTRON

FORMACIÓN DE EQUIPOS DE E-LEARNING 2.0 MÓDULO DE DISEÑO Y PRODUCCIÓN DE MATERIALES UNIDAD 6 B

Interpolación polinómica

EJEMPLO DE REPORTE DE LIBERTAD FINANCIERA

Sesión 3 - Movimiento Diferencial

EDICIÓN Y FORMATO (II)

Temas de electricidad II

CAPITULO 6 SISTEMA DE DETECCION DE INTRUSOS

MACROECONOMÍA II Licenciatura en Administración y Dirección de Empresas Marzo 2004

MODELOS DE RECUPERACION

La Dirección Comercial

Matemáticas para la Computación

Figura 1.12 Señalización analógica y digital de datos analógicos y digitales.

Diagramas del UML. A continuación se describirán los diagramas más comunes del UML y los conceptos que representan: Diagrama de Clases

UNIDAD 4 PROCESOS DE MARKOV

MATERIAL 2 EXCEL 2007

Matrices Invertibles y Elementos de Álgebra Matricial

CAPÍTULO 3. ALGORITMOS DE PREVISIÓN BASADOS EN LA EXTRAPOLACIÓN DE LOS DATOS MÁS RECIENTES

Computación I Representación Interna Curso 2011

5.1. Redes de aprendizaje supervisado basadas en la cuantificación vectorial. Curso de doctoramiento Técnicas de Computación Flexíbeis

Programa en Microsoft Visual Basic 6.0 para el análisis de riesgos eléctricos en oficinas y centros de cómputo. López Rosales, Juan Carlo.

Montos y Plazos Créditos por Distribuidores

POR QUÉ EL VALOR PRESENTE NETO CONDUCE A MEJORES DECISIONES DE INVERSIÓN QUE OTROS CRITERIOS? ( Brealey & Myers )

Colegio Alexander von Humboldt - Lima. Tema: La enseñanza de la matemática está en un proceso de cambio

MEDIDA DEL CALOR ESPECÍFICO

WinHIPE: edición, compilación y ejecución de programas; y generación de animaciones web. Manual de usuario.

De acuerdo con la diferente naturaleza de las operaciones, esta política diferenciará fundamentalmente entre dos tipos de operaciones:

PARA COMERCIANTES Y AUTÓNOMOS. INFORMACIÓN SOBRE TARJETAS DE CRÉDITO.

**NOTA** las partes tachadas todavía no están escritas, se ira actualizando poco a poco el documento

MACROS Y FORMULARIOS

GESTIÓN Y CONTROL DEL DESARROLLO E IMPLANTACIÓN DE APLICACIONES

Software para Seguimiento de Clientes. Descripción del Producto

Tema 07. LÍMITES Y CONTINUIDAD DE FUNCIONES

Cadenas de Markov.

1. INVERSA DE UNA MATRIZ REGULAR

TRABAJO Y ENERGÍA; FUERZAS CONSERVATIVAS Y NO CONSERVATIVAS

Mecánica Racional 20 TEMA 3: Método de Trabajo y Energía.

UN PROBLEMA CON INTERÉS Y CALCULADORA

TEMA 5. MUESTREO PARA LA ACEPTACIÓN.

Módulo II - PowerPoint

Capítulo 5: Pruebas y evaluación del sistema. A continuación se muestran una serie de pruebas propuestas para evaluar varias

Programa de comercialización de grano

Centro de Capacitación en Informática

Aprendizaje Automatizado

CASO PRÁCTICO DISTRIBUCIÓN DE COSTES

UNIDAD EJECUTORA DE CONSERVACION VIAL MANUAL DEL USUARIO DEL SISTEMA INTEGRAL DE CONTROL DE PROYECTOS

EXTRACTO Descripción del uso y manejo de SIRAIS 1.2

INVENTARIO INTRODUCCIÓN RESUMEN DE PASOS

Tema 1: Introducción a los S.O. Ejercicios de Planificiación de Procesos

BANCOS. Manejo de Bancos. Como crear una ficha de Banco? Como modificar los datos de una ficha de Banco? Como borrar una ficha de Banco?

VENTAJAS Y DESVENTAJAS DE LAS TECNOLOGIAS

Curso: Arquitectura Empresarial basado en TOGAF

Construcción de Escenarios

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de

Manual de usuario Página 1 ÍNDICE

Puedes Desarrollar Tu Inteligencia

TEMA 3: EN QUÉ CONSISTE?

Seminario Profesional MS PROJECT MODULO 2: Introducción y organización de las tareas

ESQUEMAS DE SISTEMAS VOIP CON ALTA DISPONIBILIDAD Y ALTO RENDIMIENTO

Correspondencias entre taxonomías XBRL y ontologías en OWL Unai Aguilera, Joseba Abaitua Universidad de Deusto, EmergiaTech

CAPÍTULO 4. DISEÑO CONCEPTUAL Y DE CONFIGURACIÓN. Figura 4.1.Caja Negra. Generar. Sistema de control. Acumular. Figura 4.2. Diagrama de funciones

Llamamos potencia a todo producto de factores iguales. Por ejemplo: 3 4 =

Capítulo 3. Estimación de elasticidades

4. METODOLOGÍA. 4.1 Materiales Equipo

Servicio de groupware

Figura 1 Abrir nueva hoja de cálculo

CAPITULO V. SIMULACION DEL SISTEMA 5.1 DISEÑO DEL MODELO

MANUAL MÓDULO CECA CON RECARGOS O DESCUENTOS PARA PRESTASHOP Guía Básica

Guía basada en conceptos de usabilidad web

MOTORES VERSUS DIRECTORIOS: EL DILEMA DE LA BÚSQUEDA

P. Es aconsejable la utilización de la faja lumbar para prevenir lesiones de espalda en trabajadores que manipulan cargas?

Líneas de espera. Introducción.

2.2 Transformada de Laplace y Transformada Definiciones Transformada de Laplace

Investigación universitaria responsable. Mod. 6 UD 8: Los principios y los valores.

PREGUNTAS FRECUENTES Nuevo Plan de Jubilación a Partir del 1º de Julio del 2014

Actividades para mejoras. Actividades donde se evalúa constantemente todo el proceso del proyecto para evitar errores y eficientar los procesos.

Lección 1-Introducción a los Polinomios y Suma y Resta de Polinomios. Dra. Noemí L. Ruiz Limardo 2009

Informática Aplicada a la Gestión de Empresas (IAGE) Parte III Excel e Internet Tema 2

ÍNDICE DISEÑO DE CONTADORES SÍNCRONOS JESÚS PIZARRO PELÁEZ

RESOLUCIÓN DE SISTEMAS DE ECUACIONES LINEALES

MANUAL TIENDA VIRTUAL. Paseo del Gran Capitán, Nº 62, Salamanca. Telf.: Fax:

Guía del Usuario ANEXOS

Transcripción:

Capítulo 4 Algoritmos de Aprendizaje 26 CAPÍTULO 4: ALGORITMOS DE APRENDIZAJE En este capítulo se proporcionan las descripciones matemáticas de los principales algoritmos de aprendizaje para redes neuronales: Backpropagation para las redes feedforward y Elman hasta el Real-Time Learning Algorithm (RTRL) para las redes recurrentes completamente conectadas, haciendo una comparación de su eficiencia, costo y viabilidad de implementación. 4.1 INTRODUCCIÓN En ocasiones, se requiere que una red neuronal con varios Adalines realice tareas de clasificación más sofisticadas que sólo dividir toda entrada en dos rangos de salidas. En estos casos, se introducen variantes en el diseño general del Adaline que mejoren u optimicen dicha respuesta. Entre las formas más comunes de hacer esto está el introducir no-linealidades a la entrada de cada Adaline para hacerlos más eficientes. Estas variantes pueden ser funciones polinomiales, cuadráticas, divisiones y multiplicaciones. La estructura general de una unidad de esa naturaleza se muestra en la Figura 4.1 [5,6]. Independientemente del clasificador que se utilice, es necesario establecer un algoritmo que sea responsable de actualizar los pesos de cada elemento del vector W k, ya que la salida de la red neuronal debe tener la tendencia a eliminar el error en cada iteración. La inclusión de no-linealidades como X 1, X 2 y (X 1 X 2 ) modifican los vectores originales (ver Figura 4.1), generando un nuevo vector de entrada al sistema X 1 X 2, y también los pesos w nk para producir una salida s k que pasará por la función de umbral signum para generar y k. Las reglas o algoritmos que rigen este comportamiento pueden ser lineales o no lineales, de un elemento o de más de un elemento. A continuación se presentarán las más importantes.

Capítulo 4 Algoritmos de Aprendizaje 27 Figura 4.1: Clasificador no-lineal basado en Adalines [2] La primera regla para actualizar los pesos en una red neuronal se conoce como la Regla del Perceptrón, o también el Procedimiento de Convergencia del Perceptrón. Esta primera regla modifica los elementos W k de acuerdo al algoritmo básico de la Regla del Perceptrón [1]: (1) Desarollada por Rosenblatt, esta regla actualiza W k sólo si el error ε k es diferente de cero. El vector de entradas es X k, el nuevo vector de pesos es W k+1 y α es la tasa de aprendizaje del sistema (un valor constante muy pequeño que no cambia en el tiempo).

Capítulo 4 Algoritmos de Aprendizaje 28 Un poco después, Mays desarrolló su famosa serie de algoritmos adaptativos para redes neuronales, los cuales son una versión más general de la Regla del Perceptrón. Esta nueva regla también es llamada de incremento adaptativo o Algoritmo de Mays [1]: (2) (3) Donde ε k es el error d k y k, siendo d la respuesta deseada y y la salida de la red. Por lo general, la zona muerta delimitada por γ es un valor pequeño, y si vale 0 el algoritmo de Mays se convierte en la Regla del Perceptrón [1]. 4.2 EL ALGORITMO BACKPROPAGATION THROUGH TIME Estos algoritmos, no obstante ser útiles en ciertas aplicaciones, deben iterar muchas veces para poder reducir su error. Existe otro método para garantizar un mejor desempeño en términos de convergencia, clasificación y eficiencia: el Método del Descenso Más Rápido. Este método se basa en evaluar el gradiente de la superficie típica de error promedio cuadrado (MSE: Mean Square Error) para cada una de las funciones de umbral en diferentes puntos y actualizar los pesos de la red con ese resultado. (4) En esta ecuación, k es el gradiente en un punto de la superficie MSE. Debemos recordar que ese gradiente en un punto es la derivada parcial del error con respecto al vector de pesos W k.

Capítulo 4 Algoritmos de Aprendizaje 29 (5) Usando estos resultados, es posible definir el algoritmo y reglas que definen el método que se usa para gobernar el comportamiento de redes neuronales que trabajan off-line: el conocido como Backpropagation [1,3,5]. (6) Como puede verse, la base de este algoritmo es calcular derivadas parciales a través del tiempo en cada iteración por la red neuronal, actualizando los pesos de acuerdo a esto. Un diagrama general de cómo funciona este tipo de algoritmo se muestra en la Figura 4.2. El vector de entradas X k va directamente a las neuronas y también al vector W k para modificar los pesos w 1 a w n. Dichos pesos también son modificados con el resultado de la salida y k tras pasar por el combinador y la influencia del elemento constante con su peso w0, la cual es multiplicada por la tasa constante de aprendizaje 2m y alimentada al algoritmo LMS (Least Mean Square) para calcular el error que debe retroalimentarse a la actualización del vector de pesos W k a través de un proceso iterativo [1].

Capítulo 4 Algoritmos de Aprendizaje 30 Figura 4.2. Red retroalimentada por backpropagation 4.3. EL ALGORITMO DE APRENDIZAJE EN TIEMPO REAL Una red neuronal recurrente en el tiempo tiene la capacidad de calcular la siguiente salida en base a los resultados preliminares de sus salidas anteriores (ver Figura 3.1), a diferencia de una red feedforward la cual solamente puede realizar este proceso hasta cierto punto en el tiempo antes de detenerse (Figura 3.2). (7)

Capítulo 4 Algoritmos de Aprendizaje 31 (8) El algoritmo que gobierna el comportamiento de las RNN en tiempo real, Real- Time Recurrent Learning Algorithm o RTRL desarrollado por William y Zipser [5], tiene una complejidad de cálculo para un número de unidades procesadoras directamente conectadas a la red de O(n 4 ), lo cual es bastante elevado e implica un gran número de cálculos a mayor número de elementos, pero tiene una alta probabilidad de convergencia [13,14]. La activación de cada nodo para cada instante t, s k, está definida por: (10) Aquí, U es el conjunto de índices de los nodos procesadores, I es el conjunto de índices de las entradas del sistema, y q es una salida previa y w kp,q representa los pesos conectando nodos. La salida sk del nodo k es función de f k, una función sigmoide. (11) El error cuadrático a cada instante de tiempo t es igual al cuadrado del error e k (t). (12)

Capítulo 4 Algoritmos de Aprendizaje 32 Sólo si e k pertenece al conjunto de índices que engloba U. De otra manera, e k es igual a cero. Los pesos, por su parte, se actualizan mediante la regla del descenso por gradiente discutida anteriormente, en donde α es el learning rate, tasa de aprendizaje, de la red e I es el conjunto de índices correspondientes a la entrada del sistema. (14) El término p es denominado la sensibilidad del nodo k en cuestión a un cambio en el peso w ij [3]. (15) En donde δ ki es la delta de Kronecker (con valor de 1 si los subíndices i,j son iguales y 0 si son diferentes), y z j es la salida y j. f k denota la derivada de la función sigmoide f. El algoritmo RTRL está definido por todas estas ecuaciones, y su puesta en práctica depende de su correcta implementación [1,3,5,14,15]. Como los algoritmos de entrenamiento tales como el RTRL y el BPTT se basan en el gradiente de una función de costo que se relaciona directamente con los pesos de toda la red, es deseable considerar las ventajas y desventajas de cada uno para justificar el uso, en este caso del RTRL.

Capítulo 4 Algoritmos de Aprendizaje 33 La demanda en términos computacionales del algoritmo RTRL es mayor a la del BPTT. Sin embargo, esta característica negativa es compensada por el hecho de que, usualmente, las redes neuronales basadas en RTRL requieren de una cantidad de neuronas significativamente menor que sus contrapartes. Además, el RTRL es un algoritmo capaz de trabajar en modo on-line y esto hace que para ciertas aplicaciones, tales como un sistema IDS, sea necesario utilizar un algoritmo de este tipo [13]. La diferencia fundamental entre ambos algoritmos, y lo que explica el hecho de que el BPTT esté limitado a trabajar off-line, es el cálculo del gradiente y cómo es realizado, ya sea hacia atrás en el tiempo como con el algoritmo BPTT, o hacia delante como el RTRL. Esta característica permite que los parámetros de entrada para este último tengan un efecto transitorio en la salida general de la red mientras que los pesos cambian constantemente guardando un recuerdo de las condiciones iniciales que afecta su actualización iterativa hasta que la red ha terminado su proceso de entrenamiento. 4.4 RESUMEN A través del desarrollo e investigación del comportamiento de las redes neuronales se han desarrollado muchos algoritmos para acelerar su aprendizaje y reducir el tiempo que le toma a la red alcanzar el estado interno deseado. Desde el desarrollo de los primeros algoritmos de actualización de pesos basados en las investigaciones de Mays y otros se ha podido incrementar la efectividad del entrenamiento hasta el punto en el que las redes actuales sobrepasan por mucho a las primeras. Uno de los algoritmos más utilizados actualmente es el conocido como BPTT. Utilizado en una gran variedad de aplicaciones, su rapidez relativa lo hace atractivo

Capítulo 4 Algoritmos de Aprendizaje 34 como opción cuando la complejidad de la red es tal que un algoritmo más estructurado ocasionaría retardos enormes de ser aplicado. Como su nombre lo indica, este algoritmo propaga la información concerniente al gradiente y los valores de actualización de los pesos hacia atrás en el tiempo, utilizando los resultados actuales para modificar a la red antes de que se ingrese una nueva secuencia de entrada [21]. Este algoritmo produce buenos resultados en aquellas aplicaciones que no tienen una relación secuencial fuerte y por su naturaleza son eventos independientes unos de otros. Por esto, este tipo de redes trabajan off-line, modificando el valor de sus estados internos en tiempos relativos al contexto en el que están siendo utilizadas. Por otro lado, el algoritmo de aprendizaje en tiempo real permite a las redes predecir el siguiente evento basadas en la información previa. Para estas redes, todos sus estados anteriores son accesibles gracias a que el algoritmo actualiza los pesos utilizando cada estado previo. El RTRL permite a las redes neuronales trabajar en forma on-line, actualizando sus valores en tiempo real y arrojando resultados satisfactorios que se adapten a las condiciones cambiantes del medio. Para un IDS, este tipo de algoritmo es la mejor opción por todas las características ya mencionadas, y el único inconveniente de elegir el RTRL como opción es precisamente el hecho de que todo ese procesamiento afecta la velocidad de respuesta del sistema, siendo ésta O(n 4 ), donde n es el número de neuronas. Puede verse con facilidad que, para sistemas muy grandes, el procesamiento tiende a ser lento; no obstante, para aplicaciones con pocas neuronas el RTRL arroja resultados muy buenos [16].