El Perceptrón Multicapa

Documentos relacionados
Las Redes Neuronales Artificiales y su importancia como herramienta en la toma de decisiones. Villanueva Espinoza, María del Rosario CAPÍTULO V

TLU(s) MULTICAPAS. Se pueden implementar funciones en TLU con más de una capa.

Red Neuronal Artificial

Perceptrón simple y perceptrón multicapa

ANEXO II.- TEORÍA SOBRE REDES NEURONALES ARTIFICIALES

Aprendizaje Automatizado. Redes Neuronales Artificiales

Detección Multiusuario para DS-CDMA basado en SVM

Redes de Neuronas de Base Radial

CRITERIOS DE SELECCIÓN DE MODELOS

Entrenamiento de redes neuronales Fernando Berzal,

EL PERCEPTRON MULTICAPA (MLP) 6

Redes Neuronales Multicapa

Aprendizaje Automático

Técnicas de inteligencia artificial. Aprendizaje: Perceptrón multi-capa

Inteligencia Artificial (Curso ) Grado en Ingeniería Informática - Ingeniería del Software

Análisis de Datos. Red de función de base radial. Profesor: Dr. Wilfrido Gómez Flores

TUTORIAL SOBRE REDES NEURONALES APLICADAS EN INGENIERIA ELECTRICA Y SU IMPLEMENTACIÓN EN UN SITIO WEB

Inteligencia Artificial. Aprendizaje neuronal. Ing. Sup. en Informática, 4º. Curso académico: 2011/2012 Profesores: Ramón Hermoso y Matteo Vasirani

Redes Neuronales Artificiales

Aprendizaje: Perceptrón multi-capa

Inteligencia Computacional

Tema: Aprendizaje Supervisado.

Perceptrón multicapa. Diego Milone y Leonardo Rufiner Inteligencia Computacional Departamento de Informática FICH-UNL

Redes Neuronales. Introducción. José Manuel Quero Reboul Dpto. Ingeniería Electrónica Universidad de Sevilla

ANEXO A DESCRIPCIÓN DE LAS FUNCIONES UTILIZADAS EN MATLAB

Tema 2 Primeros Modelos Computacionales

CONCEPTOS BÁSICOS (Freeman capt.1; Neural Nets capt. 4,5 y 7)

Redes Neuronales. Las redes neuronales son modelos computacionales que buscan imitar el funcionamiento

Relación 7 - Redes neuronales

Introducción. Qué es Machine Learning?

CAPITULO 5 DISEÑO DE UN CLASIFICADOR DE

Definir un Equipo de Fútbol óptimo mediante Redes Neuronales Artificiales

Reconocimiento automático de palabras en documentos históricos usando redes neuronales convolucionales

Uso de una red neuronal multicapa para el reconocimiento de caracteres griegos. Skynet Reloaded

Redes Neuronales Artificiales para predicción en series temporales. Alba Martín Lázaro José Miguel Martínez Romera Pablo Morales Mombiela

Capítulo 3 REDES NEURONALES Y SU APLICACIÓN EN LA INGENIERÍA SÍSMICA III. REDES NEURONALES Y SU APLICACIÓN EN LA INGENIERÍA SÍSMICA

LIM. Modelización del conjunto motor-transmisión de un automóvil a partir de datos experimentales. Trabajo final de grado

REDES NEURONALES ADAPTABLES

OPENCOURSEWARE REDES DE NEURONAS ARTIFICIALES Inés M. Galván José M. Valls. Tema 6: Redes de Neuronas Recurrentes

Inteligencia Artificial II (Curso ) Ejercicios propuestos del tema 5

Redes Neuronales Artificiales El Perceptrón

TEMA 0 Y SUS APLICACIONES. Redes Neuronales Artificiales y sus Aplicaciones

Análisis de Datos. Validación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores

Simulación de Redes Neuronales Artificiales: Una Herramienta para la Docencia en Castellano

Aprendizaje Automatizado. Redes Neuronales Artificiales

Aprendizaje Automatizado

CAPÍTULO 3. Las redes neuronales artificiales, ANNs por sus siglas en inglés, son el resultado de varias

CAPÍTULO 4 IMPLEMENTACIÓN DE LA TRANSFORMADA DE DISTANCIA CON UN

Redes Neuronales Artificiales

3.7 IDENTIFICACION DE UN SISTEMA DINÁMICO NO LINEAL Descripción del Problema: La identificación de un sistema consiste en

Redes Neuronales Artificiales

Redes Neuronales Multicapa

Redes Neuronales. Elementos básicos de las redes neuronales Carlos Andrés Delgado S.

BACK-PROPAGATION: UN ALGORITMO DE ENTRENAMIENTO PARA REDES NEURONALES

Aprendizaje Automatizado

Elementos de máquinas de vectores de soporte

CONCLUSIONES. La teoría de Redes Neuronales Artificiales, presenta grandes ventajas con

PROJECT GLASS : REALIDAD AUMENTADA, RECONOCIMIENTO DE IMÁGENES Y RECONOCIMIENTO DE VOZ.

Redes neuronales con funciones de base radial

Tema 8: Redes Neuronales

Redes Neuronales. Parte II. Facultad de Ciencias Exactas y Tecnología Universidad Nacional de Tucumán Mg. Ing. Gustavo E. Juárez

Redes neuronales. Un recorrido por su matemática, arquitectura y aprendizaje. Eduardo Paluzo Hidalgo. 30 de enero de Universidad de Sevilla

Módulo Minería de Datos Diplomado. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

Perceptrón Simple. Aspectos Prácticos y Algoritmos Redes Neuronales, DC-FCEyN-UBA. Rosana Matuk Primer Cuatrimestre 2018

4 Teoría de clasificadores

Introducción a las Redes Neuronales mediante el paquete neuralnet

UNIVERSIDAD CARLOS III MADRID

CONTROL PREDICTIVO CON REDES NEURONALES COMO MODELO, UTILIZANDO EL METODO DE NEWTON-RAPHSON PARA LOGRAR LA MINIMIZACION DE LA FUNCION DE COSTO

Introducción a Las redes Neuronales (Neurales) CO-6612

TEMA 1: INTRODUCCIÓN N AL PROCESADO Y ANÁLISIS DE DATOS

Clasificación de Datos de Olor de Café provenientes de una Nariz Electrónica Utilizando Redes Neuronales

CAPÍTULO Inteligencia Artificial y Redes Neuronales Artificiales

INVESTIGACIÓN OPERATIVA Redes Neuronales Artificiales y Aplicaciones INTEGRANTES: Armijos Mauricio Jara Iza Rony

REDES NEURONALES. Una esquema simplificado de una neurona se muestra en la siguiente figura. Cuerpo celular. Dendrita. Axón.

Perceptrones Fernando Berzal,

Introducción a las Redes Neuronales

Transcripción:

El Perceptrón Multicapa N entradas M neuronas de salida L: neuronas en la capa oculta E = 1 p M ( zi ( k) yi ( k) ) k = 1 i= 1

Implementación de la función XOR

Regiones de clasificación en función del número de capas ocultas Usando una función de transferencia continua las redes multicapas también aproximan funciones.

El Algoritmo de retropropagación de errores aso 0: Inicialización pesos aso 1: (Hacia delante): Cálculo de la salida de cada neurona ara un patrón de entrada aso (Hacia atrás): Cálculo de los deltas (propagación el error hacia atrás) Paso 3: Modificación de los pesos

El problema del sobreajuste ó sobre-entrenamiento ( overfitting ) Suele haber problemas de sobreajuste cuando un modelo posee demasiados parámetros. Conlleva pérdida de la capacidad de

Entrenamiento, Validación y Generalización Objetivo final: que el clasificador consiga un error de generalización pequeño El comportamiento típico del error de entrenamiento de un clasificador decrece monótonamente durante la fase de entrenamiento, mientras que el error sobre el conjunto de validación decrece hasta un punto a partir del cual crece, lo que indica que a partir del mismo el clasificador realiza un superajuste (ó sobre-entrenamiento overfitting ) sobre los datos de entrenamiento. Por ello, el proceso de entrenamiento debe finalizar cuando se alcance el primer mínimo de la función del error de validación. validación entrenamiento

Conjuntos de entrenamiento, validación y Generalización Conjunto de datos Datos entrenamiento Test Entrenamiento Validación Test Dicho método consiste en dividir los datos muestrales en dos partes; una parte se utiliza como conjunto de entrenamiento para determinar los parámetros del clasificador neuronal y la otra parte, llamada conjunto de prueba (ó( test ó conjunto de generalización) n) se utiliza para estimar el error de generalización. El conjunto de entrenamiento suele a su vez dividirse en conjuntos de entrenamiento (propiamente dicho) y conjunto de validación para ajustar el modelo. Se suelen utilizar el 80% de los datos para entrenar la red, el 10% como conjunto de validación y el 10% restante para estimar la generalización (pero es sólo un criterio

Construcción de una Red neuronal de tamaño óptimo: Procedimientos de poda Las redes neuronales más pequeñas son preferibles a las más grandes que realizan una misma tarea por varias razones: tienen un menor número de parámetros, el entrenamiento es más rápido y suelen tener una mayor capacidad de generalización al utilizar nuevos patrones. Partir de una red neuronal de gran tamaño y podarla eliminándole unidades de proceso y conexiones hasta conseguir un tamaño satisfactorio. Comenzar con una red neuronal muy pequeña e ir incrementando su tamaño añadiendo unidades de proceso, conexiones o capas hasta conseguir un tamaño satisfactorio. Partir de una red de tamaño suficiente y podar las conexiones y unidades de proceso que se consideren poco relevantes. A continuación se añaden nuevas unidades de proceso con pesos aleatorios y se vuelve a entrenar la red. Este proceso se continúa hasta que se consigue un tamaño aceptable y un comportamiento satisfactorio.

Construcción de una red neuronal de tamaño óptimo: Procedimientos de poda Algunos procedimientos para realizar la poda de una red neuronal son: Eliminar de la red aquellas conexiones cuyos pesos sinápticos sean de pequeña magnitud. Eliminar aquellas conexiones cuya existencia no afecte significativamente a las salidas de la red. Para realizar este tipo de poda basta con ir comparando las salidas de la red cuando un peso sináptico es reducido a cero. Eliminar aquellos sensores de entrada que producen cambios insignificantes en la salida de la red. Este supone reducir la dimensionalidad de los patrones de entrada al detectar aquellas componentes de entrada que son innecesarias.

Construcción de una red neuronal de tamaño óptimo: Procedimientos de poda El método OBD (optimal brain damage), de lesión n cerebral óptima, propuesto por Lecun, Denker y Solla (1990), trata de identificar aquellos pesos sinápticos que pueden ser podados examinando las derivadas segundas de la función de error contenidas en la matriz Hessiana. La variación que produce en el error cuadrático medio una pequeña perturbación w ij en el peso w ij se aproxima por E = E w ij w ij + 1 E ( )( w w ij ij ) Cuando la red finaliza el entrenamiento en un mínimo local de E, entonces E/ wij 0, y así 1 E E ( )( w ) ij w ij

Construcción de una red neuronal de tamaño óptimo: Procedimientos de poda Como la poda de una conexión supone pasar su peso sináptico del valor w ij al valor 0, es decir, ocurre cuando w ij = w ij, entonces la condición para realizar la poda de dicha conexión es que el cambio en el error resultantes sea insignificante, es decir, que la cantidad E 1 E ( )( w w ij ij ) sea suficientemente pequeña.

El algoritmo de Levenberg-Marquardt Es un algoritmo alternativo al algoritmo clásico de retropropagación de errores, que posee como virtud principal su velocidad de convergencia. Requiere más uso de memoria ya que el algoritmo realiza una aproximación de la matriz de derivadas segundas (Hessiano) usando las derivadas primeras y con esta información calcula el cambio en los pesos sinápticos.

Utilizamos el algoritmo de Levenberg-Marquardt ( trainlm ) y una función de salida lineal para aproximar una función continua.

Pequeña guía para la implementación de una red neuronal Pre-procesamiento de datos (ej. rango [-1,1] ó [1,1] ó media cero y varianza unidad) (reducción del número de entradas, ej.: PCA) Elección de conjuntos de entrenamiento y prueba. Diseño de la red inicial (número de capas ocultas, número de neuronas, parámetros iniciales: pesos iniciales, tasa de aprendizaje, momento, algoritmo de aprendizaje). Análisis del comportamiento del error. Pruebas con diferentes arquitecturas y/o parámetros. Poda de conexiones y re-entrenamiento. Análisis e interpretación de resultados

El algoritmo de retropropagación de errores Es un método de aprendizaje supervisado de redes neuronales basado en el descenso por el gradiente que sirve para tareas de clasificación y/o predicción y también para aproximación de funciones. Es un método versátil y potente. Ha sido aplicado con éxito en las más diversas tareas. No hay teorema de convergencia hacia el mínimo global de la función error por lo que puede quedar atrapado en mínimos locales. La práctica ha demostrado que el algoritmo es muy eficiente. No se limita a memorizar los datos, sino que es capaz de generalizar (interpolar y extrapolar). A fin de mejorar la capacidad de generalización existen diferentes alternativas propuestas (momento, algoritmo de Levenberg-Marquardt, métodos de poda, etc.). Elegir la arquitectura óptima y los parámetros adecuados es un problema complejo: suele utilizarse el método de prueba y error.