Tema 8: Redes Neuronales

Documentos relacionados
Inteligencia Artificial. Aprendizaje neuronal. Ing. Sup. en Informática, 4º. Curso académico: 2011/2012 Profesores: Ramón Hermoso y Matteo Vasirani

CONCEPTOS BÁSICOS (Freeman capt.1; Neural Nets capt. 4,5 y 7)

Introducción a las Redes Neuronales

Tema 8. Redes Neuronales

REDES NEURONALES. Una esquema simplificado de una neurona se muestra en la siguiente figura. Cuerpo celular. Dendrita. Axón.

Tema 9: Introducción a las redes neuronales

Tema 15: Combinación de clasificadores

Redes Neuronales Artificiales

Las Redes Neuronales Artificiales y su importancia como herramienta en la toma de decisiones. Villanueva Espinoza, María del Rosario CAPÍTULO III

Introducción a las Redes de Neuronas

LOS SISTEMAS ADAPTATIVOS

CRITERIOS DE SELECCIÓN DE MODELOS

Capítulo 2. Las Redes Neuronales Artificiales

MÉTODOS DE APRENDIZAJE INDUCTIVO (continuación)

Teoría de grafos y optimización en redes

COMPUTACION INTELIGENTE (PRIMERA PARTE: INTRODUCCION)

2. PRINCIPALES TIPOS DE REDES NEURONALES

Aprendizaje Automatizado

Lección 6 Redes Neuronales Artificiales Curso Básico

CAPÍTULO I ALGUNOS HECHOS INTERESANTES DE LAS NEURONAS

TEMA 6 Redes de Neuronas Artificiales

Aprendizaje Automatizado. Redes Neuronales Artificiales

ALGUNOS HECHOS INTERESANTES DE LAS NEURONAS. La idea de ser parte constituyente de la estructura cerebral la introducen Ramón y Cajal en 1911.

Algebra lineal y conjuntos convexos

Inteligencia Artificial. Redes Neurales Artificiales

Grafos. Suponiendo que e = [u, v]. Entonces los nodos u y v se llaman extremos de e y u y v se dice que son nodos adyacentes o vecinos.

Formulación del problema de la ruta más corta en programación lineal

APRENDIZAJE NO SUPERVISADO Y EL ALGORITMO WAKE-SLEEP EN REDES NEURONALES

Introducción a las Redes Neuronales. Tomás Arredondo Vidal Depto. Electronica UTFSM 4/5/12

Tema 7 Redes Neuronales Recurrentes

ANEXO 1. CALIBRADO DE LOS SENSORES.

1 SISTEMAS DE ECUACIONES LINEALES. MÉTODO DE GAUSS

CAPÍTULO 4: ALGORITMOS DE APRENDIZAJE

Primer Hackathon Reto de IA de Google en la UGR Redes neuronales. El perceptrón. Pedro A. Castillo Valdivieso

ADALINE Y PERCEPTRON

Desarrollo software de técnicas para el diseño automático de Redes Neuronales Artificiales con bajo coste computacional

Programación NO Lineal (PNL) Optimización sin restricciones

CAPÍTULO 3 RED NEURONAL PARA EL RECONOCIMIENTO DE ROSTROS

TECNOLOGÍAS INTELIGENTES PARA EXPLOTACIÓN DE INFORMACIÓN

1 ÁLGEBRA DE MATRICES

Sistema experto para el diagnóstico de enfermedades infecciosas del ganado vacuno

El método simplex 1. 1 Forma estándar y cambios en el modelo. 2 Definiciones. 3 Puntos extremos y soluciones factibles básicas. 4 El método simplex.

APUNTES DE ÁLGEBRA LINEAL TEMA 2. SISTEMAS DE ECUACIONES LINEALES

I SEMANA ELECTRONICA REDES NEURONALES

OPTIMIZACIÓN VECTORIAL

Introducción a las RdP. Optimización basada en redes de Petri. Redes de Petri. Son objeto de estudio: RdP. Ejemplos:

en el funcionamiento del cerebro FRANCISCO CERVANTES PÉREZ, JOSÉ INCERA DIÉGUEZ Y SALVADOR MÁRMOL YAHYA

(b) Cuál es la desventaja principal de una heurística con aprendizaje? es más informada que otra función heurística optimista h 2 *?

Inteligencia de enjambres

3.2 CONTROL DE GIRO DE UN MOTOR DE INDUCCIÓN DE JAULA DE. Un motor de inducción tiene físicamente el mismo estator de una máquina

TEMA 5.6 PROGRAMACIÓN NO LINEAL

Clasificación de Frases del Lenguaje Natural usando Redes Neuronales Recurrentes. Sergio Roa Ovalle

INTRODUCCION- FILTRO DE WIENER

Estos apuntes se han sacado de la página de internet de vitutor con pequeñas modificaciones.

UNIVERSIDAD AUTONOMA DEL ESTADO DE MEXICO CENTRO UNIVERSITARIO UAEM ATLACOMULCO REPORTE DE INVESTIGACION

PAU Madrid. Matemáticas II. Año Examen modelo. Opción A. Ejercicio 1. Valor: 2 puntos.

SISTEMAS DE ECUACIONES LINEALES. Método de reducción o de Gauss. 1º DE BACHILLERATO DPTO DE MATEMÁTICAS COLEGIO MARAVILLAS AUTORA: Teresa González.

Course 4: Neural networks Prof. Santiago Falcón

Aux 6. Introducción a la Minería de Datos

Método de diferencias finitas para ecuaciones diferenciales parciales elípticas. (Parte II)

CAPITULO 1: PERSPECTIVE GENERAL DE LA

Tema 3: El Método Simplex. Algoritmo de las Dos Fases.

Teoría de la decisión

Tema 5. Reconocimiento de patrones

Matrices: repaso. Denotaremos con M m n el conjunto de matrices de tamaño m n, o sea, de m filas y n columnas. Una matriz A M m n es de la forma A =

TEMA 6. SVM Support Vector Machines (Máquinas de Vectores Soporte)

Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO

Cátedra: Informática Aplicada a la Ingeniería de Procesos Orientación I. Tema: Redes Neuronales: Conceptos Básicos y Aplicaciones.

MATEMÁTICAS 2º BACH TECNOL. MATRICES. Profesor: Fernando Ureña Portero MATRICES

Simulación de Redes Neuronales Artificiales: Una Herramienta para la Docencia en Castellano

Análisis y síntesis de sistemas digitales combinacionales

MATRICES. Una matriz es un conjunto de números o expresiones dispuestos en forma rectangular, formando filas y columnas.

Aprendizaje: Boosting y Adaboost

CAPITULO 6 SISTEMA DE DETECCION DE INTRUSOS

Tema 1: MATRICES. OPERACIONES CON MATRICES

Práctica N o 8 Desigualdades Válidas - Algoritmos de Planos de Corte - Algoritmos Branch & Cut

Tema 11: Inducción de Reglas p. 1/1

5 Continuidad y derivabilidad de funciones reales de varias variables reales.

Reconocimiento de patrones mediante redes neuronales artificiales

UNIVERSIDAD VERACRUZANA MONOGRAFÍA: Licenciado en Sistemas Computacionales Administrativos. Francisco Xavier Basilio Hernández

Introducción a las Redes Neuronales Aplicadas

Redes Neuronales Artificiales

TEMA 1. MATRICES, DETERMINANTES Y APLICACIÓN DE LOS DETERMINANTES. CONCEPTO DE MATRIZ. LA MATRIZ COMO EXPRESIÓN DE TABLAS Y GRAFOS.

ENTRENAMIENTO DE REDES NEURONALES BASADO EN ALGORITMOS EVOLUTIVOS TESIS DE GRADO EN INGENIERÍA INFORMÁTICA

1: INTRODUCCIÓN AL USO DE LA HOJA DE CALCULO EXCEL COMO HERRAMIENTA PARA DESARROLLAR PROBLEMAS EN INGENIERÍA. SOLVER, REGRESION LINEAL MULTIPLE

3. Clasificación no supervisada

RELACIÓN DE PROBLEMAS DE CLASE DE PROGRAMACIÓN LINEAL ENTERA

Mercedes Granda Departamento de Electrónica y Computadores. Las propiedades de las redes de Petri nos permiten

OPTIMIZACIÓN Y SIMULACIÓN PARA LA EMPRESA. Tema 4 Optimización no Lineal

Matemáticas I Grado de Administración y Dirección de Empresas Examen de Febrero Curso 2011/ ?

Grafos y Redes. 3. Resolución: Dibujar el camino sin levantar el lápiz y pasando sólo una vez por cada arco o arista.

Complejidad computacional (Análisis de Algoritmos)

Transcripción:

Tema 8: Redes Neuronales Pedro Larrañaga, Iñaki Inza, Abdelmalik Moujahid Intelligent Systems Group Departamento de Ciencias de la Computación e Inteligencia Artificial Universidad del País Vasco http://www.sc.ehu.es/isg/ Tema 8: Redes Neuronales p. 1/4

Redes Neuronales Introducción Sistema Neuronal Artificial El Asociador Lineal El Perceptrón Simple La Adalina El Perceptrón Multicapa Tema 8: Redes Neuronales p. 2/4

Introducción Redes neuronales (artificiales) paradigma muy popular en Inteligencia Computacional En el tema se verán diferentes modelos para clasificación supervisada Alta capacidad de predecir correctamente la clase Baja transparencia Historia de las redes neuronales como el Ave Fenix Tema 8: Redes Neuronales p. 3/4

Sistema Neuronal Artificial Ramón y Cajal (1888): sistema nervioso compuesto de red de neuronas interconectadas entre si 100 10 6 neuronas en el cerebro. Procesadores de información Neurona: Cuerpo celular o soma (10 a 80 micras) Del soma surge un árbol de ramificaciones (árbol dendítrico) Del soma parte una fibra tubular (axón) (100 micras hasta el metro) El axón se ramifica en su extremo para conectarse con otras neuronas Tema 8: Redes Neuronales p. 4/4

Sistema Neuronal Artificial Neurona como procesador de información: Dendritas canal de entrada de información Soma como órgano de cómputo Axón como canal de salida. Recibe impulso de unas 10000 neuronas. Envia impulso a cientos de neuronas Algunas neuronas reciben información del exterior Tema 8: Redes Neuronales p. 5/4

Sistema Neuronal Artificial El cerebro: cualidades innatas + modelización: establecimiento de nuevas conexiones ruptura de conexiones modelado de las intensidades sinápticas (uniones entre neuronas) muerte o reproducción neuronal Tema 8: Redes Neuronales p. 6/4

Sistema Neuronal Artificial Tres conceptos clave a emular: Procesamiento paralelo Intervención de miles de millones de neuronas Memoria distribuida En un computador la información está en posiciones de memoria bien definidas En redes neuronales biológicas la información está distribuida por la sinapsis de la red Redundancia para evitar pérdida de información al resultar dañada una sinapsis Adaptabilidad al entorno Por medio de la información de las sinapsis Aprender de la experiencia Posible generalizar conceptos a partir de casos particulares Tema 8: Redes Neuronales p. 7/4

Sistema Neuronal Artificial El modelo estándard de neurona artificial Rumelhart y McClelland (1986) y McClelland y Rumelhart (1986) Sistema global de proceso de una red neuronal Tema 8: Redes Neuronales p. 8/4

Sistema Neuronal Artificial El modelo estándard de neurona artificial Rumelhart y McClelland (1986) y McClelland y Rumelhart (1986) Modelo de neurona artificial standard Tema 8: Redes Neuronales p. 9/4

Sistema Neuronal Artificial Conjunto de entradas X j y unos pesos sinápticos w ij, con j = 1,..., n Regla de propagación h i (x 1,..., x n, w i1,..., w in ) = n i=1 w ijx j θ i umbral, el cual se acostumbra a restar al potencial pos-sináptico h i (x 1,..., x n, w i1,..., w in ) = n w ij x j = j=0 n w ij x j θ i i=1 Una función de activación, la cual representa simultáneamente la salida de la neurona y su estado de activación n y i = f i (h i ) = f i ( w ij x j ) j=0 Tema 8: Redes Neuronales p. 10/4

Sistema Neuronal Artificial Ejemplos de funciones de activación Neuronas todo-nada n f i ( w ij x j θ i ) es una función escalonada j=1 y i = n 1 si w ij x j θ i 0 si j=1 n w ij x j < θ i j=1 Tema 8: Redes Neuronales p. 11/4

Sistema Neuronal Artificial Ejemplos de funciones de activación Neurona continua sigmoidea y i = 1 + e 1, con y i [0, 1] n w ij x j θ i j=1 y i = e e n w ij x j θ i j=1 n w ij x j θ i j=1 e + e n w ij x j θ i j=1, con y i [ 1, 1] n w ij x j θ i j=1 Tema 8: Redes Neuronales p. 12/4

Sistema Neuronal Artificial Arquitecturas de redes neuronales Arquitectura unidireccional con tres capas de neuronas: una capa de entrada, una capa oculta y una capa de salida Tema 8: Redes Neuronales p. 13/4

Sistema Neuronal Artificial Arquitecturas de redes neuronales Diferentes arquitecturas de redes neuronales Tema 8: Redes Neuronales p. 14/4

Sistema Neuronal Artificial Definición de una red neuronal artificial Grafo dirigido: (i) A cada nodo (neurona) i se le asocia una variable de estado X i (ii) A cada conexión (i, j) entre los nodos (neuronas) i y j se le asocia un peso w ij IR (iii) A cada nodo (neurona) i se le asocia un umbral θ i IR (iv) Para cada nodo i se define una función f i (x 1,..., x n, w i1,..., w in, θ i ) que depende de los pesos de sus conexiones, del umbral y de los estados de los nodos j que estén conectados con el nodo i. El valor de esta función proporciona el nuevo estado del nodo Tema 8: Redes Neuronales p. 15/4

El Asociador Lineal Arquitectura (izquierda) y función de activación (derecha) del asociador lineal Tema 8: Redes Neuronales p. 16/4

El Asociador Lineal Arquitectura (izquierda) y función de activación (derecha) del asociador lineal Tema 8: Redes Neuronales p. 17/4

El Asociador Lineal Unicamente dos capas de neuronas: Entradas x 1,..., x n Salidas y 1,..., y m W M(m, n) matriz de pesos sinápticos, con elementos w ij con i = 1,..., m y j = 1,..., n La operación efectuada por el asociador lineal es: y = (y 1,..., y m ) = W x = W (x 1,..., x n ) n o bien y i = w ij x j, con i = 1,..., m j=1 Potencial pos-sináptico por medio de la suma ponderada, posteriormente una función de activación identidad Tema 8: Redes Neuronales p. 18/4

El Asociador Lineal Aprender a asociar N pares entrada-salida D = {(x r, y r ), r = 1,..., N} ajustando la matriz de pesos W Ante entradas similares a x r responda con salidas similares a y r El problema radica en encontrar la matriz de pesos W óptima en el sentido anterior Regla de aprendizaje, que a partir de las entradas y de las salidas deseadas proporcione el conjunto óptimo de pesos W Tema 8: Redes Neuronales p. 19/4

El Asociador Lineal Aprendizaje Hebbiano (Hebb, 1949): cuando un axón presináptico causa la activación de cierta neurona pos-sináptica, la eficacia de la sinapsis que las relaciona se refuerza Aprendizaje es simple y local. Pionero en neurocomputación Modificación de pesos, w ij, proporcional al producto de una entrada x j y de una salida y i de la neurona w ij = εy i x j, donde a 0 < ε < 1 se le denomina ritmo de aprendizaje Para el ejemplo (x r, y r ) la regla de actualización de pesos es: w new ij = w old ij + w r ij con w r ij = εy r i x r j Tema 8: Redes Neuronales p. 20/4

El Asociador Lineal Deducir los algoritmos de aprendizaje a partir de un cierto criterio a optimizar Proponer un criterio que mida el rendimiento de la red neuronal para encontrar una regla de actualización de pesos que la optimice Error cuadrático medio de las salidas actuales de la red respecto de las deseadas 1 N N y r W x r = 1 N r=1 N r=1 m i=1 n (yi r W x r j) 2 j=1 El problema del aprendizaje de los pesos de la red neuronal se transforma en el de obtener un conjunto de pesos que minimicen la expresión anterior Tema 8: Redes Neuronales p. 21/4

El Asociador Lineal Error cuadrático medio: 1 N NX y r W x r = 1 N r=1 NX mx nx (yi r W xr j )2 r=1 i=1 j=1 X = (x 1,..., x N ), una matriz n N que tiene por columnas los vectores de entrada Y = (y 1,..., y N ) una matriz m N cuyas columnas son los vectores de salida Error cuadrático medio: 1 Y W X N La minimización de la expresión anterior cuando W = YX T Una regla de aprendizaje: W = YX +, donde X + denota la matriz pseudoinversa de X Tema 8: Redes Neuronales p. 22/4

El Perceptrón Simple El perceptrón (Rosenblatt, 1962) modelo unidireccional compuesto por dos capas de neuronas, una de entrada y otra de salida n neuronas de entrada y m neuronas de salida se puede expresar como: y i = f n w ij x j θ i j=1 con i = 1,..., m Neuronas de entrada son discretas Función de activación de las neuronas de la capa de salida es de tipo escalón Dispositivo entrenable: determinar automáticamente los pesos sinápticos que clasifican un conjunto de patrones etiquetados Tema 8: Redes Neuronales p. 23/4

El Perceptrón Simple Arquitectura (izquierda) y función de transferencia (derecha) de un perceptrón simple Tema 8: Redes Neuronales p. 24/4

El Perceptrón Simple El perceptrón simple tan sólo puede discriminar entre dos clases linealmente separables Ejemplo: x1 y x 2 dos neuronas de entrada, la operación efectuada por el perceptrón simple consiste en: y = 8 < : 1 si w 1 x 1 + w 2 x 2 θ 0 si w 1 x 1 + w 2 x 2 < θ Si consideramos x1 y x 2 situadas sobre los ejes de abcisas y ordenadas respectivamente, la condición w 1 x 1 + w 2 x 2 θ = 0 es equivalente a x 2 = w 1 w 2 x 1 + θ w 2 y representa una recta que define la región de decisión determinada por el perceptrón simple Minsky y Papert (1969) trabajo exponiendo las limitaciones del perceptrón simple, como consecuencia recursos de las redes neuronales a otros campos de la Inteligencia Artificial Tema 8: Redes Neuronales p. 25/4

El Perceptrón Simple Región de decisión correspondiente a un perceptrón simple con dos neuronas de entrada Tema 8: Redes Neuronales p. 26/4

El Perceptrón Simple Algoritmo de Aprendizaje (Rosenblatt, 1962) Pertenece al grupo de algoritmos fundamentados en la corrección de errores x r conjunto de patrones de entrada, r = 1,..., N c r conjunto de clases verdaderas de dichos patrones, r = 1,..., N Variables de entrada como las de salida toman dos posibles valores: 1 y +1 Tema 8: Redes Neuronales p. 27/4

El Perceptrón Simple Algoritmo de Aprendizaje (Rosenblatt, 1962) Actualización de pesos: Si ante la presentación del r-ésimo patrón la respuesta que proporciona el perceptrón simple es correcta, no actualizaremos los pesos Si la respuesta es incorrecta los pesos se modificarán según la regla de Hebb Es decir: w r ij(t) = 2εc i r x j r si y ir c i r 0 si y i r = c i r Tema 8: Redes Neuronales p. 28/4

El Perceptrón Simple Algoritmo de Aprendizaje (Rosenblatt, 1962) La regla anterior se puede reescribir: w r ij(t) = ε(c i r y i r )x j r La actualización de pesos únicamente podrá tomar los valores 2ε, 0 y +2ε A nivel práctico llegar a un compromiso para el valor del ritmo de aprendizaje, ε Valor pequeño de ε implica un aprendizaje lento Valor excesivamente grande de ε puede conducir a oscilaciones excesivas de los pesos no aconsejables en el proceso de entrenamiento Tema 8: Redes Neuronales p. 29/4

El Perceptrón Simple Algoritmo de Aprendizaje (Rosenblatt, 1962) El proceso de aprendizaje es iterativo Configuración sináptica inicial con pesos pequeños aleatorios Se presentan los patrones una y otra vez, con objeto de que los pesos se ajusten iterativamente según la regla anterior: w r ij(t) = ε(c i r y i r )x j r El ajuste de los pesos en la iteración t debido a todo el conjunto de aprendizaje será: w ij (t + 1) = w ij (t) + N w r ij (t) r=1 Hasta que todos los patrones queden bien clasificados si es posible Tema 8: Redes Neuronales p. 30/4

El Perceptrón Simple Algoritmo de Aprendizaje (Rosenblatt, 1962) Evolución de las regiones de decisión establecidas por el perceptrón simple Tema 8: Redes Neuronales p. 31/4

El Perceptrón Simple Algoritmo de Aprendizaje (Rosenblatt, 1962) Rosenblatt (1962) demostró que: Si la función a representar es linealmente separable, el algoritmo anterior siempre converge en un tiempo finito y con independencia de los pesos de partida Si la función a representar no es linealmente separable, el proceso de entrenamiento oscilará El algoritmo para cuando consigue clasificar correctamente todos los ejemplos Puede ocurrir que línea de discriminación quede muy cerca de las muestras de uno de los grupos Tema 8: Redes Neuronales p. 32/4

La Adalina ADAptative LInear Neuron (Adalina), Widrow y Hoff (1960) Entradas pueden ser continuas Neurona similar a la del perceptrón simple con función de activación lineal y i (t) = n w ij x j θ i j=1 con i = 1,..., m θ i, bias, parámetro que proporciona un grado de libertad adicional al modelo (no umbral de disparo) Tema 8: Redes Neuronales p. 33/4

La Adalina Neurona lineal de la Adalina Tema 8: Redes Neuronales p. 34/4

La Adalina Incorpora aspectos del asociador lineal y del perceptrón simple Diferencia en el aprendizaje Regla actualización de pesos LMS (least mean square) Adaptar los pesos de manera proporcional al error cometido Tema 8: Redes Neuronales p. 35/4

La Adalina Aprendizaje de los pesos como un problema de optimización de una determinada función de coste Método de optimización es el descenso por el gradiente del error actual cometido por la red neuronal Optimizador local en un espacio continuo E : IR (n m)+m IR 11,..., w 1n,..., w m1,..., w mn, θ 1,..., θ m ) E(w 11,..., w 1n,..., w m1,..., w mn, θ 1,..., θ m ) Tema 8: Redes Neuronales p. 36/4

La Adalina Superficie de error E(w) en el espacio de pesos (izquierda) y método de descenso por el gradiente (derecha) en el que se basa la regla de aprendizaje de la Adalina Tema 8: Redes Neuronales p. 37/4

La Adalina Descenso por el gradiente 1. Partir en t = 0 de una cierta configuración de peso w 0 2. Calcular la dirección de la máxima variación de la función E(w) en w 0, la cual vendrá dada por su gradiente en w 0 3. Modificar los parámetros w siguiendo el sentido opuesto al indicado por el gradiente de E(w) 4. Iterar los pasos 2 y 3 hasta alcanzar un óptimo local Tema 8: Redes Neuronales p. 38/4

La Adalina Función de coste a minimizar: E(w) = 1 P N P m 2 r=1 i=1 (cr i yr i )2 La función de error mide el error cuadrático correspondiente a las salidas actuales de la red respecto de los objetivos nx Teniendo en cuenta que y r i = w ij x r j θ i, se obtiene: j=1 E(w ij ) w ij «1 = 2 2 NX r=1 (c r i yr i ) dyr i dw ij = NX (c r i yr i ) xr j r=1 Regla de adaptación LMS: w ij = ε E(w ij) w ij NX = ε (c r i yr i ) xr j r=1 Adalina adaptaciones continuas de los pesos derivadas de la función de activación lineal Tema 8: Redes Neuronales p. 39/4

El Perceptrón Multicapa Perceptrón simple limitaciones, tan sólo discriminar patrones separados por un hiperplano Incluyendo capas ocultas superar dichas limitaciones Perceptrón multicapa MultiLayer Perceptron (MLP) Algoritmo de entrenamiento basado en la retropropagación del error Back Propagation (BP) (Werboz, 1974 y Rumelhart y col., 1986) Tema 8: Redes Neuronales p. 40/4

El Perceptrón Multicapa Arquitectura (izquierda) y función de activación (derecha) para el perceptrón multicapa Tema 8: Redes Neuronales p. 41/4

El Perceptrón Multicapa Arquitectura del perceptrón multicapa Tema 8: Redes Neuronales p. 42/4

El Perceptrón Multicapa Regiones de decisión obtenidas para el perceptrón simple (arriba), el perceptrón multicapa con una capa oculta (en medio) y el perceptrón multicapa cn dos capas ocultas (abajo) Tema 8: Redes Neuronales p. 43/4

El Perceptrón Multicapa x i con i = 1,... n neuronas de entrada de la red y j con j = 1,... o neuronas de la capa oculta z k con j = 1,... s neuronas de la capa final c k con j = 1,... s salidas objetivo (variable clase) w ij pesos conectando neuronas de entrada con neuronas de capa oculta θ j umbrales de las neuronas de la capa oculta w kj pesos conectando neuronas de capa oculta con neuronas de salida θ k umbrales de las neuronas de salida Tema 8: Redes Neuronales p. 44/4

El Perceptrón Multicapa MLP con una única capa oculta Función de activación para la capa oculta de tipo sigmoide Función de activación para la capa final de tipo lineal z k = o w kjy j θ k = o w kjf ( n w ji x i θ j ) θ k j=1 j=1 i=1 con k = 1,... s y f(x) función de tipo sigmoide Tema 8: Redes Neuronales p. 45/4

El Perceptrón Multicapa Retropropagación del error (Back Propagation (BP)) E(w, w, θ, θ ) = 1 N m 2 r=1 k=1 (cr k zr k )2 con zk r = o j=1 w kj yr j θ k = o j=1 w kj f ( n i=1 w jix r i θ j) θ k Minimización por descenso por el gradiente 2 N o w kj = ε c r k w kjy j r θ k yj r r=1 j=1 con r j = N w ji = ε r jx r i r=1 s o w kjy j r θ k w kj k=1 j=1 ( n ) f w ji x r i θ j i=1 ( n ) w ji x r i θ j i=1 Tema 8: Redes Neuronales p. 46/4

El Perceptrón Multicapa Algoritmo de aprendizaje(back Propagation (BP)) Paso 1. Establecer aleatoriamente los pesos y umbrales iniciales (t := 0) Paso 2. Para cada patrón r del conjunto de entrenamiento 2.1 Obtener la respuesta de la red frente al patrón r-ésimo 0 0 11 ox 2.2 Calcular las señales de error asociadas @c r k @ w kj yr j θ AA k y j=1! nx 0 0 1 1 f w ji x sx ox r i θ j @ @ w kj yr j θ A k w kj A i=1! nx k=1 j=1 w ji x r i θ j 2.3 Calcular el incremento parcial de los pesos y umbrales debidos al patrón r Paso 3. Calcular el incremento total actual, extendido a todos los patrones, de los pesos w kj y w ji. Hacer lo mismo con los umbrales Paso 4. Actualizar pesos y umbrales Paso 5. Calcular el error total Hacer t := t + 1 y volver al Paso 2 si todavía el error total no es satisfactorio i=1 Tema 8: Redes Neuronales p. 47/4

El Perceptrón Multicapa Implícito en el BP el concepto de propagación hacia atrás o c r k w kjy j r θ k señales de error en la salida de la red j=1 se usan para calcular w kj Estas señales de error se propagan hacia atrás, obteniéndose la señal de error en la capa oculta ( n ) f w s o ji x r i θ j w kjy j r θ k w kj ( i=1 n ) k=1 j=1 w ji x r i θ j i=1 Con esta señal de error se calcula w ji Tema 8: Redes Neuronales p. 48/4