Introducción. Reproducción

Documentos relacionados
Tema 1.3_A La media y la desviación estándar

Relaciones entre variables

DELTA MASTER FORMACIÓN UNIVERSITARIA C/ Gral. Ampudia, 16 Teléf.: MADRID

Métodos específicos de generación de diversas distribuciones discretas

Histogramas: Es un diagrama de barras pero los datos son siempre cuantitativos agrupados en clases o intervalos.

2.2 TASA INTERNA DE RETORNO (TIR). Flujo de Caja Netos en el Tiempo

Vectores VECTORES 1.- Magnitudes Escalares y Magnitudes Vectoriales. Las Magnitudes Escalares: Las Magnitudes Vectoriales:

Modelos dinámicos de formación de precios y colusión. Carlos S. Valquez IEF

Capitalización y descuento simple

IES Menéndez Tolosa (La Línea) Física y Química - 1º Bach - Gráficas

Material realizado por J. David Moreno y María Gutiérrez. Asignatura: Economía Financiera

REDES NEURALES. Modelo computacional para una neurona artificial: unidad de umbral binario.

TEMA 8: PRÉSTAMOS ÍNDICE

UNIVERSIDAD CARLOS III DE MADRID Ingeniería Informática Examen de Investigación Operativa 21 de enero de 2009

UNA FORMA GRÁFICA DE ENSEÑANZA: APLICACIÓN AL DUOPOLIO DE. Dpto. de Métodos Cuantitativos e Informáticos. Universidad Politécnica de Cartagena.

12-16 de Noviembre de Francisco Javier Burgos Fernández

Medidas de centralización

Simulación y Optimización de Procesos Químicos. Titulación: Ingeniería Química. 5º Curso Optimización.

Tutorial sobre Máquinas de Vectores Soporte (SVM)

Tema 4: Variables aleatorias

PRUEBAS DE ACCESO A LAS UNIVERSIDADES DE ANDALUCÍA PARA MAYORES DE 25 AÑOS MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES

ALN - SVD. Definición SVD. Definición SVD (Cont.) 29/05/2013. CeCal In. Co. Facultad de Ingeniería Universidad de la República.

GUIAS DE ACTIVIDADES Y TRABAJO PRACTICO Nº 22

Fugacidad. Mezcla de gases ideales

1. Lección 7 - Rentas - Valoración (Continuación)

Perturbación de los valores propios simples de matrices de polinomios dependientes diferenciablemente de parámetros

ACTIVIDADES INICIALES

REGRESION LINEAL SIMPLE

i=1 Demuestre que cumple los axiomas de norma. Calcule el límite Verifiquemos cada uno de los axiomas de la definición de norma: i=1

TEMA 6 AMPLIFICADORES OPERACIONALES

1. GENERALIDADES DEL ÁLGEBRA GEOMÉTRICA. Definición del álgebra geométrica del espacio-tiempo

EL AMPLIFICADOR OPERACIONAL.

Investigación y Técnicas de Mercado. Previsión de Ventas TÉCNICAS CUANTITATIVAS ELEMENTALES DE PREVISIÓN UNIVARIANTE. (IV): Ajustes de Tendencia

CESMA BUSINESS SCHOOL

Fisicoquímica CIBEX Guía de Trabajos Prácticos Trabajo Práctico N 7. - Medida de la Fuerza Electromotriz por el Método de Oposición-

CAPÍTULO 5 REGRESIÓN CON VARIABLES CUALITATIVAS

Reconocimiento de Imágenes Empleando Redes de Regresión General y la Técnica TVS

Econometría. Ayudantía # 01, Conceptos Generales, Modelo de Regresión. Profesor: Carlos R. Pitta 1

Matemáticas Financieras

UNIVERSIDAD DE GUADALAJARA, CUCEI DEPARTAMENTO DE ELECTRÓNICA LABORATORIO DE ELECTRÓNICA II

Aplicación de la termodinámica a las reacciones químicas Andrés Cedillo Departamento de Química Universidad Autónoma Metropolitana-Iztapalapa

PARÁMETROS DE UNA DISTRIBUCIÓN DE PROBABILIDAD DISCRETA Media aritmética: μ = x

8 MECANICA Y FLUIDOS: Calorimetría

Variable aleatoria: definiciones básicas

Algoritmo para la ubicación de un nodo por su representación binaria

Determinación de Puntos de Rocío y de Burbuja Parte 1

Smoothed Particle Hydrodynamics Animación Avanzada

PROPORCIONAR RESERVA ROTANTE PARA EFECTUAR LA REGULACIÓN PRIMARIA DE FRECUENCIA ( RPF)

Continua: Corriente cuyo valor es siempre constante (no varía con el tiempo). Se denota como c.c.

Leyes de tensión y de corriente

Guía de Electrodinámica

CÁLCULO DE INCERTIDUMBRE EN MEDIDAS FÍSICAS: MEDIDA DE UNA MASA

Correlación y regresión lineal simple

Apéndice A: Metodología para la evaluación del modelo de pronóstico meteorológico

Cifrado de imágenes usando autómatas celulares con memoria

Tasas de Caducidad. - Guía de Apoyo para la Construcción y Aplicación - Por: Act. Pedro Aguilar Beltrán. paguilar@cnsf.gob.mx

Comparación entre distintos Criterios de decisión (VAN, TIR y PRI) Por: Pablo Lledó

APLICACIÓN DEL ANALISIS INDUSTRIAL EN CARTERAS COLECTIVAS DE VALORES

REGRESION Y CORRELACION

FUNDAMENTOS QUIMICOS DE LA INGENIERIA

Resumen TEMA 1: Teoremas fundamentales de la dinámica y ecuaciones de Lagrange

Equilibrio termodinámico entre fases fluidas

OPERACIONES ARMONIZACION DE CRITERIOS EN CALCULO DE PRECIOS Y RENDIMIENTOS

ALINEAMIENTO DE DOS SECUENCIAS (pairwise alignment)

Prof. Antonio Santillana del Barrio y Ainhoa Herrarte Sánchez Universidad Autónoma de Madrid Curso

CARTAS DE CONTROL. Han sido difundidas exitosamente en varios países dentro de una amplia variedad de situaciones para el control del proceso.

PRUEBAS DE ACCESO A LA UNIVERSIDAD L.O.G.S.E

Créditos Y Sistemas de Amortización: Diferencias, Similitudes e Implicancias

1.- Una empresa se plantea una inversión cuyas características financieras son:

Introducción al riesgo de crédito

ANÁLISIS DE ACCESIBILIDAD E INTERACCIÓN ESPECIAL:

Dicha tabla adopta la forma del diagrama de árbol del dibujo. En éste, a cada uno de los sucesos A y A c se les ha asociado los sucesos B y B c.

Procesamiento Digital de Imágenes. Pablo Roncagliolo B. Nº 17

T. 9 El modelo de regresión lineal

Análisis de Regresión y Correlación

Clasificación Jerárquica de contenidos Web.

TÉCNICAS AUXILIARES DE LABORATORIO

v i CIRCUITOS ELÉCTRICOS (apuntes para el curso de Electrónica)


Programación entera, el método del árbol de cubos, su algoritmo paralelo y sus aplicaciones

FUNDAMENTOS DE DIRECCIÓN FINANCIERA TEMA 2- Parte III CONCEPTO DE INVERSIÓN Y CRITERIOS PARA SU VALORACIÓN

EXPERIMENTACIÓN COMERCIAL(I)

Diseño óptimo de un regulador de tensión en paralelo

RESISTENCIAS EN SERIE Y LEY DE LAS MALLAS V 1 V 2 V 3 A B C

Trabajo y Energía Cinética

Economía de la Empresa: Financiación

De factores fijos. Mixto. Con interacción Sin interacción. No equilibrado. Jerarquizado

Oferta de Trabajo Parte 2. Economía Laboral Julio J. Elías LIE - UCEMA

Explicación de las tecnologías - PowerShot SX500 IS y PowerShot SX160 IS

PROPUESTAS PARA LA DETERMINACIÓN DE LOS PARÁMETROS DEL GRÁFICO DE CONTROL MEWMA

MECÁNICA CLÁSICA MAESTRÍA EN CIENCIAS (FÍSICA) Curso de Primer Semestre - Otoño Omar De la Peña-Seaman. Instituto de Física (IFUAP)

YIELD MANAGEMENT APLICADO A LA GESTIÓN DE UN HOTEL

Pregunta Hoy está nublado, cuál es la probabilidad de que mañana continúe nublado? cuál es la probabilidad de que está nublado pasado mañana?

OSCILACIONES 1.- INTRODUCCIÓN

Convertidores Digital-Analógico y Analógico-Digital

Efectos fijos o aleatorios: test de especificación

TEMA 4 Variables aleatorias discretas Esperanza y varianza

Media es la suma de todas las observaciones dividida por el tamaño de la muestra.

CAPITULO 3.- ANÁLISIS CONJUNTO DE DOS VARIABLES. 3.1 Presentación de los datos. Tablas de doble entrada.

XII. Uso de la Estimación de la Distribución de Probabilidad para Muestras Pequeñas y de la Simulación en la Inferencia de Carteras de Seguros.

Transcripción:

Introduccón Muchos organsmos bológcos poseen sstemas muy sofstcados de reconocmento de patrones (RP). La sofstcacón de estos sstemas se debe a que ofrecen ventajas de tpo evolutvo. Supervvenca Reconocmento de almentos. Reconocmento de depredadores. Reproduccón Reconocmento de parejas. Reconocmento de la descendenca. Hpótess: La capacdad de los organsmos bológcos para el RP se debe a la estructura del cerebro. Reconocmento Neuronal de Patrones Intentar reproducr las capacdades bológcas de RP medante modelos cerebrales

El Cerebro: Cómo funcona? (1) Estructura del cerebro: El cerebro está compuesto de unas células denomnadas neuronas nterconectadas (Ramón y Cajal, 1911) Hay un gran número de neuronas e nterconexones entre ellas: El número de neuronas es del orden de 10 11 (del msmo orden que el número de estrellas en la Vía Láctea). Cada una tene del orden de 10 3 conexones. Son más lentas que los ordenadores: El tempo de un cclo en el ordenador es del orden de 10-9 segundos mentras que en las neuronas es del orden de 10-3. La velocdad de transmsón de la nformacón en las neuronas es de 2-120 m/seg. (10 6 veces más lento que un ordenador) El elevado número de neuronas compensa la lenttud del procesamento. En el sstema vsual humano las tareas de reconocmento llevan del orden de 0.1 a 0.2 segundos. Algo nalcanzable para los ordenadores actuales Cajal, S. R. (1911). Hstologe du Système Nerveux de l Homme et des Vertébrés, L. Azoulay, trans. Pars: Malone.

El Cerebro: Cómo funcona? (2) Estructura de una neurona: Las neuronas se componen de: Soma: cuerpo de la célula, contene el núcleo. Dendrtas:varas fbras de entrada Axón: una únca fbra de salda Snapss: unón del axón y la dendrta. Cada neurona forma snapss con otras 10 1-10 5 neuronas. Arborzacón Axonal Snapss Axón de otra neurona Dendrta Axón Núcleo Snapss Soma Estructura de una neurona

El Cerebro: Cómo funcona? (3) Operacones de las neuronas bológcas Una neurona recbe nformacón en forma de pulsos eléctrcos, los procesa y los envía a las neuronas vecnas. Los pulsos eléctrcos provenentes de otras neuronas vajan a través sus axones. Cuando los pulsos recbdos elevan lo sufcente el potencal eléctrco en una snapss se segregan neurotransmsores que provocan el cambo del potencal eléctrco de la dendrta. La snapss es la responsable del tpo de cambo de potencal (aumento o dsmnucón) así como de su magntud. Cada uno de los potencales generados en las dendrtas se dfunde en el soma. En el soma se suman los efectos de mles de estos potencales. S la suma excede un certo umbral la neurona genera un pulso a través de su axón haca otras neuronas Soma Axón Dendrta Snapss Conexones Neuronales Organzacón de las neuronas en el cortex vsual

El Cerebro: Cómo funcona? (4) Plastcdad Neuronal Se cree que las snapss son las prncpales responsables del aprendzaje. Las snapss del cerebro pueden crearse o modfcarse medante aprendzaje (plastcdad neuronal). En las prmeras etapas del desarrollo del cerebro humano el factor fundamental del aprendzaje es la creacón de nuevas snapss (En los prmeros dos años de vda se forman aproxmadamente 10 6 snapss por segundo). En un adulto el factor fundamental de aprendzaje es la modfcacón de las snapss exstentes (aunque sguen creándose nuevas conexones snáptcas entre las neuronas). Este proceso contnuo de readaptacón cerebral es el responsable de la toleranca a fallos (muerte de neuronas) del cerebro.

Redes Neuronales (RN) Las RN son un modelo (extremadamente) smplfcado del cerebro. El modelado ayuda a evtar los detalles no esencales Nos permte aplcar las herramentas matemátcas Proporcona la esperanza de que la comprensón de un modelo básco ayude en el estudo de un modelo más complejo. Se sabe que los modelos de RN actuales no son correctos (por ejemplo se trabaja con señales contnuas y no con pulsos). Una RN está compuesta por una gran cantdad de nodos smples (neuronas) nterconectados y que operan en paralelo. Una Red Neuronal (RN) se caracterza por: Nodos: característcas y propedades. Arqutectura: la forma de conexón de los nodos Pesos: fuerza de las conexones entre los nodos. Plastcdad: regla de modfcacón (aprendzaje) para los pesos

Modelos Neuronales: Undades (1) Funconamento de una undad: Recbe las entradas de otras neuronas multplcadas por los pesos. Combna las entradas medante una funcón de combnacón Esta combnacón se pasa a una funcón de actvacón que calcula la actvacón de la undad. Esta actvacón se envía a las undades a las que se conecta. Analogías: Neurona: Undad Dendrta: Conexones Cuerpo: Funcón de Combnacón, Funcón de actvacón. Axón: Conexón a otras neuronas Pulso: Salda de la neurona Snapss: Pesos de la conexón Pesos Neurona bológca y neurona formal Funcón de Funcón de Combnacón Actvacón

Modelos Neuronales: Undades (2) Funcón de combnacón: Suele ser la suma de las entradas Funcón de actvacón t : Las más utlzadas son: Umbral + 1 t( x) = 1 x x 0 < 0 Tang. Hperbólc a e t( x) = e x x e + e -x -x Logístca 1 t( x) = 1+ exp( x) Lneal ( x ) = t Funcones de Actvacón x

Modelos Neuronales:Arqutecturas Se pueden encontrar dos tpos fundamentales de arqutecturas Redes con Propagacón haca delante Las undades se dvden en: Undades de entrada: Recben los datos del entorno Undades de salda: Devuelven los resultados de la red al entorno Undades ocultas: Sn relacón drecta con el entorno No se permten cclos en las conexones entre las undades Las undades suelen estar dspuestas en capas. Las undades de cada capa recben nformacón de la capa anteror y la envían a la sguente. Redes Recurrentes Se permten cclos en las conexones. Las propedades dnámcas (convergenca) son mportantes. Son más realstas desde el punto de vsta bológco. Entrada Salda Salda Entrada Red con Propagacón haca delante Red recurrente

Modelos Neuronales: Aprendzaje A dferenca del ordenador las RN no se programan para realzar las tareas requerdas. El aprendzaje se lleva a cabo medante la modfcacón de los pesos de las conexones. El aprendzaje en las RN puede ser: Supervsado: Se muestra a la red los datos de entrada y las saldas deseadas. El objetvo es que la red genere las saldas deseadas para los datos de entrada No Supervsado: Se entrena a la red para que encuentre agrupacones en los datos de entrada Se pueden encontrar dversos métodos para realzar el aprendzaje en RN: Supervsado: Regla de Hebb, Retropropagacón, etc. No Supervsado: Regla de Kohonen, Cuantzacón Vectoral, etc.

El Perceptrón (1) Desarrollado por Rosenblatt (1962) Modelo Neuronal: Undades: Funcón de combnacón:suma + 1 t( h) = 1 h 0 h < 0 Funcón de actvacón τ: de tpo umbral Este tpo de undad fue el prmer modelo formal de neurona (McCulloch y Ptts, 1944) Arqutectura: Red de propagacón haca delante con dos capas. x 0 =1 x 1 w 0 w 1 h = d = 0 w x z= τ (h) z w d x d Representacón de un perceptrón

El Perceptrón (2) De forma matemátca: T ( w x), d 1 t 0 z( x) = t = = w j x j t t ( h) j = 0 1 t < 0 La salda del perceptrón se obtene multplcando las entradas por los pesos y devolvendo +1 s el resultado es postvo o nulo y 1 s es negatvo. Clasfcacón con el Perceptrón. Dado un vector de característcas x s la salda del perceptrón z(x) es postva o nula se asgna a la prmera clase s es negatva a la segunda. El Perceptrón no es más que un caso especal de funcón dscrmnante lneal. Representacón gráfca w 0 w 1 w d... x 0 =1 x 1 x d Por tanto, las fronteras de decsón que genera son lneales.

Entrenamento del Perceptrón (1) El entrenamento del Perceptrón dfere de las FDL usuales. La razón es debda a que el método del gradente no se puede aplcar de forma drecta porque la funcón de transferenca (umbral) no es dferencable. El entrenamento del Perceptrón se realza calculando el mínmo de una funcón de error. Representaremos el sgno deseado para cada elemento del conjunto de entrenamento como: y = 1 s x w 1, y = -1 s x w 2 Para que todo el conjunto de entrenamento esté ben clasfcado es necesaro que el sgno deseado y el obtendo z(x ) concdan. Se defne entonces la funcón de error: E P n ( w) = d w x = 1 T x y d d es la muestra de H es el sgno deseado del perceptrón para x es ladferenca entre lasalda deseada y = y z( x ) : y 1 = 1 y la obtenda x x z( x w w ) : 1 2

Entrenamento del Perceptrón (2) Qué mde la funcón de error? Cada uno de los térmnos de la suma es: -δ w T x S la salda deseada y la obtenda concden el sumando es nulo. S la salda deseada y la obtenda no son guales el sumando anteror vale: -2y w T x. Ya vmos en el tema anteror s un elemento está mal clasfcado entonces y w T x <0. Por tanto cada térmno mal clasfcado suma un valor postvo. Optmzacón E P (a) Se basa en aplcar el método del gradente a la nueva funcón de error. Entrenamento por época: ( r + 1) ( r ) w = w + r d x Entrenamento por muestra: ( r + 1) ( r ) w = w + r d x r r x 1 x 3 x2 - x3 x 1 - x 3 Optmzacón por el método del perceptrón

Convergenca del Algortmo del Perceptrón El algortmo converge en un número fnto de pasos sempre que: El conjunto de entrenamento sea lnealmente separables (en cuyo caso proporcona una solucón que los separa) La sucesón de parámetros de entrenamento ρ r sea constante ρ r =ρ o la sucesón de parámetros de entrenamento ρ r sea varable y cumpla: r r n 0, lm r =, lm r n r = 1 r n n r = 1 2 r < Un ejemplo de sucesón que cumple esas condcones es la: 1 = r r r

Perceptrón: Extensones El caso no separable lnealmente Se obtene la solucón con menor número de errores de clasfcacón con probabldad 1 medante el algortmo del bolsllo (Gallant 1990) Paso 0 Incalzar el vector de pesos w 0 aleatoramente. Guardar un vector ncal de pesos w opt y un contador c opt Paso 1 Calcular el vector de pesos w (r) con la regla del perceptrón y comprobar el número c de elementos que están clasfcados correctamente Paso 2 S c>c opt reemplazar w opt con w (r) y c opt con c. Ir al paso 1 Caso multclase: Medante la construccón de Kesler. Otras funcones de actvacón t Con τ lneal se obtene el modelo de regresón lneal (Tema 4) Con τ logístca se obtene el modelo de regresón logístca (Tema 4) Caso no lneal Colocar varas capas de neuronas para obtener un clasfcador no lneal

Perceptrón Multcapa Un Perceptrón es un tpo de Funcón Dscrmnante Lneal Por tanto genera fronteras de decsón lneales Para problemas de clasfcacón más complejos se necesta un clasfcador capaz de generar fronteras de decsón no lneales. Solucón: Colocar varas capas de neuronas. Así se obtene el denomnado Perceptrón Multcapa. Capa de Salda Capa Oculta Capa de Entrada Perceptrón multcapa

Capacdad de Representacón Un Perceptrón Multcapa (PMC) con funcón de actvacón de tpo umbral: Con una capa genera regones de decsón conexas cuya frontera de decsón es lneal. Con dos capas puede generar regones de decsón conexas cuyas fronteras son lneales. Con tres capas genera regones de decsón arbtraras. Perceptrón multcapa y regones de decsón Un PMC con funcón de actvacón sgmodal (logístca, tangente hperbólca): Con dos capas puede aproxmar cualquer funcón contnua (y por tanto cualquer frontera contnua) con precsón arbtrara con un número sufcentemente grande de nodos en la capa oculta.

PMC: Ejemplo Un perceptrón de 2 capas que resuelve el problema del XOR x 2 z 2 1 1 z -1/2 1-1 0 0 1 x 1 0 0 1 z 1 1-1/2-3/2 1 1 1 1 Transformacón de las entradas x 0 =1 x 2 x 1 Perceptrón de dos capas con funcón de actvacón de tpo umbral τ(x)=1, x 0 ; τ(x)=0, x<0 x 2 1 z 2 1 0 0 1/2 1 x 1 0 1/2 0 1 Representacón gráfca de las regones de decsón (que no son acotadas) z 1

PMC y FDL generalzadas Smltudes En prncpo puede parecer que un PMC es un caso especal de una FDL generalzada donde las capas anterores a la últma generan los valores de las funcones φ. z z -1/2 1-1 1-1/2-3/2 1 1 1 1 φ 0 (x 0,x 1,x 2 ) = 1 φ 1 (x 0,x 1,x 2 ) = τ(x 1 +x 2 - x 0 /2) φ 2 (x 0,x 1,x 2 ) = τ(x 1 +x 2-3x 0 /2) -1/2 1-1 τ(x)=1, x 0 τ(x)=0, x<0 1-1/2-3/2 1 1 1 1 x 0 =1 x 2 x 1 x 0 =1 x 2 x 1 Dferencas En las FDL generalzadas las funcones φ no varían con el proceso de aprendzaje. En el PMC las funcones φ se adaptan a los datos proporconando su transformacón óptma para la clasfcacón. Esto hace que en el PMC el error de aproxmacón decrezca mucho más rápdo que para funcones φ fjas como polnomos y otras.

Aprendzaje en el PMC Aprendzaje en el PMC La presenca de undades ocultas hace complejo el aprendzaje. El aprendzaje de los pesos de la capa oculta a la de salda es fácl. La capa oculta proporcona las característcas transformadas. El problema que queda es el aprendzaje de una funcón dscrmnante lneal El aprendzaje de los pesos de la capa de entrada a la oculta es dfícl. Estos pesos transforman los datos de entrada de forma óptma para clasfcarlos. El método más extenddo de aprendzaje en el PMC es el BackPropagaton o RetroPropagacón (RPR). Es un método de aprendzaje supervsado basado en el método del gradente que mnmza una funcón de error entre las saldas deseadas por la red y las saldas obtendas. Requere una funcón de actvacón dferencable.

Aprendzaje medante RPR Funcones de error más usuales: Regresón: Funcón de error: Error Cuadrátco Medo: E ECM n ( y z( x ; )) 1 ( w) = w 2 donde y es la salda deseada para x y z(x ;w) es la salda de la red para x con el conjunto de pesos w. Clasfcacón: Insprados en la regresón logístca se asume que la probabldad a posteror de la clase se escrbe como: P( w y se maxmza la verosmltud de los datos. O de forma equvalente se mnmza la entropía cruzada: n 1 x w1 EENT( w) = ( y lnz( x, w ) + (1 y )ln(1 z( x, w ))), y = = 1 0 x w2 = 1 1 x; w) = = t(-y 1+ exp(-y z( x; w )) L = p( H w ) = P( x, w) n k= 1 y k k z( x; w)), 2 y 1 = -1 para w para w 1 2

Algortmo RPR Esquema general: Entrenamento por época Paso 1 Para cada elemento del conjunto de entrenamento Paso 2 Calcular el ncremento en los pesos debdo a ese elemento» Propagar haca delante los datos» Propagar haca detrás los errores Actualzar los pesos añadendo los ncrementos debdo a cada uno de los elementos. Paso 3 Parar s se verfca una regla de parada (por ejemplo el ncremento de los pesos está por debajo de un umbral). En otro caso volver al paso 1. Entrenamento por muestra Se actualzan los pesos en cuanto se calcula el ncremento debdo a un elemento.

Algortmo RPR Cálculo del ncremento en los pesos debdo a un elemento del conjunto de entrenamento x con salda deseada y. Llamaremos e a la entrada de una neurona y s= τ(e) a su salda. Propagacón haca delante de los datos Obtener z=s salda la salda de la red para x con el conjunto actual de pesos w (r) Propagacón haca atrás de los errores Obtener el error de la neurona de salda: E ECM : δ salda =(y z) τ (e salda ) E ENT : δ salda =(y z ). (Utlzando como funcón de transferenca en la neurona de salda la sgmode logístca)» τ (e ntermeda, )= s ntermeda, (1- s ntermeda ) para la funcón logístca» τ (e ntermeda, )= 1- (s ntermeda ) 2 para la tangente hperbólca» τ (e ntermeda, )=1 para la funcón dentdad Para cada neurona ntermeda calcular su error como: δ ntermeda = δ salda w ntermeda,salda τ (e ntermeda ) donde w ntermeda,salda es el peso que une la neurona ntermeda con la de salda. El ncremento del peso de cada enlace debdo a x es el producto del parámetro de aprendzaje ρ r por el valor del δ de la neurona a la que apunta y por el valor de salda s de la neurona de la que parte.

Algortmo RPR:Ejemplo de teracón Problema del XOR. Funcón de transferenca logístca Propagacón haca delante Propagacón haca detrás z=0.44 0.44-0.26 δ=1-0.44=0.66 w=ρ 0.66 1 w=ρ 0.66 0.62 y=1 0.66 w=ρ 0.66 0.38-1/2 1-1 1 0.62 0.38 0.5-0.5 1 δ=0.66 (-1/2)=-0.33 δ=0.66 (-1) 0.38 0.62=-0.16 δ=0.66 1 0.62 0.38=0.16-0.33 0.16-0.16 w=ρ 0.16 1-1/2-3/2 1 1 1 1 1 1 0 x 1 x 0 =1 x 2 x 0 =1 x 1 x 2 w=ρ (-0.16) 0

El RPR como preprocesador óptmo Interpretacón de un PMC Ya se ha comentado que la últma capa de un PMC es una FDL y que las capas anterores se encargan de transformar el espaco orgnal de característcas. Interpretacón de las capas ntermedas en el PMC Buscan la transformacón óptma del espaco de característcas para pasársela a la FDL de la últma capa. z 2 Ejemplo En la fgura se muestra la evolucón de la transformacón de los datos (valores (0,0) de salda de la capa ntermeda) para el (0,1) problema del XOR para un PMC. (1,0) Para ello se muestran los valores de la (1,1) capa ntermeda para (0,0), (1,0), (0,1) y (1,1). Gráfco de: Rchard O. Duda, Peter E. Hart, and Davd G. Stork, Pattern Classfcaton. Copyrght (c) 2001 por John Wley & Sons, Inc. Aprendzaje del preprocesamento z 1

Extensones del RPR El algortmo anteror se puede extender: A más de dos clases Para ello se coloca una neurona en la capa de salda por clase. S e es la entrada a la neurona de la capa de salday s j = τ(e j ) a su salda. La funcón de transferenca de cada neurona para problemas de clasfcacón debe ser: La clase ganadora es aquella para la que se obtene el mayor valor de salda en su neurona correspondente. A más de una capa oculta A dstntas funcones de transferenca A un parámetros de entrenamento por peso

Aspectos Práctcos del RPR (1) Utlzar el entrenamento por muestra Suele converger mucho más rápdo Suele proporconar mejores solucones Aleatorzar el orden de presentacón de los patrones en el entrenamento por muestra. A este tpo de entrenamento se le llama estocástco Reescalar las entradas Hacer que las entradas tengan meda 0 y varanza 1 Número de capas Puesto que dos capas son sufcentes para representar cualquer funcón éste suele ser su número. Un número de mayor de capas puede utlzase para efectuar algún preprocesamento explícto. De forma empírca se observa que un mayor número de capas hace que el RPR sea más propenso a converger a óptmos locales.

Aspectos Práctcos del RPR (2) Incalzacón de los pesos Los valores ncales de los pesos suelen ponerse de forma aleatora y su magntud suele ser pequeña. Una regla utlzada es utlzar los rangos [ 1/ d,1 / d ] y [ 1/ M,1/ M ] para las conexones entrada-oculta y oculta-salda donde d es la dmensón de los datos y M el número de nodos en la capa oculta. Parámetro de aprendzaje Su valor determna la velocdad de convergenca. S es muy pequeño la convergenca es lenta mentras que s es muy grande el método del RPR no converge. Un valor típco es ρ = 0.1 Momentos Suelen acelerar el proceso de aprendzaje. Se basa en combnar el cambo en los pesos del RPR w RPR con los cambos anterores: w (r+1) =w (r) + (1-α) ( w RPR )+ α (w (r) - w (r-1) ) Un valor típco para α es 0.9

Aspectos Práctcos del RPR (3) Métodos de segundo orden Son métodos que aceleran la convergenca medante la utlzacón de la nformacón proporconada por la segunda dervada de la funcón de error E. Están basados en métodos de optmzacón que utlzan las segundas dervadas. Su prncpal nconvenente es el mayor costo computaconal. La mayor parte de los métodos sólo funconan para aprendzaje por lotes. Esto hace que no puedan aplcarse en la práctca para redes de gran tamaño o conjuntos de entrenamento con un número elevado de elementos. Número de neuronas en la capa oculta El número de neuronas en la capa oculta determna la complejdad del clasfcador. Un número muy grande provoca sobreajuste y un número muy pequeño provoca malos resultados en la clasfcacón. Una regla genérca es determnar los nodos a partr de un número de pesos gual a la décma parte del número de datos

Aspectos Práctcos del RPR (4) La complej Control de SobreajusteA dferenca del problema de optmzacón de la MVS La funcón a optmzar tene múltples óptmos La complejdad del algortmo de aprendzaje es exponencal

Sobreajuste y Generalzacón Complejdad del Clasfcador El PMC a dferenca de las FDL permte cambar su complejdad varando el número de neuronas en la capa oculta. Ajuste a los datos Un clasfcador más complejo reduce el error sobre el conjunto de entrenamento. No obstante el objetvo del clasfcador es clasfcar correctamente patrones nuevos. Sobreajuste Conjunto de entrenamento Cuando se realza el aprendzaje con Patrón nuevo un clasfcador demasado complejo, éste comenza a ajustarse el rudo Frontera de decsón presente en los datos de entrenamento. Se dce que se produce un sobreajuste. Conjunto de entrenamento Generalzacón Patrón nuevo El sobreajuste del clasfcador degrada su rendmento con datos nuevos. Se dce que perde capacdad de generalzacón Frontera de decsón Clasfcadores con dstntas complejdades

Control de Sobreajuste (CSA) (1) Entrenamento y Valdacón Se dvde el conjunto de entrenamento en dos subconjuntos de entrenamento H ENT y valdacón H VAL. El entrenamento se hace solamente sobre H ENT y una vez converja el RPR se comprueban los errores E ENT y E VAL sobre los conjuntos H ENT y H VAL. S el PMC es demasado complejo E VAL comenzará a crecer. Esto sgnfca que el PMC está aprendendo el rudo en H ENT y perdendo capacdad de generalzacón sobre H VAL. La complejdad óptma del PMC se obtene s los E VAL /N errores E ENT y E VAL se mantenen bajos tras la convergenca del RPR. E ENT /N Número total de pesos Nodos en capa oculta (M) Errores medos de entrenamento y valdacón para una red 2-M-1 entrenada con 180 muestras. Los valores óptmos de M son 4,5 Gráfco de: Rchard O. Duda, Peter E. Hart, and Davd G. Stork, Pattern Classfcaton. Copyrght (c) 2001 por John Wley & Sons, Inc.

Control de Sobreajuste (2) Parada temprana Otra forma de CSA está basado en utlzar una red demasado compleja de forma que E VAL comence a crecer a partr de un determnado número de épocas n * del RPR. Se elge entonces el conjunto de pesos correspondente a n * Regularzacón medante penalzacón Está basado en añadr a la funcón de error otro térmno E REG que penalce las solucones demasado complejas. Así por ejemplo podríamos tener: E= E ECM + λe REG con E REG =Σ (a p;kj ) 2, es decr la suma de los pesos de la red al cuadrado (salvo aquellos relaconados con entradas constantes a 1). La regla del RPR queda: a (r+1) =a (r) - ρ r E(a (r) )+ λ a (r) y recbe el nombre de reduccón de pesos. Daño Cerebral Óptmo e Intervencón Cerebral Óptma Están basados en elmnar los pesos que producen un menor ncremento del error tras la convergenca del RPR