REDES NEURALES REFERENCIAS 1943. McCULLOCH Y PITTS. ( A Logcal Calculus of Ideas Immanent n Neurous Actvty ). 1960. ROSENBLATT. El Perceptron. 1982. HOPFIELD. Enfoque energétco. Algortmo de aprendzae de propagacón haca atrás para perceptrones multcapa. WERBOS. RUMELHART Y McCLELLAND. PDP. McCULLOCH Y PITTS Modelo computaconal para una neurona artfcal: undad de umbral bnaro. Modelo de Neurona Artfcal de McCulloch y Ptts Departamento de Lógca y Flosofía de la Cenca. Carlos Muñoz Gutérrez 1
Esta Neurona computa una suma ponderada de sus n señales de entrada, x, = 1, 2,...,n, y genera un resultado de 1 s esta suma supera un certo umbral u. 0 en otro caso. y n = θ ( x = 1 u) Donde: θ(.) es una funcón de paso de undad en 0, y es el peso de la snapss asocado con la -ava entrada. Por smplcdad podemos consderar el umbral u como otro peso 0 = -u asocado a la neurona con un nput constante x 0 =1. Pesos postvos corresponden a snapss exctadoras, mentras que los negatvos a nhbdoras. La Neurona de McCulloch y Ptts se ha generalzado de muchas maneras. En general, usando dstntas funcones de actvacón, sgmodes, gaussanas. etc. Dstntas Funcones de Actvacón: (a) umbral (b) Lneal (c) sgmode (d) Gaussana Departamento de Lógca y Flosofía de la Cenca. Carlos Muñoz Gutérrez 2
ARQUITECTURAS DE RED Una Red de Neuronas Artfcal puede consderarse como un grafo drgdo ponderado en el que neuronas artfcales son nodos y las hoas drgdas y ponderadas son conexones entre saldas y entradas de neuronas. Dependendo del patrón de conexón pueden dvdrse en: Redes de Propagacón haca delante (feedforard): en las que los grafos no tenen bucles. Recurrentes o de Retroalmentacón (feedback), en las cuales los bucles ocurren debdo a conexones de retroalmentacón Clasfcacón de los tpos de redes Departamento de Lógca y Flosofía de la Cenca. Carlos Muñoz Gutérrez 3
REDES DE PROPAGACIÓN HACIA DELANTE Son estátcas. Producen sólo un conunto de valores como resultado, meor que una secuenca de valores a partr de un nput dado. Sn memora: en el sentdo en que su respuesta a un nput es ndependente del estado prevo de la red. PERCEPTRON Consste en una neurona con pesos austables, = 1,2,...,n y un umbral u. Dado un vector de entrada x=(x 1,x 2,...x n ) t el nput a la neurona es v n = =1 x u La salda y es +1 s v>0 y 0 en otro caso. En un problema de clasfcacón en dos clases, el perceptrón asgna un patrón de entrada a una clase s y=1 y a la otra s y=0. La ecuacón n = 1 x u = 0 líneal defne el límte de decsón (un hpercubo en el espaco n-dmensonal de entrada) que dvde por la mtad el espaco. Departamento de Lógca y Flosofía de la Cenca. Carlos Muñoz Gutérrez 4
ALGORITMO DE APRENDIZAJE DEL PERCEPTRON (1) Incalzar los pesos y el umbral a un número pequeño aleatoro. (2) Presentar un vector patrón (x 1, x 2,..., x n ) t y evaluar el resultado de la neurona. (3) Modfcar los pesos de acuerdo con: (t+1) = (t) +η(d-y) x donde d es el output deseado, t es el número de teracón y η(0.0 < η < 1.0) es el aumento (el tamaño del paso) PERCEPTRÓN MULTICAPA Un estandard red L-capa feedforard consste en una capa de entrada, L-1 capas ocultas y una capa resultante de undades sucesvamente conectadas (global o localmente) haca delante sn conexones entre undades de la msma capa y sn retroalmentacón entre capas. Red de propagacón haca delante de tres capas Denotamos (l) como el peso de la conexón entre la -ava undad en la capa L-1 y la -ava undad en la capa L. Departamento de Lógca y Flosofía de la Cenca. Carlos Muñoz Gutérrez 5
Sea { (x (1), d (1) ), (x (2), d (2) ),..., (x (p), d (p) )} un conunto de p patrones de entrenamento (pares nput-output), donde x () R n es el vector de entrada en el espaco patrón n-dmensonal, y d () [0,1] m, un hpercubo m-dmensonal, m es el número de clases. La funcón de coste errorcuadrado más frecuentemente usada es: E = 1 2 p = 1 y ( ) d ( ) 2 Cada undad computaconal emplea o la funcón umbral o la funcón sgmode. Pueden formar límtes de decsón compleos arbtraramente y representar cualquer funcón booleana. RED DE FUNCIÓN DE BASE RADICAL (RBF) Tene Dos capas Es una clase espacal de red multcapa haca delante Cada undad en las capas ocultas emplea una funcón de base radal, tal como un kernel gaussana, como funcón de actvacón. La funcón de Base Radal o funcón núcleo se centra en el punto especfcado por el vector de peso asocado con la undad. Tanto las poscones como las Departamento de Lógca y Flosofía de la Cenca. Carlos Muñoz Gutérrez 6
anchuras de estos núcleos deben aprenderse por patrones de entrenamento. Cada undad resultante mplementa una combnacón lneal de estas funcones de base radal. Hay dversos algortmos para redes RBF Estratega de aprendzae en dos pasos o aprendzae híbrdo. (1) Estma poscones y anchuras centrales usando un algortmo de agrupamento no supervsado (2) Se usa un algortmo supervsado de cuadrado medo mínmo (CMS) para determnar los pesos de las conexones entre capas ocultas y capa de salda. (3) Una vez que se obtene esta solucón, un algortmo supervsado basado en el gradente se usa para refnar los parámetros de la red. Este algortmo híbrdo cnverge más rápdamente que el de propagacón haca atrás, pero las redes RBF exgen muchas capas ocultas lo que ralentza las eecucones cuando ya se ha establzado la red. Departamento de Lógca y Flosofía de la Cenca. Carlos Muñoz Gutérrez 7
Al dseñar una red de propagacón haca delante hay que tener en cuenta: Cuántas capas necestamos para la tarea a realzar. Cuántas undades por capa. Cómo se comportará la red con datos no ncludos en el conunto de entrenamento. Qué tamaño exge el conunto de entrenamento para una buena generalzacón. REDES RECURRENTES O DE RETROALIMENTACIÓN MAPAS AUTOORGANIZATIVOS DE KOHONEN Los Mapas Auto-organzatvos (SOM) preservan la topología. En proyeccones que preservan la topología patrones de entrada cercanos actvarán undades de salda cercanas en el mapa. Un SOM de Kohonen consste fundamentalmente en un array bdmensonal de undades, cada una conectada a todos lo n nodos de entrada. Sea el vector n-dmensonal asocado con la undad localzada en (,) del array 2D. Cada neurona computa la dstanca eucldana entre el vector de entrada x y el peso almacenado en el vector. Este SOM es un tpo especal de red de aprendzae compettvo, que defne una vecndad espacal para cada Departamento de Lógca y Flosofía de la Cenca. Carlos Muñoz Gutérrez 8
undad de salda. la forma de la vecndad local puede ser cuadrada, rectangular o crcular. El tamaño de la red ncal suele farse a ½ o a 2/3 del tamaño de la red y reducrla posterormente de acuerdo con un plan (por eemplo, una funcón exponencal decrecente). Departamento de Lógca y Flosofía de la Cenca. Carlos Muñoz Gutérrez 9
ALGORITMO DE APRENDIZAJE SOM (1) Incalzar los pesos a números pequeños aleatoros; far la rato de aprendzae y de vecndad ncal. (2) Presentar un patrón x, y evaluar resultados (3) Selecconar la undad (c,c ) con el resultado mínmo: x cc = mn x (4) Modfcar todos los pesos de acuerdo con la sguente regla de aprendzae (t) + α(t)[x(t)- (t)], s (,) N cc (t) (t+1)= (t) en otro caso donde N cc (t) es la vecndad de la undad (c,c ) en el tempo t, y α(t) es la rato de aprendzae. (5) Dsmnur el valor de α(t) y reducr la vecndad N cc (t). (6) Repetr de 2 a 5 hasta que el cambo en los valores de los pesos sea menor que el umbral preespecfcado o se alcance el número máxmo de teracones. Departamento de Lógca y Flosofía de la Cenca. Carlos Muñoz Gutérrez 10
MODELOS DE LA TEORÍA DE LA RESONANCIA ADAPTATIVA (MODELOS ART) Sobre el dlema establdad-plastcdad: Cómo podemos aprender nuevas cosas (plastcdad) asegurándonos la establdad de conservar el conocmento exstente? Los modelos ART (Carpenter y Grossberg ART1, ART2, ARTMap) ntentan soluconar este problema. La red tene un suplemento sufcente de undades de salda, pero no se usarán hasta que resulte necesaro. Una undad se dce que está comprometda (no-comprometda) s está (no está) sendo usada. El algortmo de aprendzae modfca los prototpos almacenados de una categoría sólo s el vector de entrada es lo sufcentemente smlar a ellos. (s son resonantes). La extensón de smlardad es controlada por un parámetro de vglanca, ρ, con 0 < ρ <1, que tambén determna el número de categorías. Cuando el vector de entrada no es lo sufcentemente smlar a algún prototpo exstente, se crea una nueva categoría y se asgna a una undad no-comprometda como prototpo ncal. S no hay una undad tal la entrada nueva no produce respuesta en la red. Departamento de Lógca y Flosofía de la Cenca. Carlos Muñoz Gutérrez 11
ART1 Capa (resultante) Compettva -N A 1 Capa (entrante) Comparatva -1 R 1 ρ x El gráfco lustra un ART1 smplfcado. Consta de dos capas de undades completamente conectadas. Un vector arrbaabao está asocado con la undad en la capa de entrada y un vector abao-arrba está asocado con la undad de salda ; = es la versón normalzada de, ε + donde ε es un número pequeño usado para romper empates en la seleccón de la undad ganadora. El vector arrba-abao almacena los prototpos. El papel de la normalzacóm es prevenr que prototpos de vectores grandes se dstancen de prototpos domnantes que tengan vectores pequeños. Dado un vector de entrada de n-bt x, el resultado de la undad auxlar A vene dado por: A = Sgn 0 / 1 ( x n o 0.5) Departamento de Lógca y Flosofía de la Cenca. Carlos Muñoz Gutérrez 12
donde Sgn es la funcón sgnum que produce +1 s x 0 y 0 en otro caso. Y la salda de una undad de entrada vene dado por: V = Sgn 0 /1 { x s x o + A 1.5) = x nngún O se actva ( x +, en otro caso O Se genera una señal R de rencalzacón sólo cuando la smlardad es menor que el nvel de vglanca. ALGORITMO DE APRENDIZAJE PARA ART1 (1) Incalzar = 1, para todo,. Actvar toda las undades de salda. (2) Presentar un nuevo patrón x (3) Encontrar la undad ganadora * entre las undades de salda actvadas * x x, para todo. * r = (4) Realzar el test de vglanca x x s r ρ (resonanca), r al paso 5. En otro caso, desactvar la undad * e r al paso 3 (hasta que todas las undades queden desactvadas). (5) Modfcar los pesos del vector ganador *, actvar todas las undades e r al paso 2 * V = η ( ) * ι Departamento de Lógca y Flosofía de la Cenca. Carlos Muñoz Gutérrez 13
(6) S todas las undades de salda están desactvadas, selecconar una de las undades de salda no comprometdas y far el peso del vector a x. S no exste, la capacdad de la red se ha alcanzado y se rechaza el patrón de entrada. RED DE HOPFIELD Dos versones: Bnara Contnuamente valorada. Sea v el estado o salda de la -esma undad. Para redes bnaras v es o +1 0 1. Para redes contínuas v puede ser cualquer valor entre 0 y 1. Sea el peso de las snapss en la conexón de las undades,. En las redes de Hopfeld, =, para todo,, y = 0, para todo. El comportamento dnámco para la red bnara es: V v ( θ = Sgn La modfcacón dnámca puede realzarse sncrónca o asncróncamente: ) Departamento de Lógca y Flosofía de la Cenca. Carlos Muñoz Gutérrez 14
- Sncróncamente: Todas las undades se modfcan smultáneamente en cada paso de tempo. Un relo central sncronza el proceso. - Asncróncamente: se seleccona una undad en cada momento y se modfca su estado. La funcón energía para la red bnara es un estado v=(v 1,v 2,..,v n ) vene dada por: E = 1 2 La propedad central de la funcón energía es que como el estado de la red evolucona de acuerdo con la dnámca de red, la energía de la red sempre decrece y eventualmente alcanza un punto mínmo local (atractor) donde la red permanece con energía constante. S un conunto de patrones se almacena en estos atractores puede usarse como memora asocatva. v v Departamento de Lógca y Flosofía de la Cenca. Carlos Muñoz Gutérrez 15
TABLA DE MODELO-APRENDIZAJE-TAREAS Paradgma Regla Arqutectura Algortmo de Aprendzae Tarea perceptrón smple o multcapa - aprendzae del perceptrón Clasfcacón de Patrones. Correccón de - Propagacón haca atrás Predccón de la aproxmacón errores - Adalne y Madalne de funcones y control Boltzmann Recurrente aprendzae de Boltzmann Clasfcacón de Patrones Multcapa de propagacón Análss Lneal dscrmnante Análss de Datos Supervsado Hebban haca delante Clasfcacón de Patrones Compettvo Cuantzacón del vector de Categorzacón en clases aprendzae Compresón de datos Compettvo Red ART ARTMap Clasfcacón de Patrones No Supervsado Híbrdo Correccón de errores Hebban Compettvo Correccón de errores y Compettvo Categorzacón en clases Análss de datos Multcapa de propagacón Proyeccón de Sammon haca delante De propagacón haca delante Análss de componente prncpal Análss de datos o compettvo Compresón de datos Red de Hopfeld Aprendzae de memora asocatva Memora asocatva Compettvo Cuantzacon de vector Categorzacón Compresón de datos SOM de Kohonen SOM de Kohonen Categorzacón Análss de datos Red ART ART1, ART2 Categorzacón Red RBF Algortmode aprendzae RBF Clasfcacón de patrones Predccón de la funcón de aproxmacón Control Departamento de Lógca y Flosofía de la Cenca. Carlos Muñoz Gutérrez 16
Aprendzae en APRENDIZAJE EN REDES DE NEURONAS El proceso de aprendzae de una red de neuronas puede verse como: El problema de modfcar la arqutectura de la red y los pesos de las conexones, de tal manera que la red pueda realzar efcentemente una tarea específca. La red debe usualmente aprender los pesos de las conexones a partr de patrones de entrenamento dsponbles. Se realza medante la modfcacón teratva de los pesos en la red. Para comprender o dseñar un proceso de aprendzae es necesaro: (1) Un paradgma de aprendzae: la nformacón dsponble a la red. (2) Reglas de aprendzae que gobernan el proceso de modfcacón de pesos. (3) Un algortmo de aprendzae. Departamento de Lógca y Flosofía de la Cenca. Carlos Muñoz Gutérrez 17
Aprendzae en PARADIGMAS DE APRENDIZAJE SUPERVISADO: A la red se le ofrece una respuesta correcta para cada patrón de entrada. Los pesos se austan para aproxmar la respuesta de la red a la respuesta correcta conocda. NO-SUPERVISADO: Se explora la estructura subyacente o correlacones entre patrones en los datos, y se organzan estos patrones en ctegorías a partr de las correlacones encontradas. HÍBRIDO: Combna los dos anterores. Parte de los pesos se determnan medante un proceso supervsado, mentras que el resto se obtenen medante un aprendzae no-supervsado. La teoría debe evaluar: La Capacdad: Cuántos patrones pueden almacenarse y qué funcones y límtes de decsón puede formar la red. La Compledad de muestra: Cuántos patrones de entrenamento son necesaros para entrenar a la red y que ésta garantce una generalzacón válda. La Compledad Computaconal: El tempo requerdo para que un algortmo de aprendzae estme una solucón a partr de los patrones de entrenamento. Departamento de Lógca y Flosofía de la Cenca. Carlos Muñoz Gutérrez 18
Aprendzae en REGLAS DE APRENDIZAJE REGLAS DE CORRECCIÓN DE ERRORES Para aprendzae Supervsado. Sea y el resultado generado por la red, sea d el resultado esperado. El prncpo básco de las reglas de error-correccón es la señal de error (d-y) Algortmo de propagacón haca atrás (1) Incalzar los peso a valores aleatoros pequeños. (2) Elegr aleatoramente un patrón de entrada x (µ) (3) Propagar la señal haca delante a través de la red (4) Computar en la capa δ L resultante ( = y o L ) δ L L = u g ' ( h ) y d L donde representa el nput a la red en la undad - h L ava en la l-ava capa y g es la dervada de la funcón de actvacón g. (5) Computar las deltas para las capas precedentes propagando los errores haca atrás. δ h L = + 1 δ + 1 g' ( ) para = (L 1),...,1. (6) Modfcar los pesos usando: Departamento de Lógca y Flosofía de la Cenca. Carlos Muñoz Gutérrez 19
Aprendzae en y 1 = η δ (7) Ir al paso 2 y repetr para el sguente patrón hasta que el error en la capa de salda esté por debao del umbral preespecfcado o se alcance un número máxmo de teracones. APRENDIZAJE DE BOLTZMANN Las máqunas de Boltzmann son redes recurrentes smétrcas que conssten en undades bnaras (+1 para on y 1 para off ). Por smetría entendemos que los pesos en la conexón entre la undad y la undad es gual al peso en la conexón entre la undad y la undad ( = ) Un subconunto de neuronas vsbles nteractúan con el entorno, el resto, las ocultas, no lo hacen. cada neurona es una undad estocástca que genera un resultado (o estado) de acuerdo con la dstrbucón de Boltzmann de la mecánca estadístca. Una máquna Boltzmann opera de dos modos: - Restrngdo: en donde las neuronas vsbles están restrngdas a estados específcos determnados por el entorno. - Lbres: Todas las neuronas (vsbles y ocultas) operan lbremente. Departamento de Lógca y Flosofía de la Cenca. Carlos Muñoz Gutérrez 20
Aprendzae en El obetvo del aprendzae de Boltzmann es austar los pesos de las conexones de tal forma que las undades vsbles satsfagan una dstrbucón de probabldad partcular deseada. De acuerdo con esto, el cambo en los pesos es dado por: = η ( ) ρ donde η es la rato de aprendzae ρ y ρ son las correlacones entre los estados de la undad y. Cuando la red opera en modo restrngdo o en modo lbre respectvamente. Los valores de ρ se estman habtualmente medante el método de Monte Carlo, que es muy lento. ρ REGLA DE HEBB Se funda en la observacón bológca de que s las neuronas de ambos lados de la snapss se actvan sncrónca y repetdamente, la fuerza de la snapss se ncrementa selectvamente. Matemátcamente, la regla de Hebb se expresa: (t + 1) = (t) + ηy (t) x (t) donde x e y son los valores resultados de la neurona y que están conectados en la snapss y η es la rato de aprendzae. Departamento de Lógca y Flosofía de la Cenca. Carlos Muñoz Gutérrez 21
Aprendzae en REGLAS DE APRENDIZAJE COMPETITIVO Aquí las undades de salda compten entre sí para su actvacón. De tal manera que sólo una undad de salda esta actva en un momento dado (nner-take-all). El aprendzae compettvo a menudo agrupa o categorza los datos de entrada. Patrones smlares son agrupados por la red y representados por una únca undad. El agrupamento se hace automátcamente medante correlacón de datos. La red más smple de aprendzae compettvo consste en una capa de undades de salda. Cada undad está conectada a todas las undades de entrada medante ponderacones. Cada undad de salda se conecta tambén a todas las demás medante ponderacón nhbtora, pero tene una autoretroalmentacón con un peso exctatoro. Como resultado de la competcón, solo la undad con el mayor (o menor) nput llega a ser la ganadora. * x x o * x x Una regla de aprendzae compettvo puede expresarse: u * * η ( x = = ), * 0, Medante esta regla sólo se modfcan los pesos de la undad ganadora. Con esta regla la red no deará de aprender hasta que la rato de aprendzae ηsea 0 Departamento de Lógca y Flosofía de la Cenca. Carlos Muñoz Gutérrez 22
Aprendzae en APLICACIONES OCR (Reconocedor Óptco de Caracteres) medante redes de Neuronas Departamento de Lógca y Flosofía de la Cenca. Carlos Muñoz Gutérrez 23
Aprendzae en Departamento de Lógca y Flosofía de la Cenca. Carlos Muñoz Gutérrez 24