Introduccón Muchos organsmos bológcos poseen sstemas muy sofstcados de reconocmento de patrones (RP). La sofstcacón de estos sstemas se debe a que ofrecen ventajas de tpo evolutvo. Supervvenca Reconocmento de almentos. Reconocmento de depredadores. Reproduccón Reconocmento de parejas. Reconocmento de la descendenca. Hpótess: La capacdad de los organsmos bológcos para el RP se debe a la estructura del cerebro. Reconocmento Neuronal de Patrones Intentar reproducr las capacdades bológcas de RP medante modelos cerebrales
El Cerebro: Cómo funcona? (1) Estructura del cerebro: El cerebro está compuesto de unas células denomnadas neuronas nterconectadas (Ramón y Cajal, 1911) Hay un gran número de neuronas e nterconexones entre ellas: El número de neuronas es del orden de 10 11 (del msmo orden que el número de estrellas en la Vía Láctea). Cada una tene del orden de 10 3 conexones. Son más lentas que los ordenadores: El tempo de un cclo en el ordenador es del orden de 10-9 segundos mentras que en las neuronas es del orden de 10-3. La velocdad de transmsón de la nformacón en las neuronas es de 2-120 m/seg. (10 6 veces más lento que un ordenador) El elevado número de neuronas compensa la lenttud del procesamento. En el sstema vsual humano las tareas de reconocmento llevan del orden de 0.1 a 0.2 segundos. Algo nalcanzable para los ordenadores actuales Cajal, S. R. (1911). Hstologe du Système Nerveux de l Homme et des Vertébrés, L. Azoulay, trans. Pars: Malone.
El Cerebro: Cómo funcona? (2) Estructura de una neurona: Las neuronas se componen de: Soma: cuerpo de la célula, contene el núcleo. Dendrtas:varas fbras de entrada Axón: una únca fbra de salda Snapss: unón del axón y la dendrta. Cada neurona forma snapss con otras 10 1-10 5 neuronas. Arborzacón Axonal Snapss Axón de otra neurona Dendrta Axón Núcleo Snapss Soma Estructura de una neurona
El Cerebro: Cómo funcona? (3) Operacones de las neuronas bológcas Una neurona recbe nformacón en forma de pulsos eléctrcos, los procesa y los envía a las neuronas vecnas. Los pulsos eléctrcos provenentes de otras neuronas vajan a través sus axones. Cuando los pulsos recbdos elevan lo sufcente el potencal eléctrco en una snapss se segregan neurotransmsores que provocan el cambo del potencal eléctrco de la dendrta. La snapss es la responsable del tpo de cambo de potencal (aumento o dsmnucón) así como de su magntud. Cada uno de los potencales generados en las dendrtas se dfunde en el soma. En el soma se suman los efectos de mles de estos potencales. S la suma excede un certo umbral la neurona genera un pulso a través de su axón haca otras neuronas Soma Axón Dendrta Snapss Conexones Neuronales Organzacón de las neuronas en el cortex vsual
El Cerebro: Cómo funcona? (4) Plastcdad Neuronal Se cree que las snapss son las prncpales responsables del aprendzaje. Las snapss del cerebro pueden crearse o modfcarse medante aprendzaje (plastcdad neuronal). En las prmeras etapas del desarrollo del cerebro humano el factor fundamental del aprendzaje es la creacón de nuevas snapss (En los prmeros dos años de vda se forman aproxmadamente 10 6 snapss por segundo). En un adulto el factor fundamental de aprendzaje es la modfcacón de las snapss exstentes (aunque sguen creándose nuevas conexones snáptcas entre las neuronas). Este proceso contnuo de readaptacón cerebral es el responsable de la toleranca a fallos (muerte de neuronas) del cerebro.
Redes Neuronales (RN) Las RN son un modelo (extremadamente) smplfcado del cerebro. El modelado ayuda a evtar los detalles no esencales Nos permte aplcar las herramentas matemátcas Proporcona la esperanza de que la comprensón de un modelo básco ayude en el estudo de un modelo más complejo. Se sabe que los modelos de RN actuales no son correctos (por ejemplo se trabaja con señales contnuas y no con pulsos). Una RN está compuesta por una gran cantdad de nodos smples (neuronas) nterconectados y que operan en paralelo. Una Red Neuronal (RN) se caracterza por: Nodos: característcas y propedades. Arqutectura: la forma de conexón de los nodos Pesos: fuerza de las conexones entre los nodos. Plastcdad: regla de modfcacón (aprendzaje) para los pesos
Modelos Neuronales: Undades (1) Funconamento de una undad: Recbe las entradas de otras neuronas multplcadas por los pesos. Combna las entradas medante una funcón de combnacón Esta combnacón se pasa a una funcón de actvacón que calcula la actvacón de la undad. Esta actvacón se envía a las undades a las que se conecta. Analogías: Neurona: Undad Dendrta: Conexones Cuerpo: Funcón de Combnacón, Funcón de actvacón. Axón: Conexón a otras neuronas Pulso: Salda de la neurona Snapss: Pesos de la conexón Pesos Neurona bológca y neurona formal Funcón de Funcón de Combnacón Actvacón
Modelos Neuronales: Undades (2) Funcón de combnacón: Suele ser la suma de las entradas Funcón de actvacón t : Las más utlzadas son: Umbral + 1 t( x) = 1 x x 0 < 0 Tang. Hperbólc a e t( x) = e x x e + e -x -x Logístca 1 t( x) = 1+ exp( x) Lneal ( x ) = t Funcones de Actvacón x
Modelos Neuronales:Arqutecturas Se pueden encontrar dos tpos fundamentales de arqutecturas Redes con Propagacón haca delante Las undades se dvden en: Undades de entrada: Recben los datos del entorno Undades de salda: Devuelven los resultados de la red al entorno Undades ocultas: Sn relacón drecta con el entorno No se permten cclos en las conexones entre las undades Las undades suelen estar dspuestas en capas. Las undades de cada capa recben nformacón de la capa anteror y la envían a la sguente. Redes Recurrentes Se permten cclos en las conexones. Las propedades dnámcas (convergenca) son mportantes. Son más realstas desde el punto de vsta bológco. Entrada Salda Salda Entrada Red con Propagacón haca delante Red recurrente
Modelos Neuronales: Aprendzaje A dferenca del ordenador las RN no se programan para realzar las tareas requerdas. El aprendzaje se lleva a cabo medante la modfcacón de los pesos de las conexones. El aprendzaje en las RN puede ser: Supervsado: Se muestra a la red los datos de entrada y las saldas deseadas. El objetvo es que la red genere las saldas deseadas para los datos de entrada No Supervsado: Se entrena a la red para que encuentre agrupacones en los datos de entrada Se pueden encontrar dversos métodos para realzar el aprendzaje en RN: Supervsado: Regla de Hebb, Retropropagacón, etc. No Supervsado: Regla de Kohonen, Cuantzacón Vectoral, etc.
El Perceptrón (1) Desarrollado por Rosenblatt (1962) Modelo Neuronal: Undades: Funcón de combnacón:suma + 1 t( h) = 1 h 0 h < 0 Funcón de actvacón τ: de tpo umbral Este tpo de undad fue el prmer modelo formal de neurona (McCulloch y Ptts, 1944) Arqutectura: Red de propagacón haca delante con dos capas. x 0 =1 x 1 w 0 w 1 h = d = 0 w x z= τ (h) z w d x d Representacón de un perceptrón
El Perceptrón (2) De forma matemátca: T ( w x), d 1 t 0 z( x) = t = = w j x j t t ( h) j = 0 1 t < 0 La salda del perceptrón se obtene multplcando las entradas por los pesos y devolvendo +1 s el resultado es postvo o nulo y 1 s es negatvo. Clasfcacón con el Perceptrón. Dado un vector de característcas x s la salda del perceptrón z(x) es postva o nula se asgna a la prmera clase s es negatva a la segunda. El Perceptrón no es más que un caso especal de funcón dscrmnante lneal. Representacón gráfca w 0 w 1 w d... x 0 =1 x 1 x d Por tanto, las fronteras de decsón que genera son lneales.
Entrenamento del Perceptrón (1) El entrenamento del Perceptrón dfere de las FDL usuales. La razón es debda a que el método del gradente no se puede aplcar de forma drecta porque la funcón de transferenca (umbral) no es dferencable. El entrenamento del Perceptrón se realza calculando el mínmo de una funcón de error. Representaremos el sgno deseado para cada elemento del conjunto de entrenamento como: y = 1 s x w 1, y = -1 s x w 2 Para que todo el conjunto de entrenamento esté ben clasfcado es necesaro que el sgno deseado y el obtendo z(x ) concdan. Se defne entonces la funcón de error: E P n ( w) = d w x = 1 T x y d d es la muestra de H es el sgno deseado del perceptrón para x es ladferenca entre lasalda deseada y = y z( x ) : y 1 = 1 y la obtenda x x z( x w w ) : 1 2
Entrenamento del Perceptrón (2) Qué mde la funcón de error? Cada uno de los térmnos de la suma es: -δ w T x S la salda deseada y la obtenda concden el sumando es nulo. S la salda deseada y la obtenda no son guales el sumando anteror vale: -2y w T x. Ya vmos en el tema anteror s un elemento está mal clasfcado entonces y w T x <0. Por tanto cada térmno mal clasfcado suma un valor postvo. Optmzacón E P (a) Se basa en aplcar el método del gradente a la nueva funcón de error. Entrenamento por época: ( r + 1) ( r ) w = w + r d x Entrenamento por muestra: ( r + 1) ( r ) w = w + r d x r r x 1 x 3 x2 - x3 x 1 - x 3 Optmzacón por el método del perceptrón
Convergenca del Algortmo del Perceptrón El algortmo converge en un número fnto de pasos sempre que: El conjunto de entrenamento sea lnealmente separables (en cuyo caso proporcona una solucón que los separa) La sucesón de parámetros de entrenamento ρ r sea constante ρ r =ρ o la sucesón de parámetros de entrenamento ρ r sea varable y cumpla: r r n 0, lm r =, lm r n r = 1 r n n r = 1 2 r < Un ejemplo de sucesón que cumple esas condcones es la: 1 = r r r
Perceptrón: Extensones El caso no separable lnealmente Se obtene la solucón con menor número de errores de clasfcacón con probabldad 1 medante el algortmo del bolsllo (Gallant 1990) Paso 0 Incalzar el vector de pesos w 0 aleatoramente. Guardar un vector ncal de pesos w opt y un contador c opt Paso 1 Calcular el vector de pesos w (r) con la regla del perceptrón y comprobar el número c de elementos que están clasfcados correctamente Paso 2 S c>c opt reemplazar w opt con w (r) y c opt con c. Ir al paso 1 Caso multclase: Medante la construccón de Kesler. Otras funcones de actvacón t Con τ lneal se obtene el modelo de regresón lneal (Tema 4) Con τ logístca se obtene el modelo de regresón logístca (Tema 4) Caso no lneal Colocar varas capas de neuronas para obtener un clasfcador no lneal
Perceptrón Multcapa Un Perceptrón es un tpo de Funcón Dscrmnante Lneal Por tanto genera fronteras de decsón lneales Para problemas de clasfcacón más complejos se necesta un clasfcador capaz de generar fronteras de decsón no lneales. Solucón: Colocar varas capas de neuronas. Así se obtene el denomnado Perceptrón Multcapa. Capa de Salda Capa Oculta Capa de Entrada Perceptrón multcapa
Capacdad de Representacón Un Perceptrón Multcapa (PMC) con funcón de actvacón de tpo umbral: Con una capa genera regones de decsón conexas cuya frontera de decsón es lneal. Con dos capas puede generar regones de decsón conexas cuyas fronteras son lneales. Con tres capas genera regones de decsón arbtraras. Perceptrón multcapa y regones de decsón Un PMC con funcón de actvacón sgmodal (logístca, tangente hperbólca): Con dos capas puede aproxmar cualquer funcón contnua (y por tanto cualquer frontera contnua) con precsón arbtrara con un número sufcentemente grande de nodos en la capa oculta.
PMC: Ejemplo Un perceptrón de 2 capas que resuelve el problema del XOR x 2 z 2 1 1 z -1/2 1-1 0 0 1 x 1 0 0 1 z 1 1-1/2-3/2 1 1 1 1 Transformacón de las entradas x 0 =1 x 2 x 1 Perceptrón de dos capas con funcón de actvacón de tpo umbral τ(x)=1, x 0 ; τ(x)=0, x<0 x 2 1 z 2 1 0 0 1/2 1 x 1 0 1/2 0 1 Representacón gráfca de las regones de decsón (que no son acotadas) z 1
PMC y FDL generalzadas Smltudes En prncpo puede parecer que un PMC es un caso especal de una FDL generalzada donde las capas anterores a la últma generan los valores de las funcones φ. z z -1/2 1-1 1-1/2-3/2 1 1 1 1 φ 0 (x 0,x 1,x 2 ) = 1 φ 1 (x 0,x 1,x 2 ) = τ(x 1 +x 2 - x 0 /2) φ 2 (x 0,x 1,x 2 ) = τ(x 1 +x 2-3x 0 /2) -1/2 1-1 τ(x)=1, x 0 τ(x)=0, x<0 1-1/2-3/2 1 1 1 1 x 0 =1 x 2 x 1 x 0 =1 x 2 x 1 Dferencas En las FDL generalzadas las funcones φ no varían con el proceso de aprendzaje. En el PMC las funcones φ se adaptan a los datos proporconando su transformacón óptma para la clasfcacón. Esto hace que en el PMC el error de aproxmacón decrezca mucho más rápdo que para funcones φ fjas como polnomos y otras.
Aprendzaje en el PMC Aprendzaje en el PMC La presenca de undades ocultas hace complejo el aprendzaje. El aprendzaje de los pesos de la capa oculta a la de salda es fácl. La capa oculta proporcona las característcas transformadas. El problema que queda es el aprendzaje de una funcón dscrmnante lneal El aprendzaje de los pesos de la capa de entrada a la oculta es dfícl. Estos pesos transforman los datos de entrada de forma óptma para clasfcarlos. El método más extenddo de aprendzaje en el PMC es el BackPropagaton o RetroPropagacón (RPR). Es un método de aprendzaje supervsado basado en el método del gradente que mnmza una funcón de error entre las saldas deseadas por la red y las saldas obtendas. Requere una funcón de actvacón dferencable.
Aprendzaje medante RPR Funcones de error más usuales: Regresón: Funcón de error: Error Cuadrátco Medo: E ECM n ( y z( x ; )) 1 ( w) = w 2 donde y es la salda deseada para x y z(x ;w) es la salda de la red para x con el conjunto de pesos w. Clasfcacón: Insprados en la regresón logístca se asume que la probabldad a posteror de la clase se escrbe como: P( w y se maxmza la verosmltud de los datos. O de forma equvalente se mnmza la entropía cruzada: n 1 x w1 EENT( w) = ( y lnz( x, w ) + (1 y )ln(1 z( x, w ))), y = = 1 0 x w2 = 1 1 x; w) = = t(-y 1+ exp(-y z( x; w )) L = p( H w ) = P( x, w) n k= 1 y k k z( x; w)), 2 y 1 = -1 para w para w 1 2
Algortmo RPR Esquema general: Entrenamento por época Paso 1 Para cada elemento del conjunto de entrenamento Paso 2 Calcular el ncremento en los pesos debdo a ese elemento» Propagar haca delante los datos» Propagar haca detrás los errores Actualzar los pesos añadendo los ncrementos debdo a cada uno de los elementos. Paso 3 Parar s se verfca una regla de parada (por ejemplo el ncremento de los pesos está por debajo de un umbral). En otro caso volver al paso 1. Entrenamento por muestra Se actualzan los pesos en cuanto se calcula el ncremento debdo a un elemento.
Algortmo RPR Cálculo del ncremento en los pesos debdo a un elemento del conjunto de entrenamento x con salda deseada y. Llamaremos e a la entrada de una neurona y s= τ(e) a su salda. Propagacón haca delante de los datos Obtener z=s salda la salda de la red para x con el conjunto actual de pesos w (r) Propagacón haca atrás de los errores Obtener el error de la neurona de salda: E ECM : δ salda =(y z) τ (e salda ) E ENT : δ salda =(y z ). (Utlzando como funcón de transferenca en la neurona de salda la sgmode logístca)» τ (e ntermeda, )= s ntermeda, (1- s ntermeda ) para la funcón logístca» τ (e ntermeda, )= 1- (s ntermeda ) 2 para la tangente hperbólca» τ (e ntermeda, )=1 para la funcón dentdad Para cada neurona ntermeda calcular su error como: δ ntermeda = δ salda w ntermeda,salda τ (e ntermeda ) donde w ntermeda,salda es el peso que une la neurona ntermeda con la de salda. El ncremento del peso de cada enlace debdo a x es el producto del parámetro de aprendzaje ρ r por el valor del δ de la neurona a la que apunta y por el valor de salda s de la neurona de la que parte.
Algortmo RPR:Ejemplo de teracón Problema del XOR. Funcón de transferenca logístca Propagacón haca delante Propagacón haca detrás z=0.44 0.44-0.26 δ=1-0.44=0.66 w=ρ 0.66 1 w=ρ 0.66 0.62 y=1 0.66 w=ρ 0.66 0.38-1/2 1-1 1 0.62 0.38 0.5-0.5 1 δ=0.66 (-1/2)=-0.33 δ=0.66 (-1) 0.38 0.62=-0.16 δ=0.66 1 0.62 0.38=0.16-0.33 0.16-0.16 w=ρ 0.16 1-1/2-3/2 1 1 1 1 1 1 0 x 1 x 0 =1 x 2 x 0 =1 x 1 x 2 w=ρ (-0.16) 0
El RPR como preprocesador óptmo Interpretacón de un PMC Ya se ha comentado que la últma capa de un PMC es una FDL y que las capas anterores se encargan de transformar el espaco orgnal de característcas. Interpretacón de las capas ntermedas en el PMC Buscan la transformacón óptma del espaco de característcas para pasársela a la FDL de la últma capa. z 2 Ejemplo En la fgura se muestra la evolucón de la transformacón de los datos (valores (0,0) de salda de la capa ntermeda) para el (0,1) problema del XOR para un PMC. (1,0) Para ello se muestran los valores de la (1,1) capa ntermeda para (0,0), (1,0), (0,1) y (1,1). Gráfco de: Rchard O. Duda, Peter E. Hart, and Davd G. Stork, Pattern Classfcaton. Copyrght (c) 2001 por John Wley & Sons, Inc. Aprendzaje del preprocesamento z 1
Extensones del RPR El algortmo anteror se puede extender: A más de dos clases Para ello se coloca una neurona en la capa de salda por clase. S e es la entrada a la neurona de la capa de salday s j = τ(e j ) a su salda. La funcón de transferenca de cada neurona para problemas de clasfcacón debe ser: La clase ganadora es aquella para la que se obtene el mayor valor de salda en su neurona correspondente. A más de una capa oculta A dstntas funcones de transferenca A un parámetros de entrenamento por peso
Aspectos Práctcos del RPR (1) Utlzar el entrenamento por muestra Suele converger mucho más rápdo Suele proporconar mejores solucones Aleatorzar el orden de presentacón de los patrones en el entrenamento por muestra. A este tpo de entrenamento se le llama estocástco Reescalar las entradas Hacer que las entradas tengan meda 0 y varanza 1 Número de capas Puesto que dos capas son sufcentes para representar cualquer funcón éste suele ser su número. Un número de mayor de capas puede utlzase para efectuar algún preprocesamento explícto. De forma empírca se observa que un mayor número de capas hace que el RPR sea más propenso a converger a óptmos locales.
Aspectos Práctcos del RPR (2) Incalzacón de los pesos Los valores ncales de los pesos suelen ponerse de forma aleatora y su magntud suele ser pequeña. Una regla utlzada es utlzar los rangos [ 1/ d,1 / d ] y [ 1/ M,1/ M ] para las conexones entrada-oculta y oculta-salda donde d es la dmensón de los datos y M el número de nodos en la capa oculta. Parámetro de aprendzaje Su valor determna la velocdad de convergenca. S es muy pequeño la convergenca es lenta mentras que s es muy grande el método del RPR no converge. Un valor típco es ρ = 0.1 Momentos Suelen acelerar el proceso de aprendzaje. Se basa en combnar el cambo en los pesos del RPR w RPR con los cambos anterores: w (r+1) =w (r) + (1-α) ( w RPR )+ α (w (r) - w (r-1) ) Un valor típco para α es 0.9
Aspectos Práctcos del RPR (3) Métodos de segundo orden Son métodos que aceleran la convergenca medante la utlzacón de la nformacón proporconada por la segunda dervada de la funcón de error E. Están basados en métodos de optmzacón que utlzan las segundas dervadas. Su prncpal nconvenente es el mayor costo computaconal. La mayor parte de los métodos sólo funconan para aprendzaje por lotes. Esto hace que no puedan aplcarse en la práctca para redes de gran tamaño o conjuntos de entrenamento con un número elevado de elementos. Número de neuronas en la capa oculta El número de neuronas en la capa oculta determna la complejdad del clasfcador. Un número muy grande provoca sobreajuste y un número muy pequeño provoca malos resultados en la clasfcacón. Una regla genérca es determnar los nodos a partr de un número de pesos gual a la décma parte del número de datos
Aspectos Práctcos del RPR (4) La complej Control de SobreajusteA dferenca del problema de optmzacón de la MVS La funcón a optmzar tene múltples óptmos La complejdad del algortmo de aprendzaje es exponencal
Sobreajuste y Generalzacón Complejdad del Clasfcador El PMC a dferenca de las FDL permte cambar su complejdad varando el número de neuronas en la capa oculta. Ajuste a los datos Un clasfcador más complejo reduce el error sobre el conjunto de entrenamento. No obstante el objetvo del clasfcador es clasfcar correctamente patrones nuevos. Sobreajuste Conjunto de entrenamento Cuando se realza el aprendzaje con Patrón nuevo un clasfcador demasado complejo, éste comenza a ajustarse el rudo Frontera de decsón presente en los datos de entrenamento. Se dce que se produce un sobreajuste. Conjunto de entrenamento Generalzacón Patrón nuevo El sobreajuste del clasfcador degrada su rendmento con datos nuevos. Se dce que perde capacdad de generalzacón Frontera de decsón Clasfcadores con dstntas complejdades
Control de Sobreajuste (CSA) (1) Entrenamento y Valdacón Se dvde el conjunto de entrenamento en dos subconjuntos de entrenamento H ENT y valdacón H VAL. El entrenamento se hace solamente sobre H ENT y una vez converja el RPR se comprueban los errores E ENT y E VAL sobre los conjuntos H ENT y H VAL. S el PMC es demasado complejo E VAL comenzará a crecer. Esto sgnfca que el PMC está aprendendo el rudo en H ENT y perdendo capacdad de generalzacón sobre H VAL. La complejdad óptma del PMC se obtene s los E VAL /N errores E ENT y E VAL se mantenen bajos tras la convergenca del RPR. E ENT /N Número total de pesos Nodos en capa oculta (M) Errores medos de entrenamento y valdacón para una red 2-M-1 entrenada con 180 muestras. Los valores óptmos de M son 4,5 Gráfco de: Rchard O. Duda, Peter E. Hart, and Davd G. Stork, Pattern Classfcaton. Copyrght (c) 2001 por John Wley & Sons, Inc.
Control de Sobreajuste (2) Parada temprana Otra forma de CSA está basado en utlzar una red demasado compleja de forma que E VAL comence a crecer a partr de un determnado número de épocas n * del RPR. Se elge entonces el conjunto de pesos correspondente a n * Regularzacón medante penalzacón Está basado en añadr a la funcón de error otro térmno E REG que penalce las solucones demasado complejas. Así por ejemplo podríamos tener: E= E ECM + λe REG con E REG =Σ (a p;kj ) 2, es decr la suma de los pesos de la red al cuadrado (salvo aquellos relaconados con entradas constantes a 1). La regla del RPR queda: a (r+1) =a (r) - ρ r E(a (r) )+ λ a (r) y recbe el nombre de reduccón de pesos. Daño Cerebral Óptmo e Intervencón Cerebral Óptma Están basados en elmnar los pesos que producen un menor ncremento del error tras la convergenca del RPR