3 Procesos de aprendizaje

Transcripción

1 3 Procesos de aprendizaje 3.1 Introducción Entre las muchas interesantes propiedades de una red neuronal, quizás la principal sea la habilidad de la red para aprender de su entorno, y mejorar su rendimiento a través del aprendizaje. Una red neuronal aprende de su entorno a través de un proceso iterativo de ajustes aplicados a sus pesos sinápticos y umbrales. Idealmente, la red se hace más capaz de conocer su entorno después de cada iteración del proceso de aprendizaje. Hay demasiadas nociones asociadas al término aprendizaje como para definir el término de una manera precisa. Sin embargo, en el contexto de redes neuronales, proponemos la siguiente definición de aprendizaje: El aprendizaje es un proceso por el que los parámetros libres de una red neuronal son adaptados mediante un proceso continuo de estimulación llevado a cabo por el entorno en que se encuentra la red. El tipo de aprendizaje se determina por la manera en la que estos parámetros se ajustan. Esta definición del proceso de aprendizaje implica la siguiente secuencia de eventos: 1. La red neuronal es estimulada por un entorno. 2. La red neuronal lleva a cabo cambios como respuesta a esta estimulación. 3. La red neuronal responde de una nueva forma al entorno debido a los cambios ocurridos en su estructura interna. Fijándonos en la figura (2.7), podemos ver que v k, conocido como actividad interna de la neurona, depende de la señal de entrada x j a través del peso sináptico w kj. El valor de este peso sináptico variará con el tiempo de la siguiente forma: w kj (n +1) = w kj (n) + w kj (n) (3.1) Se llama algoritmo de aprendizaje a un conjunto de reglas bien definidas para la solución de un problema de aprendizaje. Como uno podría esperar, no hay sólo un único algoritmo de aprendizaje para el diseño de redes neuronales, sino que tenemos un paquete de herramientas representado por una variedad de algoritmos de aprendizaje, cada uno de los cuales proporciona sus propias ventajas. Básicamente, estos algoritmos de aprendizaje se diferencian en la forma en la que el ajuste de w kj al peso sináptico w kj es formulado. Otro factor a ser considerado es la manera en la que una red neuronal se relaciona con su entorno. 1

2 (v j) (v k) w kj v j x j y k Neurona j Neurona k Figura 3.1 Actividad interna de la neurona k 3.2 Algoritmos de aprendizaje Aprendizaje por corrección de error Denotamos como d k (n) a la respuesta deseada para la neurona k en el instante de tiempo n, y como y k (n) a la respuesta real de esta neurona. La respuesta y k (n) es producida por un estímulo x(n) aplicado a la entrada de la red en la que se incluye la neurona k. El vector de entrada x(n) y la respuesta deseada d k (n) para la neurona k constituyen un ejemplo particular presentado a la red en el instante n. Se asume que este ejemplo y todos los demás ejemplos presentados a la red son generados por un entorno probabilístico por naturaleza, siendo desconocida la distribución de probabilidad. Típicamente, la respuesta real y k (n) de la neurona k es diferente de la respuesta deseada d k (n). Para medir esta diferencia, definimos una señal de error como la diferencia entre la respuesta deseada y la respuesta real: e k (n) = d k (n) - y k (n) (3.2) El propósito del aprendizaje por corrección de error es minimizar una función de coste basada en la señal de error e k (n), de modo que la respuesta real de cada neurona de salida de la red se aproxime lo más posible a la respuesta objetivo en un sentido estadístico. Una vez que la función de coste es seleccionada, el aprendizaje por corrección de error es estrictamente un problema de optimización, en el que se puede hacer uso de las herramientas habituales. Un criterio comúnmente usado para la función de coste es el criterio del error cuadrático medio (mse: mean-square-error), definido como el valor cuadrático medio de la suma de errores cuadráticos: J = E [½ e k 2 (n)] (3.3) donde E es el operador esperanza estadística, y el sumatorio es para todas las neuronas de la capa de salida de la red. El factor ½ es usado en la ecuación (3.3) para simplificar las derivadas de la minimización de J con respecto a los parámetros libres de la red. Asimismo, en la ecuación (3.3) asumimos que el proceso es estacionario en sentido amplio. La minimización de la función de coste J con respecto a los parámetros de la red es conocida como método del gradiente descendente. Sin embargo, la dificultad de este proceso de optimización es que requiere del conocimiento de las 2

3 características estadísticas de los procesos subyacentes. Superamos esta dificultad práctica conformándonos con una solución aproximada al problema de optimización. Específicamente, usamos el valor instantáneo de la suma de errores cuadráticos como criterio de interés: (n) = ½ e 2 k (n) (3.4) k Luego, la red es optimizada minimizando (n) con respecto a los pesos sinápticos de la misma. Así, según la regla de aprendizaje por corrección de error (o regla de la delta, como algunas veces es llamada), el ajuste de w kj (n) hace que el peso sináptico w kj en el instante n venga dado por: w kj (n) = e k (n)x j (n) (3.5) donde es una constante positiva que determina la tasa de aprendizaje. En otras palabras, el ajuste hace que un peso sináptico sea proporcional al producto de la señal de error (medida con respecto a alguna respuesta deseada en la neurona de salida) y la señal de entrada de la sinapsis que tratamos. Notemos que esta señal de entrada es la misma que la señal de salida de la neurona presináptica que alimenta a la neurona en cuestión. Asimismo, hay que tener cuidado con el valor de la tasa de aprendizaje, que es un parámetro muy importante, ya que nos mide no sólo la velocidad de convergencia, sino la propia convergencia. Así, para asegurar estabilidad en el proceso de aprendizaje, no se debe tomar un valor elevado de, ya que, aunque se alcanza una velocidad de convergencia elevada, se corre el riesgo de que el proceso diverja y se haga inestable. Una representación de la función de coste J frente a los pesos sinápticos que caracterizan a la red neuronal consiste en una superficie multidimensional conocida como superficie de error. Dependiendo del tipo de unidades de procesamiento usadas para construir la red neuronal, podemos identificar dos situaciones distintas: 1. La red neuronal consta de unidades de procesamiento lineales, con lo que estamos en el caso de una superficie de error que es exactamente una función cuadrática de los pesos de la red. Esto es, la superficie de error es cóncava con sólo un mínimo (salvo la existencia de una solución degenerada). 2. La red neuronal consta de unidades de procesamiento no lineales, estando en el caso de una superficie de error con un mínimo global así como también local. En ambos casos, el objetivo del algoritmo de aprendizaje por corrección de error es comenzar desde un punto arbitrario de la superficie de error (determinado por los valores iniciales asignados a los pesos sinápticos) y luego acercarse, paso a paso, a un mínimo global. En el primer caso, el objetivo es ciertamente alcanzable. En el segundo caso, por el contrario, no siempre es alcanzable, ya que es posible que el algoritmo se quede atrapado en un mínimo local de la superficie de error y nunca sea capaz, por tanto, de alcanzar un mínimo global Aprendizaje Hebbiano 3

4 El postulado de aprendizaje de Hebb es el más antiguo y famoso de entre todas las reglas de aprendizaje. Este postulado se puede escribir como una regla compuesta de dos: 1. Si dos neuronas a ambos lados de la sinapsis son conectadas simultáneamente (es decir, síncronamente), entonces la fuerza de esa sinapsis es selectivamente incrementada. 2. Si dos neuronas a ambos lados de la sinapsis son conectadas asíncronamente, entonces la sinapsis es selectivamente debilitada o eliminada. La sinapsis de la que hemos hablado en la definición se denomina sinapsis Hebbiana. Con mayor precisión, definimos una sinapsis Hebbiana como una sinapsis que usa un mecanismo dependiente del tiempo, altamente local y fuertemente interactivo para incrementar la eficiencia sináptica como una correlación entre las actividades presinápticas y postsinápticas. De esta definición, podemos describir las cuatro propiedades fundamentales que caracterizan a una sinapsis Hebbiana: 1. Mecanismo dependiente del tiempo. Este mecanismo se refiere al hecho de que las modificaciones llevadas a cabo en la sinapsis Hebbiana dependen del tiempo exacto de ocurrencia de las actividades presinápticas y postsinápticas. 2. Mecanismo local. Es decir, como ya hemos dicho anteriormente, este mecanismo sólo depende de las actividades presinápticas y postsinápticas. 3. Mecanismo interactivo. Aquí vemos que la ocurrencia de un cambio en una sinapsis Hebbiana depende de los niveles de actividad a ambos lados de la sinapsis. Es decir, el aprendizaje Hebbiano depende de una verdadera interacción entre las actividades presinápticas y postsinápticas en el sentido de que no se puede realizar una predicción de cualquiera de esas dos actividades. Además, podemos decir que esta dependencia o interacción puede ser de naturaleza determinista o estadística. 4. Mecanismo conjuncional o correlacional. Una interpretación del postulado de aprendizaje de Hebb es que la condición necesaria para que se produzca un cambio en la eficiencia sináptica es la conjunción de actividades presinápticas y postsinápticas. De este modo, según esta interpretación, la co-ocurrencia de actividades presinápticas y postsinápticas es suficiente para producir la modificación sináptica. Es por esta razón por la que, a veces, una sinapsis Hebbiana es llamada sinapsis conjuncional. Si hablamos en términos estadísticos, entonces nos encontramos con que la sinapsis Hebbiana es conocida como sinapsis correlacional. Para formular el postulado de aprendizaje de Hebb en términos matemáticos, consideramos de nuevo la situación descrita en la figura (2.1). Esta figura muestra un peso sináptico w kj con 4

5 actividades presinápticas y postsinápticas denotadas por x j e y k respectivamente. De acuerdo con el postulado de Hebb, el ajuste aplicado al peso sináptico w kj en el instante de tiempo n se expresa en forma w kj (n) = F(y k (n), x j (n)) (3.6) donde F(, ) es una función de las actividades presinápticas y postsinápticas. Los términos x j (n) e y k (n) son tratados frecuentemente como variables adimensionales. Un caso especial de la ecuación anterior puede ser escrito como w kj (n) = y k (n)x j (n) (3.7) donde n es una constante positiva que determina la tasa de aprendizaje. La ecuación anterior es la regla más simple para un cambio en peso sináptico w kj, expresado como un producto de las señales entrantes y salientes. Esta regla enfatiza claramente la naturaleza correlacional de la sinapsis Hebbiana. A veces, esta regla se conoce como regla del producto de actividad. Si representásemos w kj frente a la entrada x j, veríamos que la repetida aplicación de la señal de entrada (actividad presináptica) x j conllevaría un crecimiento exponencial que, finalmente, conduce al peso sináptico w kj a la saturación. Para evitar semejante situación, necesitamos imponer un límite en el crecimiento de los valores de los pesos sinápticos. Un método para hacer esto es introducir un factor no importante dentro de la fórmula de ajuste de w kj (ecuación (2.6)). Así, redefinimos w kj como sigue: w kj (n) = y k (n)x j (n) - y k (n)w kj (n) (3.8) donde es una nueva constante positiva y w kj (n) es el peso sináptico en el instante n. Equivalentemente, podemos escribir w kj (n) = y k (n)[cx j (n) - w kj (n)] (3.9) donde c es igual a /. La ecuación (3.9) es conocida, a veces, como regla del producto de actividad generalizada. Esta ecuación implica que para entradas en las que x j (n) < w kj (n)/c, el peso sináptico modificado w kj (n+1) se decrementará en una cantidad proporcional a la actividad postsináptica y k (n). Por otro lado, cuando x j (n) > w kj (n)/c, el peso sináptico modificado w kj (n+1) se incrementará en proporción a y k (n). Así, vemos que el punto de equilibrio para modificar el peso sináptico en el instante n+1 es variable e igual a w kj /c. El uso de este planteamiento elimina el problema de inestabilidad del peso sináptico. Otro modo de formular el postulado de Hebb es en términos estadísticos, en el sentido de que los cambios producidos en los pesos sinápticos son proporcionales a la covarianza entre las actividades presinápticas y postsinápticas. Así, podemos escribir el cambio en el peso sináptico w kj en el instante n como 5

6 w kj (n) = cov[y k (n), x j (n)] = E[(y k (n) - y k )(x j (n) - x j )] (3.10) donde n es la taza de aprendizaje; E es el operador de esperanza media; y x j es el valor medio de las actividades presinápticas, así como y k es de las actividades postsinápticas respectivamente. La ecuación (3.9) es conocida como regla de la covarianza de la actividad. Expandiendo los términos de la ecuación (3.10) y reorganizándolos, podemos escribir dicha ecuación como sigue: w kj (n) = {E[y k (n)x j (n)] - y kxj } (3.11) El primer término de la ecuación (3.11) tiene una forma similar a la regla Hebbiana simple Aprendizaje competitivo En el aprendizaje competitivo, como su propio nombre indica, las neuronas de salida de una red neuronal compiten entre ellas mismas por ser la única activa. De esta forma, mientras en una red neuronal basada en el aprendizaje Hebbiano varias neuronas de salida pueden estar activas simultáneamente, en el caso de aprendizaje competitivo sólo una neurona de salida está activa en cualquier instante de tiempo. Es esta característica la que hace que el aprendizaje competitivo sea muy adecuado para descubrir esas características estadísticas sobresalientes que pueden ser usadas para clasificar un conjunto de patrones de entrada. Hay tres elementos básicos en un algoritmo de aprendizaje competitivo: Un conjunto de neuronas todas iguales salvo para algunos pesos sinápticos distribuidos aleatoriamente, y que, por tanto, responde de forma diferente a un conjunto de patrones de entrada. Un límite impuesto en la fuerza de cada neurona. Un mecanismo que permite a las neuronas completarse adecuadamente para responder a un subconjunto de entradas dado, de forma que sólo una neurona de salida, o sólo una neurona por grupo, esté activa al mismo tiempo. De acuerdo con esto, las neuronas de la red aprenden a especializarse en conjuntos de patrones similares, y se convierten por tanto en detectores de características. En la forma más simple de aprendizaje competitivo, la red neuronal tiene una capa simple de neuronas de salida, cada una de las cuales está completamente conectada a los nodos de la entrada. La red puede incluir conexiones laterales entre las neuronas como se indican en la figura (3.2). En la arquitectura de red descrita aquí, las conexiones laterales llevan a cabo inhibición lateral, con la que cada neurona tiende a inhibir a la neurona la que está conectada lateralmente. El resto de conexiones sinápticas de la red en la figura (3.2) son excitatorias. Si, por ejemplo, la neurona j es la neurona vencedora, su nivel de actividad interno v j para un patrón específico de entrada x debe ser el más grande de entre todas las neuronas de la red. La 6

7 señal de salida y j de la neurona vencedora j es igual a uno; las señales de salida de todas las neuronas que pierden la competición son iguales a cero. Denotemos por w ji al peso sináptico que conecta el nodo de entrada i a la neurona j. A cada neurona se le permite un conjunto fijo de pesos sinápticos (todos los pesos sinápticos son positivos), el cual se distribuye entre sus nodos de entrada; esto es, tenemos w ji = 1 para todo j (3.12) i Una neurona aprende cambiando los pesos sinápticos de sus nodos de entrada de inactivos a activos. Si una neurona no responde a un particular patrón de entrada, el aprendizaje no se realiza en dicha neurona. Si una neurona en particular gana la competición, entonces cada nodo de entrada de la neurona renuncia a alguna proporción de su peso sináptico, y el peso renunciado es luego distribuido equitativamente entre los nodos de entrada activos. Según la regla de aprendizaje competitivo estándar, el cambio w ji aplicado al peso sináptico w ji es definido por la siguiente expresión: (x i w ji ) si la neurona j gana la competición w ji = (3.13) 0 si la neurona j pierde la competición donde n es el parámetro tasa de aprendizaje. Esta regla tiene el efecto global de mover el vector de pesos sinápticos w j de la neurona vencedora j hacia el patrón de entrada x. Vemos la esencia del aprendizaje competitivo. Se asume que cada patrón de entrada x tiene una longitud constante, así que podemos ver cada patrón como un punto en una esfera N-dimensional, donde N es el número de nodos de entrada; además, N representa la dimensión de cada vector de pesos sinápticos w j. Más allá, podemos decir que todas las neuronas de la red están obligadas a tener la misma distancia Euclídea, es decir: w ji 2 = 1 para todo j (3.14) j De esta forma, cuando los pesos sinápticos están escalados adecuadamente, forman un conjunto de vectores que corresponden a la misma esfera N-dimensional. En particular, cada una de las neuronas de salida tiene una agrupación de puntos que mueven su vector de pesos sinápticos al centro de gravedad de dicha agrupación Aprendizaje de Boltzmann La regla del aprendizaje de Boltzmann es un algoritmo de aprendizaje estocástico derivado de información teórica y de consideraciones termodinámicas. En una máquina de Boltzmann, las neuronas constituyen una estructura recurrente, y operan de una manera binaria, es decir, el estado activo se denota con un '1', y el inactivo con un '-1'. La máquina está caracterizada por una función de energía E, cuyo valor está determinado por los 7

8 estados particulares ocupados por las neuronas individuales de la máquina, como mostramos a continuación: E = -½ i i j j w ji s j s i (3.15) donde s i es el estado de la neurona i, y w ji es el peso sináptico que conecta la neurona i con la neurona j. El hecho de que i j simplemente significa que ninguna de las neuronas de la máquina se realimenta a sí misma. La máquina opera eligiendo una neurona aleatoria (la neurona j, por ejemplo) en algún paso del proceso de aprendizaje, y pasando el estado de la neurona j del estado s j al estado -s j (con una temperatura T) con probabilidad 1 W(s j -s j ) = (3.16) 1+ exp( Ε j/τ) donde E j es el cambio de energía resultante de pasar de un estado a otro. Notemos que T no es una temperatura física, sino que se trata de una peudotemperatura. Si esta regla es aplicada repetidamente, la máquina alcanzará un equilibrio térmico. x 1 x 2 x 3 x 4 Capa de nodos fuente Capa única de neuronas de salida Figura 3.2 Arquitectura de una red con aprendizaje competitivo Las neuronas de una máquina de Boltzmann se dividen en dos grupos: visibles y ocultas. Las visibles proporcionan una interfaz entre la red y el entorno en que trabaja, mientras que las neuronas ocultas operan siempre con libertad. Se pueden considerar dos modos de operación: Condición sujeta, en la que las neuronas visibles están sujetas a estados específicos determinados por el entorno. 8

9 Condición de libre operación, en la que las neuronas (visibles y ocultas) pueden operar libremente. Denotemos por ji+ a la correlación condicional entre los estados de las neuronas i y j (estamos, por tanto, en la condición sujeta), y denotemos por ji- a la correlación incondicional entre los estados de las neuronas i y j (es decir, la red neuronal opera en la condición de libre operación). Ambas correlaciones son medidas sobre todos los posibles estados de la máquina cuando ésta se encuentra en equilibrio térmico. Las correlaciones ji+ y ji- quedan definidas a continuación: ji + = α ji - = α β β P + s j s i (3.17) P - s j s i (3.18) donde s i denota el estado de la neurona i, estando las neuronas visibles de la máquina en el estado y las neuronas ocultas en el estado. El factor P + es la probabilidad condicional de que las neuronas visibles estén en el estado y las neuronas ocultas estén en el estado, dada la condición sujeta; y P - es la probabilidad condicional de que las neuronas visibles estén en el estado y las neuronas ocultas estén conjuntamente en el estado, dada la condición de libre operación. Entonces, de acuerdo a la regla de aprendizaje de Boltzmann, el cambio w ji aplicado al peso sináptico w ji está definido por w ji = ( ji + - ji -) (3.19) donde es la tasa de aprendizaje. El rango de valores de ji + y ji - comprende de -1 a 1. Una característica distintiva del aprendizaje de Boltzmann es que sólo usa observaciones disponibles localmente bajo dos condiciones de operación: sujeta y de libre operación. 3.3 Paradigmas de aprendizaje Aprendizaje supervisado Un ingrediente esencial en el aprendizaje activo o supervisado es la disponibilidad de un maestro externo, como se puede apreciar en la figura (3.3). Conceptualmente, podemos pensar que el maestro, como conocedor del entorno que es, está representado por un conjunto de ejemplos entrada-salida. Sin embargo, el entorno es desconocido para la red neuronal de interés. Supongamos ahora que tanto el maestro como la red neuronal son sometidos a un vector de entrenamiento sacado del entorno. El maestro es capaz de proporcionar a la red neuronal la respuesta deseada (o respuesta objetivo) para ese vector de entrenamiento. Además, la respuesta deseada representa la acción óptima a ser realizada por la red neuronal. Los 9

10 parámetros de la red son ajustados bajo la influencia combinada del vector de entrenamiento y la señal de error; la señal de error se define como la diferencia entre la respuesta actual de la red y la respuesta deseada. Este ajuste es llevado a cabo paso a paso iterativamente con el objetivo de hacer que la red neuronal, eventualmente, emule al maestro; se supone que la emulación es óptima en algún sentido estadístico. En otras palabras, el conocimiento del entorno por parte del maestro es transferido a la red neuronal en la mayor medida posible. Cuando se alcanza esta condición, podemos prescindir del maestro y dejar a la red neuronal tratar con el entorno por sí misma. Vector que describe el estado del entorno Entorno Maestro Respuesta deseada Sistema de aprendizaje Respuesta actual Señal de error Figura 3.3 Diagrama de bloques del aprendizaje supervisado La forma de aprendizaje supervisado que acabamos de describir es, en realidad, el aprendizaje por corrección de error descrito en la sección (3.2.1). Se trata de un sistema realimentado de bucle cerrado en el que el entorno desconocido no se encuentra en el bucle. Como medida de actuación para este sistema, podemos pensar en términos de error cuadrático medio (es decir, el valor esperado de la suma de los errores cuadráticos) definido como una función de los parámetros libres del sistema. Esta función puede ser visualizada como una superficie de error multidimensional o como una superficie de error simple, con los parámetros libres como coordenadas. La verdadera superficie de error es medida sobre todos los posibles ejemplos entradasalida. Cualquier operación del sistema bajo la supervisión del maestro es representada como un punto en la superficie de error. La red deberá ir desplazando, con ayuda del maestro, el punto de operación hacia un mínimo global de dicha superficie. Un sistema de aprendizaje supervisado es capaz de hacer esto gracias a la información que posee acerca del gradiente de la superficie de error correspondiente al comportamiento actual del sistema. El gradiente de la superficie de error en cualquier punto es un vector que apunta a la dirección de mayor descenso. De hecho, en el caso de aprendizaje supervisado a partir de ejemplos, el sistema usa un estimador instantáneo del vector gradiente, de forma que dado un adecuado conjunto de ejemplos entrada-salida, y dado un tiempo suficiente de entrenamiento, este algoritmo de aprendizaje es capaz de realizar tareas como clasificación de patrones y aproximación de funciones satisfactoriamente. Ejemplos de algoritmos de aprendizaje supervisado son el algoritmo LMS (least-meansquare algorithm) y su generalización, conocida como algoritmo de propagación hacia atrás ó BP 10

11 (backpropagation). Este último es mucho más poderoso que el primero, el cual se considera un caso especial del BP. El aprendizaje supervisado puede llevarse a cabo de dos maneras diferentes: 1. Off-line. Se usa aquí una facilidad computacional para diseñar el sistema de aprendizaje supervisado. Una vez conseguido el rendimiento deseado, el diseño es 'congelado', es decir, a partir de aquí, la red neuronal opera de una manera estática. 2. On-line. En este caso, el proceso de aprendizaje es implementado por el sistema en sí mismo, es decir, no requiere una facilidad de cómputo adicional. En otras palabras, el aprendizaje es realizado en tiempo real, con lo que la red neuronal resultante es dinámica. Una desventaja del aprendizaje supervisado es el hecho de que, sin maestro, una red neuronal no puede aprender nuevas estrategias para situaciones particulares que no estén cubiertas por el conjunto de ejemplos usados para entrenar la red Aprendizaje reforzado El aprendizaje reforzado es un aprendizaje en tiempo real consistente en un mapeado entrada-salida a través de un proceso de prueba y error diseñado para maximizar un índice de rendimiento escalar llamado señal de refuerzo. El término de 'aprendizaje reforzado' fue acuñado por Minsky (1961) en sus primeros estudios de inteligencia artificial, y luego en teoría de control por Waltz y Fu (1965). Sin embargo, la idea básica de 'refuerzo' tuvo sus orígenes en estudios experimentales de aprendizaje animal en psicología (Hampson, 1990). En este contexto, es particularmente llamativo hacer referencia a la ley de efecto de Thorndike (1911): "De varias respuestas obtenidas ante la misma situación, aquellas que son acompañadas o seguidas inmediatamente de una satisfacción para el animal, estarán más conectadas con esta situación, de forma que, si ocurre la misma situación, serán más propensas a darse de nuevo; aquellas que sean acompañadas o seguidas inmediatamente por disconformidad por parte del animal, tendrán debilitadas sus conexiones con esta situación, de forma que, si ocurre la misma situación, serán menos propensas a ocurrir. A mayor satisfacción o disconformidad, mayo fuerza o debilidad del vínculo." Aunque no puede decirse que este principio proporcione un modelo completo de comportamiento biológico, su simplicidad y su planteamiento de sentido común hacen que sea una regla de aprendizaje influyente. En realidad, podemos reescribir la ley de efecto de Thorndike para ofrecer la siguiente definición de aprendizaje reforzado: "Si una acción llevada a cabo por un sistema de aprendizaje es seguida por un estado satisfactorio, entonces la tendencia del sistema para producir esa acción particular es reforzada. Si estuviéramos en la situación opuesta, la tendencia del sistema a producir esa acción es debilitada." El paradigma de aprendizaje reforzado puede ser de dos tipos: 11

12 1. Aprendizaje reforzado no asociativo. Aquí, el sistema de aprendizaje tiene la tarea de seleccionar una única acción óptima más que asociar diferentes acciones a diferentes estímulos. En este problema de aprendizaje el refuerzo es la única entrada que recibe el sistema de aprendizaje de su entorno. El aprendizaje reforzado no asociativo ha sido estudiado como una función de optimización bajo la protección de algoritmos genéticos. 2. Aprendizaje reforzado asociativo. En este caso, el entorno proporciona formas adicionales de información además del reforzamiento. Aquí, se debe aprender un mapeado en la forma de asociación de estímulos con acciones. El aprendizaje reforzado asociativo es el representado mayoritariamente por investigación en redes neuronales. En el contexto de aplicación, está unido a teoría de control óptima Aprendizaje no supervisado En el aprendizaje no supervisado o auto-organizado no hay maestro externo para supervisar el proceso de aprendizaje, como podemos ver en la figura (2.3), en la que se representa el diagrama de bloques del aprendizaje no supervisado. En otras palabras, no hay ejemplos específicos de la función que ha de ser aprendida por la red. En su lugar, tenemos una medida independiente de la tarea de la calidad de representación que la red requiere aprender, y los parámetros libres de la red se optimizan respecto a esa medida. Una vez que la red se ha sintonizado a las regularidades estadísticas de los datos de entrada, se desarrolla la habilidad para formar representaciones internas de características codificadas de la entrada y, por tanto, crear nuevas clases automáticamente. Vector que describe el estado del entorno Entorno Sistema de aprendizaje Figura 3.4 Diagrama de bloques del aprendizaje no supervisado Para llevar a cabo el aprendizaje supervisado, podemos usar una regla de aprendizaje competitivo. Por ejemplo, podemos usar una red neuronal que conste de dos capas denominadas capa de entrada y capa competitiva. La capa de entrada recibe los datos disponibles. La capa competitiva consta de neuronas que compiten ente sí para tener la oportunidad de responder a características contenidas en los datos de entrada. En su forma más simple, la red opera de acuerdo a una estrategia de 'el vencedor lo consigue todo'. En esta estrategia, la neurona con la entrada más grande gana la competición y se activa; el resto de neuronas se desactivan Comparativa de los diferentes paradigmas de aprendizaje 12

13 Aprendizaje supervisado frente a reforzado La medida de rendimiento usada para un sistema de aprendizaje supervisado se define en términos de un conjunto de objetivos (es decir, respuestas deseadas) por medio de un criterio de error conocido (por ejemplo, el mse). Por lo tanto, un sistema de aprendizaje supervisado puede ser visto como un sistema de realimentación instructivo. En contraste a esto, un sistema de aprendizaje reforzado dirige el problema de mejorar el rendimiento y, por tanto, el aprendizaje, en base de cualquier medida cuyos valores puedan ser suministrados al sistema. De este modo, podemos ver un sistema de aprendizaje reforzado como un sistema de realimentación evaluativo. Para ser más preciso, en un sistema de aprendizaje supervisado el maestro proporciona información directa acerca de cómo el sistema debería cambiar su comportamiento para mejorar el rendimiento. Esta información es de naturaleza local, definida por un estimador instantáneo del gradiente de la superficie de error en el punto de operación actual, y le proporciona al sistema una respuesta razonable acerca de cuál es la dirección a la que debería cambiar sus parámetros libres para alcanzar una mejora en el rendimiento. Por el contrario, en un algoritmo de aprendizaje reforzado, no hay maestro para suministrar la información del gradiente durante el aprendizaje. La única parte de información disponible es representada por el reforzamiento recibido del entorno. Aunque el reforzamiento es un escalar, mientras que el gradiente en el aprendizaje supervisado es un vector, el punto clave a tener en cuenta es que, en el aprendizaje reforzado, la información contenida en el reforzamiento evalúa el comportamiento, pero no indica en sí misma si la mejora es posible o cómo debería cambiar el sistema en caso de que la mejora fuese factible. Para obtener información de naturaleza direccional, un sistema de aprendizaje reforzado prueba el entorno a través del uso combinado de prueba y error y recompensa a posteriori. Esto es, el sistema se encarga de alguna forma de exploración, buscando información direccional en base a propiedades intrínsecas del entorno. Sin embargo, haciendo esto, un sistema de aprendizaje reforzado ralentiza su operación, debido a que un cambio en el comportamiento realizado para obtener información direccional está, generalmente, en conflicto con la forma en la que la información direccional resultante es utilizada para cambiar el comportamiento con el objetivo de mejorar el rendimiento. Este fenómeno es conocido como el conflicto entre la identificación y el control, o el conflicto entre la exploración y la explotación. Dicho de otra forma, siempre hay un conflicto entre los dos factores siguientes: El deseo de usar el conocimiento ya disponible acerca de las ventajas relativas de las acciones llevadas a cabo por el sistema. El deseo de adquirir más conocimiento sobre las consecuencias de acciones tales como hacer mejores selecciones en el futuro. La mejor decisión realizada vista desde un único factor no siempre es la mejor decisión hecha de acuerdo a los demás. Este tipo de conflicto no aparece en el aprendizaje supervisado, que es el que normalmente usa en la práctica Aprendizaje supervisado frente a no supervisado Entre los algoritmos usados para llevar a cabo el aprendizaje supervisado, el algoritmo de propagación hacia atrás (backpropagation) se ha convertido en el más ampliamente usado y el más exitoso para el diseño de redes alimentadas hacia delante (feedforward) multicapa. Hay dos fases distintas en la operación del aprendizaje backpropagation: una hacia adelante y otra hacia atrás. En la fase hacia adelante, las señales de entrada se propagan a través de la red capa a capa, produciendo 13

14 eventualmente alguna respuesta en la salida de la red. La respuesta real así producida se compara con la deseada (objetivo), generando señales de error que luego son propagadas hacia atrás. En esta fase hacia atrás, los parámetros libres de la red son ajustados para así minimizar la suma de errores cuadráticos. El algoritmo backpropagation ha sido aplicado con éxito para resolver algunos problemas difíciles tales como reconocimiento de texto, reconocimiento de dígitos escritos a mano y control adaptativo. Desafortunadamente, el algoritmo backpropagation y otros algoritmos de aprendizaje supervisados pueden verse limitados por su pobre comportamiento en el ajuste. Una posible solución al problema del ajuste es usar un proceso de aprendizaje no supervisado. El aprendizaje auto-organizado tiene la habilidad de formar representaciones internas que modelen la estructura subyacente de los datos de entrada de una forma explícita. Esta habilidad hace que se espere que la versión transformada de la entrada deba ser, más fácil de interpretar, así que las repuestas actuales podrían ser asociadas con las representaciones internas de la red del entorno más rápidamente. En otras palabras, el uso híbrido de procesos de aprendizaje supervisado y no supervisado puede proporcionar una solución más aceptable que usando sólo el aprendizaje supervisado, particularmente si el tamaño del problema es grande. 3.4 Tareas de aprendizaje La elección de un particular proceso de aprendizaje está muy influida por la tarea de aprendizaje que va a llevar a cabo la red neuronal. En este contexto, podemos identificar las siguientes tareas de aprendizaje, las cuales corresponden al uso de redes neuronales de una u otra forma: 1. Aproximación. Suponemos que tenemos un mapeado entrada-salida descrito por la relación funcional d = g(x) (3.20) donde el vector x es la entrada y el escalar d es la salida. Se considera que la función g( ) es desconocida. El objetivo es diseñar una red neuronal que aproxime la función no lineal g( ), dado un conjunto de ejemplos denotados por los pares entrada-salida (x 1,d 1 ), (x 2,d 2 ),..., (x n,d n ). El problema de aproximación descrito aquí es un perfecto candidato para aprendizaje supervisado con x i sirviendo como vector de entrada y di jugando el papel de respuesta deseada, donde i = 1, 2,..., N. En realidad, dando un giro, podemos ver el aprendizaje supervisado como un problema de aproximación. 2. Asociación. Esta tarea de aprendizaje puede tener dos formas, denominadas autoasociación y heteroasociación. En la autoasociación, se requiere una red neuronal para almacenar un conjunto de patrones (vector) que son presentados repetidamente a la red. A continuación, la red es presentada en una versión distorsionada o descripción parcial de un patrón original almacenado en ella, y la tarea es recuperar el particular patrón. La heteroasociación se diferencia de la autoasociación en que un conjunto arbitrario de patrones de entrada es emparejado con otro conjunto arbitrario de patrones de salida. La autoasociación involucra el uso de aprendizaje no supervisado, mientras que el tipo de aprendizaje involucrado en la heteroasociación es de naturaleza supervisada. 14

15 3. Clasificación de patrones. En esta tarea de aprendizaje hay un número fijo de categorías (clases) en las que los estímulos están para ser clasificados. Para resolver esto, la red neuronal sufre primero una sesión de entrenamiento durante la cual se le presentan repetidamente un conjunto de patrones de entrada hacia delante con la categoría a la cual pertenece cada patrón. Si aparece un nuevo patrón, la tarea de la red es clasificar este nuevo patrón correctamente. Esta clasificación de patrones es un problema de aprendizaje supervisado. La ventaja de usar una red neuronal para realizar la clasificación de patrones es que puede construir regiones de decisión no lineales entre las diferentes clases de un modo no paramétrico, y por tanto ofrecer un método práctico para resolver problemas altamente complejos de clasificación de patrones. Debe hacerse notar que aquí desempeña un papel muy importante el aprendizaje no supervisado, especialmente cuando no hay un conocimiento previo de las categorías en las que los patrones estímulos están para ser clasificados. En una situación posterior, el aprendizaje no supervisado es usado para llevar a cabo el papel de extracción de características para clasificación de patrones. 4. Predicción. El tema de la predicción es una de las más básicas y dominantes tareas de aprendizaje. Es un problema de procesamiento temporal de una señal en el que nos dan un conjunto de M muestras pasadas u(n-1), u(n-2),..., u(n-m) que, normalmente, están uniformemente espaciadas en el tiempo, y el objetivo es predecir la muestra actual x(n). La predicción puede ser resuelta usando el aprendizaje por corrección de error de una manera no supervisada en el sentido de que los ejemplos de entrenamiento son sacados directamente de las series de tiempo en sí mismas. El error de predicción lo podemos calcular de la siguiente manera: e(n) = u(n) - û(n n-1,..., n-m) (3.21) Cuando este proceso es de naturaleza no lineal, el uso de una red neuronal proporciona un método poderoso para solucionar el problema de la predicción gracias a las unidades de procesamiento no lineal que forman parte de la red. La única excepción en las unidades de procesamiento no lineal es la unidad de salida de la red, que opera en su región lineal. 5. Control. El control de un proceso es otra tarea de aprendizaje que, naturalmente, corresponde a una red neuronal. Esto no debería ser una sorpresa ya que, después de todo, el cerebro humano es una computadora; las salidas del sistema completo son acciones. Realmente, en el contexto de control, el cerebro está viviendo la prueba de que es posible construir un controlador generalizado que tome ventaja respecto a un hardware distribuido en paralelo, que es capaz de manejar muchos miles de actuadores en paralelo (fibras de los músculos), así como las no linealidades y el ruido. Así, surgió el término neurocontrol para hacer referencia a la clase de controladores que involucran el uso de redes neuronales. 6. Beamforming. Se trata de una especie de filtrado espacial, cuyo propósito es localizar una señal objetivo imbuida en un escenario de interferencia aditiva. En entornos de radar y sónar, esta 15

16 tarea de aprendizaje se complica, usualmente, por dos factores que describimos a continuación: La señal objetivo de interés originada desde una dirección desconocida. No hay información estadística a priori disponible acerca de la interferencia. Para poder con una situación de este tipo, tenemos que recurrir al uso de de un array de elementos de antena, diseñados para dirigir el lóbulo principal de su patrón espacial (es decir, la amplitud frente al ángulo) automáticamente hacia el objetivo y, además, colocar nulos en las direcciones desconocidas donde se encuentran las señales interferentes para así poder cancelarlas. 3.5 Adaptación y aprendizaje El espacio es una dimensión fundamental del proceso de aprendizaje; el tiempo es la otra. La naturaleza espacio-temporal del aprendizaje se ejemplifica por medio de las tareas de aprendizaje. Más allá, tanto los animales como los humanos tenemos una capacidad inherente para representar la estructura temporal de la experiencia, la cual permite a un animal adaptarse a su entorno. Cuando una red neuronal opera en un entorno estacionario (es decir, las características estadísticas no cambian con el tiempo), las estadísticas esenciales del entorno pueden, en teoría, ser aprendidas por la red bajo la supervisión de un maestro. En particular, los pesos sinápticos de la red pueden ser computados haciendo que la red se someta a una sesión de entrenamiento con un conjunto de datos que sean representativos del entorno. Una vez que el proceso de entrenamiento ha concluido, los pesos sinápticos de la red deberían captar la estructura estadística subyacente; una vez alcanzado esto, se congelarían los valores obtenidos. Por consiguiente, un sistema de aprendizaje se basa en la memoria para recordar y utiliza experiencias pasadas que luego podrá usar si le es necesario. Frecuentemente, no obstante, el entorno de interés es no estacionario, lo que significa que los parámetros estadísticos de las señales de información portadoras generadas por el entorno varían con el tiempo. En situaciones de este tipo, los métodos tradicionales de aprendizaje supervisado pueden ser inadecuados, ya que la red no está equipada con los medios necesarios para captar las variaciones estadísticas del entorno en que actúa. Para mejorar estos defectos, la red tiene que ser capaz de adaptar contínuamente sus parámetros libres a variaciones en las señales entrantes en tiempo real. Por tanto, un sistema adaptativo responde a cada entrada distinta como uno nuevo. Dada esta capacidad, podemos argumentar que cuando actuamos en un entorno no estacionario, cuanto más adaptativo lo hagamos, siempre de una manera controlada, más probable será que opere mejor. Entonces, cómo puede una red neuronal adaptar su entorno a la estructura temporal de las señales de entrada en su espacio de comportamiento? Esto se puede ver en la siguiente figura, en la que se muestra la disposición estructural de un nivel simple de procesamiento neuronal que puede ser usado para proporcionar esta adaptación. 16

17 En esta figura, el elemento denominado 'modelo' actúa como un predictor en el sentido de que usa la experiencia obtenida previamente en el curso del tiempo para determinar lo que sucede Señal de salida Señal de entrada x(n) Comparador Matriz unidad de retraso z -1 I Señal de corrección e(n) x(n-1) Modelo Predicción (n) Figura 3.5 Diagrama de bloques de un sistema adaptativo realmente. En particular, el modelo, basado en valores pasados de la señal de entrada determinados por el vector x(n-1) y por los parámetros de la red medidos en el instante n-1, proporciona un estimador xˆ (n) del vector de entrada actual x(n) en el instante n (x(n) suele ser diferente de xˆ (n) ). El comparador de la figura (3.5) mide la diferencia entre estos valores. Esta señal de diferencia, denotada por e(n), se denomina innovación y representa la nueva información contenida en la señal de entrada x(n) en el instante de medida. Si la innovación es cero, no se produce nueva información en el sentido de que el modelo ya conoce lo que iba a ocurrir y, por tanto, no es necesario cambiar. Si, por el contrario, la innovación no es cero, ha ocurrido un evento inesperado y el sistema debería intentar captarlo. La innovación es explotada de dos formas: 1. La innovación e(n) suministra una señal de corrección aplicada al modelo, obligándole a ajustar sus parámetros libres y, por lo tanto, aprender lo que está ocurriendo en el entorno circundante. El aprendizaje descrito en la figura (3.5) es llevado a cabo por medio de la adaptación realimentada desde el comparador al modelo. 2. La innovación e(n) está disponible como salida para subir al siguiente nivel en el procesamiento neuronal. Repitiendo esta operación pasando de nivel a nivel, la información procesada tiende a ser de una calidad progresivamente más alta, ya que cada nivel neuronal procesa sólo la información que no puede ser procesada por los niveles inferiores. Así pues, podemos construir una estructura temporal dentro del diseño de una red neuronal haciendo que la red se someta a un entrenamiento continuo con ejemplos ordenados en el tiempo; según este planteamiento, una red neuronal es vista como un filtro adaptativo no lineal que representa una generalización de los filtros adaptativos lineales. Alternativamente, una estructura temporal puede ser aprendida extendiendo métodos tradicionales de aprendizaje supervisado. 17