IA y Robótica. Aprendizaje por Refuerzo. Instituto de Computación Facultad de Ingeniería Universidad de la República

Transcripción

1 IA y Robótica Aprendizaje por Refuerzo Instituto de Computación Facultad de Ingeniería Universidad de la República

2 Contenido Aprendizaje por refuerzo. Redes neuronales y aprendizaje por refuerzo.

3 Aprendizaje por Refuerzo Introducción y orígenes Decisiones secuenciales (MDP) Q Learning Convergencia Estratergias de exploración Generalización

4 Introducción (1/2) Pensar el Comportamiento como el problema de la toma secuencial de decisiones. Por qué necesitamos Aprendizaje? Tenemos que tomar decisiones en ambientes desconocidos y cambiantes. Algunas cosas que no sabemos: Forma en la que funciona el mundo. Efecto de nuestras acciones sobre el mundo. Qué cosas nos resultan beneficiosas.

5 Aprendizaje (y Refuerzos) Primeras teorías Condicionamiento clásico o Pavloviano. Pavlov no explica todo el aprendizaje, pero demuestra que funciona. Ivan Pavlov ( )

6 Aprendizaje por Condicionamiento

7 Qué aprendemos? Depende de donde se lo mire...

8 Modelo: Rescorla & Wagner (1972) Aprendizaje guiado por errores: el cambio en una asociación es proporcional a la diferencia entre nuestra predicción y lo observado. Vnuevo = Vviejo + Δ Δ = μ (R-V) (predicción del error)

9 Condicionamiento instrumental Los animales no solo pueden aprender relaciones estímulo-respuesta arbitrarios, sino, comportamientos arbitrarios en base a dichos estímulos.

10 Elementos de aprendizaje El diseño de un elemento de aprendizaje se ve afectado mayoritáriamente por tres aspectos: QUÉ componentes del elemento de acción QUÉ retroalimentación está disponible QUÉ tipo de representación se usa

11 Tipos de aprendizaje Dependiendo del tipo de realimentación disponible suele categorizarse la naturaleza del problema de aprendizaje que enfrenta el agente: Supervisado No supervisado Por refuerzos

12 Aprendizaje por Refuerzos AR o RL Cómo un agente autónomo, que percibe y actúa en un entorno dinámico, puede aprender a elegir acciones óptimas de modo de alcanzar sus objetivos? La idea detrás del aprendizaje por refuerzo es tan simple como atractiva: aprender del ensayo y el error mediante la interacción con el entorno.

13 Principales características Unifica varias ideas de la sicología cognitiva. Se usa mucho en IA y Robótica. Modela muy bien algunos procesos que ocurren en nuestro cerebro. Ensayo y error. Recompensas y penalizaciones. Dilema exploración explotación. Qué y no cómo.

14 Protocolo general estado s t recompensa r t Agente acción a t r t+1 Entorno s t+1

15 Hipótesis de AR La idea es que nuestros agentes aprendan a comportarse de manera (cuasi-)óptima solamente guiados por su afán de maximizar una señal de refuerzo, pero sin la presencia de un experto que les indica que acción ejecutar en cada momento.

16 Podemos aprender sin un maestro? Ejemplo de aprendizaje por refuerzos puro.

17 Decisiones secuenciales Supuestos Entorno Totalmente observable Estocástico Transiciones Cumplen la propiedad de Markov Utilidad de los estados Recompensas aditivas

18 Proceso de Decisión de Markov Un especificación de un problema de decision secuencial que cumpla los supuestos anteriores se denomina: MDP. Un MDP está compuesto por: S: conjunto de estados. A: conjunto de acciones. Estado inicial: S 0 Modelo de Transiciones: δ(s, a, s') Función de recompensa: R(s)

19 La tarea a aprender Política: solución que indica al agente qué debe hacer en cada estado que pueda alcanzar. π: S->A π(s) = a Representa la función del agente. Política óptima π*(s) Es una política que presenta la mayor utilidad esperada.

20 Optimalidad (1/3) Horizontes para la toma de decisiones Finito U h ([S 0, S 1,..., S n+k ]) = U h ([S 0, S 1,..., S n ]) π*(s) es no estacionaria Infinito π*(s) es estacionaria Más simples (en entornos Tobs)

21 Optimalidad (2/3) Preferencias estacionarias Recompensas aditivas U h ([S 0, S 1, S 2,...]) = R(S 0 ) + R(S 1 ) + R(S 2 ) +... Recompensas depreciativas U h ([S 0, S 1, S 2,...]) = R(S 0 ) + γr(s 1 ) + γ 2 R(S 2 ) +... Factor de descuento 0 γ 1 Bioinspirado Suma finita si existe R max y γ < 1

22 Optimalidad (3/3) Valor acumulado V π (S) = E π {R t s t = s} = E π {Σ k=0 γ κ r t+k+1 s t = s} Política ótima * π π = arg maxv s, ( ) s Ecuación de Bellman π V(s) = R(s) + γ máx a Σ s' δ(s, a, s') V(s')

23 Tres aproximaciones... Con T y R Computar Q/V Determinar π Métodos Model-based (aprender T y R) Métodos Model-free (aproximar Q, familia Q-Learing) Policy Search (Métodos de gradiente decreciente sobre π)

24 Fuentes de Complejidad Adquisición de experiencia Cantidad de interacciones con el mundo real para alcanzar un desempeño (cuasi-)óptimo. Planificación Cantidad de esfuerzo computacional por cada experiencia adquirida. Espacio Cantidad de memoria requerida para almacenar la experiencia adquirida y datos.

25 Q Learning Cómo puede aprender el agente la política óptima en un entorno arbitrario? * π ( s) = arg max +γ a [ (, ) ( (, ))] * r s a V δ s a Por lo cual el agente obtiene la política óptima aprendiendo V*, proporcionando conocimiento perfecto de refuerzos inmediatos y la función de transición de estados.

26 La función Q Definamos la función evaluación Q(s,a) Q( s, a) = r( s, a) +γv * ( δ ( s, a) ) Observar que Q es el valor que se desea maximizar en la ecuación de la política óptima * π ( s) = arg max a [ Q( s, a) ]

27 Un algoritmo para Q (1/2) Notemos la estrecha relación entre Q y V V * ( s) = maxq( s, a') a' Permite rescribir la ecuación de la siguiente manera Q( s, a) = r( s, a) +γ maxq( δ ( s, a), a') Regla de actualización del estimador para Q a' ^ Q( s, a) = r +γ maxq( s', a') a' ^

28 Un algoritmo para Q (2/2)

29 Convergencia Se ha demostrado la convergencia del estimador de Q bajo ciertas circunstancias al utilizar el algoritmo desarrollado por Watkins en Condiciones 1.El sistema se puede modelar como un MDP determinista. 2.Los refuerzos inmediatos están acotados. 3.El agente selecciona acciones de modo de visitar infinitamente a menudo los pares estado-acción. Esta es una restricción muy fuerte para dominios grandes (o infinitos).

30 Estrategias de exploración El algoritmo propuesto no especifica de que forma se eligen las acciones. Ejemplos Codicioso y Codicioso-ε Otra opción que asigna a toda acción una probabilidad de ser elegida Q( s, ai ) k P ( ai s) = Q( s, a j ) k j

31 Generalización Una de las restricciones más fuertes en procedimiento de Q Learning es que la función objetivo es representada en una tabla. Las hipótesis de convergencia requieren que todos los pares sean visitados infinitamente a menudo. Podemos tratar de estimar el valor Q de pares estado-acción no visitados generalizando a partir de los pares visitados. Clusterización. Redes neuronales.

32 Algunas aplicaciones exitosas TD-gammon (Tesauro, 1994) RLGO (Silver et al, 2007) Autonomic computing (Tesauro, 2005) Control de elevadores (Crites y Barto, 1996) Valuación de productos financieros (Tsitsiklis y Roy, 2000) Tratamiento de epilepsia! (Guez et al, 2008) Optimización en controladores de memoria (Ipek et al, 2008)

33 Aprendizaje por Refuerzo y Redes Neuronales Motivación Uso de RN en RL Ejemplos

34 Motivación El objetivo del aprendizaje por refuerzo en robótica es sintetizar comportamientos que maximicen las recompensa en el tiempo. Problemas Memoria (sensores y acciones continuas) Generalización Exploración

35 Uso de RN en RL (1/2) Las redes neuronales se utilizan como funciones. Principalmente para aproximar Q. También se utilizan para atacar el inmenso espacio de búsqueda situaciónacción.

36 Uso de RN en RL (2/2) Memoria para Q Consultas realizadas sobre Q valor Q(s,a) arg max a Q(s,a) Actualización de Q (regla de aprendizaje)

37 Ventaja Dada las situación responde rápidamente con la acción a realizar. Memoria Desventaja Para una determinada situación existen varias acciones a tomar y sus respectivos valores Q. Red Ideal

38 Ventaja Permite manejar varias acciones y valores Q para una misma situación Desventaja No generaliza entre acciones. Acciones fijas Cantidad Sentido QCON

39 Q-KOHON

40 Redes RBF a 1 a 2 w a... w s w Q s 1 s 2 Q

41 Algoritmo Q

42 Usando la red como memoria asociativa Entrada: situación (s) y Q valor (q) Paso 1. elegir el valor i* según: Paso 2. si y i *>acceptance_threshold else i* = arg max y action i = w a i ( i *) = t ( s w ) ( s w ) + ( q w ) agregar una neurona oculta (s,0,random) e s s Q 2 2 / σ 2

43 Algoritmo Q

44 Actualización de los pesos Entrada: situación (s), acción (a), máximo Q para la nueva situación (q) y el refuerzo (r) Paso 1. elegir el valor i* según: Paso 2. ( ) ( ) ( ) = / arg * σ a s t s w a w s w s i e max i ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) agregar neuron oculta lse * 1 * * 0 r if * * * 0 r if * * * * * * acceptance_threshold 2 2 / e i w a i w i w i w a i w i w i w s i w i w i w q r i w i w e if a a a a a a a a s s s s Q Q Q Q w a w s w s a s t s + = < + = > + = + + = > + η η η γ η σ (s,r,a)

45 Algoritmo Q

46 Obtener Q-max de la red Entrada: nueva situación (s) Paso 1. elegir el valor i* según: i* = arg max yi i = t ( s w ) ( s w ) + ( 1 w ) 2 2 / σ Paso 2. retornar como Q-max el valor de w Q ( i *) e s s Q 2

47 Algunas recetas Valores usuales η a =0.2 η s =0.01 η q =0.5 σ=0.4 acceptance_thereshold=0.1 Neuronas ocultas ~150

48 Referencias Libros Russell S. y P. Norvig, Inteligencia Artificial: un enfoque moderno, Prentice Hallm, Second Edition, Sutton R. S. y Barto A. G., Reinforcement Learning: an introduction, MIT Press, Mitchell T., Machine Learning, McGraw Hill, Artículos Santos J. M. y C. Touzet, "Dynamic Update of the Reinforcement Function during Learning", Connection Science Journal. Special Issue on Adaptive Robotics, Volume 11, Number 3-4, page , Kaelbling L. P., M. L. Littman y A. W. Moore. Reinforcement learning: A survey. Journal of Articial Intelligence Research, 4: , Dayan P. y Niv Y., Reinforcement learning: The Good, The Bad and The Ugly, Science Direct Journal issue on Cognitive Neuroscience, Volume 18, pages , Seminarios Diuk C., AR: Teoría y aplicaciones en Robótica, Neurociencia y Psicología, Escuela de Ciencias Informáticas, UBA, 2010.

49 Preguntas