REINFORCEMENT LEARNING. Jesús Fernández Bes

Transcripción

1 Jesús Fernández Bes Noviembre 2012

2 ÍNDICE 1. Qué es, qué no es y para qué sirve el RL? 2. Formulación: Markov Decision Processes 1. Dynamic Programming 2. Algoritmos clásicos de RL 3. Líneas de InvesWgación y otros aspectos de interés en RL. 1. Aproximación funcional 2. RL con GP 3. POMDP 4. Otros aspectos 2

3 DEFINICIÓN Reinforcement Learning is the problem faced by an autonomous agent that learns behavior through trial- and- error interac6ons with a dynamic environment. Kaelbling et al Interacción Recompensa Autonomía Muestreo 3

4 EL PROBLEMA DE REINFORCEMENT LEARNING r s a Environment s à s 1. El agente interactua con el entorno. 2. Acciones modifican el entorno y proporcionan una recompensa. 3. No se conoce la dinámica de estados. 4. Agente trata de aprer comportamiento ópwmo. Qué acción tomar en cada estado para maximizar una recompensa a largo plazo? 4

5 A QUÉ SE PARECE PERO NO ES RL? Supervised Learning. Hay par entrada/salida. No una recompensa inmediata. En RL no se sabe que acción es mejor a largo plazo. Ac=ve Learning. Elegir muestras de las que aprer. Siguen sio pares entrada/salida. Mul= Armed Bandits. En MAB no existe concepto estado. Dynamic Programming. Se conoce toda la dinámica de estados. 5

6 RL application APLICACIONES areas Survey by Csaba Szepesvari of 77 recent application papers, based on an IEEE.org search for the keywords RL and application aircraft control engine control bio/chemical reactors Process Control 23% Networking 21% sensor networks routing call admission control network resource management signal processing natural language processing web services brain-computer interfaces option pricing asset management Other 8% load balancing memory management algorithm tuning Finance 4% Autonomic Computing 6% Traffic 6% stoplight control, trains, unmanned vehicles Robotics 13% Resource Management 18% power systems inventory control supply chains customer service mobile robots, motion control, Robocup, vision Rick Suhon. Deconstruc6ng Reinforcement Learning. ICML 09 6

7 MARKOV DECISION PROCESSES Un Markov Decision Process (MDP) es un tupla <S,A,T,R> donde: S es un conjunto finito de estados, A es un conjunto finito de acciones, T es una función de transición definida como T : S A S [0, 1] R es una función de recompensa definida como R : S A S R Dado un MDP definimos una políwca π como una función: Determinista π : S A EstocásWca π : SxA [0, 1] π(s, a) 0 π(s, a) =1 a A 7

8 OBJETIVOS. CRITERIOS A OPTIMIZAR Cual es el objewvo del agente? Cómo tener en cuenta la recompensa a largo plazo? Principalmente hay tres modelos: E h t=0 r t E t=0 γ t r t lim E h 1 h h r t t=0 Horizonte Finito Horizonte Infinito Recompensa Promedio 8

9 FUNCIONES DE VALOR Discounted returns. Valor esperado de las recompensas futuras (con descuento). State Value func6on: V π (s) =E π { k=0 State- Ac6on Value func6on: Q π (s, a) =E π { γ k r t+k s t = s} k=0 γ k r t+k s t = s, a t = a} Value Func=on Assump=on: All efficient methods for solving sequenwal decision problems eswmate value funcwons as an intermidiate step. 9

10 ECUACIONES DE BELLMAN Richard Bellman Ambas funciones se pueden escribir de forma recursiva. V π (s) =E π {r t + γv π (s t+1 ) s t = s} = s T (s, π(s),s )[R(s, a, s )+γv π (s )] La solución ópwma sawsface: V (s) = max a A π (s) = arg max a T (s, a, s )[R(s, a, s )+γv (s )] s T (s, a, s )[R(s, a, s )+γv (s )] s 10

11 ECUACIONES DE BELLMAN (2) Desarrollo equivalente para Q Q (s, a) = s T (s, a, s ) R(s, a, s )+γ max Q (s,a ) a Existe una relación directa entre V* y Q*: V (s) = max a Q (s, a) Q (s, a) = s T (s, a, s )[R(s, a, s )+γv (s )] 11

12 DYNAMIC PROGRAMMING Model- Based. Entorno Determinista o estadíswca conocida. Modelo perfecto de MDP. ÚWl desde el punto de vista teórico y algorítmico. RelaWvamente eficientes pero poco úwles en RL o cuando el espacio de estados es muy grande. 12

13 ALGORITMOS BÁSICOS DE DP (1): POLICY ITERATION Initialize V (s), π(s) arbitrarily s S; POLICY EVALUATION while σ do for each s S do v := V π (s); V (s) := s T (s, π(s),s )(R(s, π(s),s )+γv (s )); := max(, v V (s) ); POLICY IMPROVEMENT for each s S do b := π(s); π(s) :=argmax a s T (s, a, s )(R(s, a, s )+γv (s )); if b = π(s) then policy-stable := true ; if policy-stable then stop ; goto POLICY EVALUATION ; Initialize V arbitrarily ; while σ do for each s S do 13

14 ALGORITMOS if policy-stable then BÁSICOS DE DP (2): stop ; VALUE ITERATION goto POLICY EVALUATION ; Initialize V arbitrarily ; while σ do for each s S do v := V (s); for each a A(s) do Q(s, a) := s T (s, a, s )(R(s, a, s )+γv (s )); V (s) :=max a Q(s, a); := max(, v V (s) ); 14

15 DE DYNAMIC PROGRAMMING A Model - Free EstadísWca desconocida y parcialmente desconocida. Necesidad de muestreo y exploración. Compromiso Explora8on vs. Exploita8on Necesario explorar el espacio de políwcas para encontrar buenas políwcas. Necesario usar las políwcas buenas el mayor Wempo posible para obtener mucha recompensa. 15

16 POLÍTICAS DE EXPLORACIÓN Hay políwcas sencillas de exploración. Se basan en las uwlizadas en problemas de bandits: ε greedy strategy Elegir acción a según π (mejor acción posible) con probabilidad 1- ε. Elegir acción a aleatoria con probabilidad ε. Boltzmann (so<max) strategy P (a) = e Q(s,a) T i e Q(s,a i ) T Op8mis8c Q ini8aliza8on T>0 16

17 MÉTODOS BÁSICOS DE RL Métodos de Monte Carlo Se eswman las funciones de valor como promedios observados durante la iteración. Sobretodo úwles en horizonte finito. Juegos. Temporal - Difference Learning Se apren las eswmaciones de los valores a parwr de otras eswmaciones. Online. No necesitan barrer todo el espacio de estado. 17

18 for each a A(s) do Q(s, a) := s T (s, a, s )(R(s, a, s )+γv (s )); V (s) :=max a Q(s, a); := max(, v V (s) ); TD (0) Sólo modifica la policy evalua6on. Initialize V (s) arbitrarily,π to the policy to be evaluated; for each episode do s is initialized as the starting state; while sisnotagoalstatedo a := action give by π for s ; perform a; observe reward r, andnextstates ; V (s) :=V (s)+α [r + γv (s ) V (s)]; s := s ; 1 18

19 SARSA On- policy. ÚWl en entornos no estacionarios. Initialize Q(s, a) arbitrarily; for each episode do Choose a from s according to Q and exploration ; while sisnotagoalstatedo perform a, observe the new state s and received reward r; choose a A(s )accordingtoqandexploration; Q(s, a) :=Q(s, a)+α (r + γ Q(s,a ) Q(s, a)); s s ; a a ; Data: discountfactorγ, learningparameterα initialize Q arbitrarily (e.g. Q(s, a) =0, s S, a A); for each episode do 19

20 Choose a from s according to Q and exploration ; while sisnotagoalstatedo perform a, observe the new state s Q - LEARNING and received reward r; choose a A(s )accordingtoqandexploration; Q(s, a) :=Q(s, a)+α (r + γ Q(s,a ) Q(s, a)); s s ; a a ; Algoritmo más popular con diferencia. Off- Policy. Data: discountfactorγ, learningparameterα initialize Q arbitrarily (e.g. Q(s, a) =0, s S, a A); for each episode do s is initialized as the starting state; while sisnotagoalstatedo choose a A(s) basedonq and exploration ; perform a, observe the new state s and received reward r; Q(s, a) :=Q(s, a)+α ( r + γ max a A(s ) Q(s,a ) Q(s, a) ) ; s := s ; 20

21 ACTOR- CRITIC LEARNING El agente se compone de dos partes. Actor: selecciona la políwca de acuerdo a las preferencias p(s t,a t ). Cri8c: Evalúa las acciones. Mediante el TD- error: δ t = r t + γv (s t+1 ) V (s t ) Se actualizan las Preferencias: p(s t,a t )=p(s t,a t )+βδ t 21

22 APROXIMACIÓN FUNCIONAL Si el número de estados es GRANDE o INFINITO. No se puede representar V o Q como una tabla. Aproximación Least Squares Se representa la Value funcwon ( V o Q ) como una combinación lineal de funciones. Se aproxima minimizando una norma LS ˆQ(s, a) =φ T (s, a)θ min ˆQ ˆQ ˆQ Π(B π Q( ˆQ)) 22

23 Reinforcement Learning con GP Bayesiano: Se manwene una distribución de probabilidad sobre diswntos valores. Permiten incluir conocimiento a priori, exploración, Existen otras aproximaciones bayesianas además de los GP: BQL, Rassmussen C.E., Kuss M. Distribución sobre discounted returns, no sólo Esperanza (V = E{D}) mediante un GP. Apre también las transiciones como GP. Solución cerrada para algunas distribuciones de recompensas. Engel Y., Mannor S., Mier R. TD + Aproximación de V con GP. Implementación online. Kernel Sparsifica6on. 23

24 PARTIALLY OBSERVABLE MDP Relajar asunción de los MDP: Parte del estado puede ser oculta. Estado S ya no es Markoviano. En POMDP además de <S,A,T,R> se define el conjunto de observaciones Ω y la función O. O : S A Ω [0, 1] R y T siguen depio de s, no de o, decidir acción en base a 1 observación ya no es ópwmo. Necesita memoria. Belief vector b(s). b ao (s )= p(o s,a) p(o b, a) s S p(s s, a)b(s) 24

25 POMDP En general se necesita modelo de T y R. DP o Model- based RL. Diferentes heuríswcos para obtener las políwcas a parwr de los b(s) Métodos de búsqueda de políwca basados en simulaciones. PEGASUS: Andrew Ng. & Michael Jordan. 25

26 OTROS ASPECTOS IMPORTANTES Conexiones con la Psicología Cogni=va y la Neurociencia. Los inicios de RL se basan en inveswgaciones en comportamiento animal. TD basado en condicionamiento clásico. Algunos mecanismos del cerebro son muy similares a los algoritmos RL. AcWvidad neuronal dopaminérgica. Resultados Teóricos. Resultados de convergencia asintówcos. Algoritmos básicos. Cotas de complejidad (muestras finitas): PAC- MDP. RL Mul=agente. Batch Reinforcement Learning. 26

27 ALGUNAS REFERENCIAS LIBROS Reinforcement Learning: An Introduc8on. Suhon R. S. & Barto A. G. (1998). Reinforcement Learning: State- of- the- art. Wiering M. & van Oherlo M. (2012). { Capítulo 1 } TUTORIALES Reinforcement Learning: A Survey. Leslie Pack Kaelbling, Michael L. Lihman, Andrew W. Moore. Journal of ArWficial Intelligence Research, 1996 A tutorial on reinforcement learning techniques. C. H. C. Ribeiro. Proceedings of InternaWonal Conference on Neural Networks, INNS Press, Washington, DC, USA, July

28 BIBLIOGRAFÍA EXTRA Engel, Y., Mannor, S., Meir, R. Reinforcement Learning with Gaussian Processes. In: Proceedings of the 22nd InternaWonal Conference on Machine Learning. Vol. 22. Bonn, Germany, pp , August C.E. Rasmussen and M. Kuss. Gaussian Processes in Reinforcement Learning. Advances in Neural Informa6on Processing Systems 16 Proc. Ann. Conf. Neural Informa6on Processing Systems, pp , Andrew Y. Ng, Michael I. Jordan. PEGASUS: A policy search method for large MDPs and POMDPs. Proceedings of the 16th Conference on Uncertainty in ArWficial Intelligence, p , June 30- July 03, 2000 VIDEOLECTURES.NET TALK. Rick Suhon. Deconstruc8ng Reinforcement Learning. ICML 2009 hhp://videolectures.net/icml09_suhon_itdrl/ 28