Decisiones Secuenciales

Tamaño: px

Comenzar la demostración a partir de la página:

Download "Decisiones Secuenciales"

Pascual Murillo Lara
hace 6 años
Vistas:

1 Decisiones Secuenciales CI Inteligencia rtificial 2 Clases 4 y 5 Cap 17. Russel & Norvig: Inteligencia rtificial. Un enfoque estructurado genda Motivación Qué son los MDPs? Modelos Recompensas Lifetime Políticas Cálculo de políticas Resumen

2 Problemas de Decisión Secuencial Problema de decisión que involucra un conjunto de decisiones cuyo resultado (utilidad) se conoce hasta el final Se considera que se tiene una serie de estados y decisiones asociadas en el tiempo Se tiene incertidumbre asociada con los resultados de las acciones (MDP), y posiblemente también con los estados (POMDP) Ejemplo: Ratón que busca queso Queso uscar en el espacio de estados? Problema de satisfacción de restricciones? Planning dirigido a la meta (oal-directed)?

3 lgunas ideas El objetivo es acumular recompensas (rewards), en lugar de estados objetivos. Los objetivos se alcanzan durante el camino, en lugar de al final. La tarea es generar políticas de cómo actuar en todas las situaciones, en lugar de hacer un plan para una situación inicial dada. Las políticas pueden tener value functions, las cuales describen el mayor reward que puede alcanzarse en cada estado. Las Value functions se calculan por aproximación iterativa Procesos de Decisión Markovianos (MDPs) gente Estado Reward cción mbiente a s a 1 a s1 s 2 2 s 3 r r 1 r 2 Dado un modelo del ambiente como un MDP construir una política para actuar que maximize la utilidad esperada V = r + γ r 1 + γ 2 r 2...

4 MDPs, Ejemplo a s a 1 a s1 s 2 2 s 3 r r 1 r 2 Ejemplo: s1 a Se muestran las transiciones legales Rewards en las transiciones no estiquetadas es. MDPs Modelo: Un conjunto finito de estados, S Un conjunto finito de acciones, Modelo probabilístico de transiciones, δ(s,a) recompensas para cada estado y acción, R(s,a) Proceso: Observar el estado s t in S Escoger una acción en Recibir la recompensa r t El estado cambia a s t+1

5 Suposiciones de los mbientes MDP Suposición de Markov: El próximo estado y la función de reward, solo son función del estado actual y la acción actuales: s t+1 = δ(s t, a t ) r t = r(s t, a t ) mbiente desconocido y con incertidumbre δ y r pueden ser no-determinísticas y desconocidas. HOY: Sólo el caso determinístico Utilidad Esperada Horizonte finito: Las recompensas (rewards) se acumulan durante un período fijo de tiempo: $K + $K + $K = $3K Horizonte infinito: Se asume que los rewards se acumulan por siempre: $K + $K +... = infinity Descuento: Las recompensas futuras no son tan valiosas como las presentes Se introduce un factor de descuento γ $K + γ $K + γ 2 $K... = converge

6 sumimos un mundo determinístico Política π : S Selecciona una acción para cada estado Política óptima π* : S Para cada estado selecciona la acción que maximiza la utilidad esperada. π π Puede haber muchas políticas, no todas ellas son necesariamente óptimas. Puede haber varias políticas optimas

7 Value Function V π para una política dada π V π (s t ) es la utilidad esperada acumulada resultante de la aplicación de la política π a partir del estado inicial s t : V π (s t ) = r t + γ r t+1 + γ 2 r t+2... V π (s t ) = i γ i r t+i donde r, t r t+1, r t+2... Son generados al seguir la política π comenzando en s t. π asumimos γ = V π n Optimal Policy π* iven Value Function V* Dado un estado s 1. Examinar las acciones posibles a i en el estado s. 2. Seleccionar la acción a i con la mayor utilidad esperada.. La utilidad esperada Q(s, a i ) es: La recompensa immediata de realizar la acción r(s,a) Más la utilidad esperada comenzando en estado destino V(δ(s, a)) Descontando por γ. π*(s) = argmax a [r(s,a) + γv * (δ(s, a)] Requiere: π Value function Modelo ambiental: δ : S x S 1 r : S x R

8 Ejemplo: Mapeando una Value Function en política El agente selecciona la opción óptima a partir dev: π(s) = argmax a [ r(s,a) + γv (δ(s, a) ] Modelo + V: γ = Ejemplo: Mapendo una Value Function en política El agente selecciona la opción óptima a partir dev: π(s) = argmax a [r(s,a) + γv(δ(s, a)] π: Modelo + V: a 9 b 81 9 γ =.9 a: +.9 x = 9 b: +.9 x 81 = 72.9 selecciono a

9 Ejemplo: Mapendo una Value Function en politica El agente selecciona la opción optima a partir dev: π(s) = argmax a [r(s,a) + γv(δ(s, a)] Modelo + V: 9 a b 81 9 π: γ =.9 a: +.9 x = b: +.9 x 9 = 81 selecciono a Ejemplo: Mapendo una Value Function en politica El agente selecciona la opción optima a partir dev: π(s) = argmax a [r(s,a) + γv(δ(s, a)] π: Modelo + V: 9 81 a b 9 c γ =.9 a:? b:? c:? selecciono?

10 Cálculo de Value Functions Value Function (V ) para Universidad una Simón olívar política optimal (π ) Ejemplo R S Value function optimal en horizonte de 1 paso: V* 1 (s) = max a [r(s,a i i )] V* 1 (S ) S S V* 1 (S ) R R R S Max... R R S S

11 Value Function (V ) para Universidad una Simón olívar política optimal (π ) Ejemplo R S R Value function optimal en horizonte de 1 paso: V* 1 (s) = max ai [r(s,a i )] Value function optimal en horizonte de 2 pasos : V* 2 (s) = max ai [r(s,a i ) + γv 1 (δ(s, a i ))] Instancia del principio de programación dinámica: Reutilizar sub-resultados compartidos horro exponencial R S R V* 2 (S ) S S V* 2 (S ) γ V* R + 1 (S ) R Max... S... S + γ V* 1 (S ) S S Value Function (V ) para Universidad una Simón olívar política optimal (π ) Ejemplo R Value function optimal en horizonte de 1 paso: V* 1 (s) = max a [r(s,a i i )] Value function optimal en horizonte de 2 pasos : V* 2 (s) = max a [r(s,a i i ) + γv 1 (δ(s, a i ))] Value function optimal en horizonte de n pasos : V* n (s) = max a [r(s,a i i ) + γv n-1 (δ(s, a i ))] S R R S R

12 Value Function (V ) para Universidad una Simón olívar política optimal (π ) Ejemplo R Value function optimal en horizonte de 1 paso: V* 1 (s) = max a [r(s,a i i )] Value function optimal en horizonte de 2 pasos : V* 2 (s) = max a [r(s,a i i ) + γv 1 (δ(s, a i ))] Value function optimal en horizonte de n pasos : V* n (s) = max a [r(s,a i i ) + γv n-1 (δ(s, a i ))] Value function optimal en horizonte infinito: R S V*(s) = max a i [r(s,a i) + γv (δ(s, a i ))] R S R Resolución de MDPs por Value Iteration Se puede calcular los valores de la política óptima usando programación dinámica. lgoritmo: Calcular los valores iterativamente usando la ecuación de ellman: V* t+1 (s) max a [r(s,a) + γv t(δ(s, a))] Terminar cuando los valores están suficientemente cerca V* t+1 (s) - V t (s) < ε Los agentes seleccionan la acción optimal con un paso de lookahead sobre V : π*(s) = argmax a [r(s,a) + γv (δ(s, a)]

13 Convergencia del lgoritmo lgoritmo: Calcular los valores iterativamente usando la ecuación de ellman: V t+1 (s) max a [r(s,a) + γv t (δ(s, a))] Terminar cuando los valores están suficientemente cerca V t+1 (s) - V t (s) < ε Luego: Max s in S V t+1 (s) - V (s) < 2εγ/(1 - γ) La convergencia está garantizada (en t infinito), no importando el orden de las actualizaciones. Ejemplo de Value Iteration V* t+1 (s) max a [r(s,a) + γv t (δ(s, a))] V γ =.9 t V t+1 a b a: +.9 x = b: +.9 x = Max =

14 Ejemplo de Value Iteration V* t+1 (s) max a [r(s,a) + γv t (δ(s, a))] V t V t+1 c a b γ =.9 a: +.9 x = b: +.9 x = c: +.9 x = Max = Ejemplo de Value Iteration V* t+1 (s) max a [r(s,a) + γv t (δ(s, a))] γ =.9 V t V t+1 a a: +.9 x = Max =

15 Ejemplo de Value Iteration V* t+1 (s) max a [r(s,a) + γv t (δ(s, a))] γ =.9 V t V t+1 Ejemplo de Value Iteration V* t+1 (s) max a [r(s,a) + γv t (δ(s, a))] γ =.9 V t V t+1

16 Ejemplo de Value Iteration V* t+1 (s) max a [r(s,a) + γv t (δ(s, a))] γ =.9 V t V t+1 Ejemplo de Value Iteration V* t+1 (s) max a [r(s,a) + γv t (δ(s, a))] γ =.9 V t V t+1 9 9

17 Ejemplo de Value Iteration V* t+1 (s) max a [r(s,a) + γv t (δ(s, a))] γ =.9 V t V t Ejemplo de Value Iteration V* t+1 (s) max a [r(s,a) + γv t (δ(s, a))] γ =.9 V t V t

18 Referencias y Enlaces Russell, S. and Norvig, P. Inteligencia rtificial. Un enfoque moderno. Prentice Hall Láminas de Russel: Planning to Maximize Reward:Markov Decision Processes: Planning to Maximize Reward: Markov Decision Processes Código ejemplo de los diferentes tipos de agentes disponible en:

Documentos relacionados

Métodos de Inteligencia Artificial

Métodos de Inteligencia Artificial L. Enrique Sucar (INAOE) esucar@inaoep.mx ccc.inaoep.mx/esucar Tecnologías de Información UPAEP Agentes que Aprenden: Aprendizaje por Refuerzo (RL) Introducción MDPs