OPIMIZACIÓN DINÁMICA Francisco Alvarez González fralvare@ccee.ucm.es EMA 5 Problemas en iempo coninuo: principio del máximo de Ponryagin 1. Formulación en iempo coninuo. 2. Ejemplos. 3. Función valor. 4. Ecuación de Bellman y principio del máximo de Ponryagin.
5.1. Formulación en iempo coninuo. Denoamos ahora el iempo por, y suponemos que oma valores en un coninuo [,], siendo finio. Cada unidad de iempo es ahora un insane y iene duración infiniesimal. Expresemos el problema en iempo discreo esudiado aneriormene ahora en iempo coninuo. Dinámica de esado: La ecuación ( + 1 ) =, x k f x k u k puede expresarse, incurriendo en un ligero abuso de noación: O bien: ( + 1 ) =, x k x k f x k u k ( + δ ) x x δ = ( (), ()) f x u Noemos que las dos aneriores ecuaciones son idénicas omando δ=1. La úlima ecuación generaliza la anerior si los incremenos de iempo son arbirarios (no necesariamene uniarios). Además, si los incremenos de iempo son infiniesimales, la úlima ecuación queda: x() = f x(), u() Donde el puno denoa derivada respeco al iempo. Funcional objeivo: Siguiendo los mismos pasos, pariendo de: N 1 k = ( ) + g x k, u k S x N, N Generalizamos a incremenos de iempo arbirarios: δ = ( () ()) δ + g x, u S x, donde el úlimo insane lo hemos denoado en lugar de N. Paricularizando la anerior expresión para incremenos de iempo infiniesimales, queda: ( () ()) + g x, u d S x,
Formulación general Por ano, el problema en iempo coninuo es min g x(), u() d+ S x { u (): [, ] } s.a: ( ) (, ), [, ] () () () ( ) dado (), [, ] x = f x u x u U Ese problema se denomina problema fundamenal de conrol ópimo. Hemos escrio S(x()) en lugar de S(x(),) por simplicidad, volveremos sobre ese puno mas adelane. Por qué molesarnos en el iempo coninuo si ya hemos aprendido a resolver problemas en iempo discreo? Porque en algunos problemas es más naural la dinámica en iempo coninuo. Porque nos permie usar una écnica de solución muy poene: principio del máximo de Ponryagin, que permie esudiar variaciones aparenemene muy complejas del problema general de una forma relaivamene sencilla. Porque la caracerización de la solución es mediane ecuaciones diferenciales, de las cuales sabemos mucho.
Un poco de hisoria!! Inicialmene surgió el cálculo de variaciones, un caso paricular del principio del máximo. Euler(177-1787) y el problema de la braquisocrona. ambién Lagrange (1736-1813), Legendre (1752-1833), Jacobi(184-1851), Hamilon(185-1865), Weiersrass(1815-1897),.. Ponryagin (1962) inroduce al principio del máximo, y Bellman (1957) inroduce la programación dinámica. Aplicaciones a la economía: crecimieno económico, recursos naurales, managemen, juegos diferenciales,
5.2 Ejemplo. Supongamos que en un insane = enemos una deuda, sea a>. En cada insane del horizone emporal [,], con fijado y finio, elegimos a que asa reducimos nuesra deuda denro del inervalo [,1]. enemos un cose insanáneo de 1 por unidad de deuda viva cada insane, mas un cose adicional de β unidades por unidad de deuda que quede viva al final del horizone emporal. Sea x() la canidad de deuda viva en el insane, de modo que x()= a>. En iempo coninuo, la asa es x/ x. Por ano, denoando por u() la asa de reducción que elegimos en el insane, la dinámica de esado es: () = xu () () x Además, el cose a minimizar es: () + β x( ) x d En cada insane debe ser u() [,1]. Noemos que no podemos reducir la deuda a cero!!! Es el cueno de la liebre que va derás la oruga y recorre en cada unidad de iempo la miad del camino que la separa de la oruga (ó ¾ pares, cualquier porcenaje menor que 1). La liebre va más despacio cuano más cerca esá de la oruga y de hecho no la alcanza en un iempo finio (aunque la oruga esé parada). Precisamene porque la deuda no se reduce y dado que manener deuda viva iene un cose, la solución es rivial: reducir la deuda al máximo en cada período, es decir, la políica ópima es u*()=1 para odo [,].
5.3. Función valor. Habíamos viso en iempo discreo, para k {,1,,N}. N J ( x( k), k) = min g ( x() i, u() i ) + S x( N), N uk,..., un ( 1) i= k En iempo coninuo es, para [,] J( x(), ) = min g x s, u s ds+ S x { us : s [ s, ]} ( ) Noación: {u*() : [,]} es la políica ópima del problema planeado, y {x*() : [,]} es el esado inducido por la políica ópima. Por ano: ( ) () () ( ) J x, = g x*, u* d+ S x* Se sigue verificando el principio de opimalidad de Bellman: Para odo [,], {u*(s) : s [,]} es la políica ópima del sub-problema que empieza en el insane con x()= x*(). Por ano: ( () ) ( ) J x*, = g x* s, u* s ds+ S x* enemos enonces una ecuación funcional de Bellman para el caso de iempo coninuo? Sí: ecuación de Hamilon-Jacobi-Bellman (HJB) = min g ( x(), u) + J x* (), f x, u + J x*, u U() HJB caraceriza a la función valor. ( () ) ( () )
5.4. HJB y principio del máximo de Ponryagin. En iempo discreo, a parir de le ecuación de Bellman, eníamos: u( k) = arg min g( x( k), u) + J( x( k+ 1 ), k+ 1) Cose presene Cose fuuro En iempo coninuo, a parir de HJB (ver final de ese ema), enemos: u() = arg min g ( x(), u) + J( x* (), ) f ( x(), u) u U() Cose presene (1) Cose fuuro res comenarios: En iempo coninuo, el cose fuuro se obiene como una aproximación de aylor de la función valor en el insane siguiene. Para calcular dicha aproximación, no necesiamos conocer oda la función valor, si no solamene su derivada respeco a x a lo largo de la rayecoria de esado ópima. Dicha derivada es función solamene del iempo. Para odo [,], sea: λ () : = J( x* (), ) x Claramene: λ()=s(x*(),)/ (). Si uviésemos recurrencia sencilla que caracerice { λ() : [,]} a parir de la condición final anerior, enonces podríamos usar (1) para enconrar la políica ópima. El principio del máximo de Ponryagin es (1) juno con dicha recurrencia.
Presenación formal del principio del máximo de Ponryagin: Para cada [,], definimos la función Hamiloniano: H(x(),u(),λ()):=g(x(),u())+ λ()f(x(),u()) La políica ópima del problema planeado saisface: (i) u* () = argmin H x, u, λ () u U { ( () ())} (ii) λ() H x* (), u* (), λ() = x con λ ( ) = S' x* ( ) además de la dinámica de esado. Noemos que: La condición (i) es exacamene la condición (1) de la página anerior. La condición (ii) es la recurrencia para el cálculo de λ a la que nos hemos referido previamene. Se conoce como ecuación de co-esado. Las condiciones del principio del máximo son necesarias. Implíciamene, hemos supueso aneriormene que la función valor es diferenciable (siendo λ una de sus derivadas parciales). Sin embargo, el principio del máximo sigue siendo válido aunque la función valor no sea diferenciable.
Solución al problema anerior. Recordemos el enunciado: min x () d+ β x( ) u U() con U()= [,1], y x()=a> dado. s.a.: x () = xu () () enemos H = x λux, por lo que: (i) u H u = arg min = u [,1] 1 si λx > en oro caso Por ano: = (ii) H = λu 1, luego: λ λu 1 Si u=1, enemos λ ( ) = Ce + 1 Si u=, enemos λ ( ) = A Siendo A y C consanes a deerminar, y debe ser λ()=β. Supongamos que es λ()x()<, lo cual implica λ()<,enonces omaremos u()=, y por ano x =, y además λ <, por lo que en el insane siguiene se sigue verificando λx<. Así sucesivamene, se iene λ()< para odo >, lo cual esá en conradicción con λ()=β. Si λ()x()>, omamos u()=1, y en el insane siguiene se sigue verificando λx>. Así sucesivamene, se iene λ ( ) = Ce + 1, u()=1 para odo y x () = Pe+ 1. Eligiendo C y P de modo que se verifique λ()=β y x()=a, respecivamene, queda: ( 1) λ = β e + 1 y x* ( ) = ae Noemos que: ( ) β ( β ) J* x, = J* a, = x* d+ x* = 1 e + 1 a d J a e da Por lo que: *(,) = ( β 1) + 1= λ( )
Evolución emporal del co-esado dependiendo de posibles valores de β. β>1 β (β 1)e - +1 β <1 (β 1)e - +1 β β =1 1 En odos los casos, enemos λ>, es decir, aumenar x aumena el valor que oma la función valor. Como queremos minimizar, aumenar el valor de la función valor es empeorar. Si β>1, aumenar la deuda final empeora más que aumenar la deuda inermedia. El gráfico correspondiene muesra que el empeoramieno, es decir, el aumeno de la función valor, es mayor si aumenan los esados finales. Análogamene para los casos β<1 y β=1.
Ecuación funcional de Bellman, ecuación HJB y principio del máximo (algunas cuesiones écnicas se omien en lo que sigue) La ecuación de Bellman en iempo discreo es: ( (), ) arg min { ( (), ) ( ( 1 ), 1) } J x = g x u + J x + + (*) Escribamos ahora el problema de opimización en iempo discreo cuando la longiud de salo emporal es arbiraria, sea δ (el problema clásico en iempo discreo es omando δ = 1) δ min g( x(), u() ) δ+ S( x( ), ) = sujeo a la dinámica de esado: ( + δ ) x x δ = ( (), ()) f x u la ecuación funcional de Bellman asociada a ese problema es ( (), ) = min { ( (), ) δ + ( ( + δ ), + δ )} J x g x u J x o bien ( () ) 1 ( () ) ( ) 1 J x, = min g x, u + J x + δ, + δ δ δ La aproximación lineal de aylor de J ( x ( + δ), + δ) en orno a (x(),) es J ( x, ) J( x, ) J ( x ( δ ), δ ) J( x (), ) ( x ( ) x ) x δ + + + + + δ susiuyendo en el anerior argumeno de minimización, cancelando ( (), ) 1 J x y eniendo en cuena la dinámica de esado obenemos la δ ecuación HJB: J ( x( ), ) J( x( ), ) = min g( x(), u) + f ( x(), u() ) + que se verifica ambién en iempo conínuo, es decir, omando δ
Noemos que: (1) el lado derecho de HJB define el conrol ópimo dado un esado: eliminando el úlimo sumando, que no depende de u(), queda: J( x( ), ) u() = arg min g ( x(), u) + f ( x(), u() ) (1) J ( x, ) de hecho, hemos de noar que, bajo la políica ópima, solamene depende del iempo, por lo que podemos escribir: J( x(), ) J( x( ), ) S( x( ), ) λ () : = siendo λ ( ): = = y, definiendo la función Hamiloniano: H( x( ), u( ), λ( ) ) : = g ( x( ), u) + λ( ) f ( x( ), u( ) ) enemos que la condición (1) puede escribirse u() = arg min { H( x(), u, λ () )} (1 ) (2) usando el Hamiloniano, podemos escribir HJB: J ( x( ), ) = min H( x(), u, λ () ) + es decir, fijado, ane una variación en x() habrá una variación compensaoria en el u() que resuelve el problema de minimización de modo que el lado derecho de HJB sigue valiendo. Por ano, omando diferenciales, ha de ser: J( x( ), ) Hx + dx+ Hudu = considerando el valor de u que soluciona (1 ) ha de ser H u =, y por ano el coeficiene de dx ha de ser, es decir: H x λ = (2) donde hemos usado la noación para la derivada de la función valor inroducida arriba. (1 ) y (2) consiuyen las condiciones necesarias de opimalidad del Principio del Máximo. El Principio del Máximo susiuye la necesidad de conocer la función valor del período (insane) siguiene por la necesidad de conocer solamene su derivada con respeco al esado. Además, (2) consiuye una forma de calcular dicha derivada recursivamene pariendo de la condición final dada aneriormene.