Métodos de búsqueda directa para optimización sin derivadas

Transcripción

1 Métodos de búsqueda directa para optimización sin derivadas Autora: María de los Angeles Martínez Arraigada Director: Elvio A. Pilotta UNIVERSIDAD NACIONAL DE CÓRDOBA Córdoba, Marzo de 2014 FaMAF - UNC 2014

2

3 Agradecimientos A mi familia que siempre me ayudó y confió en mí en todo momento, en especial a mi mamá y mi abuelita que nunca me permitieron bajar los brazos. A Valentin Stoytschew por su cariño, su paciencia y sus palabras de aliento a pesar de la distancia. A mi director, por sus consejos y su confianza. A mis compañeros y amigos de la facultad por la ayuda y el ánimo durante estos 6 años de cursado. A los amigos de la vida, que siempre están a pesar de los distintos caminos tomados. A muchos profesores de la facultad que me ayudaron a transitar este difícil camino de cambios y grandes desafíos. A todos ellos, gracias.

4 Resumen En este trabajo se realiza un análisis de los llamados métodos de búsqueda con conjuntos generadores, que abarcan distintas estrategias que se basan en direcciones de búsqueda para encontrar minimizadores (locales) de una función f continuamente diferenciable, pero cuyo gradiente no está disponible o es costoso de calcular computacionalmente. Se muestran, además, algunos resultados teóricos que aseguran la convergencia de tales métodos bajo ciertas hipótesis. También se presenta el conocido método de Nelder-Mead basado en simplices, que no se enmarca dentro de los métodos de búsqueda direccional pero es ampliamente aplicado en diversas áreas por su buen desempeño y su fácil implementación. Finalmente, se realizan experimentos numéricos utilizando problemas test de la literatura para comparar y analizar su comportamiento frente a funciones que presentan distintos tipos de dificultad a la hora de encontrar sus mínimos locales. Palabras Clave: optimización no lineal, métodos de búsqueda directa, análisis de convergencia global, métodos de búsqueda simplicial, búsqueda con conjuntos generadores. Códigos de Clasificación: - (90C56) Derivative-free methods and methods using generalized derivatives. - (90C30) Nonlinear programming. - (65K05) Mathematical programming methods.

5 Índice general 1. Introducción En qué consisten los métodos de búsqueda directa en el área de optimización? Ingredientes principales Aplicaciones Métodos de búsqueda directa Minimización sin restricciones Convergencia global Métodos de búsqueda lineal Evitando elecciones pobres de la longitud de paso Evitando elecciones pobres de direcciones de descenso Un resultado de convergencia global para métodos de búsqueda lineal Métodos de búsqueda con conjuntos generadores para minimización irrestricta Conjuntos generadores positivos y bases positivas Estimaciones del gradiente usados en búsqueda directa Búsqueda directa direccional Búsqueda en direcciones coordenadas Convergencia de la búsqueda en direcciones coordenadas Búsqueda en conjuntos generadores Ingredientes para la prueba de convergencia de los métodos GSS Relacionando k con la medida de estacionariedad Estrategias de globalización Resultados de convergencia global Convergencia del algoritmo GSS bajo descenso simple Convergencia local del método GSS Opciones algorítmicas Movimientos exploratorios

6 Oráculos Variaciones en las hipótesis de GSS Control de la longitud de paso Por qué asumimos f continua? Por qué asumimos que f existe y es continua? Método de búsqueda directa multidireccional (MDS) Método Simplex de Nelder-Mead Simplices Método de Nelder-Mead Simplices de Nelder-Mead Propiedades del método Simplex Una variante globalmente convergente del método de Nelder-Mead Experimentos numéricos Comparando variantes del GSS Conclusiones 76 Bibliografía 79

7 Capítulo 1 Introducción 1.1. En qué consisten los métodos de búsqueda directa en el área de optimización? Consideremos el problema de encontrar un minimizador local de una función f a valores reales. Si f es diferenciable y f es conocido o puede ser calculado vía diferencias finitas (u otros medios), un amplio número de métodos de optimización basados en derivadas pueden ser utilizados para resolver este problema. La pregunta ahora es la siguiente: pueden estos problemas ser resueltos si f no es conocido o la información es poco confiable? La respuesta es que sí se puede y para ello haremos uso de los llamados métodos de búsqueda directa. Si bien no es fácil dar una definición exacta del término búsqueda directa, hemos considerado durante mucho tiempo la descripción que figura en el documento de Hooke y Jeeves [19] que es aparentemente donde el término surge por primera vez: Usamos la frase búsqueda directa para describir una examinación secuencial de soluciones prueba que envuelve la comparación de cada una de las soluciones prueba con la mejoróbtenida hasta este momento junto con una estrategia para determinar (como una función de los anteriores resultados) cuál será la próxima solución prueba. La frase implica nuestra preferencia, basada en la experiencia, para estrategias de búsqueda directa que no emplean técnicas del análisis clásico excepto cuando hay una ventaja demostrable en hacerlo. Manteniendo el espíritu del pasaje anterior, también acordamos con la con- 1

8 CAPÍTULO 1. INTRODUCCIÓN 2 dición necesaria propuesta por M. Wright [35] la cual dice: A direct search method does not in its heart develop an approximate gradient (es decir que la búsqueda directa no intenta desarrollar una aproximación del gradiente). Esto excluye ciertos métodos como los esquemas quasi-newton basados en diferencias finitas. Los métodos de búsqueda directa han sido conocidos aproximadamente desde 1950, sin embargo a comienzos de la década del 70 fueron marginados por la comunidad de optimización matemática debido a que han sido desarrollados eurísticamente, ninguna prueba de convergencia había sido derivada de ellos y algunas veces la velocidad de convergencia podía ser muy lenta. Estas razones básicas fueron resumidas por Swann en sus escritos de 1971 [30]. Sin embargo, en 1991 se revivió el interés en estos métodos con la publicación, en el contexto de cálculo paralelo, de un método de búsqueda directa acompañado con un análisis de convergencia [32]. A partir de allí, el panorama parecía esclarecerse en dos puntos claves: Estos métodos eran una opción efectiva, y en alguno casos, la única. Para un gran número de éstos era posible garantizar rigurosamente la convergencia. En este trabajo consideraremos los puntos anteriores, desarrollando en detalle el último de ellos. Además, nos enfocaremos particularmente en una subclase de estos métodos que incluyen la conocida búsqueda en direcciones coordenadas (conocido como compass search) y una versión mejorada del mismo, entre otros. Para quienes no están familiarizados con el primer método mencionado, éste consiste en una estrategia algorítmica básica la cual en dos dimensiones puede ser resumida de la siguiente forma: dado un punto inicial probar pasos hacia el este, oeste, norte y sur, si en uno de estos puntos se produce un descenso del valor funcional éste se convierte en el nuevo iterado. Si ninguno presenta una mejoría se trata nuevamente con pasos equivalentes a la mitad de los usados anteriormente. Debemos notar que mientras x k se aproxima a la solución, el algoritmo reduce la longitud de los pasos tomados (donde x k denota el iterado en el paso k) y este hecho es central en la prueba de convergencia de este tipo de métodos. A modo de ejemplo, la Figura 1.1 nos muestra las primeras cinco iteraciones de la búsqueda en direcciones coordenadas aplicado al problema: mín f(x 1, x 2 ) = (3 2x 1 )x 1 2x (3 2x2 )x 2 x x R n La función f es la conocida función tridiagonal de Broyden modificada. Las curvas de nivel de la f son mostradas en cada uno de los gráficos y el punto

9 CAPÍTULO 1. INTRODUCCIÓN 3 magenta denota x k. En la figura (a), la búsqueda comienza del iterado inicial x 0 = ( 0,9; 1) y la solución al problema es marcado con una estrella roja. Cada una de estas seis figuras denota una iteración de la búsqueda. Los cuatro puntos de color azul representan los puntos prueba que se consideran en cada iteración. Figura 1.1: Iteraciones de la búsqueda en coordenadas. Se debe tener en cuenta que lo aconsejable es recurrir a métodos basados en gradiente cuando se tiene información exacta de las primeras derivadas o métodos basados en Newton si las segundas derivadas también están disponibles, lo cual no significa que los métodos de búsqueda directa no sean necesarios en ciertos casos, aunque no se debe esperar que el trabajo de éstos sea comparable al de aquellos basados en derivadas Ingredientes principales En este trabajo estudiaremos algunos algoritmos que no usan derivadas para problemas de optimización sin restricciones, es decir, problemas de la forma mín x R n f(x). Más aún, estamos interesados en algoritmos que son globalmente convergentes a puntos estacionarios, en otras palabras, algoritmos que sin importar

10 CAPÍTULO 1. INTRODUCCIÓN 4 cuál sea el punto de partida sean capaces de generar una sucesión de iterados que tiendan a un punto estacionario. Podríamos decir que hay tres recursos presentes en todo algoritmo sin uso de derivadas con convergencia global: 1. Ellos incorporan algunos mecanismos para imponer descenso lejos de la estacionariedad. Esto mismo es hecho por los algoritmos basados en derivadas para forzar la convergencia global, con lo cual esta imposición no es novedosa. Sin embargo, la diferencia está en cómo lo hace. Los métodos de búsqueda directa direccionales, por ejemplo, alcanzan este objetivo al usar bases positivas o conjuntos generadores positivos y moverse en la dirección de los puntos que muestran mejorías del valor funcional. Por otro lado, los métodos basados en Simplex aseguran descenso mediante operaciones como la reflexión, al moverse en la dirección que se aleja desde el punto con peor valor funcional. En cada caso, el descenso está garantizado al combinar los mecanismos anteriores con una posible reducción del correspondiente parámetro de longitud de paso. 2. Deben garantizar alguna forma de control de la geometría de los conjuntos muestrales donde la función es evaluada. Esencialmente, tales operaciones aseguran que cualquier indicación de estacionariedad es de hecho, verdadero. Ejemplos de medidas de geometría son: la medida coseno para conjuntos generadores positivos y el volumen normalizado de simplices. 3. Ellos deben conducir el parámetro longitud de paso a cero. La mayoría de los códigos de optimización paran su ejecución cuando el tamaño del paso está por debajo de cierta tolerancia dada. En la optimización sin derivadas el tamaño de paso sirve a un doble propósito: además de limitar el tamaño del paso mínimo también controla el tamaño del área local donde la función es muestreada alrededor del iterado actual. En efecto, la teoría de convergencia de métodos sin derivadas que veremos en este trabajo muestra que la sucesión (o una subsucesión) de los parámetros de longitud de paso convergen a cero. Esto es una consecuencia implícita de los mecanismos de algoritmos efectivos y no debe ni tiene que ser forzado. Estos comentarios quedarán más claros en los capítulos siguientes. Con este tipo de métodos uno puede esperar abordar con éxito problemas (i) que no tengan más de cien variables; (ii) con cierta suavidad; (iii) en los

11 CAPÍTULO 1. INTRODUCCIÓN 5 cuales la evaluación de la función es costosa y/o calculada con cierto ruido; (iv) en los cuales la convergencia asintótica rápida no sea de importancia primaria Aplicaciones La diversidad de aplicaciones incluyen problemas en ingeniería, matemática, física, química, economía, medicina, ciencias de la computación, etc. Como ejemplo incluimos algunas de las más conocidas aplicaciones y sus referencias. Sintonización de parámetros algorítmicos. Una interesante aplicación de optimización libre de derivadas ha sido explorada en [4], con resultados prometedores, para sintonizar parámetros de métodos de optimización no lineales. La mayoría de los códigos numéricos dependen de un número de parámetros, los cuales son de crítica elección e influyen notablemente en el desempeño de los solvers. En general, estos parámetros son conjuntos de valores que tienen alguna justificación matemática o bien, han sido encontrados por los desarrollistas de códigos para un buen desempeño. Una manera de automatizar la elección de los parámetros es considerar un problema de optimización cuyas variables son los parámetros y cuya función objetivo mide el rendimiento del solver para una elección de parámetros dada. Tales problemas deben tener cotas superiores e inferiores en los valores de los parámetros del solver, y pueden plantearse de la siguiente manera: mín f(p) = CP U(solver; p) s.a. p P np p R donde n p es el número de parámetros a sintonizar y P = {p R np : l p u}. No solo es costoso el cálculo de las derivadas de la función sino que también algunos ruidos numéricos y formas de no diferenciabilidad pueden aparecer. Análisis de error automático. Este tipo de métodos también puede ser usado para análisis de errores automáticos [17, 18], un proceso en el cual una computadora es usada para analizar la exactitud o estabilidad de un cálculo numérico. Un ejemplo de ello es analizar cuán grande el factor de crecimiento para la eliminación Gaussiana puede ser para una estrategia de pivoteo específica. La relevancia de tal estudio resulta de la influencia del factor crecimiento en la estabilidad de la eliminación Gaussiana. Dada una estrategia de pivoteo y una matriz fija de

12 CAPÍTULO 1. INTRODUCCIÓN 6 dimensión n, el problema de optimización consiste en determinar la matriz que maximiza el factor crecimiento para la eliminación Gaussiana: máx f(a) = máx i,j,k a (k) ij, A R n n máx i,j a ij donde a ij (k) son los elementos intermedios generados durante la eliminación. Otros ejemplos de análisis de errores automáticos donde la optimización sin derivadas ha sido usada es en la estimación del número de condición de una matriz y el análisis de la estabilidad numérica para la inversión rápida de matrices y el cálculo de raíces polinómicas [17, 18]. Diseño en ingeniería. Un caso estudiado en este campo es el problema de diseño de la pala de rotor de helicóptero [8, 7, 16]. El objetivo es encontrar el diseño estructural de la pala de rotor para minimizar la vibración transmitida al eje. Las variables son la masa, el centro de gravedad y la rigidez de cada segmento de la pala. El código de simulación es multidisciplinario, incluyendo estructuras dinámicas, aerodinámicas, modelado y control. Otros problemas multidisciplinarios o de diseño complejo han sido resueltos exitosamente por métodos de optimización sin derivadas entre los que se destacan: diseño de la plataforma de un ala [3], diseño aeroacústico [25, 26] y diseño hidrodinámico [14]. Geometría molecular. Otra área donde no es inusual el uso de estos tipos de métodos que centran nuestra atención es en la optimización de geometrías moleculares y problemas relacionados. Un ejemplo sería considerar la geometría de un cluster de n átomos. El objetivo es entonces la minimización sin restricciones de la energía total del cluster calculada mediante simulación numérica de la dinámica subyacente.

13 Capítulo 2 Métodos de búsqueda directa 2.1. Minimización sin restricciones Daremos ahora una definición formal de problema de minimización irrestricta. Un problema sin restricciones es de la forma: minimizar f(x) donde f : R n R y x R n. La función f es llamada función objetivo y diremos que la dimensión del problema es n, el número de variables. En este trabajo consideraremos en general, funciones continuamente diferenciables Convergencia global En optimización, el orden generalmente hace referencia al orden de derivadas asociadas. Por lo tanto los métodos que sólo usan valores funcionales son conocidos como métodos de orden cero, mientras que los que usan gradientes son denominados métodos de primer orden. Similarmente, una condición de optimalidad de primer orden es una que involucra el gradiente. En el caso de la minimización sin restricciones de una función f continuamente diferenciable, una condición necesaria (de primer orden) para que un punto x sea un minimizador local es que f(x ) = 0, es decir, que x sea un punto estacionario de la función. Convergencia de primer orden de un método de optimización significa que uno (o varios, o todos) de los puntos límite de los iterados sea un punto estacionario de f. En términos de programación no lineal, convergencia global es usada para denominar convergencia de primer orden desde un punto inicial arbitrario. En contraste, el término convergencia local es usado cuando el punto inicial esta suficientemente cerca de un minimizador. 7

14 CAPÍTULO 2. MÉTODOS DE BÚSQUEDA DIRECTA 8 Aquí, nos concentraremos particularmente en convergencia global de primer orden para métodos de búsqueda directa. Aclaramos también que la convergencia de primer orden no implica convergencia a un punto que satisfaga condiciones de segundo orden (tales como matriz Hessiana definida positiva o semidefinida positiva), además, convergencia global tampoco significa convergencia a un minimizador global (es decir, un punto x tal que f(x ) f(x) para todo x R n ) Métodos de búsqueda lineal Haremos un breve resumen sobre los métodos de búsqueda lineal para quienes no están familiarizados con el tema, para luego hacer una comparación con el tópico central de este trabajo. Dada f diferenciable en x, un vector d R n es una dirección de descenso para f en x si: f(x) T d > 0 (2.1) La definición de la derivada nos dice: f(x + αd) = f(x) + α f(x) T d + o(α). Si d es una dirección de descenso y α > 0 es suficientemente pequeño, entonces x + αd reduce el valor del objetivo. Esta observación forma la base de los métodos de búsqueda lineal: en el iterado x k, elegimos una dirección de descenso d k y buscamos a lo largo de ésta un punto x k+1 = x k + α k d k, con α k > 0, que produzca un descenso en el valor objetivo. Sería satisfactorio decir que los iterados en el algoritmo esquematizado arriba convergen a un punto estacionario de f. Sin embargo, este no es el caso. Pedir un descenso simple en el objetivo, es decir: f(x k+1 ) < f(x k ), (2.2) no es suficiente para asegurar convergencia a un punto estacionario de f. Veamos algunos ejemplos de ello. Las figuras 2.1(a)-(b) muestran dos sucesiones de iterados para los cuales f(x k+1 ) < f(x k ), donde f(x) = x 2. Sin embargo, ninguna sucesión converge a 0, que es el único punto estacionario de f. En (a), la sucesión es x k = ( 1) k (1+2 k ), con puntos límites en ±1. En (b), la sucesión es x k = 1+2 k, la cual converge a 1. En (a), el problema es que los pasos son demasiado grandes comparados al descenso funcional de un iterado al próximo. Por el contrario, en (b), los pasos son demasiados cortos en relación al descenso que se registra en los valores funcionales.

15 CAPÍTULO 2. MÉTODOS DE BÚSQUEDA DIRECTA 9 La figura 2.1(c) ilustra otro problema potencial. La curva de nivel de la función en x k se muestra en color negro. La dirección de máximo descenso desde x k es indicada por la flecha roja; la recta tangente a x k es indicada mediante la línea roja. La dirección d k, indicada por el segmento de línea azul, satisface la condición de descenso (2.1), pero sólo apenas, casi formando un ángulo recto con la dirección de máximo descenso. Como consecuencia, sólo pequeños pasos a lo largo de d k producirán mejoras. Si el ángulo entre d k y f(x k ) se aproxima a 90 grados, los iterados pueden convergen prematuramente a un punto que no es estacionario. Figura 2.1: Posibles fallas en el algoritmo de búsqueda lineal Evitando elecciones pobres de la longitud de paso En las figuras anteriores cada paso se realiza a lo largo de una dirección de descenso, pero los pasos producen una disminución cada vez menor en los valores de f. Tradicionalmente, esto ha sido corregido al imponer criterios de aceptación que evitan pasos demasiado largos (o demasiado cortos) en relación al descenso funcional. A continuación mencionamos algunos de ellos. Condición de Armijo. Es una condición de búsqueda lineal inexacta popular la cual estipula que α k debe, ante todo, producir un descenso suficiente en la función objetivo, según lo medido por la siguiente desigualdad: f(x k + α k d k ) f(x k ) + c 1 α k f(x k ) T d k (2.3) con 0 < c 1 < 1. En otras palabras, la reducción de f debe ser proporcional a la longitud de paso α k y a la derivada direccional f(x k ) T d k.

16 CAPÍTULO 2. MÉTODOS DE BÚSQUEDA DIRECTA 10 En el siguiente teorema veremos que la condición impuesta anteriormente es siempre posible. Teorema (Condición de Armijo). Sean x, d R n tal que f(x) 0, f(x) T d < 0 y α (0, 1). Entonces existe ε = ε(α) tal que f(x + td) f(x) + αt f(x) T d, para todo t [0, ε). (2.4) Demostración. Tenemos que o lo que es equivalente 0 f(x) T d = lím t 0 f(x + dt) f(x) t f(x + dt) f(x) lím t 0 t f(x) T d = 1. Por definición, dado ε > 0, existe ε > 0 tal que, si t < ε entonces f(x + dt) f(x) 1 t f(x) T d ε En particular, tomamos ε = 1 α, con α (0, 1) Así obtenemos ε f(x + dt) f(x) t f(x) T d 1 ε Si nos concentramos en la primera desigualdad y reemplazamos el valor de ε tenemos, f(x + dt) f(x) α 1 1 t f(x) T d y dado que f(x) T d < 0 llegamos a f(x + td) f(x) + αt f(x k ) T d. De esta manera queda demostrado el teorema. Condición de Wolfe. La condición de descenso suficiente no basta en sí misma para asegurar que el algoritmo haga progresos razonables, como vimos en los ejemplos anteriores. Para descartar pasos que son demasiado cortos, introducimos un segundo requisito, conocido como condición de curvatura, el cual requiere que α k cumpla la siguiente desigualdad, f(x k + α k d k ) T d k c 2 f(x k ) T d k (2.5)

17 CAPÍTULO 2. MÉTODOS DE BÚSQUEDA DIRECTA 11 con c 1 < c 2 < 1. Si llamamos φ(α) = f(x k + αd k ) con α > 0, observamos que el lado izquierdo de la desigualdad es simplemente φ (α k ), entonces la condición de curvatura asegura que la pendiente de φ en el punto α k es más grande que un múltiplo de la pendiente inicial φ (0). Esto tiene sentido, pues si la pendiente φ(α) es fuertemente negativa, tenemos un indicio de poder reducir f significativamente al movernos aún más a lo largo de la dirección elegida. De otra manera, si φ (α k ) es positivo, es una señal de que no podemos esperar mucho más descenso en f en esa dirección, así que tiene sentido terminar la búsqueda a lo largo de ésta. La condición de descenso suficiente y la de curvatura son conocidas como condiciones de Wolfe. La condición (2.5) tiene un uso poco frecuente en la práctica. En su lugar, esta condición es cumplida automáticamente usando la técnica conocida como backtracking. Veamos de qué se trata. Backtracking Inicio. Sean ᾱ > 0, ρ (0, 1) y c (0, 1). Fijamos α = ᾱ. Definir α = ρα hasta que f(x k + αd k ) f(x k ) + cα f(x k ) T d k Terminar con α k = α. Generalmente se toma ᾱ = 1 al inicio del algoritmo. Una longitud de paso aceptable será encontrada después de un número finito de pruebas, pues α k se convertirá en lo suficientemente pequeño como para que la condición de descenso suficiente valga. En la práctica, al factor de contracción ρ se le permite variar en cada iteración de la búsqueda.

18 CAPÍTULO 2. MÉTODOS DE BÚSQUEDA DIRECTA Evitando elecciones pobres de direcciones de descenso Puede ocurrir que d k sea casi ortogonal a la dirección de máximo descenso, con lo cual el algoritmo podría generar aproximaciones donde se registre poco descenso del valor funcional. Esto puede ser prevenido al forzar una cota inferior uniforme en el ángulo entre f(x k ) y d k : f(x k ) T d k f(x k ) d k c > 0, (2.6) donde c es independiente de k. Esta condición es conocida como condición del ángulo [27] dado que también puede ser escrito como cos θ c > 0, donde θ es el ángulo entre la dirección d k y la dirección de descenso f(x k ). Notemos que si d k y f(x k ) son ortogonales, entonces cos θ = 0. Más adelante analizaremos en profundidad la condición (2.6) Un resultado de convergencia global para métodos de búsqueda lineal El siguiente es un resultado standard de convergencia global de primer orden para búsquedas lineales [20, 27, 28]. Teorema Sea f : R n R continuamente diferenciable en R n y acotada inferiormente. Supongamos también que f es Lipschitz continuo con constante M, es decir, f(y) f(x) M y x para todo x, y R n. (2.7) Si la sucesión {x k } satisface las condiciones (2.3)-(2.5) y la condición de dirección de búsqueda (2.6), tenemos: lím f(x k) = 0. k Notemos que este resultado no dice que la sucesión converge a un punto estacionario, sino que, algún punto límite de la sucesión de iterados es un punto estacionario Métodos de búsqueda con conjuntos generadores para minimización irrestricta Si bien no todos los métodos de búsqueda directa son confiables a la hora de encontrar soluciones, algoritmos como la búsqueda en direcciones coordenadas se desempeñan de manera eficaz, aunque en la práctica puede que su

19 CAPÍTULO 2. MÉTODOS DE BÚSQUEDA DIRECTA 13 convergencia sea lenta. Por esta razón, una parte de este trabajo se centrará en identificar clases de métodos de búsqueda directa que tengan fundamento matemático, como los métodos de búsqueda lineal basados en derivadas. Como no hay un nombre particular para la clase de métodos de búsqueda directa que analizaremos aquí, se los ha denominado generating set search (búsqueda en conjuntos generadores) en [21]. La discusión sobre métodos de búsqueda lineal basados en derivadas hecha anteriormente introdujo los principios que serán usados para probar convergencia de los métodos GSS (generating set search). Primero, el algoritmo debe tener una dirección de búsqueda que es una dirección de descenso, como se definió en (2.1). Segundo, los métodos GSS deben evitar direcciones de búsqueda pobres, en el sentido de (2.6). Estos métodos usan múltiples direcciones (específicamente un conjunto generador) para asegurar que (2.1) y (2.6) sean cumplidas por al menos una dirección en el conjunto, aún sin conocimiento explícito del gradiente. Finalmente, estos métodos también deben evitar elecciones pobres de la longitud de paso. Dado que emplean una estrategia de backtracking, no hay necesidad de forzar la condición (2.5). La novedad en el análisis de estos métodos yace en la forma en la cual reemplazan (2.3) (dado que no tienen una representación del f para usar) y aún así pueden evitar tomar pasos demasiado grandes. A continuación haremos un breve desarrollo sobre el conjunto de direcciones de búsqueda que utilizan estos métodos Conjuntos generadores positivos y bases positivas Aquí examinaremos algunas de las propiedades básicas de los conjuntos generadores positivos y bases positivas. Mostraremos además, cómo construir bases positivas simples. La mayoría de estas propiedades son extraídas de la teoría de dependencia lineal positiva desarrollada por Davis [12] Definiciones y propiedades Definimos como generado positivo de un conjunto de vectores [v 1 v r ] en R n al cono convexo {v R n : v = α 1 v α r v r, α i 0, i = 1,..., r}. (Muchas veces será conveniente considerar un conjunto de vectores como una matriz cuyas columnas son los vectores del conjunto).

20 CAPÍTULO 2. MÉTODOS DE BÚSQUEDA DIRECTA 14 Definición Un conjunto generador positivo en R n es un conjunto de vectores cuyo generado positivo es R n. El conjunto [v 1 v r ] se dice dependiente positivamente si uno de los vectores está en el cono convexo generado positivamente por los restantes vectores, es decir, si uno de los vectores es una combinación positiva de los otros; de otra manera, el conjunto es independiente positivamente. Una base positiva en R n es un conjunto independiente positivamente cuyo generado positivo es R n. Equivalentemente, una base positiva para R n puede ser definida como un conjunto de vectores no nulos de R n cuya combinación positiva genera R n pero no hay un subconjunto propio con la misma propiedad. El siguiente teorema tomado de [12] indica que un conjunto generador positivo contiene al menos n + 1 vectores en R n. Teorema Si [v 1 v r ] genera R n positivamente, entonces contiene un subconjunto con r 1 elementos que genera R n. Demostración. El conjunto [v 1 v r ] es necesariamente linealmente dependiente (de otro modo, sería posible construir una base para R n que generaría a R n positivamente). Como resultado, hay escalares ā 1,..., ā r (no todos nulos) tales que ā 1 v ā r v r = 0. Luego, existe i {1,..., r} para el cual ā i 0. Ahora supongamos que v es un vector arbitrario en R n. Dado que [v 1 v r ] genera R n positivamente, existen escalares no negativos a 1,..., a r tal que v = a 1 v a r v r. Como resultado tenemos, r v = a j v j = j=1 r j=1 j i ( ) a j āj a i v j. ā i Dado que v es arbitrario, hemos probado que {v 1,..., v r } \ {v i } genera R n. También puede verse que una base positiva no puede contener más de 2n elementos (ver [12]). Definición Las bases positivas con n+1 y 2n elementos son conocidas como bases positivas minimal y maximal, respectivamente. La base positiva formada por los vectores de la base canónica y su contraparte positiva es la base maximal más simple que uno pueda pensar. En R 2, esta base positiva está definida por las columnas de la matriz:

21 CAPÍTULO 2. MÉTODOS DE BÚSQUEDA DIRECTA 15 D 1 = ( ) Una base minimal simple en R 2 está formada por los vectores de la base canónica y el vector opuesto de la suma de los anteriores: D 2 = ( 1 0 ) Por conveniencia normalizaremos el tercer vector y escribimos: D 2 = ( ) \ \ 2 Si sumamos un vector más a esta base positiva, obtenemos un conjunto generador positivo que no es base positiva: D 3 = ( ) \ \ 2 1 La siguiente figura nos muestra las bases positivas D 1 y D 2 y el conjunto generador positivo D 3. Figura 2.2: Una base positiva maximal (izq.), una base positiva minimal (centro) y un conjunto generador positivo que no es base positiva (der.). Teorema Sea [v 1 v r ], con v i 0 para todo i {1,..., r}, generador de R n. Entonces, son equivalentes: (i) [v 1 v r ] genera R n positivamente. (ii) Para cada i = 1,..., r, el vector v i está en el cono convexo positivamente generado por los r 1 vectores restantes.

22 CAPÍTULO 2. MÉTODOS DE BÚSQUEDA DIRECTA 16 (iii) Existen escalares reales α 1,..., α r con α i > 0, i {1,..., r}, tal que ri=1 α i v i = 0. (iv) Para cada vector no nulo w R n, existe un índice i {1,..., r} para el cual w T v i > 0. Demostración. (i) (ii). Dado [v 1 v r ] que genera positivamente a R n, el vector v i, con i en {1,..., r} puede ser escrito como r v i = λ ij v j, j=1 donde los escalares λ i1,..., λ ir son no negativos. Como consecuencia, obtenemos r v i λ ii v i = λ ij v j y v i = r j=1 j i j=1 j i λ ij 1 + λ ii v j = r λ ij v j, donde λ ij = λ ij 1+λ ii 0 para todo j {1,..., r} \ {i}. Esto muestra que v i esta en el cono convexo generado positivamente por los r 1 vectores restantes. (ii) (iii). De (ii), sabemos que existen escalares no negativos λ ij con i, j = 1,..., r, tales que j=1 j i v 1 + λ 12 v λ 1r v r = 0, λ 21 v 1 + v λ 2r v r = 0,. λ r1 v 1 + λ r2 v r v r = 0. Al sumar estas igualdades, obtenemos ( ) ( ) r r λ i1 v λ ir v r = 0. i=2 i=1 El cual puede ser reescrito como α 1 v α r v r = 0, con α j = 1 + r i=1 λij > 0, j {1,..., r}.

23 CAPÍTULO 2. MÉTODOS DE BÚSQUEDA DIRECTA 17 (iii) (i). Sean α 1,..., α r escalares positivos tal que α 1 v α r v r = 0, y supongamos que v es un vector arbitrario de R n. Dado que [v 1 v r ] genera R n, existen escalares λ 1,..., λ r que cumplen v = λ 1 v λ r v r. Al sumar del lado derecho de la igualdad un múltiplo suficientemente grande de α 1 v α r v r, podemos mostrar que v puede ser expresado como una combinación lineal positiva de v 1,..., v r. Entonces, [v 1 v r ] genera R n positivamente. (i) (iv). Sea w un vector no nulo, de (i) tenemos que, existen escalares positivos λ 1,..., λ r tal que Como w 0, w = λ 1 v λ r v r. 0 < w T w = (λ 1 v λ r v r ) T w = λ 1 v T 1 w + + λ r v T r w, con lo cual concluimos que al menos uno de los escalares w T v 1,..., w T v r tiene que ser positivo. (iv) (i). Si el cono convexo generado positivamente por v 1,..., v r no es R n, entonces existe un hiperplano H = {v R n : v T h = 0}, con h 0, tal que este cono convexo está contenido en {v R n : v T h 0} o {v R n : v T h 0}. Este resultado sería contradictorio si w = h o w = h. La caracterización (iv) del teorema anterior es el centro de los métodos de búsqueda directa direccional. Este implica que, dada una función f continuamente diferenciable en algún punto x donde f(x) 0, debe existir siempre un vector d en un conjunto generador positivo (o base positiva) tal que f(x) T d > 0. En otras palabras, debe existir siempre una dirección de descenso en tal conjunto Bases positivas simples Ahora volvemos nuestra atención a la construcción de bases positivas. El siguiente resultado (dado en [23]) provee un simple mecanismo para generar diferentes bases positivas. Teorema Supongamos que [v 1 v r ] es una base positiva para R n y W R n n es una matriz no singular. Entonces, [W v 1 W v r ] es también una base positiva para R n.

24 CAPÍTULO 2. MÉTODOS DE BÚSQUEDA DIRECTA 18 Demostración. Tenemos que [v 1 v r ] genera R n ya que lo hace positivamente. Dado que W es no singular, [W v 1 W v r ] también genera R n. Luego, podemos aplicar el Teorema para [v 1 v r ] y [W v 1 W v r ]. Sea w un vector no nulo en R n, del punto (iv) del teorema anterior tenemos que (W T w) T v i > 0, para algún i {1,..., r}. En otras palabras w T (W v i ) > 0, de ello concluimos que [W v 1 W v r ] también genera R n positivamente. Es una consecuencia directa de la definición de dependencia positiva que si [W v 1 W v r ] fuera dependiente positivamente, entonces [v 1 v r ] sería también dependiente positivamente, lo cual concluye la prueba del teorema. De los Teoremas y podemos deducir fácilmente el siguiente corolario. Corolario Sea I R n n la matriz identidad y sea e el vector cuyas componentes son todas iguales a 1. Entonces, (i) [I e] es una base positiva minimal. (ii) Sea W = [w 1 w n ] R n n una matriz no singular. Entonces [W ni=1 w i ] es una base positiva (minimal) para R n. Demostración. (i) Sea v j = e j para todo j = 1,..., n y v n+1 = e. Entonces, n+1 j=1 v i = 0, si tomamos α i = 1 para todo i = 1,..., n + 1 obtenemos n+1 j=1 α i v i = 0, y por el Teorema 2.2.4(iii), [v 1... v n v n+1 ] = [e 1... e n e] genera R n positivamente. Como [I e] es positivamente independiente es base positiva de R n. (ii) Como [w 1 w n ] es base de R n, existe A R n n no singular tal que Ae j = w j para todo j = 1,..., n, además A( e) = n j=1 w j. Por el Teorema tenemos que [w 1 w n n i=1 w i ] es base positiva para R n.

25 CAPÍTULO 2. MÉTODOS DE BÚSQUEDA DIRECTA Bases positivas con ángulos uniformes La idea es buscar un conjunto de n + 1 vectores normalizados v 1,..., v n+1 tales que los ángulos entre pares v i, v j (i j) tienen la misma amplitud α. Estos requerimientos pueden ser expresados como a = cos α = v T i v j, i, j {1,..., n + 1}, i j, (2.8) donde a = 1/n. En primera instancia, calculamos los primeros n vectores, v 1,..., v n. Calcularemos una matriz V = [v 1 v n ] tal que donde A es la matriz dada por V T V = A, 1 1/n 1/n... 1/n 1/n 1 1/n... 1/n. A =..... (2.9) /n 1/n 1/n... 1 La matriz A es simétrica y diagonalmente dominante con entradas positivas en la diagonal, y por lo tanto, definida positiva. Esto nos permite hacer uso de la descomposición de Cholesky A = CC T, donde C R n n es una matriz triangular inferior de orden n con elementos positivos en la diagonal. Dada esta descomposición, podemos ver fácilmente que la elección de V esta determinada por Definimos el vector v n+1 como V = [v 1 v n ] = C T. n v n+1 = v i. (2.10) i=1 Uno puede fácilmente ver que v T i v n+1 = 1/n, i = 1,..., n, y v T n+1v n+1 = 1. Dado que V es no singular y v n+1 está definido como en (2.10), podemos aplicar el Corolario para establecer que [v 1 v n+1 ] es una base minimal positiva. Además, los ángulos entre cualesquiera dos vectores de esta base tienen la misma amplitud. Resumimos este resultado en el siguiente corolario.

26 CAPÍTULO 2. MÉTODOS DE BÚSQUEDA DIRECTA 20 Corolario Sea V = C T = [v 1 v n ] R n n, donde A = CC T y A está definida como en (2.9). Sea v n+1 = n i=1 v i. Entonces [v 1 v n+1 ] es una base minimal positiva para R n que satisface v T i v j = 1/n, i, j {1,..., n + 1}, i j, y v i = 1, i = 1,..., n Estimaciones del gradiente usados en búsqueda directa En esta sección mostraremos que si muestreamos n + 1 puntos de la forma x + αd definidos por una base positiva D, y sus valores funcionales no mejoran el valor de la función en el punto x, entonces el tamaño del gradiente (considerado Lipschitz continuo) en x es del orden de la distancia entre x y los puntos x + αd. Para probar este resultado primero introduciremos la noción de medida coseno para conjuntos generadores positivos (tema del cual ya hemos hablado, aunque en otros términos). Definición La medida coseno de un conjunto generador positivo o de una base positiva D está definida por κ(d) = mín máx v T d v R n \{0} d D v d Dado cualquier conjunto generador positivo, es necesario que ocurra κ(d) > 0. Valores de la medida coseno cercanos a cero indican un deterioro en la propiedad de generación positiva. Por ejemplo, la base positiva maximal D = [I I] tiene medida coseno igual a 1/ n. Cuando n = 2 tenemos que κ(d ) = 2/2. Otro punto clave relacionado a las propiedades de descenso de los conjuntos generadores positivos, es que, dado cualquier vector v 0 tenemos Entonces existe d D tal que κ(d) máx d D κ(d) v T d v d. vt d v d,

27 CAPÍTULO 2. MÉTODOS DE BÚSQUEDA DIRECTA 21 o, equivalentemente κ(d) v d v T d. (2.11) Dado un conjunto generador positivo D, un punto x, y un valor positivo del parámetro α, estamos interesados en mirar puntos de la forma x + αd, para todo d D. Estos puntos están en la bola centrada en x, de radio, definido como = α máx d D d. Si solo un número finito de conjuntos generados positivos es usado en el algoritmo, entonces tiende a cero si y solo si α tiende a cero. Veamos el siguiente resultado tomado de [13, 22]. Teorema Sea D un conjunto generador positivo y α > 0. Asumimos que f es Lipschitz continuo (con constante M > 0) en un conjunto abierto que contiene la bola B(x, ). Si f(x) f(x+αd), para todo d D, entonces f(x) M 2 κ(d) 1 máx d D d α. Demostración. Sea d un vector en D para el cual κ(d) f(x) d f(x) T d. Ahora, por el teorema del valor medio (en su forma integral) y el hecho que f(x) f(x + αd), obtenemos 0 f(x + αd) f(x) = 1 0 f(x + tαd) T (αd) dt. Al multiplicar la primera desigualdad por α y sumarla a la segunda, tenemos κ(d) f(x) d α 1 y la prueba queda completa. 0 ( f(x + tαd) f(x)) T (αd) dt M 2 d 2 α 2,

28 Capítulo 3 Métodos de búsqueda directa direccional y resultados de convergencia En este capítulo presentaremos algunos de los métodos de búsqueda directa direccional más conocidos y algunas modificaciones de los mismos con el fin de acelerar el proceso de búsquda. De gran importancia aquí serán los conceptos de conjuntos generadores positivos y bases positivas vistos en el capítulo anterior Búsqueda en direcciones coordenadas Volvemos a la discusión del método de búsqueda en direcciones coordenadas. Como antes, x k denota el k-ésimo iterado, x 0 un punto inicial arbitrario y el conjunto de 2n direcciones coordenadas, D = [e 1 e n e 1 e n ] Denotamos con k el parámetro control longitud de paso y sea 0 una elección de valor inicial. En aquellos problemas donde los valores objetivos son costosos de calcular, la mayor parte del trabajo ocurre al evaluar la función objetivo en los puntos prueba de la forma x + k d para cada d D (como veremos en el próximo esquema). Este proceso de evaluar la función es conocido como paso encuesta (polling). 22

29 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 23 Algoritmo: Búsqueda en dir. coord. Inicio. Sea f : R n R dada. Sea x 0 R n un punto inicial dado. Sea tol > 0 la tolerancia usada para el test de convergencia. Sea 0 > tol el valor inicial para el parámetro control longitud de paso. Sea D el conjunto de direcciones coordenadas. Para k = 1, 2,... Paso 1. Si existe un d k D tal que f(x k + k d k ) < f(x k ), hacer lo siguiente: Fijamos x k+1 = x k + k d k (cambio de iterado). Fijamos k+1 = k (la longitud de paso no cambia) Paso 2. De otra manera, si f(x k + k d) f(x k ) para todo d D, hacer lo siguiente: Fijamos x k+1 = x k (el iterado no cambia). Fijamos k+1 = 1 2 k (la longitud de paso se contrae). Si k+1 < tol, el algoritmo termina. Hay una gran flexibilidad en exactamente cómo uno hace para determinar la existencia de una dirección d k D que cumpla las condiciones de descenso simple (2.2). Por ejemplo, uno puede evaluar la función f en los 2n puntos prueba en sucesión y elegir el punto que da el mayor descenso en f. Alternativamente, si el cálculo paralelo está disponible, se realizan las 2n evaluaciones objetivas simultáneamente y se elige el punto que da el mayor descenso. Otra opción es evaluar cada punto prueba en sucesión y parar cuando se encuentra el primero que satisfaga la condición de descenso. Si tal dirección es encontrada, diremos que el iterado es exitoso. La dirección que produce éxito es denotada por d k y la subsucesión de iterados exitosos es

30 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 24 denotada por S (successful). El parámetro control de longitud de paso k puede expandirse en un factor φ k, que en este caso es igual a uno. Independientemente del procedimiento elegido para evaluar los puntos prueba, el valor de k no se reduce a menos que todos los puntos hayan sido evaluados y encontrados no exitosos. Tal iteración es llamada inexitosa y el algoritmo va al Paso 3, donde la longitud de paso es reducida a la mitad, se reduce por un factor de expansión θ k = 1. La subsucesión de iterados no 2 exitosos es denotada por U (unsuccessful). Además, después de cada iteración no exitosa, k es comparado con el valor de la tolerancia tol definido al inicio del algoritmo. Una vez que el parámetro control longitud de paso cae debajo del valor de tol, la búsqueda termina con x = x k Convergencia de la búsqueda en direcciones coordenadas Supongamos estar en la iteración k, y que un paso k > 0 fue tomado a lo largo de cada dirección coordenada pero ninguno de esos pasos produce un descenso en el valor funcional. Tenemos entonces, f(x k ) f(x k + k d) para todo d D (3.1) Como ya dijimos, esta es una iteración inexitosa, y lo que ocurre aquí es la clave para probar resultados de convergencia para este método y, más generalmente, de los métodos GSS. En el caso de las direcciones en la búsqueda en coordenadas, la medida coseno es igual a 1/sqrtn como ya habíamos mencionado. Con lo cual tenemos 1 n f(x k ) d f(x k ) T d, (3.2) con d D. Esto no es otra cosa que (2.6) de nuestra discusión de métodos lineales con c = 1/ n. Si la iteración k es inexitosa como en (3.1), por el teorema de valor medio tenemos que 0 f(x k + k d) f(x k ) = f(x k + α k k d) T k d para algún α k (0, 1). Al restar k f(x k ) T d a ambos lados, obtenemos k f(x k ) T d k ( f(x k + α k k d) f(x k )) T d.

31 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 25 Aplicando (3.2), nos queda que 1 n f(x k ) d ( f(x k + α k k d) f(x k )) T d. Ahora, si f es continuamente diferenciable y f es Lipschitz continua con constante M, tenemos 1 n f(x k ) d M α k k d d o, si d = 1 M k d 2, f(x k ) nm k. (3.3) Entonces, aún sin el conocimiento explícito del gradiente, en una iteración inexitosa hay una cota implícita de la norma del gradiente en términos del parámetro k. Si, además, uno pudiera mostrar que lím k + k U k = 0. sería posible concluir que lím k + k U f(x k ) lím k + k U nm k = 0. Esto muestra, que cualquier sucesión de iterados no exitosos debe converger a un punto donde el gradiente se anula. Este resultado de convergencia es análogo al Teorema para métodos de búsqueda lineal, el cual usa explícitamente el gradiente. Lo esencial entonces, será mostrar que, en efecto, lím k + k U k = Búsqueda en conjuntos generadores Nuestro objetivo es establecer un algoritmo suficientemente general para cubrir muchos de los métodos de la literatura de modo que podamos identificar elementos comunes. A continuación damos el algoritmo de un método GSS genérico, donde podemos observar tres importantes cambios con respecto a la búsqueda en direcciones coordenadas.

32 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 26 El primer cambio considera el conjunto de direcciones de búsqueda usadas en el Paso 1. Anteriormente las direcciones coordenadas eran las únicas direcciones de búsqueda. Esto es reemplazado por un conjunto D k el cual contiene un conjunto generador G k de R n. También es posible incluir direcciones adicionales para la búsqueda en H k. En la búsqueda en coordenadas, H k = y G k = D. El conjunto de direcciones D k puede cambiar en cada iteración, sin embargo, la medida coseno para el conjunto G k debe estar acotada inferiormente. Mientras el conjunto G k y la medida coseno κ(g k ) son la clave del análisis, el conjunto H k es tangencial al análisis. Entonces es aceptable que H k sea vacío, aunque esto abre las posibilidades para estrategias heurísticas diseñadas para acelerar el progreso de búsqueda. Estas posibilidades serán discutidas más adelante. El segundo cambio se refiere a la actualización del parámetro control longitud de paso k en los Pasos 2 y 3. En el algoritmo anterior, las elecciones tradicionales son φ k = 1 para todo k S y θ k = 1 2 para todo k U. Sin embargo, en una iteración exitosa es posible expandir la longitud del paso al aumentar el valor de k (es decir, al permitir que φ k > 1). En iteraciones inexitosas es necesario contraer la longitud del paso al reducir k (es decir, al pedir θ k (0, 1)), pero ahora hay más flexibilidad en la elección de θ k. Notemos, sin embargo, que θ k debe estar acotado inferiomente por 0 y superiormente por algún valor θ max < 1. Finalmente, el factor expansión φ k y el factor contracción θ k pueden cambiar en cada iteración. La tercera modificación es el cambio de criterio usado para aceptar un iterado. En la búsqueda en direcciones coordenadas, cualquier paso que produzca un descenso con respecto a f(x k ) es aceptado. La introducción de una función de fuerza ρ( ) ahora también nos da la posibilidad de hacer cumplir un descenso suficiente al establecer un umbral para la cantidad de reducción que debe ser realizada por el iterado para ser considerado exitoso. Esta generalización nos permite el uso del criterio de descenso simple o el criterio de descenso suficiente. En el primer caso, simplemente tomamos ρ 0. En el segundo caso, usamos una función fuerza que satisface la condición ρ(t)/t 0 como t 0 (una elección simple es ρ(t) = at 2 para algún a > 0).

33 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 27 Algoritmo: Método GSS Inicio. Sea f : R n R dada. Sea x 0 R n un punto inicial dado. Sea tol > 0 la tolerancia usada para el test de convergencia. Sea 0 > tol el valor inicial del parámetro control longitud de paso, θ max < 1 una cota superior para el parámetro de contracción y κ min > 0 una cota inferior para la medida coseno de cualquier conjunto generador. Sea ρ: [0, + ) R una función continua tal que ρ(t) decrece como t 0 y ρ(t)/t 0 cuando t 0. La elección de ρ = 0 es aceptable. Sean β max β min > 0 cotas superior e inferior, respectivamente, de la longitud de los vectores en cualquier conjunto generador. Para k = 1, 2,... Paso 1. Sea D k = G k H k. Aquí G k es un conjunto generador para R n que satisface: β min d β max para todo d G k y κ(d k ) κ min y H k es un conjunto finito (posiblemente vacío) de direcciones de búsqueda adicionales tales que β min d para todo d H k. Paso 2. Si existe un d k D k tal que f(x k + k d k ) < f(x k ) ρ( k ), hacer lo siguiente: Fijamos x k+1 = x k + k d k (cambio de iterado). Fijamos k+1 = φ k k, donde φ k 1. Paso 3. De otra manera, si f(x k + k d) f(x k ) ρ( k ) para todo d D k, hacer lo siguiente: Fijamos x k+1 = x k (el iterado no cambia). Fijamos k+1 = θ k k donde 0 < θ k < θ max < 1 (la longitud de paso se contrae). Si k+1 < tol, el algoritmo termina. Resumimos las novedades de este nuevo algoritmo a continuación.

34 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 28 Cotas. Ciertas cotas son impuestas en la longitud de las direcciones de búsqueda: β min d β max para todo d G k para k = 1, 2,... (3.4) β min d para todo d H k Fórmulas de actualización. Las reglas para actualizar el iterado x k y el parámetro control longitud de paso k son las siguientes: x k+1 = { xk + k d k si k S x k si k U Recordemos que d k está sólo definido para iteraciones exitosas. k+1 = { φk k si k S θ k k si k U (3.5) (3.6) con φ k 1 y 0 < θ k θ max < 1. Criterio de aceptación de pasos. Recordemos que una iteración k es exitosa, si satisface la condición de descenso. Esto es, que existe d k D k para el cual f(x k + k d k ) < f(x k ) + ρ( k ). (3.7) La función continua ρ 0 definida en [0, + ) es llamada función de fuerza y debe satisfacer lo siguiente, o ρ(t) 0 (3.8) ρ(t) = o(t) cuando t 0, y ρ(t 1 ) ρ(t 2 ) para t 1 < t 2. (3.9) 3.3. Ingredientes para la prueba de convergencia de los métodos GSS El primer ingrediente es mostrar que para cualquier subsucesión K de iterados no exitosos (es decir, K U), lím k = 0 lím f(x k) = 0 k + k + El mismo resultado ya fue visto para la búsqueda en direcciones coordenadas. El segundo ingrediente es mostrar que, en efecto, hay una subsucesión de parámetros control longitud de paso que tienden a cero. Nos referimos a este hecho como globalización. Tres ejemplos de técnicas de globalización serán analizadas en breve.

35 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL Relacionando k con la medida de estacionariedad El siguiente teorema nos lleva no sólo a resultados de convergencia de primer orden sino también a resultados de convergencia local y a la validación de un criterio de parada práctica de larga data. Por simplicidad, asumiremos que f(x) es Lipschitz, pero ello no es esencial en la prueba. Teorema Sea f : R n R continuamente diferenciable, y supongamos que f(x) es Lipschitz continuo con constante M. Entonces los métodos GSS producen iterados tal que, para cualquier k U, tenemos [ f(x k ) κ(g k ) 1 M k β max + ρ( ] k). k β min Demostración. Elegimos ˆd k G k D k satisfaciendo (2.11) con v = f(x k ). Tal ˆd k existe pues G k genera R n ; entonces κ(g k ) f(x k ) ˆd k f(x k ) T ˆdk. Por el teorema del valor medio, para algún α k (0, 1), f(x k + k ˆdk ) f(x k ) = k f(x k + α k k ˆdk ) T ˆdk. Porque k es una iteración inexitosa, 0 f(x k + k ˆdk ) f(x k ) + ρ( k ). Juntando las últimas dos relaciones, dividiendo por k y restando f(x k ) T ˆdk de ambos lados, obtenemos Así llegamos a, f(x k ) T ˆdk ( f(x k + α k k ˆdk ) f(x k ) )T ˆdk + ρ( k) k. κ(g k ) f(x k ) ˆd k ( f(x k + α k k ˆdk ) f(x k ) )T ˆdk + ρ( k) k, Por lo cual κ(g k ) f(x k ) f(x k + α k k ˆdk ) f(x k ) + ρ( k) k ˆd k M k ˆd k + ρ( k) k ˆd k,

36 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 30 y por (3.4) tenemos κ(g k ) f(x k ) M k β max + ρ( k) k β min, con lo cual queda concluida la demostración Estrategias de globalización A la luz del Teorema 3.3.1, las estrategias de globalización para los métodos GSS pueden ser entendidos como técnicas que aseguren lím k + k K U k = 0. (3.10) Aquí presentamos tres estrategias de globalización para asegurar (3.10): 1. Descenso suficiente, usado por Yu [36], Lucidi y Sciandrone [24], y García-Palomares y Rodríguez [15]. 2. Lattices racionales, usados por Berman [5, 6], Céa [9], Polak [29], Torczon [33], y Lewis y Torczon [23]. 3. Grillas móviles, las cuales fueron motivadas por el trabajo de Coope y Price [11] Globalización vía condición de descenso suficiente El criterio de descenso suficiente nos dice que los métodos GSS aceptan un nuevo iterado si éste satisface f(x k + k d k ) < f(x k ) ρ( k ) donde la función ρ(t) tiene las propiedades dadas en (3.9). Vale la pena comparar esta condición de aceptación de paso con la condición vista en (2.3). Definimos g( ) = f(x k + d k ) f(x k ) y h( ) = ρ( ). Observamos que g(0) = h(0) = 0. Si f es continuamente diferenciable y d k es dirección de descenso, entonces g (0) < 0. De (3.9) se sigue que h (0) = 0. Entonces, la situación ilustrada en la Figura 3.1 nos muestra que existe un rango de valores de para los cuales g( ) < h( ) y, en consecuencia, f(x k + d k ) f(x k ) < ρ( ).

37 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 31 Figura 3.1: Longitudes de paso adecuados satisfacen la condición de descenso suficiente. Para mostrar que la condición de descenso suficiente fuerza que una subsucesión de los k s se va a cero, el único requerimiento es que f sea acotada inferiormente. El siguiente teorema y su prueba son muy similares a los resultados para métodos de búsqueda lineal. Teorema Sea f acotada inferiormente. Supongamos que ρ(t) es como en (3.9). Entonces el método GSS produce iterados que satisfacen lím inf k + k = 0. (3.11) Demostración. Supongamos que esto no sucede, es decir, que existe > 0 tal que k para todo k. La regla de actualización para k, dada en (3.6), implica que el número de iteraciones exitosas debe ser infinita; es decir, S es infinito. Del hecho de que ρ( ) es una función no decreciente y de la cota en k, entonces debe existir ρ > 0 tal que ρ ρ( k ) para todo k. Ahora, para cada k S, f(x k+1 ) f(x k ) < ρ( ) ρ < 0, mientras que para las restantes iteraciones (es decir, k U), f(x k+1 ) f(x k ) = 0. Entonces, f(x k ), lo cual contradice la hipótesis de que f es acotada inferiormente. Así queda demostrado el teorema. Observación. Notemos que el teorema anterior depende de la regla de actualización para k en (3.6). Pues, si fuera sólo una cantidad finita de iteraciones exitosas, k s estarían forzados a ir a cero dado que cada contracción

38 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 32 satisface 0 < θ k θ max < 1. (3.12) La cota superior en el parámetro contracción juega un rol crítico. Si este requerimiento fuera omitido, podría ocurrir, por ejemplo, que k nunca se reduzca a menos de aunque se elija θ k < 1. Supongamos x 0 = x = mín f(x), entonces cada iteración del GSS es inexitosa. Para cada iteración k, definimos el parámetro contracción θ como θ k = k + 3 k + 2 k + 1 k + 2 = k2 + 4k + 3 k 2 + 4k + 4 (0, 1). Recordemos que en una iteración inexitosa, θ es usada en la actualización k+1 = θ k k. En este ejemplo, cada iteración es inexitosa, entonces Observemos que k θ i = i=1 Entonces, ( k + 3 k + 2 k + 1 ) ( k + 2 k + 2 k + 1 lím k = k + ( k ) k = θ i 0. i=1 1 lím k + 2 ) k... k + 1 ( ) ( ) = ( ) k = 1 k En otras palabras, la longitud de paso nunca será menor a Globalización vía lattices racionales ( ) k + 3. k + 2 Los algoritmos GSS también pueden aceptar pasos que produzcan sólo descenso simple. En este caso, la convergencia puede asegurarse al restringir los tipos de pasos que este método pueda tomar. Los métodos basados en lattices que discutiremos ahora y los basados en grillas (que veremos próximamente), restringen a los iterados a yacer en mallas que son controladas implícitamente. Primero consideremos la estructura de parámetro control longitud de paso bajo dos condiciones simples: θ k = Λ m k con m k { 1, 2,...} para todo k U φ k = Λ l k con l k {1, 2,...} para todo k S (3.13) El siguiente lema se desprende de (3.13) de manera directa.

39 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 33 Lema En los métodos GSS, si la actualización de k se realiza acorde a (3.6) con parámetros de contracción y expansión que satisfacen (3.13), tenemos que: k = Λ Γ k 0 con Γ k Z Consideremos ahora las direcciones de búsqueda. Cada conjunto generador G k debe ser tomado de un conjunto finito, es decir, donde G k G para todo k = 1, 2,... (3.14) G = {d (1),..., d (p) }. (3.15) Una consecuencia de esto es que la cota inferior κ min > 0 está implícita, porque el número posible de subconjuntos de G es finito, κ min es al menos la medida coseno de cualquier subconjunto que es también un conjunto generador. En H k también se imponen ciertas condiciones, este conjunto consiste en vectores que son combinaciones enteras no negativas de vectores en G: { p } H k ξ (i) d (i) ξ (i) {0, 1, 2,...}. (3.16) i=1 La actualización de x k según (3.5) al final de cada iteración, sumado a las especificaciones anteriores, nos llevan al siguiente resultado. Lema En los métodos GSS, si la actualización de x k se realiza según (3.5) y asumimos que cada G k satisface (3.14) y cada H k satisface (3.16), existen enteros no negativos α (i) k para cada i = 1,..., p y k = 0, 1, 2,... tal que p k x k+1 = x 0 + δ k (i) d (i), donde δ k (i) = α (i) j j. (3.17) i=1 Demostración. Esta prueba será por inducción. Para k = 0, hay tres posibles resultados: 1. k U. 2. k S y d k G k (además (3.14) y (3.15) valen). 3. k S y d k H k (es decir, vale (3.16)). j=0

40 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 34 Sea G como en (3.15). En el caso 1, (3.5) dice que x 1 = x 0, por lo que sólo se debe elegir α (i) 0 = 0, y obtenemos δ 0 (i) = 0 para i = 1,..., p. En el caso 2, (3.5) dice que x 1 = x d 0, y por (3.14) y (3.15) tenemos que d 0 = d (l) G para algún l {1,..., p}. Entonces si elegimos α (l) 0 = 1 de modo que δ 0 (l) = 0, y α (i) 0 = 0 tal que δ 0 (i) = 0 para todo i {1,..., p} \ {l}. En el último caso, tenemos nuevamente x 1 = x d 0 y por (3.16) sabemos que existen ξ (1),..., ξ (p) tal que d 0 = p i=1 ξ (i) d (i). Eligiendo α (i) 0 = ξ (i), con δ 0 (i) = 0 ξ (i) para i = 1,..., p, queda demostrado el teorema para k = 0. Ahora asumimos que (3.17) vale para x k. Nuevamente tenemos tres posibles resultados. Si k U, x k+1 = x k, llegamos a entonces δ (i) k = δ (i) k 1 x k+1 = x k = x 0 + p i=1 δ (i) k 1 d(i),, con lo cual debemos tomar α(i) k = 0. Por otro lado, si k S y d k G k tenemos que x k+1 = x k + k d k con d k = d (l) G para algún l {1,..., p} y por hipótesis, p x k+1 = x 0 + δ k 1 (i)d (i) + k d (l). i=1 Si tomamos α (l) k = 1 tenemos que δ k (l) = k + k 1 j=0 α (l) j j y si α (i) k = 0, δ k (i) = δ k 1 (i) = k 1 j=0 α (i) j j para todo i {1,... p} \ {l}. Finalmente, si k S y d k H k, por (3.16) tenemos que existen ξ (1),..., ξ (p) tal que d k = p i=1 ξ (i) d (i), eligiendo α (i) k = ξ (i) y tenemos δ k (i) = k ξ (i) + k 1 j para i = 1,..., p. Así queda demostrado el lema. j=0 α (i) j Sin embargo, un requerimiento más es necesario para garantizar que cada iterado yace en un lattice. Asumiremos entonces, que cada dirección de búsqueda d G es entera, es decir, d Z n para todo d G. (3.18) Combinando los dos lemas anteriores con (3.18) tenemos el siguiente teorema tomado de [33].

41 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 35 Teorema Supongamos que las condiciones (3.13), (3.14), (3.16) y (3.18) valen. Sea Γ k definido como en el Lema 3.3.3, y sea Γ una constante. Entonces el método GSS produce iterados tales que para cualquier k con vale lo siguiente: donde Γ Γ j para todo j k, p x k+1 = x 0 + Λ Γ 0 ζ k (i, Γ) d (i), (3.19) i=1 ζ k (i, Γ) = k j=0 α (i) j Λ Γ j Γ Z, (3.20) y α (i) j, para cada i = 1,..., p y k = 0, 1, 2,... está definida en el Lema (3.3.4). Demostración. Por los Lemas y tenemos que Tomando, queda demostrado el lema. x k+1 = x 0 + p i=1 δ k (i) d (i) = x 0 + p i=1 = x 0 + p i=1 = x 0 + Λ Γ p i=1 = x 0 + Λ Γ 0 p i=1 ζ k (i, Γ) = ( kj=0 α (i) ) j j d (i) ( kj=0 α (i) ) j Λ Γ j 0 d (i) ( kj=0 α (i) ) j Λ Γj Γ 0 d (i) k j=0 ( kj=0 α (i) j Λ ) Γ j Γ d (i) α (i) j Λ Γ j Γ, (3.21) La importancia de este resultado es que, dado que ζ k (i, Γ) y d (i) son enteros, x k yace en un lattice entero escalado por Λ Γ 0 y trasladado en x 0. Denotamos el lattice de la siguiente forma: { } p M(x 0, 0, G, Λ, Γ) = x 0 + Λ Γ 0 ζ (i) d (i) ζ (i) Z (3.22) Ejemplo. Consideraremos nuevamente el ejemplo de la búsqueda en direcciones coordenadas aplicada a la función de Broyden. Este ejemplo es i=1

42 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 36 repasado en la Figura??, pero esta vez se muestran los correspondientes lattices en lugar de las curvas de nivel. La Figura 3.3 representa el lattice en la iteración k = 5. Aquí Γ = 1 define la escala del lattice. Otros parámetros que definen al lattice son: x 0 = ( 0, 9; 1,0), 0 = 0, 3, G = {e 1, e 1, e 2, e 2 }, Λ = 2. Figura 3.2: Lattices correspondientes a las primeras 5 iteraciones. Como puede verse en la Figura 3.2, x 5 = x (3d (1) + 4d (3) ). Entonces, para llegar a x 5 desde x 0, tomamos siete pasos a través de la grilla, tres hacia el este y cuatro hacia el norte, esto significa que los valores de ζ k (i, Γ) en (3.20) son ζ 4 (1, 1) = 3, ζ 4 (2, 1) = 0, ζ 4 (3, 1) = 4, ζ 4 (4, 1) = 0.

43 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 37 Figura 3.3: Todos los iterados yacen en un lattice racional. Para apreciar el rol de H k, asumimos la misma conclusión mostrada en la Figura 3.3, donde llegamos al punto marcado x 5 en sólo un paso 0 d 0 del algoritmo (es decir, con una sola iteración). En esta situación, Γ = 0 define la escala del lattice. Los otros parámetros están dados por x 0 = ( 0, 9; 1,0), 0 = 0, 15, G = {e 1, e 1, e 2, e 2 }, Λ = 2. (Notemos que en el ejemplo previo Γ = 1 y 0 = 0, 3, mientras que ahora Γ = 0 y 0 = 0, 15, M(x 0, 0, G, Λ, Γ) luce de la misma forma dado que x 0, G, y Λ no han cambiado y Γ d 0 = 0, 15 en cualquiera de los casos.) Sea G 0 G. Sea H 0 = {(3, 4) T }, el cual satisface (3.16) con ξ (1) = 3, ξ (3) = 4, y ξ (2) = ξ (4) = 0. Supongamos que la búsqueda comienza con el paso 0 d, d H 0. Luego, k = 0 S y x 1 = x (3d 1 + 4d 3 ). En otras palabras, siguen siendo siete pasos a lo largo del lattice. Ahora, sin embargo, ζ 0 (1, 0) = 3, ζ 0 (2, 0) = 0, ζ 0 (3, 0) = 4, ζ 0 (4, 0) = 0. Una vez que se restringe el conjunto H k como en (3.16), éste juega un rol menor en el análisis. Pero si uno tiene heurísticas que sugieren buenas direcciones (o puntos en el lattice) distintas a las definidas en G k, uno puede primero considerar pasos en esas direcciones en un intento de acelerar la búsqueda. Tales algoritmos serán descritos más adelante. Para resumir, tenemos que los iterados están forzados a yacer en un lattice si:

44 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL Los parámetros de expansión y contracción están restringidos a potencias enteras de algún entero fijo Λ. 2. Todos los conjuntos generadores G k son tomados de un conjunto finito de direcciones de búsqueda G. 3. Cualquier dirección de búsqueda adicional contenida en H k es combinación entera no negativa de direcciones en G. 4. Cada dirección de búsqueda en G es entera. En general, para métodos sin restricciones, estas condiciones son simples de forzar. Algunas relajaciones de estas condiciones son posibles (ver [33]). Para mostrar que hay una subsucesión de k tendiendo a cero (es decir, (3.10)), pedimos una condición más a la función f. Requeriremos que el conjunto de nivel L f (x 0 ) = {x R n f(x) f(x 0 )} sea acotado. Esto nos dice que la intersección de L f (x 0 ) con cualquier lattice fijo M es finita. Esto es útil por la siguiente razón. Recordemos que la sucesión de iterados exitosos debe mejorar estrictamente el valor funcional, es decir, la sucesión {f(x k )} k S, es estrictamente decreciente. Esto significa que el algoritmo puede visitar cada punto del lattice fijo a lo sumo una vez, luego puede haber sólo un número finito de iterados exitosos para un lattice de tamaño fijo. Un lattice de tamaño fijo es importante por la siguiente razón. Si ninguna subsucesión de k s tiende a cero, entonces el lattice se refina hasta un cierto punto y no más allá; es decir, que los métodos GSS están trabajando sobre un lattice fijo. Esta es la clave del siguiente resultado. Teorema Sea el conjunto de nivel L f (x 0 ) acotado. Elegimos los parámetros de contracción y expansión acorde a las condiciones (3.13) y el conjunto de direcciones de búsqueda acorde a (3.14), (3.16) y (3.18). Entonces los métodos GSS producen iterados tales que lím inf k k = 0. Demostración. Supongamos que esto no sucede, es decir, que existe > 0 tal que k > para todo k. Esta cota en k implica, por (3.13) y el Lema 3.3.3, que debe existir un Γ tal que Γ Γ k para todo k, donde Γ k está definido como en el Lema Con (3.14), (3.16), (3.18), y el Teorema 3.3.5, esto implica que cada iterado x k debe yacer en un lattice, M(x 0, 0, G, Λ, Γ ). Observemos que cualquier punto en el lattice corresponde a lo sumo a una iteración exitosa, acorde a la condición de descenso (3.7). Por otro lado, cada

45 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 39 iterado debe yacer en L f (x 0 ), el cual por hipótesis es acotado. Esto nos lleva a que la intersección de M(x 0, 0, G, Λ, Γ ) y L f (x 0 ) es finita. Dado que cualquier iteración exitosa debe estar en el conjunto M(x 0, 0, G, Λ, Γ ) L f (x 0 ), y ninguno puede ser exitoso más de una vez, se sigue que S debe ser finito. Si S es finito y, en consecuencia, U infinito, de acuerdo con (3.6), k se expande solo una cantidad finita de veces y se contrae infinitas veces. Cada contracción es por un factor de al menos mín {Λ 1, θ max }, lo cual garantiza que lím k k = 0. Lo cual contradice la hipótesis, y por lo tanto queda demostrado el teorema. Observación. Antes de continuar, discutiremos brevemente sobre por qué nos referimos a este método como estrategia de globalización vía lattice racional (en oposición a lattice entero). La hipótesis de que Λ y direcciones de búsqueda d G sean enteros puede ser relajada de la siguiente forma. Sea Λ Q y sea G de modo que d = Bc donde c Q n para todo d G. (3.23) Aquí, B R n n es una matriz no singular fija. El Teorema puede ser reescrito al incorporar estos cambios (ver [33]), y sin alterar su resultado Globalización vía grillas móviles El paso crítico en la prueba del Teorema es la obsevación que, dado un lattice fijo M(x 0, 0, G, Λ, Γ ) sobre un conjunto compacto L f (x 0 ), el requerimiento de una mejora estricta en f significa que hay sólo finitos puntos que pueden ser considerados antes de que k sea contraído. Coope and Price [11] observaron que cuando k se contrae, la búsqueda puede, hasta cierto punto, comenzar de nuevo; es decir, en vez de simplemente reducir el factor escala Λ, uno puede también cambiar G. El deseo de adaptar el conjunto de direcciones de búsqueda, como una estrategia para mejorar el rendimiento asintótico de la búsqueda, motiva este cambio de perspectiva. Después de evaluar f en el lattice actual M, por qué no usar la información acumulada durante esta búsqueda en M para construir un nuevo conjunto de generadores que intente capturar al menos localmente, alguna información sobre la curvatura? Este es el espíritu de varios de los métodos de búsqueda directa más recientes.

46 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 40 La estrategia es esencialmente fijar la estructura del laticce entre cualquiera dos iteraciones inexitosas al elegir un conjunto fijo de generadores de grilla definido por G k. Primero, G k debe ser un conjunto finito, es decir, G k = {d (1) k,..., d(p k) k }. (3.24) Segundo, el conjunto debe ser elegido de tal manera que genere un lattice. Entonces, debemos pedir que d = Bc, donde c Q n para todo d G k. (3.25) Aquí B R n n es una matriz no singular. Finalmente, la grilla no puede ser modificada y la longitud de paso no puede ser reducida hasta que un punto no exitoso sea encontrado: G k = G k 1 para todo k S. (3.26) El conjunto H k es restringido a ser combinaciones enteras de elementos de G k : { pk } H k ξ (i) k d(i) k ξ (i) k {0, 1, 2,...}. (3.27) i=0 El acierto es usar la información acumulada durante las iteraciones exitosas para construir un nuevo, o posiblemente mejor, conjunto de direcciones de búsqueda. Por ahora impondremos φ k = 1 para todo k S. La regla de actualización para k, implica que k k 1 para todo k. Pasos demasiado largos son todavía posibles según la definición de H k en (3.27). Para establecer resultados teóricos, es útil establecer una notación para el iterado no exitoso más actual. Sea ω(k) = máx{l k l U}. (3.28) Ahora podemos establecer el siguiente teorema, que es análogo al Teorema en el caso de lattice racional. Teorema Sea D k = G k H k actualizado acorde a (3.24)-(3.27), y sea φ k = 1 para todo k. Entonces el método GSS produce iterados tal que para cualquier k S p ω(k) x k = x ω(k) + ω(k) i=1 ζ k (i)d (i) ω(k), donde ω(k) denota el iterado no exitoso más reciente.

47 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 41 Usando la misma notación como en (3.22) para lattice racional, el iterado x k yace en un lattice definido por: p ω(k) M(x ω(k), ω(k), G ω(k), 1, 1) = x ω(k) + ω(k) ζ (i) d (i) ω(k) ζ(i) Z. (3.29) i=1 Siguiendo la misma línea de razonamiento, el siguiente teorema nos muestra que la sucesión de k s tiende a cero. Teorema Sea L f (x 0 ) acotado, D k = G k H k actualizado acorde a (3.24)-(3.27) y φ k = 1 para todo k. Entonces el método GSS produce iterados tales que lím k k = 0. Demostración. Supongamos que esto no sucede, es decir, que existe > 0 tal que k > para todo k. Debido a que φ k = 1 para todo k, la sucesión k decrece como k y decrece estrictamente para k U. Combinando lo mencionado anteriormente con (3.6), es sólo posible una cantidad finita de reducciones de k ya que k >. Esto nos dice que sólo hay una cantidad finita de pasos no exitosos, entonces S es necesariamente infinito. Definimos ˆk = máx{k k U} como el índice del último iterado no exitoso. Por el Teorema 3.3.7, cada iterado k ˆk debe yacer en una grilla definida por M(xˆk, ˆk, Gˆk, 1, 1) como en (3.29). Notemos que cada punto en el lattice puede generar a lo sumo una iteración exitosa. Por otra parte, cada iterado debe yacer en L f (x 0 ), el cual es acotado. La intersección de M(xˆk, ˆk, Gˆk, 1, 1) y L f (x 0 ) debe ser finita. Dado que cualquier punto exitoso debe estar en el conjunto finito M(xˆk, ˆk, Gˆk, 1, 1) L f (x 0 ) y ningún punto puede ser exitoso más de una vez, S debe ser finito, lo que es una contradicción Resultados de convergencia global Hemos discutido tres maneras de asegurar que al menos una subsucesión de k s tienda a cero usando descenso suficiente, lattice racional o grillas móviles. Las hipótesis que impusimos para mostrar la existencia de tales subsucesiones son brevemente mencionadas a continuación. Descenso suficiente. Asumimos sólo que f es acotada inferiormente, y los pasos son aceptados acordes a la condición de descenso suficiente (3.7), donde ρ( ) satisface (3.9).

48 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 42 Lattice racional. Asumimos que el conjunto de nivel de f, L f (x 0 ), es acotado. Además, asumimos que los parámetros de expansión φ k y contracción θ k están restringidos a ser potencias enteras de alguna constante entera (o racional) Λ, como en (3.13). Finalmente, tomamos el conjunto de todas las direcciones de búsqueda, G = D k, finito y entero (o racional), como en (3.14) y (3.18). Grillas móviles. Asumimos que el conjunto de nivel de f, L f (x 0 ), es acotado, y que los generadores de grillas deben actualizarse sólo después de iteraciones inexitosas acorde a (3.24)-(3.27). Como último requisito, pedimos que ningún paso de expansión sea permitido (es decir, φ k = 1 para todo k S) Un resultado general El siguiente teorema es una síntesis de una variedad de resultados de convergencia que han aparecido en [11, 23, 24, 33, 36]. Para ser consistentes con la discusión anterior, asumimos que f es continuamente diferenciable y f es Lipschitz continuo (sin embargo, se puede probar el mismo resultado asumiendo sólo que f es continuamente diferenciable). Teorema Sea f continuamente diferenciable en R n con f Lipschitz continuo en R n con constante M, y sea L f (x 0 ) acotada. Asumimos además que las hipótesis para alguna de las tres estrategias de globalización valen, es decir, 1. f es acotada inferiormente y la condición de descenso suficiente (3.9) vale; 2. las condiciones (3.13), (3.14), (3.18) valen para producir un lattice racional; o 3. las condiciones (3.24)-(3.27) valen para producir grillas móviles. Entonces el método GSS produce iterados tal que lím inf k + f(x k) = 0. Demostración. El resultado se sigue del Teorema y del hecho de que (3.10) vale vía globalización.

49 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL Un resultado fuerte Bajo algunas condiciones ligeramente más fuertes, todo punto límite de una sucesión de iterados producidos por el GSS será un punto estacionario. Para ver esto, asumiremos lo siguiente. Hipótesis. Para cualquier k S, f(x k + k d k ) f(x k + k d) para todo d G k. lím k + k = 0. La primera de estas condiciones dice que GSS sólo puede aceptar un paso sí este produce al menos tanta mejora como el mejor paso entre las direcciones de búsqueda G k. En la práctica, esto significa que el objetivo debe ser evaluado en cada punto prueba x k + k d con d G k. Cuando la hipótesis vale, y k es pequeño en relación a f(x k ), los pasos satisfacen automáticamente la condición análoga a (2.3), como muestra la próxima proposición. Proposición Supongamos que la hipótesis anterior vale. Sea f continuamente diferenciable en R n con f Lipschitz continuo en R n con constante M. Entonces el método GSS produce iterados tales que, para cualquier η > 0 existe δ > 0 y σ > 0, independientes de k, tal que si f(x k ) > η y k < δ, tenemos f(x k+1 ) f(x k ) σ k f(x k ). (3.30) Demostración. Sea ˆd k G k D k satisfaciendo (2.11) con v = f(x); tal ˆd k existe pues G k genera R n. Por el teorema del valor medio, para algún α k (0, 1), f(x k + k ˆdk ) = f(x k )+ k f(x k ) T ˆdk + k ( f(xk + α k k ˆdk ) f(x k ) )T ˆdk. Dado que ˆd k satisface (2.11), f(x k + k ˆdk ) f(x k ) k f(x k ) T ˆdk + M 2 k ˆd k 2 κ(g k ) k f(x k ) ˆd k + M 2 k ˆd k 2. Definimos, δ = κ minη 2Mβ max.

50 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 44 Como k < δ y f(x k ) > η, tenemos que M 2 k ˆd k 2 M k ˆd k ( ) 2 κ min η 2Mβ max 1 2 κ min k η ˆd k 1 2 κ(g k) k f(x k ) ˆd k. Entonces, f(x k + k ˆdk ) f(x k ) 1 2 κ(g k) k f(x k ) ˆd k. Fijando σ = β maxκ min 2 obtenemos el resultado deseado. Usando la hipótesis planteada al comienzo de la sección, la Proposición y un argumento introducido originariamente para métodos basados en regiones de confianza por Thomas [31], puede mostrarse que cada punto límite de la sucesión de iterados x k es un punto estacionario de la f. Esto se muestra en el siguiente teorema. Teorema Supongamos que la hipótesis anterior vale, que el algoritmo GSS satisface la condición adicional d β max para todo d H k, k = 1, 2,..., donde β max está definido como en (3.4) y que las hipótesis para alguna de las tres estrategias de globalización vale. Sea L f (x 0 ) compacto. Supongamos que f es continuamente diferenciable en R n y f es Lipschitz continuo con constante M. Luego, para la sucesión de iterados {x k } generados por el algoritmo GSS, lím f(x k) = 0. k + Esto significa que cada punto límite de una sucesión de iterados es un punto estacionario. Demostración. Supongamos que esto no sucede, entonces lím sup k + f(x k ) = ε > 0. Recordemos del Teorema que lím inf k + f(x k ) = 0. Luego, es posible definir subsucesiones {k i } y {l i } tales que k i < l i para todo i = 1, 2,... f(x ki ) > ε/2 para todo i = 1, 2,... f(x li ) < ε/4 para todo i = 1, 2,... y

51 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 45 f(x k ) ε/4 para todo k i k < l i, i = 1, 2,... Usando η = ε/4, la Proposición garantiza para k suficientemente grande (y k suficientemente pequeño), que existe σ tal que donde ε 1 = Luego, f(x k ) f(x k+1 ) σ k f(x k ) ε 1 x k+1 x k, εσ 4β max. ε 1 x ki x li ε 1 li 1 k=k i x k x k+1 l i 1 k=k i f(x k ) f(x k+1 ) = f(x ki ) f(x li ). Dado que {f(x k )} es estrictamente decreciente y f acotada inferiormente, debe converger. Entonces, el lado derecho de la equación de arriba debe tender a cero, con lo cual, x ki x li debe también tender a cero cuando i. Como f es Lipschitz, se cumple que para i suficientemente grande, f(x ki ) f(x li ) ε/4. De aquí se sigue la siguiente contradicción, ε/2 < f(x ki ) = f(x ki ) f(x li ) + f(x li ) f(x ki ) f(x li ) + f(x li ) < ε/4 + ε/4 = ε/2. Así, el teorema queda demostrado Convergencia del algoritmo GSS bajo descenso simple Si sólo el descenso simple en la función objetivo es requerido para aceptar un paso, y no pedimos que lím k + k = 0, entonces obtenemos el resultado de convergencia lím inf f(x k) = 0, (3.31) k + para la sucesión de iterados producidos por el método GSS. Sin embargo, bajo la misma hipótesis no podemos asegurar que lím f(x k) = 0. (3.32) k +

52 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 46 En [2], Audet construye un ejemplo para el cual (3.31) vale pero (3.32) no. En este ejemplo, la sucesión de iterados tiene un número infinito de puntos de acumulación, uno de los cuales no es un punto estacionario, aunque los demás lo sean Convergencia local del método GSS Es posible mostrar bajo ciertas condiciones que la sucesión de iterados converge a un solo minimizador local. Primero daremos algunas definiciones standard. Definición Una sucesión de escalares {α k } se dice q-linealmente convergente a cero si existe una constante β (0, 1) tal que α k+1 α k β para todo k suficientemente grande. En el caso del método GSS, notemos que, si pedimos φ k = 1 para k suficientemente grande, la sucesión { k } k U es q-linealmente convergente a cero porque ki+1 / ki θ max. Definición Una sucesión {x k } se dice r-linealmente convergente a x si x k x α k para todo k suficientemente grande, donde {α k } es una sucesión de escalares q-linealmente convergente a cero. Mostraremos que bajos ciertas hipótesis, la sucesión {x k } k U es r-linealmente convergente a x. El teorema que presentaremos a continuación generaliza resultados de convergencia para métodos basados en descenso simple. El Teorema también abarca métodos que requieren descenso suficiente. El resultado dice que si algún iterado x k cae en una cuenca de atracción cerca de un minimizador local x, y la longitud de paso es apropiadamente pequeña, la sucesión entera de iterados converge a x. Teorema Sea f dos veces continuamente diferenciable. Supongamos que x es un minimizador local de f y que 2 f(x ) es definida positiva. Para el algoritmo GSS, asumimos lo siguiente. 1. φ k = 1 para todo k S. 2. ρ(t) = αt p para algún α > 0 y p 2 fijos. 3. β min d β max para todo d D k y para todo k.

53 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 47 Entonces, si x 0 está suficientemente cerca de x, 0 es suficientemente pequeño y lím k k = 0, garantizamos que Además, para k U, tenemos que lím x k = x. k + x k x c k para alguna constante c independiente de k. Entonces, la sucesión {x k } k U es r-linealmente convergente. Demostración. Sea φ min y φ max los autovalores mínimo y máximo respectivamente de 2 f(x ). Por hipótesis 2 f es continuo, entonces existe η > 0 tal que x B(x, η) espectro { 2 f(x)} [ 1 2 φ min, 2 φ max ]. Estas cotas en la segunda derivada serán usadas en varias partes de la prueba. Primero, para cualquier x k B(x, η), tenemos f(x k ) f(x ) = 1 Y dado que f(x ) = 0, obtenemos f(x k ) = [ 2 f(x + t(x k x ))(x k x )] dt. [ 2 f(x + t(x k x ))(x k x )] dt 1 2 φ min x k x. Para cualquier k U, empleando el Teorema llegamos a x k x 2 f(x k) φ min Para resumir la primera parte del argumento, [ ] 2 M φ min κ min 2 β max + α p 2 0 k. β min x k x c 1 k para cualquier k U tal que x k B(x, η). (3.33) Segundo, sean x, y B(x, η) tal que f(x) < f(y). Haciendo un desarrollo de Taylor y del hecho que f(x ) = 0, tenemos f(y) = f(x ) (y x ) T 2 f(ξ)(y x ) f(x) = f(x ) (x x ) T 2 f(ω)(x x )

54 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 48 para ξ y ω pertenecientes al segmento de recta que une x con y y x, respectivamente. Dado f(x) f(y), tenemos 0 f(y) f(x) = 1 2 (y x ) T 2 f(ξ)(y x ) 1 2 (x x ) T 2 f(ω)(x x ), de donde, 0 2φ max y x φ min x x 2. Resumiendo esta segunda parte, tenemos que existe c 2 tal que x x c 2 y x para x, y B(x, η) con f(x) f(y) (3.34) En la tercera parte del argumento, debemos mostrar que todos los iterados están en B(x, η). Asumimos que x 0 B(x, η) está suficientemente cerca de x, es decir x 0 x η, 2c 2 donde c 2 es como en (3.34). Asumimos que 0 es suficientemente pequeño, de modo que 0 η. 2β max Asumimos que x k B(x, η), con lo que tenemos x k+1 x x k+1 x k + x k x. De la hipótesis sobre k, obtenemos x k+1 x k k β max 0 β max η 2. Dado que f(x k ) f(x 0 ) y x 0, x k B(x, η), podemos aplicar (3.34) para obtener x k x c 2 x 0 x η 2. Esta parte nos dice que x k B(x, η) para todo k = 1, 2,... (3.35) Sea k S y ω(k) el último iterado no exitoso. Entonces, por (3.33) y (3.34), x k x c 2 x ω(k) x c 1 c 2 ω(w). De la ecuación anterior y (3.33), concluimos que x k x. Además, por (3.33) y (3.35), los iterados no exitosos son r-linealmente convergentes.

55 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL Opciones algorítmicas La estructura de los métodos GSS es suficientemente flexible para admitir un amplio rango de opciones algorítmicas. En particular, la elección de direcciones de búsqueda es una componente importante al definir un método GSS. Hay un amplio margen en la elección de conjuntos de direcciones de búsqueda D k = G k H k. Las condiciones en G k son bastante claras, el conjunto de vectores debe formar un conjunto de generadores positivos. Muchos de los trabajos recientes han explorado las posibilidades algorítmicas y ventajas computacionales que se pueden obtener al elegir G k D. La pregunta que no hemos abordado aún es el rol de H k. Recordemos que los primeros pasos en búsqueda directa se enfocaron en heurísticas; las preguntas apuntaban a qué tipo de heurísticas emplear en un esfuerzo para acelerar la búsqueda. Aquí es donde H k toma importancia. Si bien las direcciones que pertenecen a este conjunto no juegan un papel importante en el análisis, permiten incorporar heurísticas para mejorar la efectividad de la búsqueda Movimientos exploratorios Una forma de acelerar el proceso es ser menos cauteloso y más especulativo en la búsqueda. Específicamente, nos referimos a evaluar la función en puntos que pueden estar relativamente lejos del iterado actual. Hooke y Jeeves llamaron a tales pasos especulativos movimientos exploratorios en conexión con su algoritmo de patrón de búsqueda [19]. Para ilustrar los movimientos exploratorios, supongamos que la iteración k 1 es exitosa (ningún paso exploratorio se trata para k = 0). La iteración k comienza con una búsqueda a lo largo de las direcciones coordenadas sobre el punto prueba x p = x k + (x k x k 1 ), y no sobre el iterado x k. La idea es que el paso x k x k 1 de x k 1 a x k, conduzca a una mejora del valor funcional. Tal paso es llamado paso patrón. El objetivo es evaluado en el punto x p y luego el algoritmo procede a realizar la búsqueda alrededor de x p, aún si f(x p ) f(x k ). Si la búsqueda es exitosa, y encontramos un punto x + tal que f(x + ) < f(x k ), entonces definimos x k+1 = x +. Si tal punto no es hallado, el paso patrón es considerado no exitoso, y el método se reduce a la búsqueda en direcciones coordenadas alrededor de x k. En dos dimensiones, la búsqueda sobre x p involucra primero tratar el punto x p + k e 1. Si f(x p + k e 1 ) < f(x k ), tratar con x p + k e 1 + k e 2 ; de otra manera, tratar con x p k e 1. El procedimiento continúa hasta que las n direcciones coordenadas hayan sido exploradas. El número de posibles pasos exploratorios alrededor de x p es 3 n 1.

56 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 50 Ejemplo. En el ejemplo de la Figura 3.4 los posibles pasos exploratorios pueden ser representados como: {[ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ]} H k =,,,,,,,, Notemos que al menos n pasos son tratados (uno a lo largo de cada dirección coordenada), pero a lo sumo 2n pasos (dos a lo largo de cada dirección) son tratados. Para que el movimiento exploratorio tenga éxito, al menos x p o los puntos prueba generados por la exploración deben producir un descenso en el valor de f. Si ninguno lo hace, la búsqueda retrocede a la forma equivalente de búsqueda en direcciones coordenadas sobre x k, como muestra la Figura 3.4(b). Entonces, en R 2, G = {[ 1 0 ], [ 1 0 ], [ 0 1 ], [ 0 1 ]}. Figura 3.4: Ejemplo en R 2. La observación importante aquí es que hay dos clases de pasos involucrados en el algoritmo. Los pasos definidos por k y el conjunto G k son los pasos críticos para asegurar la convergencia total del progreso de la búsqueda dado que el conjunto G k garantiza al menos una dirección de descenso si x k no es un punto estacionario de f. Pero las direcciones en G k no son las únicas usadas para definir el próximo iterado. Los métodos GSS permiten tratar cualquier número finito de otros pasos, definidos por k y H k, buscando un paso que satisfaga la condición de descenso Oráculos f(x k + k d k ) < f(x k ) ρ( k ). (3.36) Otro reciente desarrollo en términos de estrategias algorítmicas explota la diferencia entre los pasos definidos por k y G k y aquéllos definidos por

57 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 51 k y H k. Supongamos que para todo k se eligió G k = {±e i i = 1,..., n}. Y supongamos que H k es todo lo demás para alguna porción acotada de malla cerca de x k. La Figura 3.5 nos muestra esto en R 2 con G = {[ 1 0 ], [ 1 0 ], [ 0 1 ], [ 0 1 ]}. y H k = {[ 5 5 ], [ 4 5 ], [ 3 5 ],..., [ ], [ ], [ ]}. El punto x k es mostrado en magenta y los pasos encuesta definidos por k y G k son mostrados en azul. El trabajo del oráculo es elegir algún subconjunto finito de los pasos definidos por k y H k para tratarlos como parte de la fase exploratoria de la búsqueda. En la Figura 3.5, dos posibles conjuntos de Figura 3.5: Ejemplo en R 2 usando oráculos. búsqueda son marcados en verde. Una vez más, la búsqueda sólo retrocede si la exploración inicial es incapaz de producir un paso que satisfaga la condición (3.36). Desde el punto de vista analítico, no es importante cómo el oráculo realiza su elección, con tal que el proceso sea finito y la estrategia habitual de retroceso esté en su lugar. El oráculo puede recurrir o no a algunas tácticas algorítmicas elaboradas. En verdad, el oráculo no es ni más ni menos que un predictor; su trabajo es predecir un punto (o un conjunto finito de puntos) en los cuales se podría observar un descenso en el valor de f.

58 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL Variaciones en las hipótesis de GSS El acierto de la estructura de los métodos GSS dado anteriormente fue dar una especificación suficientemente genérica para capturar muchas variaciones algorítmicas en la literatura y al mismo tiempo ser lo suficientemente simple como para derivar resultados de convergencia. En esta sección explicaremos brevemente algunas de estas variaciones y puntos de interés para el lector Control de la longitud de paso Recordemos que la manera de actualizar k nos permitía asegurar que los métodos pudieran ser globalizados, es decir lím k + k K U k = 0. (3.37) La regla de actualización de la longitud de paso puede ser relajada, sin que (3.37) deje de valer. Por ejemplo, la siguiente modificación no se ajusta dentro de la estructura del método GSS, pero conduce a resultados de convergencia equivalentes. Sea φ k = 1 para todo k S (es decir, no se toman pasos de expansión), y sea θ k para k U definido de cualquier manera (aun permitiendo θ k 1) que asegure que (3.37) vale. Modificaciones de este tipo pueden ser incorporadas dentro de las tres estrategias de globalización discutidas anteriormente. Otra variación es la siguiente. Dado un conjunto fijo de direcciones G = {d (1),..., d (p) }, asociamos un parámetro de control de longitud de paso (i) k con cada dirección de búsqueda y su actualización se realiza independientemente. Esto nos permite escalar las direcciones individualmente. Esta idea de usar parámetros separados nos lleva a una pregunta más general sobre el control de la longitud de paso. Recordemos que las cotas para las direcciones de búsqueda eran de la forma: β min d β max para todo d G k para k = 1, 2,... (3.38) β min d para todo d H k Debido a ello, la longitud de los pasos k d para d G k está acotada por un múltiplo constante de k, k β min k d k β max. Al acotar la longitud de las direcciones de búsqueda como en (3.38), partes del algoritmo y la teoría que lo acompaña que dependen de la longitud de los pasos pueden ser escritos solo en términos de k.

59 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 53 Otro cambio será eliminar el parámetro control longitud de paso y trabajar directamente con las longitudes de cada vector en D k. En tal caso, (3.38) debería ser reemplazado, por ejemplo, por lím k + k K U máx d = 0. d G k Por qué asumimos f continua? Aunque los métodos GSS pueden encontrar un minimizador de la f aún si ésta no es continua, nada garantiza que esto suceda. Consideremos el siguiente ejemplo, (x 1) 2 si x 0 f(x) = 5 si x = 0 Supongamos que la búsqueda en coordenadas comienza en x 0 = 1, con 0 = 1. Además, supongamos que D k = { 1, +1}, φ k = 1 y θ k = 1 2 para todo k. Entonces, cada iteración impar es una contracción y cada iteración par es de la forma x 2k = 2 k. Esto es ilustrado en la Figura 3.6. Aquí x k 0, el cual no es un punto estacionario de la f. Figura 3.6: La búsqueda en direcciones coordenadas converge a un punto no estacionario de f. Como podemos ver fácilmente, si elegimos x 0 = 1,1 evitaríamos estos problemas pues el algoritmo nunca evaluaría la función en x = 0.

60 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL Por qué asumimos que f existe y es continua? Cuando f es continuamente diferenciable, los métodos GSS trabajan porque, en cada iteración, una de las direcciones de búsqueda es de descenso. Sin embargo, no hay garantía de que tal dirección exista en el caso no diferenciable, como veremos en el próximo ejemplo. Consideremos la siguiente función, f(x) = 1 2 máx{ x c 1 2, x c 2 2 }, (3.39) donde c 1 = (1, 1) T y c 2 = c 1. Los conjuntos de nivel de esta función se muestran en la Figura 3.7(a), con el minimizador indicado por la estrella roja. Esta función es continua y estrictamente convexa, pero su gradiente es discontinuo en la recta x 1 = x 2. Consideremos un punto de la forma (a, a) T, con a 0 (en la figura podemos ver un punto de este tipo en color magenta). El conjunto de direcciones desde (a, a) T a lo largo de los cuales f inicialmente decrece genera la región sombreada. El objetivo crece a lo largo de cualquier dirección fuera de Figura 3.7: Una variante de la función de Dennis-Woods. la región. La Figura 3.7(c) representa las direcciones de búsqueda para el algoritmo (búsqueda en direcciones coordenadas) partiendo de (a, a) T. Notemos que mientras (a, a) T no sea un punto estacionario, ninguna de las direcciones en el conjunto generador producirá un descenso en el valor objetivo, sin importar el valor de k. En efecto, ensayos numéricos muestran que la búsqueda en direcciones coordenadas aplicada a (3.39) frecuentemente converge al punto (a, a) T. Este tipo de fallas fue observada para algoritmos de búsqueda multidireccional (MDS), un tipo de método GSS. Se ha demostrado que, si L f (x 0 ) es compacto y f es continua en L f (x 0 ), alguna subsucesión de la sucesión de

61 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 55 iterados producidos por el MDS converge a un punto x en un conjunto X, donde X es el conjunto de todos los puntos estacionarios de f en L f (x 0 ), todos los puntos en L f (x 0 ) donde f es no diferenciable y, todos los puntos donde la derivada existe pero no es continua Método de búsqueda directa multidireccional (MDS) El MDS comienza con un simplex de n+1 vértices S = {v 0, v 1,..., v n }. Un simplex de n+1 vértices consiste en n+1 puntos no colineales en R n, para más detalles ir al próximo capítulo. Cada iteración está centrada en un vértice v 0 con el menor valor funcional, es decir, f(v 0 ) f(v j ) para todo j = 1,..., n. El primer movimiento de la iteración es reflejar los vértices v 1,..., v n respecto al mejor vértice v 0, obteniendo así nuevos puntos v r 1,..., v r n. Si alguno de los vértices reflejados mejora el valor funcional con respecto a v 0, entonces el paso de reflexión es exitoso y el algoritmo trata un paso de expansión. La expansión consiste en expandir cada arista reflejada v r j v 0 a dos veces su longitud a fin de obtener un nuevo vértice expansión v e j. En una iteración de este algoritmo básico, el paso expansión sólo es llevado a cabo si el paso reflexión fue exitoso, y se considera exitoso si alguno de los vértices es mejor en valor funcional que todos los reflejados. Si esto sucede, el nuevo simplex es un simplex expansión {v 0, v e 1,..., v e n}, de lo contrario, tenemos un simplex reflexión {v 0, v r 1,..., v r n}. Por otra parte, si el paso reflexión es no exitoso, es decir que ningún vértice reflejado puede mejorar el valor de f(v 0 ), el nuevo simplex será el simplex contracción formado al reemplazar cada vértice de la peor n-cara en el simplex original por el punto medio entre ellos y el mejor vértice. Para completar una iteración, tomamos v 0 como el mejor vértice del nuevo simplex. La Figura 3.8 nos muestra la primera iteración del método en R 2.

62 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 56 Figura 3.8: Simplex original, vértices rotados, expandidos y contraídos, correspondientes a una iteración de MDS. Los valores típicos para γ s y γ e son 1/2 y 2 respectivamente. Un criterio de parada podría consistir en terminar la corrida cuando el diámetro del simplex (ver Definición 4.1.1) sea más pequeño que cierta tolerancia tol > 0. Torczon [33] notó que si γ s y γ e son números racionales, todos los vértices visitados por el algoritmo yacen en un lattice entero. Además, notó que el algoritmo fuerza un descenso simple para aceptar un nuevo iterado (de otra forma, el simplex se contrae y se mantiene el mejor vértice). Entonces, una vez que se haya probado la última observación, la prueba del siguiente teorema saldrá de manera directa.

63 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 57 Algoritmo: Método MDS Inicio. Elegir un simplex inicial de vértices S 0 = {v 0 0, v 1 0,..., v n 0 } y evaluar f en los puntos de S 0. Definir constantes γ s, γ e tales que Para k = 0, 1, 2, Fijar S = S k. 0 < γ s < 1 < γ e. 1. Ordenación. Ordenar los n + 1 vértices de S = {v 0, v 1,..., v n } de manera que f 0 = f(v 0 ) f(v j ) para todo j = 1,..., n. 2. Reflexión. Reflejar el simplex con respecto a v 0 : v r j = v 0 (v j v 0 ), i = 1,..., n. Evaluar f(vj r ) para j = 1,..., n, y fijar f r = mín {f(vj r ) : j = 1,..., n}. Si f r < f 0, se intenta una expansión, de otra manera, se contrae el simplex. 3. Expansión. Expandir el simplex reflejado: v e j = v 0 γ e (v j v 0 ), i = 1,..., n. Evaluar f(v e j) para j = 1,..., n, y fijar f e = mín {f(v e j) : j = 1,..., n}. Si f e < f r, el paso expansión se considera exitoso y la iteración termina: S k+1 = {v 0, v e 1,..., v e n}. Si no, el paso reflexión es aceptado y la iteración termina: S k+1 = {v 0, v r 1,..., v r n}. 4. Contracción. Evaluar f en los puntos v 0 +γ s (v j v 0 ), i = 1,..., n y reemplazar v 1,..., v n por esos puntos, la iteración termina con S k+1 = {v 0 + γ s (v j v 0 ), j = 1,..., n}. Teorema Supongamos que γ s, γ e Q, y que el simplex inicial es de la forma S 0 = GZ, donde G R n n es una matriz no singular y las componentes de Z R n (n+1) son enteros. Asumimos que L f (v 0 0) es compacto y f es continuamente diferenciable en L f (v 0 0). Entonces la sucesión de iterados {v 0 k} generados por el método MDS tiene un punto límite estacionario x.

64 CAPÍTULO 3. BÚSQUEDA DIRECTA DIRECCIONAL 58 Demostración. Primero, debemos enmarcar este método en el formato de una búsquda directa direccional. Notemos que el paso expansión puede ser visto dentro de una fase de búsqueda (subsección 3.4.2), esta fase es opcional y se aplica antes de la evaluación funcional. La etapa de evaluación involucra una base positiva maximal G k relativa al simplex inicial y tomada del conjunto G = {v j 0 v i 0, j = 0, 1,..., n, j i} { (v j 0 v i 0), j = 0, 1,..., n, j i}, para i = 1,..., n. Luego, es una simple cuestión ver que los requisitos para establecer un lattice racional son satisfechos. Así, las hipótesis del Teorema se cumplen y tenemos que el método MDS tiene un punto límite estacionario.

65 Capítulo 4 Método Simplex de Nelder-Mead 4.1. Simplices Antes de comenzar con la descripción del método, daremos algunas definiciones para quienes no estan familiarizados con el tema. Definición Dados n+1 puntos en R n, S = {v 0, v 1,..., v n }, su cápsula convexa es conocida como simplex de dimensión n. Los vértices del simplex son los elementos de S. El diámetro de un simplex S de vértices v 0, v 1,..., v n está definido por diam(s) = máx 1 i<j n vi v j. (4.1) Una forma de aproximar el diam(s) en v 0 de una manera menos costosa es, (S) = máx 1 i n vi v 0. (4.2) Definición El volumen de un simplex de n + 1 vértices está definido por, vol(s) = det(l) n! donde L = L(S) = [v 1 v 0 v n v 0 ] Observación. El volumen de un simplex no es una buena medida de la calidad de su geometría, para ver esto consideremos el siguiente conjunto, {[ ] [ ] [ ]} 0 t 0 S t =,, 0 0 t 59

66 CAPÍTULO 4. MÉTODO SIMPLEX DE NELDER-MEAD 60 con t > 0. Podemos ver que vol(s t ) 0 cuando t 0. Sin embargo, los ángulos entre los vectores formados por los vértices son los mismos para todos los valores de t. Una buena medida en cambio, podría ser la del volumen normalizado, ( ) 1 von(s) = vol diam(s) S = det(l(s)) n! diam(s) n Figura 4.1: Cómo calcular una base positiva maximal de los vértices de un simplex Método de Nelder-Mead El algoritmo de Nelder-Mead es ampliamente utilizado en distintas áreas debido a su satisfactorio desempeño y uno de los más citados de la literatura (con más de citaciones según Scholar Google.). Es un método de búsqueda directa en el sentido de que evalúa la función objetivo en un número finito de puntos por iteración y decide qué acción tomará proximamente basado en aquellos valores funcionales y sin una aproximación del gradiente. Cada iteración en R n está basada en un simplex de n + 1 vértices S = {v 0, v 1,..., v n } ordenados de forma tal que f(v 0 ) f(v 1 )... f(v n ). Las iteraciones más comunes realizan una reflexión, una expansión, o una contracción (esta última puede ser fuera o dentro del simplex). En tales iteraciones el peor vértice v n es reemplazado por un punto en el segmento que conecta v n y v c, v = v c + δ(v c v n ), δ R, donde v c = n 1 i=0 v i /n es el centroide de los mejores n vértices. El valor de δ indica el tipo de iteración. Por ejemplo, cuando δ = 1 tenemos una reflexión, cuando δ = 2 una expansión, si δ = 1/2 una contracción externa

67 CAPÍTULO 4. MÉTODO SIMPLEX DE NELDER-MEAD 61 y si δ = 1/2 una contracción interna. La siguiente figura nos muestra los cuatro casos. Figura 4.2: Reflexión, expansión, contracción externa y contracción interna de un simplex. Una iteración del método también puede realizar un encogimiento, pero raramente ocurre en la práctica. Cuando un encogimiento es realizado todos los vértices en S son desechados excepto el mejor v 0. Los nuevos n vértices son computados al encoger el simplex en v 0, es decir, al calcular por ejemplo, v (vi v 0 ), i = 1,..., n. Figura 4.3: Encogimiento de un simplex. En general, las elecciones standard para los coeficientes usados son γ s = 1 2, δic = 1 2, δoc = 1 2, δr = 1, y δ e = 2. (4.3) El método de Nelder-Mead es descrito en el siguiente algoritmo.

68 CAPÍTULO 4. MÉTODO SIMPLEX DE NELDER-MEAD 62 Algoritmo: Método de Nelder-Mead Inicio. Elegir un simplex inicial de vértices S 0 = {v 0 0, v 1 0,..., v n 0 } y evaluar f en los puntos de S 0. Definir constantes tales que, Para k = 0, 1, 2, Fijar S = S k 0 < γ s < 1, 1 < δ ic < 0 < δ oc < δ r < δ e. 1. Ordenación. Ordenar los n + 1 vértices de S = {v 0, v 1,..., v n } de manera que f 0 = f(v 0 ) f 1 = f(v 1 )... f n = f(v n ). 2. Reflexión. Reflejar el peor vértice v n sobre el centroide v c = n 1 i=0 v i /n de los n vértices restantes: v r = v c + δ r (v c v n ). Evaluar f r = f(v r ). Si f 0 f r f n 1, reemplazar v n por el punto reflejado v r y terminar la iteración: S k+1 = {v 0, v 1,..., v n 1, v r }. 3. Expansión. Si f r < f 0, calcular el punto expansión v e = v c + δ e (v c v n ), y evaluar f e = f(v e ). Si f e f r, reemplazar v n por el punto expandido v e y terminar la iteración: S k+1 = {v 0, v 1,..., v n 1, v e }. De otra forma, reemplazar v n por el punto reflejado v r y terminar la iteración: S k+1 = {v 0, v 1,..., v n 1, v r }. 4. Contracción. Si f r f n 1, entonces una contracción es realizada entre el mejor de v r y v n. Contracción externa: Si f r < f n, realizamos una contracción externa v oc = v c + δ oc (v c v n ), y evaluar f oc = f(v oc ). Si f oc f n, reemplazar v n por el punto de contracción externa f oc y terminar la iteración: S k+1 = {v 0, v 1,..., v n 1, v oc }. De otra forma, realizar un encogimiento.

69 CAPÍTULO 4. MÉTODO SIMPLEX DE NELDER-MEAD 63 Contracción interna: Si f r f n, realizamos una contracción interna v ic = v c + δ ic (v c v n ), y evaluar f ic = f(v ic ). Si f ic f n, reemplazar v n por el punto de contracción interna f ic y terminar la iteración: S k+1 = {v 0, v 1,..., v n 1, v ic }. De otra forma, realizar un encogimiento. 5. Encogimiento. Evaluar f en los n puntos v 0 + γ s (v i v 0 ), i = 1,..., n, y reemplazar v 1,..., v n por esos puntos, terminando la iteración con: S k+1 = {v 0 + γ s (v i v 0 ), i = 1,..., n}. Un criterio de parada podría consistir en terminar la corrida cuando el diámetro del simplex sea más pequeño que cierta tolerancia dada tol > Simplices de Nelder-Mead Si bien el algoritmo anterior tiene una buen desempeño práctico debido a su capacidad de ajustarse bien a la curvatura de la función, los simplices pueden volverse chatos o con forma de aguja, y esta es la razón por la cual no es posible establecer convergencia global a puntos estacionarios. Una manera de controlar la geometría de S = {v 0, v 1,..., v n } es verificar si ˆL(S) 1 Λ, donde ˆL(S) = 1 (S) L(S) = 1 [ v 1 v 0 v n v 0] (S) A continuación presentaremos algunos hechos básicos sobre el volumen y el volumen normalizado de los simplices de Nelder-Mead. Teorema Si en la iteración k no se realizan pasos de encogimiento, entonces vol(s k+1 ) = δ vol(s k ), y, si en cambio, en la iteración k se realizan este tipo de pasos, entonces vol(s k+1 ) = (γ s ) n vol(s k ),

70 CAPÍTULO 4. MÉTODO SIMPLEX DE NELDER-MEAD Propiedades del método Simplex El siguiente teorema sintetiza las propiedades más generales del algoritmo. Teorema Consideremos la aplicación del algoritmo de Nelder-Mead mencionado anteriormente, a una función f la cual es acotado inferiormente en R n. Entonces, 1. La sucesión {f 0 k } es convergente. 2. Si sólo un número finito de encogimientos ocurre, entonces las n + 1 sucesiones {fk}, i i = 0,..., n converge y sus límites satisfacen f 0 f 1 f n. 3. Si sólo un número finito de pasos distintos al encogimiento ocurren, todos los vértices del simplex convergen a un solo punto Una variante globalmente convergente del método de Nelder-Mead Hay ciertas cuestiones que deben ser tratadas con cuidado en este método para asegurar su convergencia global a puntos estacionarios. Primero, la geometría de los simplices debe ser controlada para todas las operaciones (con excepción de los pasos de encogimiento ya que uno tiene von(s k+1 ) = von(s k ) cuando éstos ocurren). Cuando un paso de encogimiento ocurre, si el volumen normalizado de S k satisface von(s k ) > ξ para alguna constante ξ > 0 independiente de k, entonces el volumen normalizado de S k+1 también lo hace. Esto no está garantizado en el caso de reflexiones, contracciones y expansiones. Especial cuidado debe tenerse en el caso de reflexiones. Uno debe garantizar que alguna forma de reflexión no nos lleve a un deterioro en la geometría de los simplices. Una posible solución sería asumir que una reflexión isométrica es tratada primero; entonces, si los puntos reflejados satisfacen diam({v 0, v 1,..., v n 1 } {v r }) γ e y von({v 0, v 1,..., v n 1 } {v r }) ξ, ninguna provisión especial debe ser tomada y el proceso continúa al evaluar la función en v r. En caso contrario, se rotan los vértices v i, i = 1,..., n 180 grados alrededor de v 0. Por otro lado, pediremos que se cumpla la condición de descenso suficiente, vista anteriormente para métodos de búsqueda directa; sin embargo, el panorama aquí es diferente pues uno debe hacer comparaciones entre distintos valores funcionales, y entonces, el descenso suficiente debe ser aplicado en distintas situaciones.

71 CAPÍTULO 4. MÉTODO SIMPLEX DE NELDER-MEAD 65 A partir de estas observaciones, presentamos a continuación un método de Nelder-Mead modificado (que fue analizado y sugerido por Tseng [34]). Algoritmo: Método de Nelder-Mead modificado Inicio. Elegir ξ > 0. Elegir un simplex inicial de vértices S 0 = {v 0 0, v 1 0,..., v n 0 } tal que von(s 0 ) ξ. Evaluar f en los puntos de S 0. Definir constantes tales que, Para k = 0, 1, 2, Fijar S = S k 0 < γ s < 1 < γ e, 1 < δ ic < 0 < δ oc < δ r < δ e. 1. Ordenación. Ordenar los n + 1 vértices de S = {v 0, v 1,..., v n } de manera que Fijar = diam(s). f 0 = f(v 0 ) f 1 = f(v 1 )... f n = f(v n ). 2. Reflexión. Calcular un punto reflejado isométrico v r (es decir, δ r = 1). Si diam({v 0, v 1,..., v n 1 } {v r }) γ e (4.4) von({v 0, v 1,..., v n 1 } {v r }) ξ Evaluar f r = f(v r ). Si f r f n 1 ρ( ), intentar una expansión (y aceptar el punto reflejado o expandido). De otro modo, intentar una contracción. Rotación de salvaguardia. Si la reflexión isométrica no cumple (4.4), rotar el simplex alrededor del mejor vértice v 0 : v rot,i = v 0 (v i v 0 ), i = 1,..., n. (4.5) Evaluar f(v rot,i ), i = 1,..., n, y fijar f rot = min {f(v rot,i ) : i = 1,..., n}. Si f rot f 0 ρ( ), terminar la iteración y tomar el simplex rotado: S k+1 = {v 0, v rot,1,..., v rot,n }. De otra manera, intentar una contracción.

72 CAPÍTULO 4. MÉTODO SIMPLEX DE NELDER-MEAD Expansión. Calcular un punto expandido v e (por ejemplo, como en el algoritmo anterior). Si diam({v 0, v 1,..., v n 1 } {v e }) γ e von({v 0, v 1,..., v n 1 } {v e }) ξ entonces evaluar f e = f(v e ), y si f e f r, reemplazar v n por el punto expandido v e y terminar la iteración: S k+1 = {v 0, v 1,..., v n 1, v e }. De otra forma, reemplazar v n por el punto reflejado v r y terminar la iteración: S k+1 = {v 0, v 1,..., v n 1, v r }. 4. Contracción. Calcular el punto contraído v cc (como en la contracción interna o externa del anterior algoritmo). Si diam({v 0, v 1,..., v n 1 } {v cc }) γ e von({v 0, v 1,..., v n 1 } {v cc }) ξ entonces evaluar f cc = f(v cc ), y si f cc f n ρ( ), reemplazar v n por el punto contraído v cc y terminar la iteración: S k+1 = {v 0, v 1,..., v n 1, v cc }. Si no, realizar un encogimiento. 5. Encogimiento. Evaluar f en los n puntos v 0 + γ s (v i v 0 ), i = 1,..., n, y sea f s el menor de estos valores. Si f s f 0 ρ( ), aceptar el simplex encogido y terminar la iteración con: S k+1 = {v 0 + γ s (v i v 0 ), i = 1,..., n}. De otra forma, volver al paso 0 con S = {v 0 + γ s (v i v 0 ), i = 1,..., n}. Nuevamente, un criterio de parada podría consistir en terminar la corrida cuando el diámetro k del simplex sea más pequeño que cierta tolerancia elegida tol > 0. Definimos ahora un índice n k dependiente de la operación en la que la iteración k haya terminado: n k = n n k = 0 para reflexiones isométricas, expansiones y contracciones. para encogimientos y rotaciones de salvaguardia. Entonces, la sucesión de simplices generada por el algoritmo modificado, satisface f i k+1 f i k, i = 0,..., n k. (4.6)

73 CAPÍTULO 4. MÉTODO SIMPLEX DE NELDER-MEAD 67 y n k n k f i k+1 fk i ρ( ). (4.7) i=0 i=0 El siguiente teorema se basa esencialmente en las condiciones (4.6)-(4.7) y juega un rol central en el análisis del método de Nelder-Mead modificado. Teorema Si f es acotada inferiormente y uniformemente continua en R n, entonces el método de Nelder-Mead modificado (algoritmo anterior) genera una sucesión {S k } de simplices cuyo diámetro converge a cero: lím diam(s k) = 0. k + Definición Que la sucesión de vértices simplex {S k } tenga un punto límite x, significa que existe una sucesión de vértices de la forma {x k }, con x k S k, la cual tiene una subsucesión que converge a x. En el próximo teorema mostraremos que si una sucesión de vértices del simplex es acotada, entonces tiene al menos un punto límite que es estacionario. La prueba de este resultado se basa en el hecho que el conjunto de vectores v n v i, i = 1,..., n 1 y v r v i, i = 1,..., n 1 forma parte de un conjunto generador positivo. Puede verse fácilmente que n 1 i=0 n 1 (v n v i ) + (v r v i ) = 0, i=0 y, por el Teorema 2.2.4(iii) concluimos que el conjunto genera R n positivamente. Teorema Sea f acotada inferiormente, uniformemente continua y continuamente diferenciable en R n. Asumimos que la sucesión de vértices simplex {S k } generada por el algoritmo modificado yace en un compacto. Entonces {S k } tiene al menos un punto límite estacionario x. Es posible probar que todos los puntos límites de una sucesión de vértices son estacionarios. Sin embargo, necesitamos imponer condiciones adicionales para aceptar reflexiones isométricas o expansiones. Como en [34], uno puede realizar reflexiones isométricas o expansiones si las siguientes condiciones se satisfacen, f r f n 1 ρ( ) y f r f n 1 ( f n 1 n n 1 i=0 f i ) + ρ( ) (4.8)

74 CAPÍTULO 4. MÉTODO SIMPLEX DE NELDER-MEAD 68 Teorema Sea f acotada inferiormente, uniformemente continua y continuamente diferenciable en R n. Asumimos que la sucesión de vértices simplex {S k } generada por el algoritmo modificado (modificado para aceptar sólo reflexiones isométricas o expansiones si (4.8) ocurre) yace en un compacto. Asumimos también que las reflexiones isométricas satisfacen (4.4). Entonces todos los puntos límites de {S k } son estacionarios. Las demostraciones de los últimos tres teoremas pueden encontrarse en [10, cap. 8].

75 Capítulo 5 Experimentos numéricos Si bien hemos probado que bajo ciertas hipótesis los métodos vistos a lo largo de este trabajo convergen a puntos estacionarios de una función f, la teoría no es suficiente para establecer la eficiencia y la credibilidad de los mismos. Con lo cual, la mejor manera de entender y validar estos métodos es a través de su implementación. Para ello, suelen utilizarse dos tipos de problemas de programación no lineal (sin restricciones): problemas artificiales y problemas de la vida real. Los problemas de programación lineal artificiales son fáciles de manipular y nos permiten ver el desempeño del algoritmo frente a funciones con largos y estrechos valles, con una gran cantidad de mínimos locales, etc. Por otro lado, los problemas de la vida real provienen de distintas áreas, tales como física, biología, química, economía, etc; éstos pueden presentar expresiones algebraicas complicadas, depender de una gran cantidad de datos o de ciertos parámetros a calcular. En este capítulo mostraremos algunas implementaciones hechas en Matlab de los diferentes métodos de búsqueda directa direccional vistos a lo largo del trabajo. Realizaremos comparaciones de su desempeño aplicado a funciones tomadas de la literatura Comparando variantes del GSS Tomamos 10 problemas test a resolver con algunos de los métodos vistos: Mét. 1: búsqueda en direcciones coordenadas, Mét. 2: búsqueda utilizando una base minimal positiva (D 2 ), Mét. 3: tomando la dirección de mayor descenso de la función, Mét. 4: aplicando el criterio de descenso suficiente con ρ(t) = t 2, y 69

76 CAPÍTULO 5. EXPERIMENTOS NUMÉRICOS 70 Mét. 5: utilizando el oráculo. Cuando utilizamos el oráculo, antes de la fase encuesta, evaluaremos la función en n = 5 puntos aleatorios. Los problemas test que usaremos fueron tomados de [1]. A continuación presentamos una tabla donde pueden verse las funciones mencionadas. Función Minimizadores (local) f 1 x 2 + y 2 (0, 0) f 2 (1 x) (y x 2 ) 2 (1, 1) f 3 (3 2 cos(x) cos(y) sen(y)) 2 + (4 3 cos(y) sen(y) cos(x)) 2 2π(n, m)* +t(α 1, α 2 )** f 4 e x x + e y y (0, 0) f 5 log(e x + e x ) + log(e y + e y ) (0, 0) f 6 x 2 + 2y 2 + 0,01(x y) 2 (0, 0) f 7 cos(x) + sen(y) 2π(n, m)* +(π, π 2 ) f 8 xye x2 y 2 ( 1 2, 1 2 ), ( 1 2, 1 2 ) 3y f 9 (0, 1) x 2 +y 2 +1 f 10 (x y 2 )(x 1 2 y2 ) no tiene * n, m Z, ** α 1 0, y α 2 0, y t {0, 1}. Dadas las funciones anteriores, las siguientes tablas mostrarán el desempeño de los distintos métodos presentados al comienzo del capítulo. La primer columna se corresponde con los valores iniciales elegidos, y para cada método indicamos el número de evaluaciones funcionales (ev. f.) y el valor de la función en el punto límite de la sucesión de iterados generado por el algoritmo (f). También mostramos la gráfica de algunas funciones y sus curvas de nivel. Los parámetros iniciales elegidos fueron: 0 = 1, tol = 1e 6, φ k = 1 si k S y θ k = 1/2 si k U. f 1 Mét. 1 Mét. 2 Mét. 3 Mét. 4 Mét. 5 x 0 ev. f. f ev. f. f ev. f. f ev. f f ev. f. f (1,2) e e (-3,4) e (5,11) e e (35,-17) e e

77 CAPÍTULO 5. EXPERIMENTOS NUMÉRICOS 71 Como vemos en la tabla anterior, correspondiente a f 1 los cinco métodos utilizados encuentran el minimizador local de la función. Como era de esperar, mientras más lejos del minimizador se encuentre el punto inicial, mayor cantidad de evaluaciones funcionales serán requeridas. También puede observarse que el Mét. 5 mejora la performance de los restantes cuando el punto inicial está suficientemente lejos del minimizador. f 2 Mét. 1 Mét. 2 Mét. 3 Mét. 4 Mét. 5 x 0 ev. f. f ev. f. f ev. f. f ev. f f ev. f. f (0,0) e e e e e-7 (1,2) e e (-2,3) e e e e e-7 (7,20) e-7 (*) e e e-7 La función f 2 es conocida como la función de Rosenbrock y se caracteriza por la forma de banana de sus curvas de nivel, lo que implica un gran desafío para los algoritmos de búsqueda direccional. Sin embargo, podemos ver que los métodos han realizado una tarea satisfactoria (tengamos en cuenta la gran cantidad de evaluaciones funcionales requeridas cuando el punto inicial es x 0 = ( 2, 3), punto que está relativamente cerca del minimizador, (1, 1)). (*) El espacio en blanco corresponde a una corrida sin terminar, sin embargo, al ir variando el número de iteraciones (100, 1000, 10000) pudimos ver que el descenso en el objetivo era despreciable. (a) Gráfico de f 2 (b) Curvas de nivel de f 2 f 3 Mét. 1 Mét. 2 Mét. 3 Mét. 4 Mét. 5 x 0 ev. f. f ev. f. f ev. f. f ev. f f ev. f. f (1,1) e e (7,9) 188 7e e e e e-13 (-3,5) 200 8e e e e e-13 (-2,-3) e-13

78 CAPÍTULO 5. EXPERIMENTOS NUMÉRICOS 72 La función f 3 tiene una cantidad infinita de miminizadores (presentados en la primer tabla). Al implementar los algoritmos en Matlab se vio que la sucesión de iterados generada por los distintos métodos converge a distintos minimizadores de acuerdo con el punto inicial. (c) Gráfico de f 3 (d) Curvas de nivel de f 3 f 4 Mét. 1 Mét. 2 Mét. 3 Mét. 4 Mét. 5 x 0 ev. f. f ev. f. f ev. f. f ev. f f ev. f. f (1,2) (-6,4) (5,17) (39,-17) f 5 Mét. 1 Mét. 2 Mét. 3 Mét. 4 Mét. 5 x 0 ev. f. f ev. f. f ev. f. f ev. f f ev. f. f (1,2) 92 0, ,6 92 0, , ,6 (-6,4) 120 0, , , , ,6 (5,17) 168 0, , , , ,6 (39,-17) 304 0, , , , ,6 f 6 Mét. 1 Mét. 2 Mét. 3 Mét. 4 Mét. 5 x 0 ev. f. f ev. f. f ev. f. f ev. f f ev. f. f (1,1) e (7,11) e (-3,5) e (11,30) e

79 CAPÍTULO 5. EXPERIMENTOS NUMÉRICOS 73 f 7 Mét. 1 Mét. 2 Mét. 3 Mét. 4 Mét. 5 x 0 ev. f. f ev. f. f ev. f. f ev. f f ev. f. f (0,0) e (1,1) (0,0,1) (17,35) En estas 4 tablas correspondientes a las funciones f 4 f 7 podemos ver que los métodos han realizado un buen trabajo, sin mayores dificultades. Podemos decir también que el método más satisfactorio es el Mét. 1 pues, en general, con una menor cantidad de evaluaciones funcionales alcanza el minimizador de las funciones. f 8 Mét. 1 Mét. 2 Mét. 3 Mét. 4 Mét. 5 x 0 ev. f. f ev. f. f ev. f. f ev. f f ev. f. f (0,0) , ,1839 (1,1) 160-0, , , , ,1839 (0,0,1) 184-0, , , , ,1839 (17,35) En la tabla de la función f 8 podemos observar dos aspectos. Lo primero, es que al tomar como punto inicial x 0 = (0, 0), tres de los cinco métodos propuestos se estacionan en dicho punto, observemos también que estos tres métodos se corresponden con las direcciones coordenadas como direcciones de búsqueda; esto se debe a que a lo largo de esas direcciones la función no cambia su valor (f = 0), con lo cual las iteraciones siempre serán inexitosas y los métodos convergerán a (0, 0). Por otro lado, si el punto inicial es (17, 35), el valor funcional se aproxima a cero y lo mismo ocurre a lo largo de las direcciones de búsqueda, por lo cual todos los métodos convergen al punto inicial.

80 CAPÍTULO 5. EXPERIMENTOS NUMÉRICOS 74 (e) Gráfico de f 8 (f) Curvas de nivel de f 8 f 9 Mét. 1 Mét. 2 Mét. 3 Mét. 4 Mét. 5 x 0 ev. f. f ev. f. f ev. f. f ev. f f ev. f. f (0,0) 84-1,5 63-1,5 84-1,5 84-1, ,5 (7,11) 148-1, , , , ,5 (-5,-10) 184-1,5 (*) 352-1, ,5 (17,35) , , , ,5 En la tabla anterior vemos que todos los métodos llegan al minimizador de la función a excepción de Mét. 2 cuando el punto inicial es (17, 35) (*). Esto se debe a que al partir de este punto, la dirección a lo largo de la cual la función sufre un descenso es ( 1/ 2, 1/ 2) y se mantiene así para todas las iteraciones, con lo cual la sucesión de iterados se aleja del minimizador. (g) Gráfico de f 9 (h) Curvas de nivel de f 9

81 CAPÍTULO 5. EXPERIMENTOS NUMÉRICOS 75 f 10 Mét. 1 Mét. 2 Mét. 3 Mét. 4 Mét. 5 x 0 ev. f. f ev. f. f ev. f. f ev. f f ev. f. f (0,0) e (1,2) e e e e e4 (-5,5) e e e (17,35) e e5 En este último caso, correspondiente a f 10, si bien la función no tiene minimizadores locales, vale la pena hacer un pequeño análisis. Podemos ver que salvo el último método, los demás convergen al punto inicial cuando éste es (0, 0). Esto se debe a que la función es siempre positiva a lo largo de las direcciones de búsqueda, en cambio, al comenzar desde cualquier otro punto, el objetivo consigue descender infinitamente. (i) Gráfico de f 10 (j) Curvas de nivel de f 10 Como pudimos ver, los distintos métodos tienen, en general, un buen desempeño, superando ciertas características de estas funciones que las hacen especiales para ver el potencial de nuestros algoritmos. Invitamos a quienes estén interesados, a profundizar este análisis: al aumentar la cantidad de puntos iniciales, al cambiar las direcciones de búsqueda o simplemente a analizar con más detalles el comportamientos de estas funciones.