EXPERIMENTOS COMPUTACIONALES EN UN ESTUDIO DE SIM

Transcripción

1 EXPERIMENTOS COMPUTACIONALES EN UN ESTUDIO DE SIMULACIÓN DE MODELOS DE SERIES TEMPORALES PARA UNA MEJOR COMPRENSIÓN DE LAS HERRAMIENTAS RANDOM FOREST Y CONDITIONAL TREES SEPTIEMBRE 2016 TRABAJO FIN DE GRADO PARA LA OBTENCIÓN DEL TÍTULO DE GRADUADO EN INGENIERÍA EN TECNOLOGÍAS INDUSTRIALES Iván Carbajo Mayoral DIRECTORES DEL TRABAJO FIN DE GRADO: José Mira McWilliams Francisco Javier Cara Cañas

2 Dedicatoria y agradecimientos You can not change the past. You can not even change the future, in the sense that you can only change the present one moment at a time, stubbornly, until the future unwinds itself into the stories of our lives. No puedes cambiar el pasado. Ni siquiera puedes cambiar el futuro, sólo puedes cambiar el presente en cada instante, obstinadamente, hasta que el futuro se transforma en la historia de nuestras vidas. Larry Wall Dedico este trabajo y todo el esfuerzo que le ha precedido durante estos cuatro años a mis padres, sin su incesante ayuda nada de esto habría sido posible, y por eso siempre les estaré agradecido. Igualmente agradezco a mis tutores José Mira, Javier Cara y Camino Gonzalez la posibilidad que me han brindado para introducirme en un ámbito de estudio que me ha fascinado desde el primer momento y sobre el que espero que pueda seguir aprendiendo en el futuro. Me siento especialmente agradecido por haber podido compartir estos años de mi vida con todos los amigos que he tenido el placer de conocer gracias a mi paso por la ETSII. Quiero mencionar en primer lugar a Álvaro con el que he compartido tantos buenos momentos durante el desarrollo de este trabajo y fuera de él. Y cómo no a Alberto, Juan, Belén, Héctor, Patricia, Daniel, Magda, Víctor, Andrés, Nacho, Carlos, Alfonso, Sebas, Fernando, Pablo, Luis, Hua... Su constante compañía y apoyo han sido imprescindibles para superar las dicultades que surgen una y otra vez. Han sido como una familia durante estos últimos años, tanto dentro como fuera de la escuela, y siempre lo recordaré. 1

3 2 Escuela Técnica Superior de Ingenieros Industriales (UPM)

4 Resumen Introducción A lo largo de este trabajo se estudiará la posibilidad de introducir los algoritmos de aprendizaje automático (machine learning) conocidos como bosque aleatorios (random forest) en el campo de la predicción de series temporales. El objetivo no es sólo probar la ecacia de dichos algoritmos para la predicción puntual en regresión dinámica, sino también investigar su capacidad a la hora de determinar las propiedades de las series y también su aplicabilidad a la hora de estimar intervalos de conanza para las predicciones. Motivación El desarrollo que ha vivido el campo del machine learning en los últimos años ha sido enorme. Los algoritmos que se engloban dentro del mismo han demostrado una gran habilidad en la resolución de gran variedad de problemas de muy diferente tipología gracias a su capacidad de adaptación a los mismos. El principal atractivo de estos modelos radica en su naturaleza exible, ya que no son diseñados, en principio, para hallar la solución de un problema concreto, sino que se diseñan de tal manera que puedan aprender sobre la marcha en función de las características del problema. De hecho es frecuente referirse a estos como modelos no paramétricos, en el sentido de que no tienen una expresión cerrada que dependa de unos parámetros que deban ajustarse para la resolución de problemas concretos. Si bien es verdad que constan de ciertos parámetros de diseño que pueden modicarse, estos únicamente guían el proceso de aprendizaje del algoritmo, sin restringir su aplicabilidad a un problema concreto. Esta cualidad los capacita para resolver problemas sobre los que se carece de suciente información o bien son tan cambiantes que los modelos rígidos no obtienen resultados aceptables. Por esta razón, la búsqueda de nuevos problemas que puedan ser abordados por estas técnicas está a la orden del día y promete estarlo durante mucho tiempo. Mientras en otros ámbitos de predicción ya es frecuente la utilización de dichas técnicas. La aplicación de los algoritmos de random forest, los cuales están basados en los algoritmos de árboles de decisión, a la predicción de series temporales es una línea de investigación que se encuentra muy poco desarrollada. Por esa razón, en este trabajo se pretende llevar a cabo una serie de experimentos computacionales que arrojen luz acerca de la aplicabilidad de los algoritmos de bosques es esta área. 3

5 Herramientas utilizadas El estudio se realizará sobre dos algoritmos diferentes: los bosques basados en árboles de decisión tipo CART (Classication and Regression Trees ) y los bosques basados en los árboles de inferencia condicional (Conditional inference trees). El desarrollo del primero se debe a las investigaciones de Leo Breiman, el cual introdujo en 1984 el algoritmo CART, en los cuales se basó posteriormente la formulación de Random forest. El nacimiento del segundo es más reciente y se debió a la necesidad de afrontar problemas en los que las variables explicativas de los modelos eran muy diferentes o se encontraban muy correlacionadas. Este último aspecto será fundamental a lo largo de este trabajo, ya que por su propia naturaleza los elementos de una serie temporal tienen estas características. Ambos algoritmos se basan en la creación de un número elevado de árboles de decisión individuales cuya información es posteriormente agregada de varias maneras posibles. Dicha agregación por una parte disminuye el riesgo de sobreajuste y por otra reduce la variabilidad de las predicciones. Por esa razón los resultados obtenidos a partir de bosques suelen ser mejores que los obtenidos en base a árboles individuales. La gura (1) representa un árbol tipo CART. Figura 1: Representación gráca de un árbol de decisión CART Predicción y estudio de las series Puesto que se trata de un trabajo de investigación acerca de los modelos mencionados anteriormente, más allá de su aplicación concreta a un caso particular, interesa adquirir un conocimiento general acerca del funcionamiento y las posibilidades de estos algoritmos. Por ese motivo, el documento incluye un capítulo dedicado a la comprensión del funcionamiento de estos modelos. A este respecto se hará hincapié principalmente en las diferencias a la hora de construir los árboles de decisión individuales en los que se basan los bosques. Es fundamental entender los criterios de selección de las variables en base a su importancia tanto en los árboles CART como en los condicionales, ya que esto inuirá en los resultados que se obtendrán a lo largo del trabajo. El hecho de que en los primeros el criterio de división se base en una medida de la ganancia de información y que en los segundos se rija por un estadístico de contraste, determina el comportamiento de los bosques basados en cada uno de los dos. En cuanto al análisis de la series temporales, este se ha limitado a las series tipo AR 4 Escuela Técnica Superior de Ingenieros Industriales (UPM)

6 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST estacionarias: AR(2), AR(3) y AR (6); incluyendo además un apartado que se dedica a ciertos casos interesantes de series autorregresivas con inuencia de variables exógenas (ARX). En ambos casos, se obtendrán resultados que relacionanlos modelos no paramétricos mencionados anteriormente con los modelos ARIMA, que es el más usado actualmente en la predicción de series temporales. En este aspecto, es importante recalcar que se trata de un trabajo de simulación, por lo que el análisis se realizará sobre serie generadas de manera articial, no sobre series reales. La utilidad de la simulación radica en que se concoce exactamente el proceso generador de los datos, lo cual no ocurre si se trabaja con datos reales. En cuanto a los horizontes de predicción considerados, en el caso de las series AR las predicciones se harán con horizonte de t = 10, mientras que en las series ARX se hará con horizonte t = 1. La gura 2 muestra un ejemplo del resultado de la predicción de una serie ARX que representa 10 predicciones consecutivas de horizonte 1 para una mejor visualización. Figura 2: Predicción de una serie ARX La generación de las series, a su vez, se llevará a cabo de acuerdo a casos particulares del modelo ARIMA, por lo que a priori, en todos los experimentos, la predicción es más favorable a estos modelos que a cualquier otro. Sin embargo, como ya se ha comentado, la exibilidad de los modelos que se van a estudiar les permitirá competir contra los modelos lineales tradicionales. Previamente a los apartados dedicados a los experimentos de predicción se incluirá uno enfocado a la detección del tipo de serie con los modelos de aprendizaje automático. Esto se hará en base a la medida de la importancia de las variables analizadas (los respectivos retardos de las series), teniendo en cuenta los aspectos relativos a la correlación inherente de estos procesos. En denitiva se intentará estudiar el nivel de acierto a la hora de determinar el orden de las series utilizando modelos que no presuponen ninguna estructura particular de las mismas, al contrario delo que ocurre con ARIMA. Tras este apartado se comenzará la realización de los experimentos de predicción, que constituyen el cuerpo de este trabajo. El objetivo es estudiar la dependencia de los algoritmos random forest con ciertos parámetros de diseño. Dichos parámetros rigen la forma en que los algoritmos desarrollan su labor de predicción, siendo fundamental su ajuste para evitar ciertos problemas, principalmente el del sobreajuste. Como ocurre con todos los modelos, el objetivo no será que el modelo se ajuste muy bien a los datos disponibles, sino que será que el modelo sea capaz de predecir la respuesta correspondiente a valores de las variables explicativas para los cuales se carece de datos. Mediante la simulación de experimentos que cubran los valores más relevantes de los parámetros de Iván Carbajo Mayoral 5

7 los modelos será posible obtener información acerca de la inuencia de los mismos sobre los resultados. En concreto se estudiarán los siguientes: 1. Mtry: que indica el número de variables que se analiza a la hora de determinar la división óptima en un árbol individual. 2. Ntree: que representa el número de árboles de decisión individuales que conforman un bosque aleatorio. 3. Número de datos de entrenamiento: ya que este es un factor que suele inuir, especialmente, en los algoritmos de machine learning. Todos los resultados relativos a la predicción en función de estos parámetros se compararán con los resultados obtenidos con los modelos ARIMA, lo cual se hará en términos del MAPE (Mean absolute percentage error ) correspondiente. Como ya se ha comentado, se analizarán tanto las series autorregresivas puras, por su interés teórico, como las autorregresivas dependientes de variables exógenas, por su interés práctico. Estas últimas permiten modelar multitud de fenómenos de muy diferentes disciplinas: economía, ingeniería, sociología, medicina... ya que permiten la inclusión en el modelos de gran cantidad de factores que se piensa que pueden inuir en la respuesta del suceso que se estudia. Análisis de importancia de las variables De manera paralela al análisis de las predicciones se realizará un estudio de la importancia de las variables en las series temporales. En el caso de las series AR puras dichas variables serán únicamente los sucesivos retardos de la serie, cuyo número dependerá del experimento. Por el contrario, en las series ARX, será necesario estudiar además de los retardos propios (variables endógenas) la importancia de las variables independientes, como una medida de la inuencia que estas ejercen sobre la respuesta. Para llevar a cabo este estudio será necesario recurrir a las funciones de autocorrelación de las series temporales, ya que la importancia calculada por los modelos no paramétricos es difícilmente comparable de cualquier otra manera con la relevancia de los retardos de una serie. Así pues, se trabajará con la importancia basada en la variación del error cuadrático medio de las predicciones en el caso de los modelos de random forest, cuyos valores se compararán con los coecientes de autocorrelación correspondientes. De la misma manera, haciendo uso de los correlogramas de las series, se presentará un método para determinar el orden de las series utilizando los modelos no paramétricos. Para ellos se recurrirá a analizar los resultados obtenidos para la importancia de variables con grácos como el de la gura 3, que representa la importancia de cada retardo de una serie AR(6) cuando se considera la posible inuencia de 20 retardos en la respuesta. 6 Escuela Técnica Superior de Ingenieros Industriales (UPM)

8 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Figura 3: Importancia relativa de las variables (retardos) en una serie AR(6) Estimación de intervalos de conanza Por último, se estudiará la posibilidad de estimar intervalos de conanza para las predicciones con en uso, en este caso, únicamente de los random forest basados en CART. Este aspecto resulta de enorme utilidad ya que a menudo se hace necesario conocer no únicamente la predicción puntual de una serie, sino el rango de valores probable de la misma. Existen multiples situaciones de la vida real, como puede ocurrir en las previsiones de demanda de bienes de todo tipo, en que la situación requiere estar preparado para hacer frente a picos que pueden estar muy alejados de la media. Por ese motivo se ha decidido incluir esta sección en la que se presenta un método novedoso para el cálculo de los intervalos. Se empleará la técnica del bootstrap para obtener anchuras de los intervalos eles a la realidad. Sin embargo, al trabajar con series temporales, será necesario recurrir a un caso particular de este método: el bootstrap de los residuos. El cual permite desestimar la estructura propia de la serie para centrarse en el análisis de la variabilidad de la misma. Se comparará a su vez este método con otros bootstraps realizados sobre las predicciones, tanto agregadas como individuales (de cada árbol), para comprobar su ecacia. Conclusión Todo lo anterior permitirá adquirir un conocimiento más o menos amplio de las posibles aplicaciones de los algoritmos de random forest a problemas de muy diversa índole. Además abrirá nuevas posibles líneas de investigación que todavía no han sido exploradas debido a la relativa novedad de estos modelos. Palabras clave Aprendizaje automático, series temporales, random forest, CART, ARIMA, conditional inference trees, importancia de variables, bootstrap de los residuos Códigos UNESCO Iván Carbajo Mayoral 7

9 8 Escuela Técnica Superior de Ingenieros Industriales (UPM)

10 Índice general 1. Introducción Estado del Arte Justicación del proyecto Objetivos Metodología Herramientas Introducción Aprendizaje automático Aprendizaje supervisado Aprendizaje no supervisado Aprendizaje por refuerzo Consideraciones para el aprendizaje supervisado Sobreajuste (overtting) Problema de la dimensionalidad (Curse of dimensionality) Árboles de clasicación y regresión CART Árboles de inferencia condicional Bosques aleatorios (random forests) Experimentos computacionales Introducción Series autorregresivas Preparación de los datos iniciales

11 ÍNDICE GENERAL Determinación del órden Serie AR(2) Serie AR(3) Series de orden 4, 5 y Diseño del experimento Resultados de predicción Estudio de series AR(2) Estudio de series AR(3) Estudio de series AR(6) Resultados de importancia de variables Importancia de series AR(2) Importancia de series AR(3) Importancia de series AR(6) Series autorregresivas dependientes de variables exógenas Diseño del experimento Preparación de los datos iniciales Escalado de los datos Resultados de predicción Estudio de series AR(2) con 4 variables exógenas y una falsa 78 Otros casos Resultados de importancia de variables Importancia de series AR(2) con 4 variables exógenas Intervalos de conanza mediante bootstrap Bootstrap de los residuos Diseño del experimento Desarrollo y resultados del bootstrap de los residuos Resultados del bootstrap de las predicciones Conclusión y Líneas Futuras Planicación temporal y presupuesto Escuela Técnica Superior de Ingenieros Industriales (UPM)

12 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST 5.1. Estructura de Descomposición del Proyecto (EDP) Diagrama de Gantt Presupuesto del trabajo Apéndices 95 Índice de Figuras 102 Bibliografía 103 Iván Carbajo Mayoral 11

13 ÍNDICE GENERAL 12 Escuela Técnica Superior de Ingenieros Industriales (UPM)

14 Capítulo 1 Introducción 1.1. Estado del Arte En la actualidad, la difusión de los modelos de machine learning que incluyen, entre otros: redes neuronales, máquinas de vector soporte (SVM), árboles de decisión, algoritmos de clustering... abarca gran cantidad de áreas. El análisis de datos con estas técnicas permite encontrar patrones ocultos en grandes cantidades de observaciones que de otra manera pasarían desapercibidas. Como ejemplo común de aplicación de estos algoritmos en el mundo empresarial pueden destacarse: Técnicas de clustering: en estrategias de segmentación de clientes para el lanzamiento de ofertas acordes con la demanda de grupos poblacionales con diferentes características. Redes neuronales: para el análisis automático de imagen, audio e incluso vídeo en busca de patrones para su clasicación por temáticas. SVM (Support Vector Machines): para la identicación de patrones en textos (text mining) con el objetivo de realizar el análisis de sentimiento de los clientes y poder orientar las políticas para alcanzar la mayor satisfacción posible de los mismos. Random forest y árboles de decisión: en detección de fraude, principalmente en el sector de las utilities, por ejemplo en el suministro de agua o electricidad. Centrando la atención en los algoritmos de random forests, que serán los analizados en este trabajo cabe destacar varias aplicaciones muy interesantes en las que han dado muy buenos resultados. En el campo del análisis de imágenes médicas con ordendador (computer vision) se ha probado la ecacia de los random forest a la hora de realizar tareas como la detección de órganos o lesiones físicas y la previsión del desarrollo de enfermedades neurodegenera- 13

15 1.1. ESTADO DEL ARTE tivas (como el Parkinson) a través de imágenes de resonancias magnéticas. Como todos los algoritmos de machine learning supervisado) es imprescindible entrenar los modelos con datos ables, que permitan a los random forests aprender las relaciones ocultas entre las características de las imágenes individuales examinadas y los objetos de análisis (enfermedades, daños físicos...) En la imagen (1.1) se muestra el resultado de clasicar tres imágenes con un random forest de acuerdo a lo que se denomina Semantic image segmentation, es decir, identi- cando los diferentes elementos de una imagen sin entrar a tratar de entender lo que representa cada uno de ellos. Figura 1.1: Semantic image segmentation con random forests. Fuente: pdollar.wordpress.com En relación con lo anterior, cabe mencionar que existen casos de aplicación de bosques como técnica de clustering. En particular con el objetivo de clasicar imágenes e incluso vídeos en categorías no denidas de antemano, con el único criterio de alcanzar la máxima diferenciación entre los grupos de elementos y la mínima entre los elementos de un mismo grupo. La razón para utilizar estos algoritmos en vez de otros propiamente de clustering es que son muy fáciles de entrenar y muy rápidos a la hora de evaluar nuevas observaciones. Otra área que se ha visto beneciada del uso de estos modelos ha sido la bioinformática. Existen en esta disciplina, en particular en relación con la genética, problemas en los que el número de posibles variables explicativas es excesivo en comparación con el número de observaciones disponibles. Esto se debe al conocido problema de la dimensionalidad (curse of dimensionality) al cual se hará referencia más adelante. Cuando esto ocurre, por lo general la dependencia real es de un número limitado de variables, pero esto se desconoce a priori, por lo que se introduce, inevitablemente, una gran cantidad de ruido en la respuesta. Por eso la capacidad de los random forests para analizar la importancia de las variables, de tal manera que estas puedan ser eliminadas del estudio resulta imprescindible. Sin esta herramienta no sería posible, por ejemplo, la detección prematura de enfermedades a través del análisis del genoma con técnicas de 14 Escuela Técnica Superior de Ingenieros Industriales (UPM)

16 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST comparación. En la actualidad esto ya permite estimar la susceptibilidad de contraer una enfermedad compleja o la respuesta a un tratamiento médico para un paciente concreto, lo cual era impensable con los modelos tradicionales. Otra aplicación relacionada con la problemática del elevado número de variables frente al número de observaciones se encuentra en el campo de la sensorización remota ( remote sensoring). Esta consiste en la utilización de sensores, ya sean pasivos o activos, que toman datos del medio para usos muy variados: monitorización de variables climatológicas en costas y oceanos, predicción de peligros tales como terremotos, corrimientos de tierra, huracanes... El análisis de dichos datos seleccionando las variables relevantes se realiza muy a menudo con modelos basados en árboles de decisión. Estos son capaces de evaluar el peso que tiene la información obtenida por cada sensor sobre la respuesta estudiada ya que el ruido debido a la gran multitud de dispositivos cuya información no es relevante imposibilitaría la tarea de predicción. Como ejemplo concreto de esta aplicación, en 2015 un estudio concluyó que la única variable topográca de verdadera importancia a la hora de analizar la composición del suelo en el norte de Minnesota era la altura, para lo cual se llevó a cabo el análisis de los datos recolectados por multitud de sensores esparcidos por el terreno. En comparación con otros algoritmos de machine learning los random forests muestran una clara superioridad en problemas con datos de una dimensionalidad elevada como los que se han mencionado anteriormente. Otra ventaja fundamental es la facilidad de ajuste de los mismos por el reducido número de parámetros. Aunque en ciertos problemas algoritmos como las SVM o las redes muestran resultados más precisos, los métodos basados en árboles también encuentran aplicación debido a sus menores tiempos de computación, que en ciertas ocasiones pueden ser cruciales. Se puede observar como los ejemplos más típicos de aplicación actual de estos algoritmos se centran en la resolución de problemas de regresión estática, es decir, en casos en los que no existe una dependencia temporal clara, por lo que su aplicación en el ámbito de las series temporales resulta relativamente novedoso. La gran mayoría de análisis de series temporales se realiza en la actualidad modelos ARIMA o sus variantes con variables exógenas, periodicidad... Estos modelos han probado, desde que fueran sistematizados por Box y Jenkins en 1976, ser muy adecuados para captar la evolución temporal de muchos fenómenos tanto en función de los valores pasados como en función de otras variables independientes. Sin embargo, el rápido avance de la tecnología reclama nuevos modelos más robustos y con una mayor capacidad de adaptación a los nuevos escenarios que surgen cada día. Iván Carbajo Mayoral 15

17 1.2. JUSTIFICACIÓN DEL PROYECTO 1.2. Justicación del proyecto El desarrollo de este trabajo se justica en la necesidad creciente de realizar predicciones en una gran variedad de situaciones de mucha complejidad y que cambian rápidamente. En estas situaciones, la utilización de los modelos más tradicionales, que por lo general son muy rígidos y requieren ajustes constantes para su correcto funcionamiento, se vuelve en muchos casos insucientes. Este es el motivo de la rápida difusión de los modelos de aprendizaje automático, los cuales no asumen a priori ninguna relación entre las variables explicativas y las respuestas. Esta cualidad les permite adaptarse mucho mejor a todo tipo de problema, independientemente de que se cumplan o no condiciones necesarias para otros tipos de modelo como pueden ser: linealidad, independencia entre las variables, diferenciabilidad... En la gura (1.2) se muestran las supercies de respuesta correspondientes a un modelo lineal, lo cual da una idea de su rigidez a la hora de afrontar problemas son una marcada no linealidad. Figura 1.2: Supercie de respuesta de un modelo lineal Por todo esto, la investigación acerca de la aplicación del machine learning a la resolución de cualquier tipo de problemas supone la obtención de modelos muy robustos, mucho más resistentes a las variaciones en los sistemas estudiados de lo que pueden serlo los modelos tradicionales. Puesto que el acceso a la información y la actualización de la misma actualmente es un proceso muy rápido, en tiempo real en algunas ocasiones, cada vez más ocurre que los modelos rígidos no son capaces de obtener resultados aceptables. Por eso resultan imprescindible estudios como el realizado en este trabajo. 16 Escuela Técnica Superior de Ingenieros Industriales (UPM)

18 1.3. Objetivos EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Estudiar la posible aplicación de los algoritmos de aprendizaje automático Random forest y CI forest a la predicción de series temporales como alternativa al uso de modelos ARIMA. En todo el trabajo se hará referencia a Random forest cuando se hable de bosques aleatorios basados en árboles de decisión tipo CART, mientras que se hará referencia a CI forest (Condicional Inference forests ) cuando los bosques esté basados en arboles de inferencia condicional. Para referirse a los modelos basados en la agregación de múltiples árboles de decisión, en general, se hablará de random forests, con minúscula. Para ello se pretende realizar una serie de experimentos con los siguientes factores: 1. Mtry 2. Ntree 3. Número de datos con que se entrena el modelo Estos son los principales parámetros que inuyen en la capacidad de los modelos de machine learning analizados ya que son los que rigen la forma en que los algoritmos alcanzan la solución. Pero el objetivo de este trabajo no se centra únicamente en el estudio de la predicción puntual de series temporales, sino que se desea investigar acerca de la capacidad de los random forests para determinar los tipos de serie (sus coecientes) en base a las medidas de importancia que estos devuelven a través de grácos como el siguiente: Figura 1.3: Gráco que representa la importancia de variables según Random forests Por último, también se ha jado como objetivo la estimación de intervalos de conanza tanto con un modelo ARIMA como con Random forest, de tal manera que se puedan comparar los resultados. El propósito de este apartado será poder aportar una medida de la variabilidad de las predicciones, lo cual resulta de gran utilidad en multitud de situaciones de predicción. En general se desea construir una base sobre la que poder iniciar investigaciones futuras sobre otros tipos de serie que no ha sido posible tratar en este trabajo por las limitaciones de tiempo. Iván Carbajo Mayoral 17

19 1.4. METODOLOGÍA 1.4. Metodología El esquema que se ha seguido a lo largo de los experimentos ha sido el siguiente: Búsqueda de información acerca de los factores inuyentes. Simulación para determinar los niveles de cada factor. Diseño del experimento (tipo de serie, factores y niveles). Simulación (con el número de replicaciones correspondientes) y obtención de los resultados. Tratamiento de los resultados para permitir la comparación (cálculo del MAPE y escalado de los valores). Representación numérica y gráca para comparar los modelos. Discusión de los resultados y comparación con los previstos. Para la realización de los experimentos se recurrirá a la escritura de programas en lenguaje R con ciclos for anidados de tal manera que sea posible recorrer todas las combinaciones de factores y niveles de manera automática, únicamente introduciendo los niveles deseados. Los paquetes de R que son necesarios para las simulaciones son: rpart: para la creación de árboles CART. randomforest: para los modelos de Random forest. party: para los modelos de árboles y bosques de inferencia condicional. forecast: para la predicción con ARIMA. Y para la creación de los elementos grácos: ggplot2 : para la creación de grácos lineales, diagramas de barras, e histogramas. reshape2 : como apoyo a las funciones de la librería anterior. tables: para la construcción automática de tablas. earth: para la obtención de los grácos de las supercies de respuesta. 18 Escuela Técnica Superior de Ingenieros Industriales (UPM)

20 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Iván Carbajo Mayoral 19

21 1.4. METODOLOGÍA 20 Escuela Técnica Superior de Ingenieros Industriales (UPM)

22 Capítulo 2 Herramientas 2.1. Introducción En este capítulo se presentan los algoritmos de predicción que se han utilizado durante el desarrollo del trabajo. En primer lugar se hace una introducción que permite situar dichos modelos dentro del área del aprendizaje automático (machine learning) para posteriormente pasar a explicar en detalle el funcionamiento de los mismos Aprendizaje automático Desde que en 1959 Arthur Samuel denió el concepto de aprendizaje automático como el campo de estudio que permite a las computadoras aprender sin ser explícitamente programadas, este área se ha visto enormemente impulsada gracias al incremento de la capacidad de cálculo de los ordenadores sobre la cual reside su potencial. Este campo, que se incluye dentro de las ciencias de la computación y tiene una muy estrecha relación con la estadística engloba todas la técnicas que permiten crear programas que aprenden durante su ejecución y a partir de los datos que se les provee. En el fondo, el objetivo del aprendizaje automático es dotar a los programas, no de reglas jas que les permitan realizar tareas preconcebidas, sino de reglas exibles, que puedan ser modicadas para adaptarse a los resultados obtenidos durante la ejecución de los mismos. Muchos de los algoritmos de machine learning guardan, de hecho, una estrecha relación con el mundo de la biología como indican su propios nombres: redes neuronales articiales, arboles y bosques de decisión, algoritmos evolutivos... En denitiva existe un factor común a todos estos algoritmos, y es que no están diseñados para ajustarse a una situación determinada sino que se diseñan para que se adapten a la información que reciben de una manera u otra. A la hora de realizar una predicción con modelos más tradicionales, entre otros: regresión lineal, logística... (en el caso estático) y ARIMA (en el dinámico); un gran número de hipótesis son necesarias acerca de la estructura del problema para tener la conanza de que los resultados sson los correctos. Estos modelos son rígidos y de carácter determinista lo cual requiere de un ajuste de parámetros especíco para cada situación sin el cual los 21

23 2.2. APRENDIZAJE AUTOMÁTICO resultados aportados no tienen sentido alguno. Por el contrario los modelos de aprendizaje automático, si bien también constan de ciertos parámetros de ajuste, no requieren ser jados para cada problema particular, más bien sus parámetros modican el modo en que estos algoritmos aprenden de las observaciones, pero de una manera exible. Dentro del aprendizaje automático se debe hacer una clasicación fundamental: Aprendizaje supervisado Se dice que un algoritmo es supervisado cuando se entrena con una muestra de datos que incluye tanto los valores de las variables explicativas como la respuesta a las mismas. Esta situación permite comprobar cómo de bien se ajusta un modelo a los datos de la muestra inicial mediante una medida del error entre los valores predichos y la realidad. En este caso, el objetivo es crear un modelo que permita predecir lo mejor posible las respuestas para observaciones fuera de la muestra de entrenamiento. En este trabajo se emplearán este tipo de algoritmos, ya que el propósito será la predicción de series temporales, cuya variable respuesta serán los valores que tome la propia serie temporal en instantes futuros de tiempo Aprendizaje no supervisado Un algoritmo es no supervisado cuando se desconoce el valor de la variable respuesta en las observaciones de la muestra, por lo que se carece de un error o residuo que permita evaluar la bondad del modelo. Un típico ejemplo de método no supervisado son los algoritmos de clustering como el k-medias o el k-medioides que se emplean a la hora de agrupar observaciones en base a ciertas variables, de tal manera que los elementos de un grupo (cluster) sean lo más parecidos posibles entre sí y a la vez lo más distintos posibles del resto de grupos. En la imagen (2.1) se muestra el resultado de aplicar el algoritmo k- medias a un grupo de observaciones que de esta manera han podido clasicarse en función del valor que toman dos variables explicativas. Figura 2.1: A la izquierda se representan las observaciones sin clasicar. A la izquierda las observaciones asignadas a tres grupos diferentes en función del valor de dos variables 22 Escuela Técnica Superior de Ingenieros Industriales (UPM)

24 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Aprendizaje por refuerzo En este grupo se engloban los modelos que se diseñan para interactuar de alguna manera con el medio, de tal manera que son capaces de aprender de la experiencia al actualizar constantemente la muestra de datos a partir de la cual se crea el modelo. El mecanismo de aprendizaje en este caso es similar al de un niño que aprende a andar al procesar la información que recibe del entorno: golpes, caídas... en relación con sus acciones: posiciones del cuerpo, acciones de los músculos Consideraciones para el aprendizaje supervisado En este apartado se presentan dos cuestiones que se deben tratar con precaución a la hora de ajustar un algoritmo supervisado de cualquier tipo Sobreajuste (overtting) Como se ha mencionado en el apartado anterior, al entrenar un algoritmo supervisado el objetivo es que este se adapte bien a observaciones que no están incluidas en la muestra de entrenamiento. Para ello, evidentemente es necesario que la muestra resulte representativa de la población total, pero eso no es suciente. Uno de los principales problemas a la hora de ajustar los parámetros en un algoritmo de machine learning consiste en evitar el denominado sobreajuste del modelo, es decir, que este sea capaz de calcular con mucha precisión las respuestas de las observaciones con las que ha sido entrenado pero que falle a la hora de predecir el valor de la variable respuesta para nuevas observaciones. Por tanto se debe encontrar un equilibrio entre la precisión con que un modelo se ajusta a la muestra de entrenamiento y la exibilidad del mismo para adaptarse a nuevas observaciones. Para tratar este problema se puede descomponer el error cuadrático medio obtenido con un determinado modelo en tres componentes: Un error debido a la propia estructura del modelo, que se origina por las simplicaciones realizadas al construir el mismo. Por ejemplo si se ajusta un modelo lineal para predecir una respuesta que no depende linealmente de las variables explicativas, inevitablemente se cometerá un error de predicción. Cuanto más se ajuste el modelo a los datos de partida menor será esta componente del error. Un error debido a la varianza del modelo, que se puede entender como una medida de la facilidad del modelo para moverse alrededor de la media. Un modelo que se ajusta muy bien a los datos de la muestra tendrá un error debido a la varianza muy elevado. Un error debido a la varianza elevado implica que el modelo es muy sensible a pequeñas variaciones de la muestra de entrenamiento, pudiendo incluso llegar a ser sensible al ruido blanco, lo cual es un error muy grave. Finalmente un error debido al carácter estocástico del problema denominado ruido blanco, el cual es completamente impredecible. Iván Carbajo Mayoral 23

25 2.3. CONSIDERACIONES PARA EL APRENDIZAJE SUPERVISADO La analogía de la descomposición anterior con los métodos de interpolación polinómica es directa. Si se emplea un polinomio de grado muy elevado, este se ajusta muy bien a los puntos disponibles pero sin embargo no capta la estructura de la curva cuando se intentan calcular otros valores de la misma puesto que la varianza es muy alta (error debido a la varianza del modelo). Por el contrario, si el orden del polinomio es muy bajo, dicho polinomio no será capaz de adaptarse ni a los datos de partida ni a los nuevos puesto que el error debido al propio modelo es muy alto. Figura 2.2: En el primer caso el error es grande debido al propio modelo (polinomio de orden muy bajo). En el segundo caso el error será mínimo (equilibrio entre precisión y exibilidad del modelo). En el tercer caso el error debido a la varianza sera muy grande (polinomio de orden muy alto) Problema de la dimensionalidad (Curse of dimensionality) Aunque en el contexto de las serie temporales por lo general este aspecto no resulta tan relevante como en la regresión estática con muchas variables explicativas, merece la pena mencionarlo, especialmente de cara al estudio de series temporales que dependen no sólo de la historia de la serie sino también de ciertas variables independientes (exógenas), como ocurre en los modelos ARIMAX. Este problema surge cuando el número de variables explicativas es elevado, en cuyo caso, pueden existir variables cuya relevancia en la predicción de la respuesta es casi nula pero que sin embargo consiguen confundir al modelo. Esta confusión se debe a que la muestra de entrenamiento nunca representa completamente a la población que se estudia, y por tanto un algoritmo de machine learning puede llegar a encontrar una relación entre una variable nada relevante y la respuesta, cosa que no ocurriría si se examinara la población completa, puesto que dicha dependencia acabaría compensándose con las de otras observaciones. Es por esta razón que puede resultar muy conveniente realizar una reducción del número de variables explicativas previa a la generación del modelo nal. Además, trabajar con un número elevado de dimensiones suele requerir una muestra muy grande de la población que se estudia. Como ejemplo, si se desea estudiar la inuencia de 2 factores sobre una respuesta y dichos factores pueden tomar valores entre 1 y 10, bastará con una muestra de 10 2 = 100 observaciones para obtener una representación uniforme de la población. Por el contrario, si se trabaja con 10 variables explicativas y 24 Escuela Técnica Superior de Ingenieros Industriales (UPM)

26 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST se desea obtener una muestra tan compacta como la anterior, el tamaño de la muestra deberá ser de 10 10, es decir, 1000 millones de observaciones, cosa que no suele ser factible, y de serlo requiere un esfuerzo de cálculo exagerado. Por tanto, la eliminación de variables que resultan muy poco relevantes puede permitir ganar información a la hora de entrenar un algoritmo de machine learning Árboles de clasicación y regresión CART El primero de los algoritmos que se van a presentar en este trabajo son los árboles de clasicación y regresión, a partir de ahora CART (Classication and regression tres ). Se denomina árbol de clasicación a un árbol de decisión cuya variable respuesta toma un conjunto nito de valores, mientras que se habla de un árbol de regresión cuando dicha respuesta puede tomar valores continuos. En ambos casos los fundamentos de la construcción de un árbol son los mismos. A partir de una muestra inicial muy heterogénea, ya que contiene observaciones que cubren todas las posibles respuestas (si la muestra está bien tomada), se pretende agrupar dichas observaciones en grupos de menor tamaño pero de mayor homogeneidad. De llevarse al extremo este proceso, el resultado sería un número muy elevado de grupos con muy poca observaciones cada uno y con el mismo valor de la variable respuesta o muy parecido. El resultado sería un modelo (árbol de decisión) sobreajustado, capaz de predecir con mucha precisión la variable respuesta en las observaciones de la muestra, pero inecaz para predecir valores fuera de esta. Este problema se soluciona con el denominado recorte (pruning) del árbol. En la gura (2.3) se muestra la supercie de respuesta correspondiente a un árbol de clasicación tipo CART, donde puede observarse la clara no linealidad de las respuestas del modelo: Figura 2.3: SUpercie de respuesta obtenida con un arbol tipo CART Iván Carbajo Mayoral 25

27 2.4. ÁRBOLES DE CLASIFICACIÓN Y REGRESIÓN Criterios de división Para obtener los grupos homogéneos de observaciones el algoritmo se basa en una medida de la homogeneidad de la muestra. Es importante aclarar que el hecho de agrupar observaciones de manera que sean homogéneas (respuestas similares) entre sí implica un aumento de la información que aporta dicha muestra. A partir de un grupo de observaciones se elige una variable explicativa y un valor de la misma de tal manera que se dene un corte, por ejemplo: variable V 1 >5. En función de ese corte se crean dos nuevos grupos de variables, los cuales son más homogéneos que antes de la división. Ganancia de información Una posibilidad es tomar el corte óptimo (tanto la variable como el valor de la misma), de tal manera que la variación de entropía sea máxima. Al proceder de esta manera es sencillo entender la importancia de las variables explicativas ya que las más relevantes serán aquellas que se han empleado para construir el árbol en los primeros nodos del mismo. Aquí aparece el concepto de entropía de la información (entropía de Shannon), que se dene como: I E (f) = m P i log 2 P i i=1 Figura 2.4: Representación gráca de H(P ) = log 2 (P )log 2 (1 P ) Donde P representa la probabilidad de que una observación determinada cumpla la condición impuesta por el corte. Como puede observarse en la gura (2.4), los menores valores de la entropía (P log2(p )) corresponden bien a valores cercanos a cero o bien a valores cercanos a 1. Por esta razón, la diferencia entre la entropía de Shannon de la muestra sin dividir y de la muestra dividida da una idea de cuanta información se ha ganado gracias al corte. Los dos casos extremos son los siguientes: 1. la variación de entropía es nula, signica que el corte es inútil, ya que el hecho de que una observación pertenezca a un nodo hijo o al otro después del corte no implica que sus probabilidades de obtener una respuesta u otra sean distintas. 26 Escuela Técnica Superior de Ingenieros Industriales (UPM)

28 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST 2. la entropía de los nodos hijo es nula, la variación de entropía será máxima. Esta situación corresponde al caso en que un corte dene dos grupos de observaciones completamente homogéneos, es decir, que a todas las observaciones de un grupo les corresponde la misma respuesta. Este punto sólo se suele alcanzar cuando un árbol ha crecido demasiado y, por tanto, se ha sobreadaptado a la muestra de entrenamiento. Este criterio, llamado ganancia de información, se utiliza para decidir los cortes más adecuados en diversos algoritmos de creación de árboles, como el ID3, C3.5 y C5.0. Aunque en el algoritmo CART que se estudiará en este trabajo se utilizan otros criterios de división la comprensión del concepto de ganancia de información ayuda a comprender los otros criterios. Impureza de Gini La impureza de Gini de una muestra se calcula como: I G (P ) = m P i (1 P i ) = 1 i=1 Donde Pi representa la probabilidad de que un elemento de la muestra escogido al azar cumpla la condición del corte. En denitiva, representa una medida de la probabilidad de etiquetar incorrectamente un elemento escogido al azar de una muestra si se le asigna como valor de la respuesta el mayoritario en los elementos de dicha muestra. Por tanto el criterio a seguir es el de encontrar el corte que supone un menor índice de Gini tras realizar la división. m i=1 P 2 i Figura 2.5: Representación gráca de f(p ) = P (1 P ) Reducción de la varianza Se emplea habitualmente en árboles de regresión (variable respuesta continua). La reducción en la varianza debida a la separación de observaciones en un nodo viene dada por: Iván Carbajo Mayoral 27

29 2.4. ÁRBOLES DE CLASIFICACIÓN Y REGRESIÓN I V (N) = 1 S 2 i S j S 1 2 (x i x j ) 2 1 S t 2 i S t j S t 1 2 (x i x j ) S f 2 2 (x i x j ) 2 1 i S j S f Donde S hace referencia a los índices de las observaciones antes de la separación y S t y S f hacen referencia a los grupos de observaciones que cumplen (true) la condición del corte u las que no la cumplen (false) Ejemplo práctico de división A continuación se muestra una tabla que contiene 20 observaciones con una respuesta discreta binaria. Las tres variables de la tabla se han generado de manera aleatoria con distribución uniforme entre 0 y 9, mientras que la respuesta se ha obtenido como: V 1 + 2V 2 + 3V 3 < 20 Y (x) = V 1 + 2V 2 + 3V 3 20 Var 1 Var 2 Var 3 Respuesta Tras ajustar un modelo CART con la función rpart() de R se ha obtenido el siguiente árbol de clasicación: 28 Escuela Técnica Superior de Ingenieros Industriales (UPM)

30 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Figura 2.6: En este caso, el árbol consta de un único nodo que divide la muestra en función del valor de la variable 3 En este problema, el algoritmo CART agrupa el conjunto de observaciones en dos nodos hijo. El izquierdo agrupa 12 observaciones (60 %)con un valor medio de la respuesta igual a El derecho agrupa 8 (40 %) observaciones con un valor medio de la respuesta igual a Cálculo de la ganancia de información: H(padre) = (0,45 log(0,45) + (1 0,45) log(1 0,45)) = H(hijos) = 12/20 (0,17 log(0,17) + (1 0,17) log(1 0,17)) + 8/20 (0,88 log(0,88) + (1 0,88) log(1 0,88)) = Puede observarse como la entropía de información ha disminuido gracias al corte, es decir, se ha ganado información. Cálculo del índice de Gini: I G (padre) = 0,45 (1 0,45) + 0,65 (1 0,65) = I G (hijos) = 12/20 (0,17 (1 0,17) + 0,83 (1 0,83)) + 8/20 (0,88 (1 0,88) + 0,12 (1 0,12)) = Iván Carbajo Mayoral 29

31 2.4. ÁRBOLES DE CLASIFICACIÓN Y REGRESIÓN Árboles de inferencia condicional Este tipo de árboles surgen de la necesidad de evitar el sesgo que sufren los arboles CART a la hora de seleccionar los mejores cortes cuando las variables explicativas tienen diferente número de niveles o toman rangos de valores muy diferentes. Cuando eso ocurre, los criterios de división basados en una medida de la información producen sobreajuste y un sesgo hacia aquellas variables que presentan un mayor número de divisiones posibles (aquellas con rangos más amplios o más niveles). Por el contrario, los árboles de inferencia condicional recurren al uso de un estadístico que permite decidir si existe relación entre cada una de las variables explicativas y la respuesta, de tal manera que llegado el punto en que dicha relación se encuentre por debajo de un valor se detiene la creación del árbol. Esto evita el problema del overtting. El proceso de construcción del árbol tiene dos pasos: 1. Primero se contrasta la hipótesis de independencia entre cada una de las variables independientes y la respuesta: H oj : D(Y X j ) = D(Y ) y se toma la que presenta una mayor relación con esta última en función de un estadístico de la forma: T j (L n, w) = vec( n w i g j (X ji h(y i (Y 1,..., Y n )) T ) R p jq i=1 Donde w es un vector de pesos denido para cada nodo que contiene 0 en caso de que la observación i no esté contenida en dicho nodo y 1 en caso contrario. Por otra parte, g j : χ j R p j representa una transformación de la variable independiente X j. Y h, dependiente de los valores de la variable respuesta se denomina función de inuencia. Esta forma de proceder permite cancelar el efecto de la diferencia de escalas entre las variables explicativas ya que el estadístico a partir del cual se decide con que variable se realiza el corte se estandariza con la esperanza y la varianza condicionales de cada variable explicativa. 2. Una vez se ha elegido la variable explicativa se debe establecer un criterio de separación para esta. Una posibilidad es emplear los utilizados en el algoritmo CART, pero es más frecuente emplear el test de permutación basado en el siguiente estadístico para estimar la bondad de la división: T A j (L n, w) = vec( n w i I(X j i A)h(Y i (Y 1,..., Y n )) T ) i=1 Que se calcula para todas las posibles divisiones del espacio de la variable elegida en el paso anterior y se toma aquella división que cumple: A = argmax A c(t A j, µa j, ΣA j ) 30 Escuela Técnica Superior de Ingenieros Industriales (UPM)

32 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Bosques aleatorios (random forests) El algoritmo de bosque aleatorio consiste en la creación de un conjunto grande ( ) árboles de decisión individuales cuyas predicciones se ponen en común (proceso de bagging = bootstrap aggregating) para obtener una predicción global del modelo, reduciendo tanto la varianza como el overtting. Un bosque aleatorio es aleatorio en dos sentidos: 1. La muestra de observaciones con que se construye cada árbol de decisión individual se obtiene a partir de un bootstrap (remuestreo con reemplazamiento), por lo que el conjunto de datos con que se contruye cada árbol es distinto (la probabilidad de coincidencia es despreciable al contener la muestra inicial un gran número de elementos). 2. Cada árbol se construye considerando sólo una parte de todas las variables explicativas. Dicho grupo de variables se toma de manera aleatoria del conjunto total y su número constituye un parámetro de diseño (llamado mtry). El primer punto tiene como objetivo reducir la varianza de las predicciones al obtener una mejor representación de la población gracias al bootstrap. En cuanto al segundo permite introducir diferencias entre los árboles que se construyen, con lo que se consigue reducir la correlación entre los mismos y así mejorar las predicciones ante la presencia de variables correlacionadas. Una de las grandes ventajas de random forest frente a los árboles individuales es que tienen menos riesgo de sobreajustar a los datos de entrenamiento debido a dos razones: 1. El hecho de incluir un número limitado de variables explicativas en cada árbol permite que cada árbol individual no se adapte en exceso a la muestra. 2. Al construir cada árbol a partir de una muestra diferente el riesgo de sobreadaptarse a la muestra original también disminuye. Lo anterior no implica que los árboles individuales no puedan sobreajustarse, de hecho lo árboles individuales de un random forest se dejan crecer mucho más que en CART, lo que ocurre es que al poner en común las predicciones de todo ellos se compensan los sobreajustes de unos con los sobreajuste de otros y el modelo resultante tiene mucho menor riesgo de sufrir overtting. Sin embargo hay que tener cuidado a la hora de elegir los principales parámetros de un random forest: ntree (número de árboles que se crean) y mtry (número de variables explicativas con que se construye cada árbol individual). ntree Tomar un ntree excesivo implica la construcción de un número muy elevado de árboles, con lo que se corre el riesgo de que la correlación entre los mismos aumente, perdiendo precisión. Por el contrario, un número demasiado pequeño empeora los resultados ya que los efectos del sobreajustamiento individual de los árboles no se cancela. Un valor típico es el de 1000, aunque valores entre 100 y son Iván Carbajo Mayoral 31

33 2.4. ÁRBOLES DE CLASIFICACIÓN Y REGRESIÓN frecuentes, dependiendo del tamaño de la muestra (a mayor tamaño de la muestra tiene sentido que el ntree sea mayor). A parte de lo anterior, la experiencia demuestra que aumentar el valor de ntree a partir de un cierto número de árboles ni siquiera permite reducir el error dentro de las observaciones de la muestra (o esta disminución es mínima), ya que dicho error tiende asintóticamente a un valor, como puede observarse en la imagen inferior, donde se representa el error OOB (se explicará más adelante) frente al número de árboles. Figura 2.7: Error out of the bag frente al número de árboles Puesto que el error del modelo evaluado en las observaciones de la muestra no disminuye lo que se consigue aumentando innecesariamente el valor de ntree es aumentar los tiempos de computación sin motivo alguno. mtry Como ya se ha mencionado la elección de este parámetro inuye en el riesgo de overtting del bosque como conjunto, ya que un valor alto del mismo puede ocasionar que los árboles individuales sean muy parecidos. Interpretabilidad de los bosques aleatorios Uno de los mayores inconvenientes de random forest es su menor interpretabilidad en comparación con lo árboles de decisión individuales. De hecho se trata de un algoritmo caja negra, ya que es difícil establecer una relación directa entre las previsiones y los datos introducidos. Buena prueba de ello es la compleja supercie de respuesta que se obtiene al ajustar un modelo de este tipo, la cual se adapta muy bien a las observaciones con que ha sido entrenado. Un ejemplo se muestra en la gura (2.8) 32 Escuela Técnica Superior de Ingenieros Industriales (UPM)

34 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Figura 2.8: Representación gráca de la supercie de respuesta correspondiente a un modelo de Random forests Sin embargo, en cuanto al cierto en la predicción este algoritmo ha probado tener unos resultados excepcionales. Además, los random forest ofrecen una medida del error del modelo muy útil, y que permite establecer un criterio de importancia de las variables de predicción. Cuanticación del error Los random forest trabajan con el llamado Out Of the Bag error, que es un error que se calcula para cada árbol en función de los datos de la muestra total que no han sido considerados para la construcción de dicho árbol. Se puede demostrar que el número de observaciones de la muestra total que no se incluye en un muestra con reemplazamiento converge a un 36.8 % para muestras de gran tamaño, y es precisamente ese porcentaje de observaciones el que se emplea para computar el error OOB. Dicho error se calcula como la media de los errores en todos los árboles del bosque, lo que supone de acuerdo a la experiencia, un estimador no sesgado del error. Proceso de votación (Voting) Una vez que el conjunto de árboles individuales ha sido construido se realiza el proceso de bagging, contracción de bootstrap aggregating introducido por Leo Breiman. Para agregar la información de todos los árboles individuales lo más común es: En árboles de clasicación tomar el valor más frecuente de entre todos lo árboles (moda). En árboles de regresión se calcula la media de las predicciones de cada árbol individual. En este punto es necesario mencionar que, mientras el los Random forest tradicionales durante el proceso de votación se otorga el mismo peso a las predicciones de cada árbol, los modelos basados en árboles de inferencia condicional no lo hacen. En este segundo Iván Carbajo Mayoral 33

35 2.4. ÁRBOLES DE CLASIFICACIÓN Y REGRESIÓN caso, el bagging se realiza en función de unos pesos que se asignan durante la construcción de los árboles como se ha explicado en el apartado dedicado a los árboles de inferencia condicional. A parte de esto, evidentemente, existe entre los Random forest tradicionales y los basados en inferencia condicional una diferencia muy importante, y es que en los primeros los árboles individuales se hacen crecer al máximo mientras que en los segundos existe un criterio de parada. Por esta razón, los árboles individuales de Random forest sufren overtting mientras que los otros no. En cuanto a la fase de empleo del bootstrap para la creación de los árboles ambos métodos son exactamente iguales. Importancia de variables El algoritmo Random forest devuelve dos medidas de la importancia de variables a través de la función varimpplot(): Una basada en el incremento del error cuadrático medio (IncMSE). Otra basada en el concepto de impureza (Inc in node purity) La primera es la más utilizada y a la vez la más intuitiva. Se calcula a partir del error OOB en cada árbol individual siguiendo los siguientes pasos: 1. En primer lugar se calcula el error OOB en cada árbol que ha considerado la variable que se quiere estudiar, tal y como se ha indicado anteriormente. 2. Tras esto se aleatorizan los valores de la variable cuya importancia se desea estudiar, de tal manera que se cancela el efecto que esta tiene sobre la predicción de la variable respuesta. 3. Finalmente se vuelve a calcular el error OOB en cada árbol que ha utilizado la variable estudiada durante su construcción y se calcula la diferencia en el error antes y después de desestimar el efecto de la variable. Si la variable es muy signicativa el error tras despreciarla será mucho mayor que antes y viceversa. La segunda medida del error representa, para una determinada variable, la suma del incremento en la pureza en todos los nodos (de todos los árboles del bosque) que emplean dicha variable para realizar el corte. Si dicha suma tiene un valor elevado indica que gracias a la consideración de dicha variable ha sido posible ganar mucha información (mucha pureza) durante la creación de los árboles. En la gura (2.9) se presenta un ejemplo de gráco creado por la función mencionada anteriormente. En este caso se analiza la importancia de los retardos en una serie temporal y como cabía esperar la importancia decrece al alejarse del instante actual, al menos hasta el retardo 4, lo cual indica que, probablemente, la serie sólo se compone de la inuencia de cuatro lags: 34 Escuela Técnica Superior de Ingenieros Industriales (UPM)

36 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Figura 2.9: Valores de la importancia devueltos por la función varimpplot() para los retardos de una serie temporal El algoritmo de random forest con ároles de inferencia condicional devuelve únicamente la importancia obtenida a partir de la permutación (aleatorización de sus valores) de cada una de la variables. Esto lo hace a través de la función varimp(). Iván Carbajo Mayoral 35

37 2.4. ÁRBOLES DE CLASIFICACIÓN Y REGRESIÓN 36 Escuela Técnica Superior de Ingenieros Industriales (UPM)

38 Capítulo 3 Experimentos computacionales 3.1. Introducción En este análisis nos limitaremos al estudio de series AR estacionarias, ya que el estudio de una serie no estacionaria requiere, en primer lugar, diferenciar la serie de tal manera que se convierta en estacionaria. En sentido estricto, esto implica que las funciones de distribución conjuntas sean invariantes respecto a un desplazamiento en el tiempo. Sin embargo, se aplicarán las condiciones de estacionariedad en sentido amplio (o débil), en cuyo caso ha de cumplirse que: 1. Las esperanzas matemáticas de las variables aleatorias no dependan del tiempo (sean constantes). E(X t ) = constante t 2. Las varianzas tampoco dependan del tiempo y sean nitas. V ar(x t ) = constante t 3. Las covarianzas entre dos variables aleatorias del proceso correspondientes a periodos distintos de tiempo sólo dependan del lapso de tiempo transcurrido entre ellas. Cov(X t, X t+τ ) = constante (t, τ) El punto tres implica que las variables de un proceso estacionario pueden estar relacionadas linealmente entre sí, pero de manera que la relación entre dos variables cualquiera únicamente dependa de la distancia temporal transcurrida entre ellas. En la gura (3.1) se representa una serie estacionaria y una no estacionaria. 37

39 3.1. INTRODUCCIÓN Figura 3.1: Serie ARIMA (1,0,0) Figura 3.2: Serie ARIMA (1,1,0) Se puede demostrar que un proceso AR es estacionario siempre que las raíces de su polinomio característico estén fuera del círculo unidad, es decir su módulo ha de ser menor que uno. Lo anterior debe cumplirse para que: 1. El proceso no sea anticipante (hipótesis de recursividad temporal): es decir, los valores de una variable en un instante t no dependan de los que esa misma variable tome en un instante de tiempo posterior. 2. El proceso sea invertible: es decir, la correlación entre una variable y su pasado vaya reduciéndose a medida que nos alejamos más en el tiempo del momento para el que estamos considerando dicha correlación. 38 Escuela Técnica Superior de Ingenieros Industriales (UPM)

40 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST 3.2. Series autorregresivas Un modelo AR representa una serie temporal cuyos valores dependen linealmente de un cierto número de valores anteriores de la misma (retardos) más un término de error denominado innovación o ruido blanco. El término de error cumple lo siguiente: 1. Tiene media nula. 2. Su varianza es constante en el tiempo. 3. Tiene covarianza nula entre errores correspondientes a observaciones diferentes. El orden del modelo AR indica el número de valores anteriores que inuyen en la variable respuesta, mientras que los coecientes del modelo (tantos como el orden del mismo) representan el peso de cada uno dichos valores anteriores. La ecuación que modela un proceso AR de orden n es: y t = φ 1 y t 1 + φ 2 y t φ n y t n + ε t Donde φ 1, φ 2,..., φ n son los coecientes del modelo y ε t representa la innovación. Por tanto se trata de un tipo de series temporales que dependen únicamente de la historia del proceso, no viéndose inuenciadas por ningún tipo de variables exógenas, caso que se analizará más adelante Preparación de los datos iniciales En cuanto a la fase de preparación de los datos cabe distinguir entre el modelo ARIMA y las otras técnicas. A la hora de entrenar los modelos ARIMA, los datos se han introducido, sin ninguna transformación, exceptuando los datos correspondientes al horizonte de previsión. Por el contrario, para entrenar los modelos no paramétricos es necesario generar una tabla con las variables (retardos) correspondientes. Dichas variables consisten en la serie temporal sobre la que se realiza la predicción pero desplazada una posición por cada retardo (lag en inglés). Un ejemplo de esto se presenta en la imagen inferior para el caso de una serie de sólo 10 elementos con 3 retardos: Iván Carbajo Mayoral 39

41 3.2. SERIES AUTORREGRESIVAS Observaciones Lag 3 Lag 2 Lag 1 Serie 1 0,716 0,797 0, ,797 0,671 0, ,671 0,692 0, ,692 0,733 0, ,733 0,823 0, ,823 0,978 0, ,978 0,972 1, Figura 3.3: Tabla de datos y representación gráca de la serie Se puede observar cómo el número de observaciones disponibles tras la preparación de los datos es, en este caso de 7 (10-3), debido a los retardos considerados. esta pérdida de información es completamente despreciable cuando se trabaja con una serie de longitud 1000, como se hará más adelante Determinación del órden En esta sección se estudiará la posibilidad de utilizar los modelos de Random forest y CI trees para obtener el orden de una serie temporal. De la misma manera que la función auto.arima() devuelve los órdenes AR, I y MA de un serie temporal, a la hora de ajustar un modelo no paramétrico también conviene determinar a priori dichos órdenes. De lo contrario, en la etapa de preparación de los datos nales el número de retardos considerados no será el óptimo. En caso de considerar menos de los que realmente inuyen en la respuesta se carece de la suciente información y en caso de considerarse más únicamente se están introduciendo falsas variables explicativas, lo cual inuye negativamente en los resultados, puesto que confunde al modelo. Es fundamental tener presente que al tratar de determinar el órden de una serie, la función auto.arima() posee información a priori que tanto Random forest como CI forest desconocen, ya que asume que la serie va a ser del tipo ARIMA. Por el contrario, los otros algoritmos aprenden directamente de los datos, sin asumir ningún tipo de linealidad ni correlación especial entre las variables, por lo que poseen un mérito adicional y,en denitiva, mayor generalidad a la hora de estudiar otras series, que no tendrían por qué ser lineales. 40 Escuela Técnica Superior de Ingenieros Industriales (UPM)

42 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST A continuación se presentan los resultados de un método para la estimación del orden de la serie con las técnicas de machine learning. Este se basa en el cálculo de la importancia relativa de los retardos. Se ja un número de lags elevado para después examinar los resultados y decidir cuales tienen una importancia signicativa. Este método requiere tiempos computacionales reducidos ya que sólo se ejecuta una replicación, sin embargo plantea el inconveniente de establecer un criterio a la hora de despreciar variables en base a su importancia. La importancia de las variables se toma de la función varimpplot() en el caso de los modelos Random forest y de la función varimp() en los modelos de árboles condicionales. En ambos casos se trabaja con la importancia basada en el incremento del error cuadrático medio de las predicciones al despreciar cada variable (aleatoreizar sus valores), como se ha explicado en el capítulo de herramientas. para facilitar la comparación de ambos modelos se ha cambiado la escala de las importancias para que se encuentren entre 0 y 1 en ambos casos. Se han analizado series AR de orden 2,3,4,5 y 6, pese a que en los tres últimos casos no se aportan datos numéricos de los resultados, sólo cualitativos, por la gran cantidad de información que sería necesaria. Serie AR(2) Los resultados obtenidos en la importancia de variables son: Random forest V1 V2 V3 V4 V5 V6 0,729 0,271 0,000 0,000 0,000 0,000 0,714 0,242 0,044 0,000 0,000 0,000 0,624 0,258 0,077 0,041 0,000 0,000 0,609 0,241 0,071 0,036 0,043 0,000 0,618 0,235 0,067 0,039 0,041 0,000 CI forest V1 V2 V3 V4 V5 V6 0,806 0,194 0,000 0,000 0,000 0,000 0,788 0,200 0,012 0,000 0,000 0,000 0,787 0,201 0,010 0,002 0,000 0,000 0,788 0,202 0,006 0,003 0,001 0,000 0,799 0,187 0,012 0,001 0,001 0,000 Puede observarse como, en ambos casos se aprecia una caída signicativa en la importancia relativa de las variables a partir del segundo retraso (marcado con una línea). Sin embargo, ambos algoritmos otorgan cierta importancia a los retrasos 3, 4 y 5, ya que Iván Carbajo Mayoral 41

43 3.2. SERIES AUTORREGRESIVAS debido a la correlación existente guardan cierta relación con la respuesta, lo cual confunde al modelo. Sin embargo, a partir de la gráca puede verse fácilmente que los retardos realmente signicativos son los 3 primeros. Figura 3.4: Importancia relativa de las variables (retardos) en la serie AR(2) Serie AR(3) Los resultados obtenidos en la importancia de variables son: Random forest V1 V2 V3 V4 V5 V6 0,831 0,169 0,000 0,000 0,000 0,000 0,541 0,254 0,205 0,000 0,000 0,000 0,548 0,229 0,187 0,036 0,000 0,000 0,546 0,218 0,163 0,050 0,024 0,000 0,506 0,196 0,154 0,048 0,047 0,049 CI forest importancia V1 V2 V3 V4 V5 V6 1 0,852 0,148 0,000 0,000 0,000 0, ,675 0,194 0,131 0,000 0,000 0, ,706 0,189 0,097 0,009 0,000 0, ,707 0,175 0,089 0,022 0,007 0, ,731 0,156 0,071 0,029 0,013 0,001 En ambos casos se aprecia una caída signicativa en la importancia relativa de las variables a partir del tercer retraso (marcado con una línea). En la siguiente gura se observa claramente como el retardo 3 es el último verdaderamente signicativo, pese a que a los siguientes retardos se les otorga cierta importancia. 42 Escuela Técnica Superior de Ingenieros Industriales (UPM)

44 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Figura 3.5: Importancia relativa de las variables (retardos) en la serie AR(3) Si se desea obtener una estimación de los coecientes de la serie se debe prestar atención únicamente a los retardos más relevantes y tener en cuenta la correlación existente entre las variables explicativas, ya que pese a que en términos de predicción esta se ve atenuada por los algoritmos de bosque aleatorio, la importancia sí que se ve muy afectada. Dicho análisis se efectuará más adelante, dentro del campo de importancia de variables de cada modelo. Series de orden 4, 5 y 6 A continuación se estudia, a modo de ejemplo, lo que ocurre para una serie AR(4), para una AR(5) y para una AR(6) si se considera la posible inuencia de 20 retardos en la respuesta. No se ofrecen los datos numéricos ya que son demasiados pero es fácil apreciar como efectivamente los últimos retardos no inuyen en la respuesta en ninguno de los dos algoritmos. Sin embargo, siempre, para series de orden alto, aparece un fenómeno curioso que consiste en que los algoritmos otorgan mucha importancia al retardo posterior al último realmente signicativo de la serie. Esto resulta anti intuitivo, pero tiene su explicación en el hecho de que la función de autocorrelación de una serie AR(n) presenta un máximo o mínimo relativo en la posición n+1. La función de autocorrelación (o correlograma) entre dos instantes s y t de una serie temporal viene dada por: ρ s,t = E[(y t y t )(y s y s )] σ s σ s Si el proceso es estacionario ni la media ni la varianza del proceso dependen del tiempo, entonces, la función de autocorrelación únicamente depende del intervalo de tiempo entre s y t y la ecuación anterior puede, entonces, transformarse en: Iván Carbajo Mayoral 43

45 3.2. SERIES AUTORREGRESIVAS ρ τ = E[(y t y)(y t+τ y) σ 2 Donde τ = s t representa el intervalo de tiempo estudiado. Esta función representa la correlación entre los valores de la misma serie temporal en los instantes s y t, permitiendo así detectar la presencia de patrones no aleatorios en series de datos. De esta manera es posible detectar que una serie de datos constituyen una serie temporal y además identicar el tipo de serie de que se trata. Los grácos de autocorrelación (Box y Jenkins) son una herramienta que permite detectar si un conjunto de datos constituye una serie temporal o si se trata de un suceso aleatorio. Si se trata de un suceso aleatorio los coecientes de autocorrelación serán próximos a cero en todo momento, mientras que de lo contrario exitirán ciertos coecientes claramente distintos de cero. En la gura (3.6) se muestra el gráco de correlación correspondiente a una serie AR(1), que es el caso más sencillo de analizar. Figura 3.6: Correlograma de una serie AR(1) En este caso se puede observar como la correlación entre el valor de la serie y los valores de la serie en instantes anteriores de tiempo decrece exponencialmente a medida que la distancia entre dichos instantes aumenta de manera constante. Sin embargo, cuando el orden de la serie es mayor, dicha relación puede volverse completamente anti intuitiva. A continuación se muestra, de forma cualitativa, la gran semejanza que presentan los valores de la importancia de cada retardo con los grácos de auto correlación correspondientes de cada serie en valor absoluto. Serie AR(4) Este es el primer caso en el que se aprecia el efecto antes mencionado al crear la gráca de la importancia de los retardos de Random forest y CI forest. Puede comprobarse como aparece un pico en el retardo cuyo valor es el del orden de la serie más uno. 44 Escuela Técnica Superior de Ingenieros Industriales (UPM)

46 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Figura 3.7: Importancia relativa de las variables (retardos) en la serie AR(4) Figura 3.8: Correlograma de una serie AR(4) Serie AR(5) Figura 3.9: Importancia relativa de las variables (retardos) en la serie AR(5) Iván Carbajo Mayoral 45

47 3.2. SERIES AUTORREGRESIVAS Serie AR(6) Figura 3.10: Correlograma de una serie AR(5) Figura 3.11: Importancia relativa de las variables para las series AR(6). Figura 3.12: Correlograma de una serie AR(6) 46 Escuela Técnica Superior de Ingenieros Industriales (UPM)

48 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Otros aspectos Otra posibilidad para estimar el orden de la serie habría sido calcular el MAPE de las predicciones para número de retardos considerados y tras esto ver que caso arrojaba un menor valor de dicho error. Como ya se ha comentado, la inclusión en los datos de entrenamiento de variables no explicativas empeoran el rendimiento de los modelos. Esto hace que, por lo general, el MAPE siga aumentando, aunque en pequeña medida a medida que se incrementa el número de retardos considerados, puesto los algoritmos les conceden una importancia, aunque pequeña, que en realidad no tienen. En la gura (3.13) se puede observar la tendencia a crecer del MAPE en la predicción de una serie AR(2) a medida que se consideran más retardos: Figura 3.13: Evolución del MAPE de una serie AR(2) en función de los retardos considerados Este método es menos recomendable que el anterior ya que como puede verse en la imagen, es difícil determinar el mínimo de la gráca, y por tanto del número de lags que minimiza el MAPE. Esto se debe a que los algoritmos de machine learning tienen gran habilidad para desestimar las variables que no son relevantes y por tanto el error se mantiene bastante estable pese a todo Diseño del experimento El objetivo de este experimento es, por una parte, comparar el grado de acierto tanto en la predicción como en la importancia de variables de los diferentes modelos que se estudian. Y por otra, realizar un análisis individual de cada uno de los modelos que permita determinar las combinaciones óptimas de los parámetros de diseño particulares de cada uno. En este caso se realizarán predicciones con un horizonte de 10 instantes de tiempo, de tal manera que se irán incluyendo las predicciones realizadas para entrenar los nuevos Iván Carbajo Mayoral 47

49 3.2. SERIES AUTORREGRESIVAS modelos. Por tanto, para cada una de las técnicas estudiadas se entrenarán 10 modelos, uno por cada instante de tiempo que se desea predecir, y con cada modelo se realizará la predicción del siguiente valor de la serie. En este trabajo siempre se va a trabajar con series temporales de longitud De los 1000 valores generados para cada serie, se estudiarán cuantos valores es conveniente tomar, tanto a la hora de realizar una predicción como a la hora de estimar la importancia de las variables (retardos). Mientras que los modelos ARIMA no muestran una dependencia signicativa de dicho parámetro y en general obtienen mejores resultados al aumentar el tamaño de la muestra, con las técnicas de machine learning la relación no es tan evidente. El número anterior de valores de la serie que se utilizan para entrenar un modelo de Random forest, por ejemplo, inuye de manera crítica en el resultado de la predicción. Sin embargo, dicha inuencia no se maniesta de la misma manera cuando el objetivo es el estudio de la importancia de las variables, como se verá más adelante. En el caso de los modelos de bosques también se considerará la inuencia de los parámetros ntree y mtry en los resultados, ya que estos se encuentran relacionados con aspectos tan relevantes como el del sobreajuste (overtting) de los modelos que ya se ha explicado anteriormente. Los resultados se expresarán en términos del MAPE obtenido en el caso de predicción y como importancia relativa (tanto por uno) en el caso de relevancia de las variables. Para decidir los niveles que resultaba interesante estudiar de los factores ntree y numero de datos considerados se ha realizado en primer lugar una simulación, cubriendo un amplio espectro de valores de estos, con valores jos de las otras variables. De esta manera, se ha podido reducir enormemente el número de simulaciones posteriores, que habría sido inabordable en cuanto a tiempos de computación. Los resultados obtenidos muestran que el parámetro ntree no resulta especialmente relevante en el intervalo entre 500 y 2000 árboles, por lo que carece de interés su estudio en ese rango. Esta invariabilidad se debe, como arma Leo Breiman, a que los Random forest (y los bosques condicionales) evitan el overtting gracias al bootstrap de las observaciones. De lo contrario, elevar en exceso el número de árboles causaría un sobreajuste y por tanto un empeoramiento del modelo. Sin embargo, incluso a valores muy altos de ntree los resultados siguen siendo aceptables, sólo siendo relevante el valor de dicho parámetro (al menos para la cantidad de datos tratada en este trabajo) cuando toma valores inferiores a 500. Sí que resulta interesante, sin embargo, en cuanto a que reducir el valor de ntree reduce muy signicativamente el tiempo de ejecución de los programas y por tanto incrementar su valor inútilmente supone un consumo de tiempo innecesario. Se han realizado simulaciones para varios valores del número de datos considerados a la hora de entrenar el modelo, y los resultados son los siguientes: 48 Escuela Técnica Superior de Ingenieros Industriales (UPM)

50 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Figura 3.14: Inuencia del valor de ntree para un número de datos anterires igual a 900 Como puede observarse, en general se muestra una tendencia a la disminución del MAPE a medida que el número de árboles crece. La mayor diferencia entre unos casos y otros reside en el punto en que el valor del error se estabiliza que, de acuerdo a las simulaciones, crece con el tamaño de la muestra. En este caso, hasta el valor de ntree = 100 los valores del MAPE son muy inestables, por lo que tomar un valor inferior es muy desaconsejable. En cuanto a las simulaciones realizadas para estudiar la inuencia del número de datos con que se entrenan los modelos, los resultados son los siguientes: Figura 3.15: Inuencia del numero de datos anteriores con ntree = 1 Iván Carbajo Mayoral 49

51 3.2. SERIES AUTORREGRESIVAS Figura 3.16: Inuencia del numero de datos anteriores con ntree = 100 A partir de varias simulaciones se puede concluir que para valores muy bajos de ntree la inuencia del número de datos anteriores considerados es prácticamente nula (gura 3.15), mientras que a medida que se aumenta el valor de ntree es frecuente observar una disminución del MAPE para un número de datos anteriores en torno a un tercio de la longitud total de la serie. Por último para recalar que el efecto del ntree sobre las predicciones al usar los modelos no paramétricos es bastante menor que el del número de datos considerados, se presentan las siguientes imágenes, que representan la importancia obtenida para 5 variables en función de los dos parámetros discutidos: Figura 3.17: Inuencia del ntree en la importancia de variables 50 Escuela Técnica Superior de Ingenieros Industriales (UPM)

52 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Figura 3.18: Inuencia del numero de datos en la importancia de variables Se observa como en la imagen 3.18, las curvas se cortan en varios puntos, lo cual implica una variación en la importancia captada por los modelos, y por tanto una mayor dependencia del parámetro número de datos considerados. Por el contrario, en la primera imagen se observa como la variación del parámetro ntree no conlleva cambios signicativos en la apreciación de la importancia de las variables. En la siguiente tabla se muestra un esquema de los experimentos que se van a realizar: Tipo de serie mtry ntree Num. de datos AR(2) 1 y 2 1, 10, 50, 100 y , 100, 200, 400 y 900 AR(3) 1, 2 y 3 1, 10, 50, 100 y , 100, 200, 400 y 900 AR(6) 1, 3 y 6 1, 10, 50, 100 y , 100, 200, 400 y Resultados de predicción A continuación se muestran los resultados de los experimentos realizados en cuanto a predicción de la serie. El objetivo es poner de maniesto la inuencia de los parámetros de diseño (ntree y mtry) al igual que el número de valores tenidos en cuenta a la hora de entrenar los modelos. Estudio de series AR(2) Se va a estudiar una serie de coecientes: 0.7 y Las raíces de su polinomio característico se representan a continuación: Iván Carbajo Mayoral 51

53 3.2. SERIES AUTORREGRESIVAS Figura 3.19: Representación gráca de las raíces de la serie AR(2) Mtry = 1 ARIMA Número de datos ,121 0, ,121 0,121 Random forest ntree Número de datos ,164 0,185 0,165 0,175 0, ,131 0,127 0,139 0,138 0, ,139 0,131 0,137 0,126 0, ,135 0,131 0,133 0,127 0, , ,132 0,124 0,131 CI forest ntree Número de datos ,137 0,144 0,151 0,14 0, ,139 0,117 0,131 0,13 0, ,137 0,131 0,133 0,124 0, , ,135 0,126 0, ,137 0,121 0,131 0,124 0, Escuela Técnica Superior de Ingenieros Industriales (UPM)

54 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Conviene resaltar en este apartado que tomar un valor de mtry igual a 1 implica que los algoritmos escogen una variable explicativa aleatoria, limitándose a elegir la mejor división para dicha variable. Esto aporta a los algoritmos un mayor grado de aleatoreidad que, en ciertos casos, ha demostrado tener buenos resultados (existen algoritmos similares a Random forest que funcionan de esta manera). Un aspecto que siempre va a mejorar este caso es el tiempo de computación, que se verá reducido por la omisión del paso de elección de la variable idónea. La dependencia con ntree de los MAPES promediados es: Figura 3.20: MAPE en función de ntree para una serie AR(2) con mtry=1 Mtry = 2 ARIMA Número de datos ,138 0,136 0, Random forest ntree Número de datos ,174 0,186 0,188 0,186 0, ,157 0,141 0,134 0,149 0, ,151 0,141 0,135 0,133 0, ,144 0,137 0, , ,141 0,143 0, ,14 Iván Carbajo Mayoral 53

55 3.2. SERIES AUTORREGRESIVAS CI forest ntree Número de datos ,169 0,14 0,149 0,155 0, ,159 0,141 0, , ,156 0,146 0,136 0,136 0, ,158 0,143 0, , ,158 0,144 0,144 0,134 0,139 En este primer experimento ya se pueden señalar algunos aspectos interesantes en cuanto a las diferencias entre los modelos. Por una parte, como ya se había anticipado, el modelo ARIMA no muestra una dependencia signicativa del número de datos con que es alimentado el modelo, a menos que este sea demasiado pequeño, caso que no se contempla en estas simulaciones. En relación con los modelos no paramétricos, se aprecia una clara superioridad de los bosques basados en árboles condicionales cuando el valor de ntree es 1 (o bajo en general). Caso equivalente a la creación de un único árbol de decisión. Esto pone de maniesto la importancia de construir los árboles individuales en base a un estadístico de contraste en vez de en base a una medida de la ganancia de información, sobretodo cuando las variables explicativas se encuentran correlacionadas. Este efecto, sin embargo, se difumina a medida que se construye un mayor número de árboles, pese a que por lo general los CI forest mantienen la superioridad. A continuación se muestra la dependencia de ntree, con los MAPES promediados, en este caso: Figura 3.21: MAPE en función de ntree para una serie AR(2) con mtry=2 Puede observarse como, para valores altos de ntree, la superioridad de CI forest es cuestionable, ya que las desventajas de los árboles tipo CART se ven atenuadas cuando se obtiene la predicción a partir de un número elevado de árboles. 54 Escuela Técnica Superior de Ingenieros Industriales (UPM)

56 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Comparación en función de mtry Figura 3.22: Mejora relativa en el MAPE frente a ARIMA en una serie AR(2) Iván Carbajo Mayoral 55

57 3.2. SERIES AUTORREGRESIVAS Estudio de series AR(3) Se va a estudiar una serie de coecientes: 0.75, y 0.3. Las raíces de su polinomio característico se representan a continuación: Figura 3.23: Representación gráca de las raices de la serie AR(3) Mtry = 1 ARIMA Número de datos ,117 0,114 0, ,11 Random forest ntree Número de datos ,199 0,157 0,164 0,157 0, ,152 0,123 0,134 0,135 0, ,145 0,136 0,124 0,121 0, ,143 0,14 0,128 0,127 0, ,146 0,137 0,131 0, Escuela Técnica Superior de Ingenieros Industriales (UPM)

58 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST CI forest ntree Número de datos ,133 0,131 0,143 0,143 0, ,12 0,127 0, , ,12 0,122 0,129 0,119 0, ,119 0,124 0,129 0,117 0, ,12 0,122 0,129 0,121 0,121 En este experimento se aprecia muy bien cómo CI forest supera a Random forest muy claramente para valores bajos de ntree mientras que la situación se iguala bastante para valores mayores del mismo. En la siguiente gura se representan las medias del MAPE, por las, para poder apreciar dicho fenómeno: Figura 3.24: MAPE en función de ntree para una serie AR(3) con mtry=1 Mtry = 2 ARIMA Número de datos ,124 0,123 0,123 0, Iván Carbajo Mayoral 57

59 3.2. SERIES AUTORREGRESIVAS Random forest ntree Número de datos ,167 0,146 0,185 0,198 0, ,131 0,132 0,124 0,137 0, ,136 0,132 0,127 0,132 0, ,134 0,133 0,13 0, ,132 0,132 0,127 0,127 0,122 CI forest ntree Número de datos ,145 0,144 0,13 0,133 0, ,128 0,135 0,122 0,123 0, ,127 0,131 0,123 0,123 0, ,129 0,133 0, , ,129 0, ,122 0,125 Figura 3.25: MAPE en función de ntree para una serie AR(3) con mtry=2 Mtry = 3 ARIMA Número de datos , ,127 0, Escuela Técnica Superior de Ingenieros Industriales (UPM)

60 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Random forest ntree Número de datos ,182 0,171 0,177 0,167 0, ,137 0,138 0,135 0,14 0, ,126 0,134 0,125 0,134 0, ,132 0,137 0,13 0, ,13 0,139 0,134 0,125 CI forest ntree Número de datos ,137 0,136 0,153 0,134 0, , ,125 0,127 0, ,129 0,128 0, , ,133 0,128 0,126 0,13 0, ,135 0,125 0,124 0,124 0,128 En el siguiente gráco se muestra la relación de los MAPES con los valores de ntree. Figura 3.26: MAPE en función de ntree para una serie AR(3) con mtry=3 Iván Carbajo Mayoral 59

61 3.2. SERIES AUTORREGRESIVAS Comparación en función de mtry Figura 3.27: Mejora relativa en el MAPE frente a ARIMA en una serie AR(3) Estudio de series AR(6) Se va a estudiar una serie de coecientes: 0.9, -0.75, 0.68, -0.55,0.4 y La razón de saltar del análisis de series AR(2) y AR(3) a una de órden 6 es el interés añadido que supone el hecho de que a órdenes altos de las series las predicciones son más difíciles. De hecho, la función auto.arima() comienza a fallar muy a menudo a partir del orden 4, por lo que es una buena oportunidad de comparar las tasas de acierto de los modelos ARIMA con los de machine learning. Figura 3.28: Representación gráca de las raíces de la serie AR(6) 60 Escuela Técnica Superior de Ingenieros Industriales (UPM)

62 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Mtry = 1 ARIMA Número de datos ,138 0,135 0,134 0, Random forest ntree Número de datos ,185 0,203 0,187 0,169 0, ,155 0,156 0,155 0,153 0, , ,146 0,143 0, ,149 0,148 0, , ,145 0,146 0,146 0,144 0,146 CI forest ntree Número de datos ,145 0,148 0,156 0,157 0, ,147 0, , ,147 0,146 0,144 0,146 0, ,145 0,147 0,146 0,144 0, ,145 0,147 0,145 0,146 0,146 Figura 3.29: MAPE en función de ntree para una serie AR(6) con mtry=1 Iván Carbajo Mayoral 61

63 3.2. SERIES AUTORREGRESIVAS Mtry = 3 ARIMA Número de datos ,125 0,118 0,119 0, Random forest ntree Número de datos ,153 0,191 0,137 0,166 0, ,121 0,115 0,127 0, ,118 0,115 0,125 0,119 0, ,117 0,113 0,123 0,12 0, , ,121 0,116 0,117 CI forest ntree Número de datos ,123 0,13 0,132 0,149 0, ,123 0,114 0,119 0,125 0, ,119 0,113 0,123 0,126 0, ,117 0,113 0,123 0,127 0, , ,125 0,122 0,119 Figura 3.30: MAPE en función de ntree para una serie AR(6) con mtry=3 62 Escuela Técnica Superior de Ingenieros Industriales (UPM)

64 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Mtry = 6 ARIMA Número de datos ,149 0,15 0,147 0, Random forest ntree Número de datos ,172 0,2 0,206 0,233 0,2 10 0,158 0,158 0,166 0, ,159 0,172 0,17 0,169 0, ,152 0,172 0,167 0,16 0, ,154 0,169 0,171 0,167 0,157 CI forest ntree Número de datos ,169 0,17 0,17 0,173 0, ,155 0,166 0, , ,154 0,166 0,166 0,155 0, ,154 0,166 0,165 0,16 0, ,155 0,165 0,166 0,156 0,153 Figura 3.31: MAPE en función de ntree para una serie AR(6) con mtry=6 Iván Carbajo Mayoral 63

65 3.2. SERIES AUTORREGRESIVAS Comparación en función de mtry Figura 3.32: Mejora relativa en el MAPE frente a ARIMA en una serie AR(6) Resultados de importancia de variables Como se ha comentado anteriormente, a la hora de estudiar la importancia de las variables conviene hacerlo de tal manera que se tenga en cuenta la correlación entre los distintos retardos de las series. por esa razón se ha decidido evaluar en nivel de acierto de los algoritmos en relación con las funciones de autocorrelación de las series analizadas. Al inicio de cada sección se mostrará el correlograma correspondiente a la serie que se va a estudiar y se calcularán a partir de este la importancia relativa real de cada retardo, de tal manera que sea sencillo de comparar con las medidas de importancia que devuelven los dos modelos estudiados: Random forest y CI forest. Como medida de importancia para los modelos no paramétricos se ha decidido emplear la que se calcula como la variación en el error cuadrático medio out of the bag al neutralizar el efecto de una variable aleatoreizando los valores de la misma. La importancia basada en el incremento de pureza de Gini de cada nodo del árbol ha dado peores resultados, por lo que no se ha considerado. Además, para los bosque basados en árboles condicionales, la única importancia disponible (a través de la función varimp()) es la relacionada con el error cuadrático medio. En el caso de Random forest, basado en árboles CART, la importancia se obtiene de la función varimpplot(). Importancia de series AR(2) Se ha estudiado una serie AR(2) cuyos coecientes son: -0.7 y 0.4 El correlograma correspondiente es el siguiente: 64 Escuela Técnica Superior de Ingenieros Industriales (UPM)

66 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Figura 3.33: Correlograma de la serie AR(2) utilizada Por lo que los valores relativos de los coecientes de autocorrelación para los retardos que se van a estudiar son: Lag 1 Lag 2 Coeciente 0,488 0,068 Coeciente relativo 0,877 0,122 Mtry = 1 Resultados Figura 3.34 Figura 3.35 Lag 1 Lag 2 Random forest 0,675 0,325 CI forest 0,807 0,193 Iván Carbajo Mayoral 65

67 3.2. SERIES AUTORREGRESIVAS Comparación Lag 1 Lag 2 Diferencia Random forest 0,202 0,203 Diferencia CI forest 0,070 0,071 En la gura (3.36) se aprecia cómo la relación entre los coecientes de autocorrelación y la importancia otorgada por los dos modelos es directa. En particular CI forest se acerca mucho más gracias a su mejor medida de la importancia de las variables, como ya se ha explicado anteriormente. Figura 3.36: Comparación entre la importancia de los retardos y el correlograma para serie AR(2) y mtry=1 Mtry = 2 Resultados Figura 3.37 Figura 3.38 Figura 3.39 Lag 1 Lag 2 Random forest 0,673 0,327 CI forest 0,937 0, Escuela Técnica Superior de Ingenieros Industriales (UPM)

68 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Comparación Lag 1 Lag 2 Diferencia Random forest 0,204 0,205 Diferencia CI forest 0,060 0,059 Figura 3.40: Comparación entre la importancia de los retardos y el correlograma para serie AR(2) y mtry=2 Importancia de series AR(3) Se ha estudiado una serie AR(3) cuyos coecientes son: 0.75, y 0.3 El correlograma correspondiente es el siguiente: Figura 3.41: Correlograma de la serie AR(3) utilizada Y los valores en valor absoluto y relativizados son: Lag 1 Lag 2 Lag 3 Coeciente 0,514 0,016 0,001 Coeciente relativo 0,96 0,03 0,001 Iván Carbajo Mayoral 67

69 3.2. SERIES AUTORREGRESIVAS Mtry = 1 Resultados Figura 3.42 Figura 3.43 Lag 1 Lag 2 Lag 3 Random forest 0,597 0,296 0,107 CI forest 0,798 0,142 0,060 Comparación Lag 1 Lag 2 Lag 3 Diferencia Random forest 0,363 0,266 0,106 Diferencia CI forest 0,162 0,112 0,059 Figura 3.44: Comparación entre la importancia de los retardos y el correlograma para serie AR(3) y mtry=1 68 Escuela Técnica Superior de Ingenieros Industriales (UPM)

70 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Mtry = 2 Resultados Figura 3.45 Figura 3.46 Lag 1 Lag 2 Lag 3 Random forest 0,584 0,376 0,017 CI forest 0,756 0,201 0,043 Comparación Lag 1 Lag 2 Lag 3 Diferencia Random forest 0,376 0,346 0,016 Diferencia CI forest 0,204 0,171 0,042 Figura 3.47: Comparación entre la importancia de los retardos y el correlograma para serie AR(3) y mtry=2 Iván Carbajo Mayoral 69

71 3.2. SERIES AUTORREGRESIVAS Mtry = 3 Resultados Figura 3.48 Figura 3.49 Lag 1 Lag 2 Lag 3 Random forest 0,605 0,310 0,085 CI forest 0,711 0,243 0,046 Comparación Lag 1 Lag 2 Lag 3 Diferencia Random forest 0,355 0,030 0,084 Diferencia CI forest 0,249 0,213 0,045 Figura 3.50: Comparación entre la importancia de los retardos y el correlograma para serie AR(3) y mtry=3 70 Escuela Técnica Superior de Ingenieros Industriales (UPM)

72 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Importancia de series AR(6) Se ha estudiado una serie AR(6) cuyos coecientes son: 0.9, -0.75, 0.68, -0.55, 0.4 y El correlograma correspondiente es el siguiente: Figura 3.51: Correlograma de la serie AR(6) utilizada Y los valores en valor absoluto y relativizados son: Lag 1 Lag 2 Lag 3 Lag 4 Lag 5 Lag 6 Coeciente 0,522 0,045 0,05 0,028 0,03 0,139 Coeciente relativo 0,64 0,06 0,06 0,034 0,037 0,17 Mtry = 1 Resultados Figura 3.52 Figura 3.53 Lag 1 Lag 2 Lag 3 Lag 4 Lag 5 Lag 6 Random forest 0,497 0,171 0,139 0,082 0,035 0,083 CI forest 0,79 0,095 0,042 0,005 0,007 0,043 Iván Carbajo Mayoral 71

73 3.2. SERIES AUTORREGRESIVAS Comparación Lag 1 Lag 2 Lag 3 Lag 4 Lag 5 Lag 6 Diferencia Random forest 0,143 0,111 0,079 0,048 0,002 0,087 Diferencia CI forest 0,15 0,035 0,018 0,029 0,030 0,127 En la gura 3.54 se puede apreciar claramente la estrecha relación entre los coecientes y la medida de importancia. Además, al tratarse de una serie de orden alto, ya se puede apreciar en el último lag el pico que se mencionó en el apartado de cálculo del orden. Figura 3.54: Comparación entre la importancia de los retardos y el correlograma para serie AR(6) y mtry=1 Mtry = 3 Resultados Figura 3.55 Figura 3.56 Lag 1 Lag 2 Lag 3 Lag 4 Lag 5 Lag 6 Random forest 0,478 0,221 0,098 0,050 0,057 0,096 CI forest 0,777 0,072 0,022 0,042 0,013 0, Escuela Técnica Superior de Ingenieros Industriales (UPM)

74 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Comparación Lag 1 Lag 2 Lag 3 Lag 4 Lag 5 Lag 6 Diferencia Random forest 0,162 0,161 0,038 0,016 0,020 0,074 Diferencia CI forest 0,137 0,012 0,038 0,008 0,024 0,129 Figura 3.57: Comparación entre la importancia de los retardos y el correlograma para serie AR(6) y mtry=3 Mtry = 6 Resultados Figura 3.58 Figura 3.59 Lag 1 Lag 2 Lag 3 Lag 4 Lag 5 Lag 6 Random forest 0,512 0,223 0,136 0,074 0,01 0,046 CI forest 0,828 0,118 0,015 0,013 0,009 0,017 Iván Carbajo Mayoral 73

75 3.2. SERIES AUTORREGRESIVAS Comparación Lag 1 Lag 2 Lag 3 Lag 4 Lag 5 Lag 6 Diferencia Random forest 0,128 0,163 0,076 0,040 0,027 0,124 Diferencia CI forest 0,188 0,058 0,045 0,021 0,028 0,153 Figura 3.60: Comparación entre la importancia de los retardos y el correlograma para serie AR(6) y mtry=6 74 Escuela Técnica Superior de Ingenieros Industriales (UPM)

76 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST 3.3. Series autorregresivas dependientes de variables exógenas Hasta este punto únicamente se han analizado series temporales que, además de ser estacionarias, dependían exclusivamente de los valores pasados de la misma. Así pues, los modelos construidos en base a ese supuesto permiten modelar la evolución en el tiempo de sistemas que no se encuentran inuenciados, a su vez, por otros sistemas. Sin embargo, existen múltiples aplicaciones en las que se hace imprescindible la consideración de variables externas que guardan cierta relación con la salida del sistema sistema que está siendo estudiado. Con intención de modelar estas situaciones surgen los modelos ARX, los cuales consideran tanto la inuencia de los valores pasados (variables endógenas) como la inuencia de otras series temporales externas (variables exógenas). Las series ARX con que se trabajará en este documento considerarán únicamente la inuencia del valor anterior de las variables exógenas, por lo que vendrán representadas por la siguiente ecuación: y t = φ 1 y t 1 + φ 2 y t φ n y t n + a λ a Xa t 1 + ε t i=1 Donde los parámetros λ a representan los pesos de cada una de las variables exógenas y Xa t 1 representa el valore que toma la variable independiente a en el instante anterior a t. A continuación se enumeran algunos casos que se pueden modelar de esta manera: 1. Epidemiología: Exiten numerosos estudios acerca de cómo predecir brotes de enfermedades como la gripe aviar en base a variables tales como la humedad, la temperatura... En este caso, limitarse a estudiar la historia pasada suele ser insuciente ya que, como todos los fenómenos físicos, es lógico pensar que el brote de una enfermedad es debido a una combinación de factores que lo propician. 2. Economía: Diversas variables económicas constituyen series temporales que dependen a su vez de un gran número de circunstancias. Pensemos por ejemplo en la evolución en el tiempo del precio de las acciones de una empresa. Es razonable pensar que, en situaciones normales, dicho precio guardará una relación directa con los valores inmediatamente anteriores. Sin embargo, dicha variable puede verse inuida por diversos factores: la situación económica de otras empresas del entorno, la evolución del poder adquisitivo de la población, otras variables macroeconómicas como el PIB o el IPC... De no considerarse la inuencia de estos agentes, un cambio brusco en cualquiera de ellos podría causar una cambio importante en la variable respuesta sin haberse podido predecir. Iván Carbajo Mayoral 75

77 3.3. SERIES AUTORREGRESIVAS DEPENDIENTES DE VARIABLES EXÓGENAS En este mismo campo de investigación cabe incluir la predicción de demanda de bienes de cualquier tipo, como puede ser la electricidad. Dicha demanda está sujeta a un número muy elevado de factores relacionados con el comportamiento de las personas de que deben considerarse. Como ejemplo, para obtener las previsiones de compra en hipermercados situados en zonas costeras se tiene en cuenta, a su vez, la previsión del tiempo, ya que días de lluvia promueven el consumo en establecimientos alejados de la playa mientras que los días soleados ocurre lo contrario. Además, se introducen variables como la presencia de festivos o incluso la apertura de nuevos centros que pueden suponer una competencia para el negocio. 3. Demografía: De manera similar a como se hace con los modelos econométricos, los ujos de población pueden modelarse mediante modelos ARX, teniendo en cuenta multitud de variables económicas, climatológicas, sociológicas Diseño del experimento En el apartado de análisis de series tipo AR se ha seguido en esquema muy metodológico, cubriendo un gran número de combinaciones de diversos parámetros, de tal manera que se pueda ver la relación de estos con la bondad e los modelos. Por el contrario, en esta sección, la enorme casuística que supone considerar todos los parámetros: número de variables exógenas, tipo de serie y número de retardos considerados de dichas variables, introducción de falsas variables explicativas..., imposibilita cubrir todas las combinaciones. Por esa razón, se estudiarán ciertos casos particulares que pueden resultar de interés práctico en problemas como los planteados anteriormente. El objetivo es comprobar si los algoritmos de machine learning pueden competir o incluso superar a los modelos ARIMA a la hora de predecir este tipo de series. En este punto, surge el problema de realizar los experimentos de tal manera que ningún modelo sea beneciado. Para ello se ha decidido no dar ningún tipo de información acerca de los órdenes de la serie que se predice. En el caso del modelo ARIMA la predicción de los órdenes se realizará mediante la función auto.arima() mientras que los datos de entrenamiento de Random Forest y CI forest incluyen más retardos de los que realmente inuyen en la respuesta para no dar pistas acerca del tipo de serie. Por otra parte, se introducirán variables exógenas cuya inuencia en la respuesta nal sea nula, para comprobar la capacidad de los diferentes modelos a asignar importancia a las variables. Esta situación resulta muy interesante en cuanto a su aplicabilidad en situaciones en las que no se dispone de información certera sobre las variables que inuyen en la evolución de la serie. En esos casos, tener la capacidad de introducir variables que a posteriori no son relevantes sin, por ello, anular la capacidad predictiva del modelo, es de gran utilidad. Por último, es importante destacar que mientras en los apartados anteriores las predicciones se realizaban con un horizonte temporal de 10, en este caso el horizonte será de 1, por la complejidad que supone la necesidad de realizar predicciones para cada una de las variables exógenas para, a partir de estas, realizar las predicciones de la serie estudiada. 76 Escuela Técnica Superior de Ingenieros Industriales (UPM)

78 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Para evitar esto, sólo se considerará un retardo en cada una de las variables explicativas. No debe causar confusión el hecho de que los grácos que se incluyen con predicciones contengan 10 valores en la abscisa. La razón de esto es únicamente hacer más visual los resultados de la predicción, pero cada uno de los 10 valores representados se han obtenido entrenando los modelos con los datos disponibles hasta el instante inmediatamente anterior. En la práctica existen muchas situaciones de este tipo, en las que las predicciones se realizan a muy corto plazo, de tal manera que los modelos se renuevan cada vez que se consiguen nuevos datos reales Preparación de los datos iniciales Como paso previo al entrenamiento de los modelos de machine learning es necesario preparar los datos de manera similar a como se hacía con las series tipo AR. En este caso, además de incluir los retardos de la serie es necesario incluir las observaciones de las distintas variables exógenas que se van a considerar, de tal manera que coincidan en la misma la el valor en el instante t de la serie con los valores de las variables explicativas en el instante t-1. Los datos de entrenamiento quedan como se puede ver en la siguiente en (Referencia): Observacion v1 v2 v3 v4 v5 lag 3 lag2 lag1 Serie 20 6,65 2,89 2,73 9,09 4,26 167, , , , ,24 9,37 7,44 8,41 8,87 219, , , , ,10 5,18 6,52 6,29 5,91 180, , , , ,12 7,28 9,32 6,65 4,42 162, , , , ,10 7,02 6,90 3,66 3,39 161, , , ,661 Escalado de los datos Es fundamental en el caso de los modelos ARX realizar un escalado de los datos de entrenamiento de los modelos de Random forest, principalmente los basados en la construcción de árboles tipo CART. Como se ha mencionado en el capítulo de herramientas, algoritmos muestran un sesgo hacia las variables que presentan un mayor número de divisiones posibles. Esto implica que un árbol CART será muy propenso a dar mayor importancia de la debida a una variable cuyo rango de posibles valores es muy amplio, pese a que su relación con la variable respuesta no sea tan signicativa. Hasta este momento no ha sido necesario escalar los datos ya que al considerar únicamente los retardos de la serie, todas las variables explicativas se encontraban dentro del mismo rango de valores. Sin embargo, ahora se hace necesario, ya que las variables exógenas no tienen por qué encontrarse en el mismo rango de valores que la serie temporal, y de hecho no lo están. De los experimento realizados se deduce que la mejor opción es la de escalar los datos, por columnas, entre 0 y 1: dato[i, j] = (dato[i, j] min(tabladatos[, j]))/(max(tabladatos[, j]) min(tabladatos[, j])) Iván Carbajo Mayoral 77

79 3.3. SERIES AUTORREGRESIVAS DEPENDIENTES DE VARIABLES EXÓGENAS También se barajó la opción de normalizar los datos: dato[i, j] = (dato[i, j] mean(tabladatos[, j]))/(sd(tabladatos[, j])), pero los resultados no eran los deseados, ya que los rangos de las variables no coincidían Resultados de predicción Estudio de series AR(2) con 4 variables exógenas y una falsa El primer caso que se ha estudiado es el de una serie temporal tipo AR(2) con inuencia de 4 variables independientes. Sin embargo, como se ha mencionado anteriormente, con el objetivo de dicultar la tarea de predicción, se ha incluido un retardo adicional y una variable explicativa con peso nulo sobre la respuesta. El objetivo es comprobar que modelos son capaces de desestimar los datos que no inuyen en la evolución de la serie. Sin escalar los datos ARIMA Figura 3.61: Predicción de serie ARX con ARIMA 78 Escuela Técnica Superior de Ingenieros Industriales (UPM)

80 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Random forest Figura 3.62: Predicción de serie ARX con Random forest, sin escalar los datos. CI forest Figura 3.63: Predicción de serie ARX con CI forest, sin escalar los datos. Modelo µ residuos σ residuos MAPE ARIMA 3,054 24,810 0,181 Random forest 1,116 12, CI forest 1,079 15,441 0,118 Iván Carbajo Mayoral 79

81 3.3. SERIES AUTORREGRESIVAS DEPENDIENTES DE VARIABLES EXÓGENAS Escalando los datos Como se comprobará en la tabla de resultados, la mejora al escalar los datos de entrenamiento no es muy grande pero sí que es signicativa. Random forest Figura 3.64: Predicción de serie ARX con Random forest, escalando los datos. CI forest Figura 3.65: Predicción de serie ARX con CI forest, escalando los datos. Modelo µ residuos σ residuos MAPE Random forest 1,292 11, CI forest 1,281 15,676 0, Escuela Técnica Superior de Ingenieros Industriales (UPM)

82 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Otros casos AR(2) con 3 variables independientes y 2 falsas Modelo µ residuos σ residuos MAPE ARIMA 13,113 10,089 0,1751 Random forest 1,768 6, CI forest 3,013 7,706 0,0787 AR(2) con 2 variables independientes y 3 falsas Modelo µ residuos σ residuos MAPE ARIMA 10,145 9,324 0,1321 Random forest 1,611 7, CI forest 2,012 6,923 0,0673 El conjunto de resultados parece indicar que Random forest y a continuación CI forest son los modelos que menos afectados se ven por la introducción de falsas variables explicativas. Además, el gran poder de predicción de los dos modelos en relación con las variables exógenas explican que los modelos ARIMAX se vean superados por estos. Todo esto a pesar de que las variables exógenas introducidas han sido creadas conforme a modelos AR, lo cual debería dar cierta ventaja a ARIMA Resultados de importancia de variables Importancia de series AR(2) con 4 variables exógenas En la gura (3.66) se representa la ponderación con que se ha construido la serie ARX a partir de los valores de cada variable exógena. Iván Carbajo Mayoral 81

83 3.3. SERIES AUTORREGRESIVAS DEPENDIENTES DE VARIABLES EXÓGENAS Figura 3.66: Importancia otorgada a las variables independientes de la serie ARX Sin escalar los datos Random forest Figura 3.67: Importancia basada en MSE sin Figura 3.68: Importancia de Gini sin escalar escalar CI forest Figura 3.69: Importancia basada en MSE sin escalar 82 Escuela Técnica Superior de Ingenieros Industriales (UPM)

84 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Escalando los datos Random forest Figura 3.70: Importancia basada en MSE escalando CI forest Figura 3.71: Importancia de Gini escalando Figura 3.72: Importancia basada en MSE escalando Un análisis cualitativo de los resultados permite concluir que, en este caso, la importancia basada en la variación de la pureza de Gini sí que arroja buenos resultados frente a la basada en la variación del error cuadrático medio. La razón no ha sido posible comprenderla, por lo que debería ser fruto de futuras investigaciones. Además, se aprecia como Random forest se acerca más a los valores deseados que CI forest a la hora de predecir la importancia de cada variable exógena, entendida como el peso relativo de cada una sobre la respuesta. Iván Carbajo Mayoral 83

85 3.4. INTERVALOS DE CONFIANZA MEDIANTE BOOTSTRAP 3.4. Intervalos de conanza mediante bootstrap El bootstrapping es una técnica que permite obtener la distribución de probabilidad de una muestra en base a un remuestreo, con reemplazamiento, aleatorio de la misma. Para ello, se toma un número suciente de muestras con reemplazamiento sobre el conjunto de observaciones, de tal manera que se obtiene una representación más able de la población real. Debe cumplirse que las observaciones consideradas sean independientes y estén idénticamente distribuidas. Pese a esto, esta técnica permite obtener estimaciones más precisas que asumiendo, por ejemplo, la hipótesis de normalidad. Figura 3.73: Esquema de un bootstrap La razón de incluir esta sección como cierre del capítulo de resultados se debe al interés que supone la capacidad de proporcionar predicciones acompañadas de un intervalo de conanza. A menudo, se tiende a olvidar que la predicción de series temporales no debe limitarse a la predicción puntual (media de las predicciones), ya que en ese caso la información es incompleta. Es fundamental ser capaces de evaluar el nivel de dispersión de las predicciones que proporciona un modelo para una serie determinada, y eso sólo se puede conseguir aportando un intervalo de conanza. Para remarcar la importancia de este aspecto se puede acudir a ejemplos de la vida diaria. Un ejemplo típico de aplicación de series temporales es para la predicción de demanda eléctrica. Debido a que la energía eléctrica es difícilmente almacenable es necesario recurrir a predicciones acerca del consumo que una población hará de dicha energía en un periodo de tiempo determinado, de tal manera que se puedan coordinar las centrales de generación para abastecer la demanda. Ahora bien, las compañías eléctricas deben garantizar el suministro eléctrico continuo, independientemente de los picos de consumo que puedan producirse de manera en cierta medida aleatoria, lo cual supone un grave problema. Por esta razón, a la hora de realizar predicciones de demanda, no basta con obtener un valor puntual esperado de dicha demanda. Es necesario analizar la parte aleatoria de la serie temporal para poder garantizar con una probabilidad determinada (expresada en tanto por ciento) el suministro de energía eléctrica. Es decir, pese a que la predicción puntual indique que el consumo va a ser reducido durante un determinado intervalo de tiempo, si la variabilidad en el consumo pasado es muy alta, es probable que sea necesario producir muy por encima de las necesidades previstas, ya que de lo contrario sería muy común sufrir cortes de suministro, cosa que no es asumible. Lo anterior justica el esfuerzo adicional, en términos de diseño y en el tiempo de computación, que supone añadir intervalos de conanza a las predicciones puntuales. 84 Escuela Técnica Superior de Ingenieros Industriales (UPM)

86 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST A continuación, tras una explicación sobre la aplicación de la técnica de bootstrap a series temporales, se presentan los resultados de varios dos modos de ejecución del bootstrap con ARIMA y otros dos con Random forest. Finalmente se presenta la que se considera la mejor manera de realizar el cálculo del intervalo de predicción ( bootstrap sobre los residuos). Al nal se realizará una comparación entre todos ellos Bootstrap de los residuos El propósito de esta sección es estimar un intervalo de conanza para las predicciones (horizonte de uno) de una serie temporal realizando un bootstrap adecuado de la misma. Como se ha mencionado para que este método de resultado las observaciones han de ser independientes, cosa que, evidentemente, no cumplen los elementos de una serie temporal. Como ejemplo se analizará una serie AR(6), es decir, una serie en la que cada uno de los elementos se relaciona linealmente con los 6 estados anteriores de la misma. Para realizar el bootstrap de la serie se recurrirá al remuestreo de los residuos de las predicciones. Esto se debe a que los residuos si se pueden considerar independientes del resto de valores de la serie, ya que, como se mostrará más adelante se pueden aproximar a una normal de media cero con mucho acierto. Cuando el bootstrap se hace a partir de observaciones estáticas, es decir, a partir de observaciones que no muestran una dependencia entre sí, el proceso se simplica. En ese caso, a partir de una muestra inicial de tamaño N se tomarán n (número de replicaciones del bootstrap) muestras con reemplazamiento. Como el número N de observaciones también es elevado, la probabilidad de que una muestra coincida exactamente con la original es despreciable. Una vez hecho esto sólo resta entrenar N modelos distintos cada uno con una muestra distinta, lo cual permite reducir la varianza en las predicciones realizadas (Figura 1). Por el contrario, cuando se trabaja con una serie temporal, la dependencia entre las diferentes observaciones es inevitable. Es por eso que esl proceso de remuestreo no debe llevarse a cabo de la misma manera que en el caso estático. Es este caso, se parte de una serie temporal de T=500 instantes de tiempo, a partir de la cual se deberán obtener n (número de replicaciones) nuevas series, de manera análoga a como ocurría en el caso estático. Sin embargo, las n nuevas series no se obtienen directamente de las serie temporal, sino que el remuestreo con reemplazamiento se lleva a cabo con los residuos de una predicción inicial. Es decir, en primer lugar se ajustará un modelo y se realizará una predicción con él de los T (menos el número de lags y menos el horizonte) instantes de tiempo. Tras esto se calcularán los residuos, de tal manera que se cumpla que la serie temporal es igual a las predicciones realizadas más los residuos. Tras esto, para crear las nuevas series mencionadas, bastará con tomar muestras con reemplazamiento de tamaño T de los residuos y sumarlos, término a término, a los valores de la predicción. De esta manera se obtienen las n nuevas series, a partir de las cuales se pueden realizar predicciones que no se ven afectadas por el ruido de la serie Diseño del experimento En este experimento se han realizado 10 replicaciones para cada tipo de algoritmo bootstrap empleado, presentándose como resultados nales la media y la desviación típica Iván Carbajo Mayoral 85

87 3.4. INTERVALOS DE CONFIANZA MEDIANTE BOOTSTRAP de dichas replicaciones. Se ha trabajado con series AR(6) de longitud 500, de coecientes: 0.6, -0.45, 0.3, -0.28, 0.2, y ; creadas con la función arima.sim(). La elección de dicha longitud se debe a que la ejecución de algunos de los programas es muy larga por lo que los tiempos de ejecución eran excesivos. En cada replicación, tras la creación de la serie temporal, se han utilizado como datos de entrenamiento los valores de la serie hasta el instante 499, con las respectivas adaptaciones para considerar los retardos en el caso de Random forest. Puesto que se quieren comparar los resultados de Random forest con los de ARIMA en cuanto a la anchura de los intervalos de conanza, se asumirá que se conoce el número de retrasos de la serie que conviene considerar (6 en este caso). Por tanto la tabla de datos de Random forest contiene por columnas, tanto la serie temporal como los 6 primeros lags de la misma y los modelos ARIMA se entrenan indicando a priori el orden de la serie. De esta manera ambos modelos compiten, aproximadamente, en igualdad de condiciones. En este caso no se ha optado por escalar dicha tabla de datos ya que los rangos de los valores por columnas con prácticamente idénticos y por tanto no debe afectar al ajuste del modelo Desarrollo y resultados del bootstrap de los residuos Se ha realizado el bootstrap de los residuos con los dos modelos indicados. Con Random forest: Una vez preparados los datos se ha entrenado un modelo Random forest, introduciendo todas las observaciones de la tabla excepto la última, ya que se va a considerar un horizonte de predicción de uno. Como parámetros se han utilizado ntree = 1000 y mtry = 5. Con dicho modelo se ha realizado una predicción de todos los valores de la serie menos el horizonte de predicción (y menos el número de lags considerados), a partir de la cual se pueden calcular unos residuos. Como se ha dicho antes, dichos residuos se aproximan con bastante exactitud a una normal de media cero, lo que indica que el modelo se ajusta bien a la serie. 86 Escuela Técnica Superior de Ingenieros Industriales (UPM)

88 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST Figura 3.74: Histograma de los residuos del modelo de Random forest Con esto ya se puede comenzar el proceso de remuestreo, que se realizará mediante un ciclo for que se ejecutará un número elevado de veces. En este caso, para acortar la simulación sólo se han realizado 100 replicaciones, pero sería conveniente realizar al menos El primer paso consiste en tomar una muestra con reemplazamiento de los residuos obtenidos anteriormente. A partir de estos se crean las muestras con reemplazamiento que se han mencionado al principio. Para ello, se suman a los valores predichos por el modelo los residuos de manera aleatoria, tal y como se han tomado en la muestra con reemplazamiento. Al ser con reemplazamiento es muy probable que alguno de los residuos se repita, sin embargo, al trabajar con series de muchos elementos (500 en nuestro caso) la probabilidad de que los residuos se coloque exactamente de la misma manera que en la predicción original es completamente despreciable. El objetivo de este paso es conseguir neutralizar el efecto que tienen los residuos (aproximadamente ruido blanco) de cada elemento de la serie en los elementos siguientes, manteniendo a su vez la estructura (autorregresiva) de la serie. Tras obtener la nueva serie de valores es posible realizar una predicción del horizonte (uno en nuestro caso) con dichos valores, valor que se guarda en una variable. Este proceso se replica 100 veces en este ejemplo, con lo que se obtienen 100 predicciones distintas a partir de las 100 muestras con reemplazamiento (de los residuos). Una vez hecho esto sólo queda ordenar los valores de las predicciones de menor a mayor y determinar, por ejemplo, entre que dos valores se encuentran el 90 % de las predicciones. En la gura 3.75 puede observarse un histograma de las predicciones obtenidas en una de las replicaciones: Iván Carbajo Mayoral 87

89 3.4. INTERVALOS DE CONFIANZA MEDIANTE BOOTSTRAP Figura 3.75: Histograma de los predicciones del bootstrap con Random forest Tras calcular el valor medio de las predicciones de todas las replicaciones y la media de los intervalos de conanza, ya se puede proporcionar como solución al problema de predicción un intervalo probable, además de la estimación puntual que proporciona la media de las predicciones. Con ARIMA: El proceso a seguir en el caso de realizar la predicción con un modelo ARIMA es análogo al explicado para Random forest. La única diferencia reside en el punto en que, tras redistribuir los residuos de la predicción inicial para obtener unos nuevos datos con los que realizar la predicción, se obtienen, a partir de esta, los coecientes del modelo AR. Como en este caso estamos asumiendo que se conoce el orden de la serie, es posible ganar cierta precisión construyendo el resultado de la predicción a partir de esos coecientes y posteriormente sumando, aleatoriamente, uno de los residuos de la predicción inicial. Si se quiere omitir este paso se podría realizar directamente la predicción de la misma manera que se hace para el caso de Random forest. Tras realizar las replicaciones indicadas los resultados obtenidos son: ARIMA Random forest µ replicaciones 6,522 7, Resultados del bootstrap de las predicciones En este apartado se indican brevemente algunas prácticas desaconsejadas a la hora de realizar un bootstrap de una serie temporal. En general, como se ha razonado al principio la no es correcto trabajar con los valores de las predicciones directamente, ya que estas se encuentran muy correlacionadas en una serie temporal. Es necesario, a la hora de obtener un intervalo de conanza no tener 88 Escuela Técnica Superior de Ingenieros Industriales (UPM)

90 EXPERIMENTOS COMPUTACIONALES CON RANDOM FOREST en cuenta la estructura propia de la serie, ya que esta no permite obtener una medida adecuada de la dispersión. En concreto, las simulaciones realizadas demuestran que los intervalos obtenidos de esta manera son mucho más estrechos de lo debido, como se muestra a continuación: En comparación con los obtenidos en los bootstrap de los residuos. Es importante recalcar que el intervalo de la tabla correspondiente a Random forest se ha obtenido a partir de un bootstrap de 100 predicciones agregadas, es decir, de las predicciones calculadas como de la media de las predicciones individuales de cada árbol (1000 en este caso). Sin embargo, existe la posibilidad de obtener las predicciones individuales de cada árbol en vez de únicamente la agregada mediante el siguiente código en R: prediccion < predict(modelo, newdata = datos, predict.all = T RU E) predicciones_individuales < prediccion$individual Esto hace posible obtener un intervalo de conanza a partir de las predicciones individuales (1000 en este caso) simplemente ordenándolas en orden creciente. Este método tiene un coste computacional mucho menor, ya que únicamente se entrena un modelo de Random forest, frente a los 100 anteriores. Además, las simulaciones indican que los intervalos obtenidos son mucho más acertados que al utilizar predicciones agregadas como se observa en la siguiente tabla donde se comparan todos los resultados de cada uno de los métodos de bootstrap. Hay que tener en cuenta que los intervalos obtenidos con ARIMA y con Random forest no son del todo comparables, ya que cada uno indica la variabilidad en las predicciones de un modelo concreto. Pred. individuales Pred. agregadas Residuos (ARIMA) Residuos (RF) µ replicaciones 6,188 1,801 6,522 7,581 Estos resultados indican que los intervalos de conanza, bien calculados, con Random forest son algo superiores a los de ARIMA. Iván Carbajo Mayoral 89

91 3.4. INTERVALOS DE CONFIANZA MEDIANTE BOOTSTRAP 90 Escuela Técnica Superior de Ingenieros Industriales (UPM)

92 Capítulo 4 Conclusión y Líneas Futuras A continuación se enumeran las conclusiones obtenidas a partir de los experimentos computacionales realizados, las cuales se han dividido en los tres grandes bloques de investigación que abarca el trabajo. 1. Predicción A este respecto cabe distinguir entre los análisis de las series AR puras y las XAR. En cuanto a las primeras se ha podido concluir lo siguiente: La precisión de las predicciones medidas a partir del MAPE (mean absolute percentage error) indican que las técnicas no paramétricas, Random forest y Conditional inference forest, pueden plantear una alternativa frente a los modelos lineales ARIMA. En términos generales, para ciertas combinaciones de los parámetros de diseño de los random forest se obtienen MAPES menores a los correspondientes con ARIMA. Sin embargo, la variabilidad de los resultados al utilizar ARIMA es menor. Ntree: Particularizando, las simulaciones realizadas muestran cómo el valor del parámetro ntree inuye mucho en la precisión del algoritmo hasta un valor de 500 aproximadamente. A partir de ese valor, el error, calculado a partir de las observaciones no incluidas en la constrcción de cada árbol individual (error out of the bag), converge a un valor determinado. Esto viene a demostrar lo que ya indicaba Leo Breiman al presentar el algoritmo Random forest, que no sufren sobreajuste gracias a que los sesgos individuales de cada árbol se compensan por el elevado número de los mismos, pese a que cada uno individualmente sí que sufre overtting. Por otra parte, comparando los bosques basados en árboles CART y los basados en árboles de inferencia condicional, se ha llegado a la conclusión de que los segundos convergen bastante más rápido, es decir, para un menor número de árboles. Esto se debe a que la construcción de estos árboles se hace en base a un contraste de hipótesis que permite detener el crecimiento de los mismo, por lo que a valores bajos de ntree estos presentan claramente mejores resultados 91

93 que Random forest. Mtry: se ha podido comprobar que los valores extremos, mtry=1 o mtry=numero de variables, no son convenientes, en especial el primero de ellos. En cuanto a las series tipo ARX se ha podido concluir que los métodos no paramétricos poseen mayor precisión den la predicción gracias a su gran potencial a la hora de evaluar la importancia de las variables. 2. Importancia de variables Los resultados indican que la importancia que devuelven Random forest y CI forest basada en la variación del error cuadrático medio son comparables con los coecientes de autocorrelación correspondientes de las series temporales. De esta manera es posible determinar el orden incluso de series tipo AR(6) o superiores. La comparación de la importancia directamente con los coecientes de las series no ha dado buenos resultados por la correlación existente entre los retardos de las mismas. 3. Intervalos de conanza En este aspecto, se ha demostrado que la aplicación de un bootstrap de las predicciones da malos resultados, ya que determina intervalos de conanza más estrechos de lo debido. Sin enmbargo, de realizarse el bootstrap sobre las predicciones, en Random forest los resultados mejoran mucho si se utilizan las predicciones individuales de los árboles en vez de las predicciones agregadas. Sin embargo, parece que los mejores resultados se obtienen realizando el bootstrap sobre los residuos, de tal manera que se elimina el efecto de la correlación debido a la estructura de la propia serie temporal. Los resultados obtenidos mediante este tipo de bootstrap para la predicción con ARIMA y con Random forest son similares, por lo que parece la mejor opción. Líneas futuras Sin duda queda una amplia tipología de series temporales que no se han podido estudiar en este trabajo. Probablemente una de las lineas de investigación más interesantes sería la de profundizar en la aplicación de los modelos de bosque aleatorios para predecir series temporales no estacionarias. Esto supone un reto actualmente ya que en ese aspecto los modelos ARIMA han demostrado tener muy buen comportamiento. 92 Escuela Técnica Superior de Ingenieros Industriales (UPM)

94 Capítulo 5 Planicación temporal y presupuesto 5.1. Estructura de Descomposición del Proyecto (EDP) Figura 5.1: Estructura de Descomposición del Proyecto (EDP). La intensidad del color hace referencia a la jerarquía de las partes. 93