Estudio sobre la evolución del número de pasajeros en el metro de Barcelona



Documentos relacionados
Precio del alquiler de pisos durante una serie de meses. Evolución del índice del precio del trigo con mediciones anuales.

Metodología. del ajuste estacional. Tablero de Indicadores Económicos

Covarianza y coeficiente de correlación

VARIACIONES SISTEMÁTICAS DEL VOLUMEN DE NEGOCIACIÓN EN EL IBEX-35

REGRESION simple. Correlación Lineal:

Ecuaciones de primer grado con dos incógnitas

Estacionalidad. Series de tiempo. Modelos econométricos. Modelos econométricos. Q= T Kα Lβ

ECONOMETRÍA II: ECONOMETRÍA DE SERIES TEMPORALES. Modelación con ARMA

Ejercicio de estadística para 3º de la ESO

1.1. Introducción y conceptos básicos

Procesos de Media Móvil y ARMA

RESPUESTAS A LAS PREGUNTAS DEL TEMA 3

Análisis de medidas conjuntas (conjoint analysis)

Indicaciones específicas para los análisis estadísticos.

Una serie temporal o cronológica es en una sucesión de valores que adopta una variable (Y):

SERIES DE TIEMPO INTRODUCCIÓN

1 Ejemplo de análisis descriptivo de un conjunto de datos

ESTIMACIÓN. puntual y por intervalo

ANÁLISIS DE SERIE DE TIEMPO DE CAUDALES DEL RÍO EL TALA PERIODO

BASES Y DIMENSIÓN. Propiedades de las bases. Ejemplos de bases.

E 1 E 2 E 2 E 3 E 4 E 5 2E 4

Capítulo 10. Estudio de un caso con parámetros reales: acuífero de Borden

Análisis de los datos

8.1. Introducción Dependencia/independencia estadística Representación gráfica: diagrama de dispersión Regresión...

8.1.- ANÁLISIS DE LA FINANCIACIÓN DE COBROS Y PAGOS EN DIVISAS.

Complementos de matemáticas. Curso


UNIDAD 1. LOS NÚMEROS ENTEROS.

Cálculo de la rentabilidad de un plan de pensiones

Diagnosis y Crítica del modelo -Ajuste de distribuciones con Statgraphics-

Capítulo 7: Distribuciones muestrales

Solución ESTADÍSTICA. Prueba de evaluación contínua 2 - PEC2

CONCEPTO DEL ÍNDICE ACCIONARIO

Capítulo 8. Tipos de interés reales Introducción

ANALISIS DE UN FONDO DE INVERSION MEDIANTE LA REGRESION Y LA GENERACION DE NUMEROS ALEATORIOS

Ideas básicas sobre movimiento

Adaptación al NPGC. Introducción. NPGC.doc. Qué cambios hay en el NPGC? Telf.: Fax.:

DOMINIO Y RANGO página 89. Cuando se grafica una función existen las siguientes posibilidades:

CLASE 0- MÉTODOS DE ALISADO EXPONENCIAL

Control Estadístico del Proceso. Ing. Claudia Salguero Ing. Alvaro Díaz

1.4.- D E S I G U A L D A D E S

EJERCICIOS RESUELTOS SOBRE ERRORES DE REDONDEO

No hay resorte que oscile cien años...

Medidas de tendencia central o de posición: situación de los valores alrededor

Otras medidas descriptivas usuales

Aplicaciones de Estadística Descriptiva

UNIVERSIDAD CARLOS III DE MADRID MASTER EN CALIDAD TOTAL MANUAL DE SPSS

TEMA 2. FILOSOFÍA DE LOS GRÁFICOS DE CONTROL. Principios básicos de los gráficos de control. Análisis de patrones.

Fundamentos de Biología Aplicada I Estadística Curso Práctica 6: Regresión Logística I

CORRELACIÓN Y PREDICIÓN

1. Dominio, simetría, puntos de corte y periodicidad

Eduardo Kido 26-Mayo-2004 ANÁLISIS DE DATOS

Capítulo 5: METODOLOGÍA APLICABLE A LAS NORMAS NE AI

Programación Lineal. Ficha para enseñar a utilizar el Solver de EXCEL en la resolución de problemas de Programación Lineal

Práctica 5. Contrastes paramétricos en una población

Capítulo 3. Análisis de Regresión Simple. 1. Introducción. Capítulo 3

Semana de dieta (X) Peso en Kg (Y)

REPASO CONCEPTOS BÁSICOS DE ESTADÍSTICA. DISTRIBUCIÓN NORMAL.

3º Grado Educación Infantil Bilingüe Números. Método Singapur y F. Bravo E R

4 Pruebas y análisis del software

3. Qué warrant elegir?

CAPITULO II CARACTERISTICAS DE LOS INSTRUMENTOS DE MEDICION

Se podría entender como una matriz de filas y columnas. Cada combinación de fila y columna se denomina celda. Por ejemplo la celda A1, B33, Z68.

CIIF CENTRO INTERNACIONAL DE INVESTIGACION FINANCIERA

Profr. Efraín Soto Apolinar. Factorización

x

TEMA 4: Introducción al Control Estadístico de Procesos

TEMA 4: Variables binarias

LECCIÓN SEIS: Preparando un Presupuesto de Efectivo

FUNCIONES CUADRÁTICAS Y RACIONALES

RESUMEN INTRODUCCION

Matrices equivalentes. El método de Gauss

ANÁLISIS DE VARIANZA EMPLEANDO EXCEL y WINSTATS

Modelo SETAR para la volatilidad de la rentabilidad de las acciones: Aplicación de la propuesta metodológica.

METODOS ELEMENTALES DE PROCESAMIENTO DE SERIES DE TIEMPO

Monografías de Juan Mascareñas sobre Finanzas Corporativas ISSN: Introducción al VaR

Tema 2. Espacios Vectoriales Introducción

DIPLOMADO EN RELACIONES LABORALES Estadística Asistida por Ordenador Curso

DESCRIPCIÓN DE LA METODOLOGÍA UTILIZADA EN EL PROGRAMA DE CESTAS REDUCIDAS ÓPTIMAS

QUÉ ES LA RENTABILIDAD Y CÓMO MEDIRLA. La rentabilidad mide la eficiencia con la cual una empresa utiliza sus recursos financieros.

Pruebas de Acceso a las Universidades de Castilla y León

Departamento de Economía Aplicada I ESCUELA UNIVERSITARIA DE ESTUDIOS EMPRESARIALES DIPLOMATURA EN CIENCIAS EMPRESARIALES ESTADÍSTICA

EJERCICIOS DE REPASO SOBRE DERIVABILIDAD III. PROBLEMAS DE OPTIMIZACIÓN

Inversión. Inversión. Arbitraje. Descuento. Tema 5

ÍNDICE DISEÑO DE CONTADORES SÍNCRONOS JESÚS PIZARRO PELÁEZ

Aula Banca Privada. La importancia de la diversificación

Test de hipótesis. Si H0 es cierta el estadístico. sigue una distribución t de Student con n grados de libertad: s n

Contenido: CARTAS DE CONTROL. Cartas de control C Cartas de control U Cartas de control P Cartas de control NP DIAGRAMA DE PARETTO HISTOGRAMAS

LÍMITES Y CONTINUIDAD DE FUNCIONES

CAPÍTULO VI PREPARACIÓN DEL MODELO EN ALGOR. En este capítulo, se hablará acerca de los pasos a seguir para poder realizar el análisis de

Series de Tiempo. Una Introducción

Control Estadístico de Procesos

Capítulo 17 Análisis de correlación lineal: Los procedimientos Correlaciones bivariadas y Correlaciones parciales

LEYES DE CONSERVACIÓN: ENERGÍA Y MOMENTO

Evolución de los Precios del Transporte en la Comunidad de Madrid. Secretaría de Medio Ambiente y Desarrollo Sostenible

Cómo?: Resolviendo el sistema lineal homógeneo que satisfacen las componentes de cualquier vector de S. x4 = x 1 x 3 = x 2 x 1

GUÍA TÉCNICA PARA LA DEFINICIÓN DE COMPROMISOS DE CALIDAD Y SUS INDICADORES

Validation. Validación Psicométrica. Validation. Central Test. Central Test. Centraltest CENTRAL. L art de l évaluation. El arte de la evaluación

Transcripción:

Estudio sobre la evolución del número de pasajeros en el metro de Barcelona Un análisis basado en Series Temporales. Autor: Origen

1.- Introducción 2.- Metodología estadística 3.- Análisis descriptivo de la serie 3.1.- Métodos de descomposición A. Métodos de descomposición clásica B. Métodos de descomposición STL 3.2.- Métodos de suavizado exponencial 4.- Ajuste de un modelo ARIMA 4.1.- Identificación 4.2.- Estimación 4.3.- Diagnosis 5.- Búsqueda de valores atípicos 6.- Predicción 7.- Conclusión final

1.- Introducción En el presente trabajo pretendemos modelar el número mensual de pasajeros del Metro de Barcelona, a partir de técnicas basadas en la metodología de Series Temporales. El modelo obtenido nos permitirá hacer predicciones sobre la variable de estudio para tiempos futuros. El poder realizar buenas predicciones sobre el número de pasajeros puede ser de gran ayuda a la hora de organizar los equipos necesarios para dar un buen servicio en el Metro. La serie procede de la base de datos del Instituto Nacional de Estadística (http://www.ine.es/inebmenu/indice.htm) El periodo de observación de la serie está comprendido entre enero de 1995 y junio de 26. La unidad de medida es "miles de viajeros". El siguiente gráfico representa el comportamiento de la serie objeto de estudio: 35, 3, pasajeros_metro 25, 2, 15, 1, APR 26 NOV 25 JUN 25 JAN 25 AUG 24 MAR 24 OCT 23 MAY 23 DEC 22 JUL 22 FEB 22 SEP 21 APR 21 NOV 2 JUN 2 JAN 2 AUG 1999 MAR 1999 OCT 1998 MAY 1998 DEC 1997 JUL 1997 FEB 1997 SEP 1996 APR 1996 NOV 1995 JUN 1995

2.- Metodología Estadística Para llevar a cabo el análisis de predicción de la serie "número mensual de pasajeros del metro de Barcelona", en primer lugar realizaremos, en la sección 3, un análisis descriptivo de la misma. Identificaremos las principales fuentes de variación haciendo uso de los métodos de descomposición. Además proporcionamos predicciones para la serie por medio del método clásico de suavizado exponencial En la sección 4, haremos uso de la metodología de Box-Jenkins(véase Box, Jenkins and Reinsel (1994)) para la especificación de un modelo de la familia ARIMA que verosímilmente haya generado la serie de estudio. Asimismo, en la sección 5 analizaremos la presencia de posibles valores atípicos en la misma. Las predicciones de la serie haciendo uso de los modelos ajustados serán proporcionadas en la sección 6. Finalmente, estableceremos las conclusiones finales del trabajo en la sección 7. Como herramientas de trabajo para el análisis estadístico y gráfico de los datos se utilizarán el software estadístico R (GNU S), versión 2.2.1 (véase R Development Core Team (25)), el programa SPSS, versión 12, y el programa TSW (véase Gómez and Maraval (1996)).

3.- Análisis clásico de la serie A la vista del gráfico de la serie: 35, 3, pasajeros_metro 25, 2, 15, 1, APR 26 NOV 25 JUN 25 JAN 25 AUG 24 MAR 24 OCT 23 MAY 23 DEC 22 JUL 22 FEB 22 SEP 21 APR 21 NOV 2 JUN 2 JAN 2 AUG 1999 MAR 1999 OCT 1998 MAY 1998 DEC 1997 JUL 1997 FEB 1997 SEP 1996 APR 1996 NOV 1995 JUN 1995 Podemos decir que la serie presenta componente estacional (en periodos de un año se repite la misma conducta), tendencia-ciclo pues la serie no es estable en media (aumenta con el paso del tiempo) y componente irregular. Además, se observa un corte en el mes de diciembre de 25 y esto es debido a que el dato correspondiente a este mes no se ha recogido. También, en torno a febrero de 1997 se aprecia un comportamiento anómalo respecto a la tendencia y estacionalidad general de la serie. Con la finalidad de describir adecuadamente la serie haremos uso tanto de los métodos de descomposición como de los métodos de suavizado exponencial. 3.1.- Métodos de descomposición Aplicaremos los métodos de descomposición para identificar y aislar, de la forma más precisa posible, cada una de las componentes de variación presentes en la serie. A simple vista tenemos una serie con componente tendencia-ciclo, componente estacional (de periodo 12) y componente irregular. Por tanto nuestra serie será de la siguiente forma: Xt = f(tt, St,It) donde Xt denota el dato en el instante t, Tt denota la componente tendencia, St la componente estacional e It la componente irregular, todo ello en el instante t. Existen diferentes modelos de descomposición para series temporales: aditivo, multiplicativo y mixto, en nuestro caso nos decantaremos por el modelo aditivo pues la amplitud de las ondas no aumenta conforme transcurre el tiempo. En tal caso: Xt = Tt + St + It

A continuación aplicaremos la descomposición clásica (basada en el concepto de medias móviles) y la descomposición STL, acrónimo de seasonal-trend descomposition based on Loess (véase Cleveland et al. (199)). Para ello trabajaremos tanto con el SPSS como con el R restringiéndonos a modelos aditivos. A partir de ahora eliminaremos los 6 últimos valores (a partir del dato perdido) para evitar problemas. A. MÉTODOS DE DESCOMPOSICIÓN CLÁSICOS Estos métodos están basados en el concepto de medias móviles. Haciendo uso del programa SPSS obtenemos los siguientes índices estacionales al aplicarle el modelo aditivo a nuestra serie pasajeros_metro: Periodo Indices estacionales 1 23,444 2 44,819 3 2348,73 4 883,736 5 232,86 6-91,847 Periodo Indices estacionales 7-72,56 8-9844,46 9-832,456 1 319,594 11 1783,728 12 371,711 Como se observa el mes con menor índice estacional es agosto, le siguen septiembre, julio y junio. Los meses con mayor índice son octubre, marzo, mayo y noviembre. Una posible explicación a estas diferencias puede ser que las personas usan, en general, el metro para ir a trabajar por lo cual en las épocas de vacaciones el número de pasajeros disminuye. También es explicable el hecho de que el índice de agosto tenga una magnitud tan elevada (con signo negativo) pues gran parte de la población tiene vacaciones y abandona la ciudad. En la gráfica de la componente estacional se observa esta diferencia de magnitud entre el índice de agosto y el resto: Componente estacional de la serie pasajeros_metro 4, 2,, -2, -4, -6, -8, -1, NOV 25 JUN 25 JAN 25 AUG 24 MAR 24 OCT 23 MAY 23 DEC 22 JUL 22 FEB 22 SEP 21 APR 21 NOV 2 JUN 2 JAN 2 AUG 1999 MAR 1999 OCT 1998 MAY 1998 DEC 1997 JUL 1997 FEB 1997 SEP 1996 APR 1996 NOV 1995 JUN 1995

A continuación estimemos la tendencia realizando un suavizado mediante medias móviles centradas y comparémosla con la tendencia que nos proporciona el programa SPSS en la descomposición del modelo aditivo. Como la serie tiene componente estacional, los órdenes que usaremos serán múltiplos del periodo pues si no, como se recoge en el primer gráfico, la tendencia se verá afectada por la componente estacional. 35, pasajeros_metro MA (pasajeros_metro, 6,6) 35, pasajeros_metro MA (pasajeros_metro, 12,12) 3, 3, 25, 25, 2, 2, 15, 15, 1, 1, JUL 25 JAN 25 JUL 24 JAN 24 JUL 23 JAN 23 JUL 22 JAN 22 JUL 21 JAN 21 JUL 2 JAN 2 JUL 1999 JAN 1999 JUL 1998 JAN 1998 JUL 1997 JAN 1997 JUL 1996 JAN 1996 JUL 1995 JUL 25 JAN 25 JUL 24 JAN 24 JUL 23 JAN 23 JUL 22 JAN 22 JUL 21 JAN 21 JUL 2 JAN 2 JUL 1999 JAN 1999 JUL 1998 JAN 1998 JUL 1997 JAN 1997 JUL 1996 JAN 1996 JUL 1995 amplitud K=6 amplitud K=12 (perdemos 6 datos) (perdemos 12 datos) La mejor aproximación será la de K=12, pues se aproxima bien a la serie y no pierde demasiados datos. A continuación vamos a representar la tendencia obtenida a partir de la descomposición para modelos aditivos proporcionada por el SPSS y al lado representamos la estimación obtenida a partir del método de media móvil para k=12. Componente tendencia-ciclo de la serie pasajeros_metro 3, 28, 26, 24, 22, 2, 18, 28, 26, 24, 22, 2, media móvil para K=12 en la serie pasajeros_metro3, NOV 25 JUN 25 JAN 25 AUG 24 MAR 24 OCT 23 MAY 23 DEC 22 JUL 22 FEB 22 SEP 21 APR 21 NOV 2 JUN 2 JAN 2 AUG 1999 MAR 1999 OCT 1998 MAY 1998 DEC 1997 JUL 1997 FEB 1997 SEP 1996 APR 1996 NOV 1995 JUN 1995 (tendencia descomposición SPSS) SEP 25 MAY 25 JAN 25 SEP 24 MAY 24 JAN 24 SEP 23 MAY 23 JAN 23 SEP 22 MAY 22 JAN 22 SEP 21 MAY 21 JAN 21 SEP 2 MAY 2 JAN 2 SEP 1999 MAY 1999 JAN 1999 SEP 1998 MAY 1998 JAN 1998 SEP 1997 MAY 1997 JAN 1997 SEP 1996 MAY 1996 JAN 1996 SEP 1995 MAY 1995 (media móvil para k=12)

Según los gráficos obtenidos vemos que la tendencia que nos devuelve el SPSS de la descomposición estacional tiene todavía componente irregular. Podríamos considerar que la segunda es el suavizado de la primera. En ambas podemos sacar la misma conclusión: la serie aumenta y disminuye al principio en igual proporción para finalmente presentar tendencia creciente. Esta "irregularidad" puede ser debida a valores atípicos ó intervenciones en la serie. En la introducción ya comentábamos la existencia de un posible valor atípico en el primer tramo. Finalmente, veamos que los residuos que hemos obtenido no tienen estructura estacional ni tendencia y además deben tener varianza constante y media, es decir, deben ser aleatorios. Si ocurre todo esto es que la descomposición es la adecuada. Componente irregular de la serie pasajeros_metro 2, 1,, -1, -2, Aparentemente se verifica todo lo exigido. Por lo que podemos dar por válida la descomposición realizada. NOV 25 JUN 25 JAN 25 AUG 24 MAR 24 OCT 23 MAY 23 DEC 22 JUL 22 FEB 22 SEP 21 APR 21 NOV 2 JUN 2 JAN 2 AUG 1999 MAR 1999 OCT 1998 MAY 1998 DEC 1997 JUL 1997 FEB 1997 SEP 1996 APR 1996 NOV 1995 JUN 1995 B. METODOS DE DESCOMPOSICIÓN STL En el R realizaremos el método de descomposición STL, cuya principal herramienta es el suavizado de Loess. Mediante este procedimiento realizaremos una estimación de la tendencia de la misma. Si c denota el tanto por cierto de los datos que utilizamos para hacer las regresiones locales en el método de suavizado de Loess entonces: c pequeña da importancia a los datos de forma individual, la tendencia se ajustará más a la serie original, quedando más patente la componente irregular. c es grande el suavizado será mayor, en este caso la tendencia quedará reducida prácticamente a una línea recta y obtenemos menos irregularidades.

Veamos los gráficos de las componentes de la serie tras realizar una descomposición con el método STL para c =1/5 remainder trend seasonal data 2 24 28 1 2 3-3 2-1 -4 1996 1998 2 22 24 26 time Con esta descomposición podemos hacer los mismos comentarios sobre las componentes tendencia y estacional que realizaremos para la descomposición clásica. C. COMPARATIVA ENTRE AMBOS MÉTODOS Los índices estacionales varían levemente entre ambos métodos, expresando la misma idea de cuáles son los meses con mayor número de pasajeros y cuáles los de menor. periodo d. clásica d. stl 1 299.79599 23,444 2 43.3114 44,819 3 2439.35721 2348,73 4 677.95493 883,736 5 2355.3711 232,86 6-69.1138-91,847 7-719.86416-72,56 8-9889.47233-9844,46 9-75,9916-832,456 1 2986.5689 319,594 11 1857.63941 1783,728 12 382.784 371,711

Comparemos ya los dos métodos, la línea roja representará a las componentes procedentes del método STL y la azul a las procedentes del método de descomposición clásica. stl.metro$time.series[, 1] -1-6 -4-2 2 tendencia 2 22 24 26 28 1996 1998 2 22 24 26 1996 1998 2 22 24 26 Time Time La componente ciclo es aparentemente igual, lo vimos en la tabla (sufren variaciones que son muy pequeñas para las magnitudes de los datos) Obsérvese que la tendencia en el caso del SPSS es más irregular. En realidad las dos descomposiciones serían válidas, pero parece que la descomposición STL consigue describir mejor la componente tendencia de la serie. 2.2.- Métodos de suavizado exponencial Con este tipo de método lo que pretendemos, al igual que con los métodos anteriores, es eliminar las fluctuaciones aleatorias de la serie y aprovechar cualquier conducta "evidente" de la misma con la finalidad de predecir nuevos valores. Estos valores serán medias de valores pasados donde cada dato tendrá un peso diferente, que decrecerá de forma exponencial desde el dato más reciente hasta el más distante. Nuestra serie presenta una tendencia aparentemente lineal, si obviamos el problema de los primeros meses, y además presenta componente estacional. Por ello utilizaremos el método de suavizado exponencial de Holt-Winter para el modelo aditivo. Para realizar este análisis utilizaremos el programa SPSS. La elección de los parámetros que ajustan al modelo la realizamos con una búsqueda de rejilla de forma que minimicemos el error cuadrático medio.

Aplicamos el modelo personalizado para tendencia lineal y modelo aditivo con búsqueda en rejilla de α, β y δ con pasos de.1,.1,.1 respectivamente y obtenemos los siguientes valores: α =.26, β =, δ = La serie en color verde representa la serie obtenida tras aplicar el método de suavizado exponencial. 35, 3, 25, 2, 15, pasajero serie_suavizado exponencial Error pasajer_metro suavizado exponencial 2,, -2, -4, 1, JUL 25 JAN 25 JUL 24 JAN 24 JUL 23 JAN 23 JUL 22 JAN 22 JUL 21 JAN 21 JUL 2 JAN 2 JUL 1999 JAN 1999 JUL 1998 JAN 1998 JUL 1997 JAN 1997 JUL 1996 JAN 1996 JUL 1995 NOV 25 JUN 25 JAN 25 AUG 24 MAR 24 OCT 23 MAY 23 DEC 22 JUL 22 FEB 22 SEP 21 APR 21 NOV 2 JUN 2 JAN 2 AUG 1999 MAR 1999 OCT 1998 MAY 1998 DEC 1997 JUL 1997 FEB 1997 SEP 1996 APR 1996 NOV 1995 JUN 1995 Como se aprecia se ajusta bastante bien a la original salvo en el periodo conflictivo, cosa que se ve claramente en el gráfico de los residuos (figura derecha), ya que en ese periodo se incrementa el error considerablemente. En el apartado 5 utilizaremos este método para hacer predicciones y compararlas con las que obtendremos a partir de un modelo Arima que se ajuste a nuestros datos. (Veamos ya cuál es el mejor modelo Arima para ellos)

4.1.- Ajuste de un modelo ARIMA La finalidad de esta sección es encontrar un modelo de la familia ARIMA que se ajuste a los datos para lo cual utilizaremos la metodología de Box-Jenkins. Esta metodología consta de las fases de identificación, estimación y diagnosis. El modelo ajustado nos permitirá hacer posteriormente, en la sección 6, predicciones para la serie estudiada. 4.1.- Identificación En primer lugar, analizaremos la estacionariedad de la serie. Esta serie es claramente no estacionaria al presentar, al menos, una acusada tendencia y componente estacional. A simple vista parece que la varianza es constante a lo largo de la serie pero la inestabilidad de la varianza a veces viene enmascarada por la tendencia o por la componente estacional. Realizamos en el R el gráfico de dispersión-media: Desviación típica 31 32 33 34 35 36 37 Se ve claramente que la varianza es estable ya que los puntos no siguen ninguna distribución concreta, además la transformación de Box-Cox que se propone es para: λ = 1 - α = 1 -.5545 =.94455 (1 es el λ asociado a la identidad) 2 22 24 26 28 Media Representamos la función de autocorrelación simple (fas) y la función de autocorrelación parcial (fap) de la serie: pasajero_metro pasajero_metro 1,,5 Coeficiente Límite superior Límite inferior 1,,5 Coeficiente Límite superior Límite inferior fas, fap, -,5 -,5-1, -1, 47 45 43 41 39 37 35 33 31 29 27 25 23 21 19 17 15 13 11 9 7 5 3 1 No de retardos 47 45 43 41 39 37 35 33 31 29 27 25 23 21 19 17 15 13 11 9 7 5 3 1 No de retardos

También en la fas se observa la tendencia (decrecimiento lento a ) y la componente estacional (decrecimiento lento a en los múltiplos de la estacionalidad) Por ello, para obtener una serie estacionaria aplicaremos una diferenciación estacional y una ordinaria a nuestros datos. 6, 4, pasajero_metro 2,, -2, -4, -6, OCT 25 JUN 25 FEB 25 OCT 24 JUN 24 FEB 24 OCT 23 JUN 23 FEB 23 OCT 22 JUN 22 FEB 22 OCT 21 JUN 21 FEB 21 OCT 2 JUN 2 FEB 2 OCT 1999 JUN 1999 FEB 1999 OCT 1998 JUN 1998 FEB 1998 OCT 1997 JUN 1997 FEB 1997 OCT 1996 JUN 1996 FEB 1996 Número secuencial Transformaciones: diferencia(1), diferencia estacional(1, período 12) Como se aprecia en el gráfico parece que la serie resultante es estacionaria, aunque faltaría comprobar que la varianza es estable. El nuevo gráfico de dispersiónmedia lo corrobora y en este caso se obtiene un α =.1558 y por tanto λ =.98442 1, lo que nos indica que no es necesario ninguna transformación más. Una vez transformada la serie, de manera que, podamos considerar que procede de un proceso estacionario, identifiquemos a continuación la estructura estacionaria de la serie. Las principales herramientas para tratar de identificar el modelo que se ajusta a nuestros datos son las funciones de autocorrelación simple (fas) y parcial (fap). pasajero_metro pasajero_metro 1, Coeficiente Límite superior Límite inferior 1, Coeficiente Límite superior Límite inferior,5,5 fas, fap, -,5 -,5-1, -1, 47 45 43 41 39 37 35 33 31 29 27 25 23 21 19 17 15 13 11 9 7 5 3 1 No de retardos 47 45 43 41 39 37 35 33 31 29 27 25 23 21 19 17 15 13 11 9 7 5 3 1 No de retardos A la hora de identificar la parte ordinaria nos fijamos en los primeros retardos. Los modelos más factibles son: MA(1) pues en la fas se aprecia un retardo no significativo y en la fap se observa un decrecimiento lento a. (También podíamos considerar MA(2) porque el segundo retardo en la fas esta próximo a las bandas pero de momento no lo haremos pues si fuese necesario el MA(2) en la fase de sobreajuste lo obtendríamos) AR(2) pues en la fap se observan dos retardos significativos y la fas decrece de forma sinusoidal a.

Para estudiar la parte estacional nos fijamos en los retardos múltiplos de la estacionalidad, es decir en los múltiplos de 12: pasajeros_metro pasajeros_metro 1, Coeficiente Límite superior Límite inferior 1, Coeficiente Límite superior Límite inferior,5,5 fas, fap, -,5 -,5-1, -1, 12 24 36 48 No de retardos 12 24 36 48 No de retardos En este caso consideraremos: MA(1) pues en la fas hay un retardo significativo y en la fap se aprecia un decrecimiento lento a de forma sinusoidal. (Hemos rechazado que el cuarto retardo sea significativo en la fas pues el segundo y el tercero no lo son, así que este hecho lo asociaremos a la aleatoriedad) También podríamos pensar en un AR(1) pero parece menos verosímil, ya que el primer retardo de la fas no es claramente significativo. Por tanto los modelos que consideraremos serán: ARIMA(,1,1)xARIMA(,1,1)12 ARIMA(2,1,)xARIMA(,1,1)12 ARIMA(,1,1)xARIMA(1,1,)12 ARIMA(2,1,)xARIMA(1,1,)12 4.2.- Estimación En la fase de estimación queremos estimar los parámetros de cada modelo propuesto en la fase de identificación y comprobar si estos modelos son válidos, en el sentido de que los correspondientes coeficientes sean significativamente distintos de cero. Las estimaciones de los coeficientes de cada modelo son: ARIMA(,1,1)xARIMA(,1,1)12 ARIMA(.1,1)XARIMA(1,1,)12 Estimación p-valor Estimación p-valor MA1,722392, MA1,7361399, SMA1,712151,5 SAR1 -.46822242,12

ARIMA(2,1,)xARIMA(,1,1)12 ARIMA(2,1,)XARIMA(1,1,)12 Estimación p-valor Estimación p-valor AR1 -,6798649, AR1 -,69878296, AR2 -,281311,23223 AR2 -,27744572,258466 SMA1,68722743,11 SAR1 -,4589758,34 Todos los coeficientes son significativos, con lo que en principio todos los modelos son factibles. Para elegir de estos modelos cuál es el más adecuado utilizaremos el coeficiente de información de Akaike (AIC) y el criterio bayesiano de Schwarz (SBC) El modelo que minimice estas cantidades será considerado el más idóneo. AIC SBC ARIMA(,1,1)xARIMA(,1,1)12 246,1228 251,6642 ARIMA(2,1,)xARIMA(,1,1)12 252,139 26,416 ARIMA(,1,1)xARIMA(1,1,)12 272,789 278,3312 ARIMA(2,1,)xARIMA(1,1,)12 278,163 286,3283 A la vista del AIC y SBC el modelo con el que nos quedaremos será el ARIMA(,1,1)xARIMA(,1,1)12 pues tiene menor AIC y SBC. También se observa que los modelos con parte estacional de medias móviles presentan menor AIC y SBC que los de parte autorregresiva. 4.3.- Diagnosis Realicemos la fase de diagnosis para el modelo elegido: ARIMA(,1,1)xARIMA(,1,1)12 Análisis de los coeficientes estimados Matriz de correlación MA1 SMA 1 MA1 1, -,186764 SMA1 -,186764 1, Los estimadores de los coeficientes del modelo son incorrelados, pues el coeficiente de correlación entre ambos es muy pequeño.

Análisis de los residuos Queremos comprobar si los residuos representan un proceso de ruido blanco, es decir, tienen varianza constante, media cero y son incorrelados. Además comprobaremos si son normales pues esto nos permitirá obtener bandas para las predicciones basadas en normalidad. Homogeneidad en la varianza de los residuos: Error pasajero_metro ARIMA(,1,1)xARIMA(,1,1)12 4, 2,, -2, -4, -6, Asumiremos la estabilidad en la varianza aunque parezca que es mayor al principio, pero eso es debido a la irregularidad que se produce a comienzos del año 1997. NOV 25 JUN 25 JAN 25 AUG 24 MAR 24 OCT 23 MAY 23 DEC 22 JUL 22 FEB 22 SEP 21 APR 21 NOV 2 JUN 2 JAN 2 AUG 1999 MAR 1999 OCT 1998 MAY 1998 DEC 1997 JUL 1997 FEB 1997 SEP 1996 APR 1996 NOV 1995 JUN 1995 Media nula La media es -81,911562 que teniendo en cuenta las magnitudes que utilizamos aunque no sea próxima a como el intervalo para ella al 95% es (339,7552171, 175,932247) que contiene al, no rechazaremos que la media sea nula. Residuos incorrelados Error pasajero_metro modelo ARIMA(,1,1)xARIMA(,1,1)12 Error pasajero_metro modelo ARIMA(,1,1)xARIMA(,1,1)12 1, Coeficiente Límite superior 1, Coeficiente Límite superior Límite inferior Límite inferior,5,5 fas, fap, -,5 -,5-1, -1, 47 45 43 41 39 37 35 33 31 29 27 25 23 21 19 17 15 13 11 9 7 5 3 1 No de retardos 47 45 43 41 39 37 35 33 31 29 27 25 23 21 19 17 15 13 11 9 7 5 3 1 No de retardos Se observa que los retardos 2, 13, 24 y 48 pueden ser significativos. El test de Box-Ljung resuelve que ningún retardo es significativo, para los retardos problemáticos obtenemos los siguientes p-valores:,174 -,23 -,145 -,123. Todos son no significativos, luego podemos considerar que los residuos son incorrelados.

Normalidad en los residuos Análisis gráfico: Gráfico Q-Q normal de Error pasajero_metro (,1,1)xARIMA(,1,1)12 ARIMA 4 Normal esperado 2-2 -4-6. -4. -2. 2. 4. Valor observado A la vista del gráfico no podemos rechazar la normalidad, pero tampoco podemos aceptarla pues los datos iniciales y finales se comportan de manera no deseada ya que distan bastante de la recta, y esto es un signo de no normalidad. Para salir de dudas veamos dos test de normalidad. Pruebas de normalidad: Obtenemos que el test de Kolmogorov-Smirnov (Lilliefors) es altamente no significativo (p-valor >.2), es decir, no podemos rechazar la hipótesis nula, es decir la hipótesis de normalidad. En cambio, el test de Shapiro-Wilk es significativo (p-valor=.23) Por tanto, no tenemos asegurada la normalidad de los residuos. Realicemos ahora el sobreajuste del modelo ARIMA(,1,1)xARIMA(,1,1)12. Veamos que cualquier nuevo coeficiente que añadamos al mismo va a ser no significativo, es decir no va a aportar información significativa al modelo debido a problemas de colinealidad. En algunos casos convierte en no significativo coeficientes que antes lo eran. coeficiente significación coeficiente significación introducido antiguo ARIMA(,1,2)xARIMA(,1,1)12 MA2,49225927 SMA1,33337345 ARIMA(1,1,1)xARIMA(,1,1)12 AR1,265346 SMA1,3525664 ARIMA(,1,1)xARIMA(,1,2)12 SMA2,17543445 ARIMA(,1,1)xARIMA(1,1,1)12 SAR1,626551 Hemos visto que al introducir nuevos parámetros al modelo estos no lo mejoran por lo que nos quedamos con el modelo inicial: ARIMA(,1,1)XARIMA(,1,1)12 Luego el modelo Arima del que podemos considerar que nuestra serie es una trayectoria es: (1-B)(1-B12)Xt = (1-,72B)(1-,71B12)Zt donde Xt es el valor de la serie en el tiempo t {Zt}t es un proceso de ruido blanco y B es el operador de retardo ( BkYt = Yt-k para cualquier serie {Yt}t )

5.- Búsqueda de valores atípicos La distribución de la serie original, así como la de los residuos (sobre todo con la irregularidad presente en torno al año 1997) nos hace plantearnos la posibilidad de que existan valores atípicos en la serie Para determinar su existencia vamos a utilizar el programa TSW. El análisis de la serie con este software partiendo del modelo ajustado de la sección anterior nos proporciona 5 valores atípicos. Al analizar los residuos obtenemos que estos son correlados pues tienen p- valores significativos: fas 1,,5, -,5-1, errorestsw 1 -->,31 2 -->,97 Coeficiente Límite superior 3 -->,86 Límite inferior 4 -->,56 5 -->,71 6 -->,58 7 -->,19 8 -->,3 9 -->,15 1 -->,5 11 -->,7 12 -->,6 47 45 43 41 39 37 35 33 31 29 27 25 23 21 19 17 15 13 11 9 7 5 3 1 No de retardos A la vista de estos resultados debemos volver a la fase de identificación. Habíamos identificado cuatro modelos como plausibles y habíamos decidido que los que tenían parte estacional de medias móviles eran mejores y tomamos el de menor AIC, ARIMA(,1,1)xARIMA(,1,1)12. Veamos si con el otro modelo de los posibles, ARIMA(2,1,)xARIMA(,1,1)12, no tenemos problemas al identificar los valores atípicos, es decir si podemos considerar que tiene los residuos incorrelados e inclusos normales. En el nuevo modelo aparecen cinco valores atípicos dos de ellos aditivos, dos cambios transitorios y un cambio de nivel. Tal como habíamos observado al principio hay dos atípicos en los meses de enero y marzo de 1997 (cambio de nivel y atípico aditivo, respectivamente) Además aparecen otro atípico aditivo en abril de 1999 y cambios transitorios en los meses de abril de 22 y abril del 25. Las estimaciones que obtenemos en el TSW para nuestro modelo tras localizar los atípicos son: Variables en el modelo: Estimación Error Estándar significativa? AR1.89118.858.89118 > 2 x.858 =.16118 AR2.51285.882.51285 > 2 x.882 =.16164 SMA1 -.83258.129.83258 > 2 x.129 =.2418

Atípicos: Estimación Error Estándar significativa? LS 1-1997 -3157. 69.67378 3157. > 2 x 69.67378 =131.1344756 AO 3-1997 -315.2 824.8772 315.2 > 2 x 824.8772 =1649.7544 AO 4-1999 4271.3 782.56649 271.3 > 2 x 782.56649 =1565.13298 TC 4-22 3739.7 696.22749 3739.7 > 2 x 696.22749 =1392.45498 TC 4-25 3623.1 719.31348 3623.1 > 2 x 719.31348 =1438.62696 Por tanto, las variables y los atípicos son significativos, no deberíamos eliminar ninguno de ellos. Además en este modelo disminuye el AIC hasta 1976.48 (sin atípicos era 252,139 y para el modelo ARIMA(,1,1)xARIMA(,1,1)12 era 246,12). En cuanto a los atípicos obtenidos cabe destacar los correspondientes a 1997 que se pueden justificar pues se realizó durante esos meses una huelga de personal, lo que disminuyó considerablemente el número de pasajeros pues se cerraron algunos servicios. (La huelga era para pedir un incremento en el sueldo a percibir tras la jubilación). Diagnosis ARIMA(2,1,)xARIMA(,1,1)12 Análisis de los residuos obtenidos tras búsqueda de atípicos Queremos comprobar si los residuos que se obtienen tras la búsqueda de atípicos son un proceso de ruido blanco. Veamos que en este caso no se produce lo mismo que en el modelo anterior que al introducir los atípicos los residuos se volvían correlados. Residuos incorrelados errorestswar2xma1 errorestswar2xma1 1, Coeficiente Límite superior 1, Coeficiente Límite superior Límite inferior Límite inferior,5,5 fas, fap, -,5 -,5-1, -1, 47 45 43 41 39 37 35 33 31 29 27 25 23 21 19 17 15 13 11 9 7 5 3 1 No de retardos 47 45 43 41 39 37 35 33 31 29 27 25 23 21 19 17 15 13 11 9 7 5 3 1 No de retardos Se observan algunos retardos en el límite, podrían ser significativos, pero el test de Box-Ljung nos permite concluir que son incorrelados (pues todos tienen p- valores mayores que.5)

Comprobemos que los residuos cumplen el resto de condiciones para que el modelo sea válido. Media nula La media es -88,6252 pero aunque no es próxima a el intervalo para ella al 95% es (-263,8923, 86,6418) que contiene al, por lo que no podremos rechazar que la media es nula. Homogeneidad en la varianza de los residuos: 2, errorestswar2xma1 1,, -1, -2, -3, Desviación típica 6 7 8 9 1 11 12 SEP 25 MAY 25 JAN 25 SEP 24 MAY 24 JAN 24 SEP 23 MAY 23 JAN 23 SEP 22 MAY 22 JAN 22 SEP 21 MAY 21 JAN 21 SEP 2 MAY 2 JAN 2 SEP 1999 MAY 1999 JAN 1999 SEP 1998 MAY 1998 JAN 1998 SEP 1997 MAY 1997 JAN 1997 SEP 1996 MAY 1996 JAN 1996 SEP 1995 MAY 1995-4 -2 2 4 Media Asumiremos la estabilidad en la varianza. Pues aunque en el gráfico de dispersión media parece que la varianza disminuye conforme aumenta la media, obtenemos un λ= 1 +.176 que es próximo a 1. Normalidad en los residuos Análisis gráfico: Gráfico Q-Q normal de errorestswar2xma1 Normal esperado 4 2-2 A la vista del gráfico no podemos rechazar la normalidad, pero tampoco podemos aceptarla al cien por cien, para salir de dudas veamos los test de normalidad. -4-4. -2. 2. 4. Valor observado Pruebas de normalidad: Obtenemos que tanto el test de Kolmogorov-Smirnov (Lilliefors) como el de Shapiro-Wilk son no significativos con probabilidades de significación,83 y,261 respectivamente, luego no podemos rechazar la hipótesis nula de normalidad.

6.- Predicción Poder hacer predicciones es la finalidad que tiene el estudio de series temporales, sacar conclusiones de los valores pasados para poder predecir, en base de los modelos obtenidos, el comportamiento futuro. Podemos hacer predicciones bien con el método de suavizado exponencial o a partir del modelo ARIMA que hemos ajustado tras aplicar metodología de Box-Jenkins. Veamos cual es mejor y haremos predicciones para el próximo año con el que sea más adecuado. Veremos cual de los dos tiene menor error cuadrático medio (ECM) en el periodo enero 24 - noviembre 25 y este será el elegido a la hora de hacer predicciones ECM(arima) 77.829,7 ECM(suav.exp) 1.48.621 Por tanto es más aconsejable utilizar el modelo ARIMA que hemos ajustado para obtener predicciones futuras de la serie. Veamos cuales son las predicciones para el año 26 a partir de julio y hasta noviembre del año 27. 35, 3, 25, 2, 15, 1, 1995 1996 1997 1998 1999 2 21 22 23 24 25 26 27 28 prediccionestsw mes-año predicción pasajero_metro 7-26 27985,24 8-26 18851,71 9-26 2819,15 1-26 31847,59 11-26 3969,8 12-26 2959,63 1-27 29521,8 2-27 29897,51 3-27 32157,46 4-27 29188,45 5-27 31527,26 6-27 29248,52 7-27 28816,27 8-27 19656,13 9-27 2897,5 1-27 3268,12 11-27 3183,9

7.- Conclusión final En conclusión, aplicando distintas metodologías de series temporales, hemos encontrado un modelo que explica el comportamiento de nuestra serie y con el que podemos hacer predicciones. Debemos notar que aunque el modelo inicial ARIMA(,1,1)xARIMA(,1,1)12 parecía mejor, la existencia de valores atípicos nos ha obligado a cambiar a otro modelo que se ajusta más a los requisitos teóricos y a la propia serie. Por tanto, consideramos que el modelo que mejor se adapta a nuestros datos será: ARIMA(2,1,)xARIMA(,1,1)12, junto con cinco atípicos. El modelo final será: X t (1 +,83B) 2 (1,89B,51B )(1 B)(1 B = Z 12 t ) + (25) (27) (29) 3739,7 (88) 3623,1 3157,St 315,2I t + 4271,3 I t + I t + I t (1,7B) (1,7B) (124) Bibliografía Box, G.E.P., Jenkins, G.M. and Reinsel, G.C. (1994) Times Series Analysis: Forecasting and Control. Prentice Hall. Cleveland,R. B. and Cleveland, W. S. and McRae,J. E. and Terpenning, (199) STL: A seaonal--trend descomposition procedure based on Loess. Journal Official Statistics, volumen ="6",páginas="3-73"} Gómez, V. y Maravall, A. (1996) Programs TRAMO (Time Series Regression with Arima noise, Missing observations and Outliers) and SEATS (Signal Extraction in Arima Time Series). Instructions for the user. Documento de trabajo 9628, Servicio de Estudios, Banco de España. R Development Core Team (25). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-951-7-, URL http://www.r-project.org.