Econometría de series de tiempo aplicada a macroeconomía y finanzas Series de Tiempo Estacionarias (Multivariadas) Carlos Capistrán Carmona ITAM
1 Principios de Pronóstico. 2 Pruebas de Hipótesis. 3 Estimación por Máxima Verosimilitud. 4 Vectores Autorregresivos.
Principios de pronóstico Queremos pronosticar y 1t con base en: y 1t 1, y 1t 2,..., y 1t p y 2t 1, y 2t 2,..., y 2t p y nt 1, y nt 2,..., y 3n p En adición, podemos agregar funciones determinísticas del tiempo, como 1, t, cos( πt 6 ), dummies estacionales, etc..
Principios de pronóstico Definimos: y t (nx1) = (y 1t, y 2t,..., y nt ) x t (kx1) = (1, y t 1, y t 2,..., y t p ) k = np + 1
Principios de pronóstico Consideramos el pronóstico lineal: ŷ 1t t 1 = β x t El mejor pronóstico es: el valor de β que minimiza: E(y 1t β x t ) 2
Principios de pronóstico Proposición: Si y t es estacionario en covarianza, y E(x t x t ) es no-singular, el pronóstico óptimo utiliza: β = E(x t x t ) 1 E(x t y t )
Principios de pronóstico Definición: El pronóstico lineal óptimo ŷ 1t t 1 = β x t es llamado proyección lineal poblacional de y 1t sobre x t.
Principios de pronóstico Definición: La estimación de Mínimos Cuadrados Ordinarios (OLS por sus siglas en inglés) está dada por: ˆβ = ( T ) 1 ( T ) x t x t x t y t t=1 t=1 Proposición: Si y t es ergódica, entonces ˆβ p β
Principios de pronóstico Prueba (Ley de los grandes números): ˆβ = ( ) 1 ) T 1 T x t x t (T 1 T x t y t t=1 t=1 p E(x t x t ) 1 E(x t y t )
1 Principios de Pronóstico. 2 Pruebas de Hipótesis. 3 Estimación por Máxima Verosimilitud. 4 Vectores Autorregresivos.
Pruebas de hipótesis Hasta ahora hemos asumido que: y t es estacionaria y ergódica E(x t x t ) es no singular a partir de eso concluimos que: Mínimos cuadrados ordinarios (OLS) arroja estimadores consistentes de los pesos de pronóstico óptimos.
Pruebas de hipótesis Supongamos que deseamos hacer una prueba de hipótesis, e.g. H 0 : y 2,t 1, y 2,t 2,..., y 2,t p no ayudan a pronosticar y 1t
Pruebas de hipótesis Necesitamos supuestos mas fuertes para hacer pruebas de hipótesis: ε t = y 1t β x t E(ε t y 1t, y 2t,..., y 1 ) = 0 E(ε 2 t ) = σ 2 E(ε 4 t ) < Entonces: todas las pruebas usuales de OLS t o F sobre ˆβ son válidas para obtener conclusiones acerca de β
Pruebas de hipótesis Siguiendo con el ejemplo, la prueba de hipótesis, H 0 : y 2,t 1, y 2,t 2,..., y 2,t p no ayudan a pronosticar y 1t se puede llevar a cabo usando una prueba F usual. Si los coeficientes de y 2,t 1, y 2,t 2,..., y 2,t p son todos cero (i.e. si no rechazamos la hipótesis nula), entonces decimos que y 2 no causa a la Granger a y 1
1 Principios de Pronóstico. 2 Pruebas de Hipótesis. 3 Estimación por Máxima Verosimilitud. 4 Vectores Autorregresivos.
Estimación por máxima verosimilitud Ahora hagamos un supuesto más fuerte: ε t y t 1, y t 2,..., y 1 N(0, σ 2 ) En este caso, la función de (log) verosimilitud condicional muestral sería: T log f (y 1t y t 1, y t 2,..., y t p ) t=1 = T 2 log(2πσ2 ) T t=1 (y 1t β x t ) 2 2σ 2
Estimación por máxima verosimilitud El valor de β que maximiza la (log) verosimilitud es el estimador de OLS ˆβ. El estimador de máxima verosimilitud (MLE) de σ 2 es: σ 2 = T 1 T (y 1t ˆβ x t ) 2 t=1
Estimación por máxima verosimilitud Una opción es maximizar la función de verosimilitud incluso si no creemos el supuesto sobre la distribución, en ese caso, tenemos estimación por cuasi-máxima verosimilitud. Si el supuesto de la distribución es incorrecto (lo cierto es que ε t Student t), entonces MLE aún es consistente, pero ya no es eficiente.
Estimación por máxima verosimilitud Por otro lado, si estamos convencidos de que los errores siguen una distribución t de Student, es mejor escoger (β, σ, ν) para maximizar T q t : t=1 ( ) ν + 1 ( ν ) q t = log Γ log Γ 1 2 2 2 log(σ2 νπ) ν + 1 log (1 + (y t β x t ) 2 ) 2 νσ 2
1 Principios de Pronóstico. 2 Pruebas de Hipótesis. 3 Estimación por Máxima Verosimilitud. 4 Vectores Autorregresivos.
Hasta ahora, sólo hemos considerado el pronóstico de y 1t, el primer elemento del vector y t, usando: y 1t = π 1 x t + ε 1t = (1, y t 1, y t 2,..., y t p) x t (kx1) k = np + 1 ε 1t = error al pronosticar la variable 1
Obviamente, es posible establecer modelos análogos para pronosticar la segunda variable: y 2t = π 2x t + ε 2t = (1, y t 1, y t 2,..., y t p) x t (kx1)
Apilando las ecuaciones en un sistema de vectores, tenemos: y 1t y 2t. y nt = π 1 π 2. π n x t + ε 1t ε 2t. ε nt
y t = Π (nx1) (nxk) x t (kx1) + ε t (nx1) Π x t = [ ] c Φ 1 Φ 2 Φ p 1 y t 1 y t 2. y t p
y t = c + Φ 1 y t 1 + Φ 2 y t 2 +... + Φ p y t p + ε t Llamado un Vector Autorregresivo (VAR)
Si todos los escalares z (incluso complejos) que satisfacen I n Φ 1 z Φ 2 z 2... Φ p z p = 0 tambien satisfacen z > 1, entonces y t es estacionario en covarianza.
Ahora hacemos el supuesto de que ε t N(0, Ω): = log f ( y t, y 2,..., y T y 0, y 1,..., y p+1 ) T log f ( ) y t y t 1, y t 2,..., y t p t=1 = Tn 2 log (2π) T 2 log Ω 1 2 T ( yt Π ) x t Ω 1 ( y t Π ) x t t=1
Resultado 1: el i-ésimo renglón del estimador de máxima verosimilitud de Π está dado por: π t = ( T ) ( T y it x t x t x t t=1 t=1 ) 1 Es decir, es OLS ecuación por ecuación.
Resultado 2: el estimador de máxima verosimilitud Ω está dado por: Ω = T 1 T t=1 ε t ε t
Resultado 3: el valor máximo de la log-verosimilitud está dado por: Tn [1 + log (2π)] T 2 2 log Ω
Aplicación del resultado 3: prueba (contraste) de la razón de verosimilitud Prueba con la muestra completa de: donde H 0 : p 1 rezagos H A : p rezagos Ω(p 1) = T 1 T ε t (p 1) ε t (p 1) t=1 Ω(p) = T 1 T ε t (p) ε t (p) t=1 ε t (s) = residuales de un VAR con s rezagos
entonces, dos veces la razón de verosimilitud es: [ T log Ω(p 1) log Ω(p) ] χ 2 ( n 2) la corrección de Sims para muestras pequeñas: [ (T k) log Ω(p 1) log Ω(p) ] χ 2 ( n 2)
Criterio de información de Akaike: minimizar log Ω(p) ( ) pn 2 + 2 T Criterio de información de Schwarz: minimizar log Ω(p) ( ) pn 2 + log T T Regla de dedo : p 4 para datos trimestrales, usar rezagos 1 6 y 11 13 para datos mensuales