Microeconometría Karoll GOMEZ kgomezp@unal.edu.co http://karollgomez.wordpress.com Segundo semestre 2017
II. Métodos de estimación en econometría
El problema de la regresión I Asuma que se dispone de un vector de p variables predictoras X R p y una variable de respuesta Y R. Supóngase (X, Y ) distribuyen conjuntamente acorde con P(X, Y ) con medias E(X ) = µ X y E(Y ) = µ Y, y covarianzas Σ X X, Σ YY = σ 2 Y, y Σ X Y. Considérese ahora el problema de predecir a la variable Y por medio de una función de X, f (X ). La precisión de la predicción es medida por medio de una función de valor real función de pérdida L(Y, f (X )).
El problema de la regresión II La calidad de f como predictor es medida por medio de la pérdida esperada (conocida como función de riesgo), R(f ) = E [L(Y, f (X ))] = L(Y, f (X ))dp(x, Y ). Para una función de riesgo L(Y, f (X )) = (Y f (X )) 2 (error cuadrático medio), R(f ) = E [ (Y f (X )) 2] = (y f (x)) 2 dp(x, y) = (y f (x)) 2 dp(y x)dp(x) [ [ = E X EY X (Y f (X )) 2 X ]].
El problema de la regresión III R(f ) puede minimizarse en cada punto x, [ m(x) = arg min E Y X (Y f (X )) 2 X = x ] f : R p R Cuya solución es la media condicional (o función de regresión), m(x) = E(Y X = x) = ydp(y x) En efecto E [ (Y f (X )) 2] = E [ (Y m(x ) (f (X ) m(x )) 2] = E [ (Y m(x )) 2] + E [ (f (X ) m(x )) 2] 2E [(Y m(x )(f (X ) m(x ))] = E [ (Y m(x )) 2] + E [ (f (X ) m(x )) 2],
El problema de la regresión IV teniendo en cuenta que E [(Y m(x )(f (X ) m(x ))] = E {E [(Y m(x ))(f (X ) m(x )) X = x]} = E {E [(Y m(x )) X = x] (f (X ) m(x ))} = E {(E [Y X = x] m(x ))(f (X ) m(x ))} = E {(m(x ) m(x ))(f (X ) m(x ))} = 0 Así, el primer término en E [ (Y f (X )) 2] = E [ (Y m(x )) 2] + E [ (f (X ) m(x )) 2] no depende de f (X ), por lo tanto minimizar el riesgo equivale a minimizar E [ (f (X ) m(x )) 2], que es cero si f (X ) = m(x ).
El problema de la regresión V Ejemplo: Si Y es linealmente relacionada con X = (X 1,..., X p ) entonces, Y = f (X, β) + ε = X β + ε p = β j X j + ε, j=1 donde ε es una variable aleatoria no observada (componente de error) con media 0 y varianza σ 2 > 0, e independiente de X.
El problema de la regresión VI Otro modelo lineal es cuando las variables X = (Y t 1,..., Y t p) son p rezagos de la variable dependiente Y = f (X, β) + ε = X β + ε p = β j Y t j + ε, j=1 Este modelo se comoce como autoregresivo de orden p, AR(p).
Estimation methods
Estimation methods
Ordinary Least Squared Identification and estimation 2.1 Least squared estimation:
Estimation methods
Estimation methods Example: cross-section iid data Then, SCE(β) = y i = x i β + ε i, i = 1,..., (n > p) = n ε 2 i n (y i x i β) 2 = (y X β) (y X β) ( = y β X ) (y X β) = y y β X y y X β + β X X β = y y 2y X β + β X X β.
Knowing that (a z) z = a y (z Az) z then, taking difference w.r.t. β we have = 2Az para A simétrica, SCE(β) β = 2X y + 2X X β. Making equal to 0 ew obtaint a set of p normal equations X X β = X y. Asumiming Rango(X ) = p, the unique solution is given by b = β ( ) 1X = X X y ( n ) 1 n = x i x i x i y i.
Estimation methods
Estimation methods Remarks: The strict exogeneity assumption cannot hold, since that would require that ε t is independent of all values of the regressor, past, present and future. However, we can guarantie weak dependence: in general E[ε X ] = 0 must be hold, and here X t 1 is not correlated with ε t. For weak dependence to hold, the stability condition φ < 1 must be satisfied. The first order nature of the AR(1) model: once the first lag of X is included, no additional lags of X affect the expected value of X in this linear relationship.
Estimation methods Remarks: To use standard inference procedures, we must impose assumptions of homoskedasticity and no serial correlation on the error process. Here we include contemporaneous homoskedasticity and serial independence. This implies that the usual OLS standard errors, t statistics and F statistics are asymptotically valid.
Maximum Likelihood 2.2 Maximun Likelihood estimation:
Estimation methods
Estimation methods Example: Linear model
Estimation methods
Estimation methods I Another way to write the problem: The likelihood function L(y x, β, σ 2 ) = = = n 1 (2πσ 2 ) 1 (2πσ 2 ) { exp 1/2 n/2 exp 1 (2πσ 2 exp ) n/2 { 1 2σ 2 1 2σ 2 ε2 i n { 1 2σ 2 ε ε ε 2 i } } }.
Estimation methods II The log-likelihhod function L(y x, β, σ 2 ) = n ( log 1 (2πσ 2 exp ) 1/2 { 1 }) 2σ 2 ε2 i = n 2 log(2π) n 2 log(σ2 ) 1 2σ 2 (y X β) (y X β) = n 2 log(2π) n 2 log(σ2 ) 1 2σ 2 SCE n(β). Given that log L(β, σ 2 ) is a function of β throught the sum of the sum of the squared errors SCE n (β); maximize the likelihood function is identical to minimize the sum of the squared errors SCE n βmv = β MCO.
Estimation methods III The FOC: log L(y x, β, σ 2 ) β = n σ 2 X (y X β) = 0 and log L(y x, β, σ 2 ) σ 2 = n 2σ 2 + 1 2σ 4 (y X β) (y X β) = 0. Assuming thatl Rango(X ) = p, the unique solution is gven by β MV = ˆσ 2 = 1 n e e = ( X X ) 1X y = β (n p) S 2. n
Estimation methods IV The second order conditions ( H = 1 X X = σ 2 1 ε X σ 4 2 log L β β 2 log L σ 2 β 2 log L β σ 2 2 log L (σ 2 ) 2 1 X ε σ n 4 1 ε ε 2σ 4 σ 6 ). negative semidefine. The asymptotic covariance (Cramér-Rao quote or information matrix) { I(β, σ 2 ) } ) [ ] 1 1 1 = E(H(β, σ 2 )) = (X σ2 X 0. 0 2σ4 n
Estimation methods
Estimation methods
Estimation methods
Estimation methods
Method of Moments 2.3 Method of Moments:
Método de los momentos I Definición: Para un entero positivo k, el k-ésimo momento poblacional de una variable aleatoria U con f.p.m. ó f.d.p. f (u, θ), θ Θ R p, es ( µ k = E U k) = { u uk f (u, θ), U discreta u uk f (u, θ), U continua. Con base en una muestra aleatoria U 1,..., U n, el respectivo k-ésimo momento muestral está dado por m k = 1 n n Ui k. Ejemplos: Para k = 1, µ 1 = E(U), y m 1 = n 1 n U i = U. Para k = 2, µ 2 = E(U 2 ) = µ 2 µ 2 1, y m 2 = n 1 n U2 i.
Método de los momentos II Definición: Sea U 1,..., U n una m.a. con f.p.m. ó f.d.p. f (u, θ), con θ Θ R p desconocido. El estimador de momentos θ MM se obtiene igualando los primeros p momentos poblacionales con los respectivos momentos muestrales, y luego resolver para θ. Esto es, resolver µ 1 = E(U) = 1 n µ 2 = E(U 2 ) = 1 n.. µ p = E(U p ) = 1 n n n. n U i = m 1 U2 i = m 2 Up i = m p, donde los momentos poblacionales son funciones de θ, µ k (θ)..
Método de los momentos III Ejemplo 1: Media poblacional Estimación de la media poblacional de una v.a. i.i.d. Y con media µ. E(Y ) = µ E(Y µ) = 0. Reemplazando el operador E( ) por el promedio n 1 n para la muestra Y 1,..., Y n, se tiene que 1 n n (Y i µ) = 0. Resolviendo para µ, el estimador de momentos es ˆµ MM = 1 n n Y i = Y.
Método de los momentos IV Ejemplo 2: Estimación del modelo de regresión lineal múltiple. Dado que E (ε x) = 0, la condición de momentos incondicional es [ ( )] E (xε) = E x y x β = 0. El estimador es la solución a la condición de momentos muestral 1 n n Resolviendo para β se tiene que ) x i (y i x i β = 0. ( n β MM = x i x i ) 1 n x i y i. Así, β MCO es una caso particular del método de los momentos.
Estimation methods In the time-series context:
Estimation methods
Estimador GMM I 2.4 Generalized Method of Moments: Definición: Sea θ un vector p 1 desconocido, w i un vector de v.a. s, y h( ) un vector r 1 de funciones, r p. La condición de momentos poblacional toma la forma E [h (w i, θ)] = 0, para todo i = 1,..., n, donde el respectivo momento muestral está dado por 1 n n h (w i, θ). La forma funcional de h( ) depende del modelo especificado. Media poblacional: h (w, θ) = Y µ, donde w = Y y θ = µ. MCO: h (w, θ) = x(y x β), donde w = (y, x) y θ = β. IV: h (w, θ) = z(y x β), donde w = (y, x, z) y θ = β.
Estimador GMM II MV: h (w, θ) = log f (w, θ) / θ, donde f ( ) es la f.d.p. Definición: El estimador del método de momentos generalizado basado en E [h (w i, θ)] = 0 es el valor de θ que minimiza Q n (θ) = { 1 n } { n 1 h (w i, θ) W n n } n h (w i, θ), donde W n es una matriz r r simétrica y definida positiva. Esto es, θ GMM = arg min Q n (θ), θ Θ Diferentes elecciones de W n conllevan a diferentes estimadores que, aunque consistentes, tienen diferente varianza si r > p.
Estimador GMM III Si r = p, entonces E [h (w i, θ)] = 0 es reemplazada por 1 n n h (w i, θ) = 0. Por lo tanto, el estimador de momentos θ MM es la solución a 1 n n h (w i, θ ) MM = 0, que equivalente a minimizar Q n (θ) con W n = I n.
Estimador GMM IV Si r > p, el sistema n 1 n h (w i, θ) = 0 es sobre-identificado, y no tiene solución. En su lugar, θ es elegido tal que la forma cuadrática de n 1 n h(w i, θ) sea suficientemente cercana a 0. Esto es, θ GMM = arg min Q n (θ), θ Θ Diferenciando Q n (θ) con respecto a θ rinde las c.p.o. Q n ( θ) θ = { 1 n n h(w i, θ) } { 1 W n θ n } n h(w i, θ) = 0.
Estimador GMM V La fórmula anterior de Q n ( θ)/ θ es resultado de la proposición: Proposición. Sea la forma cuadrática Q = p W p, donde p es un vector r 1 función de un vector p 1, θ, y W una matriz simétrica. Entonces, ( ) Q p θ = 2 W p. θ
Estimation methods
Estimation methods
Estimation methods
Endogeneidad I 2.4.1 El problema de la endogeneidad Una complicación, común en aplicaciones microeconómicas, es la posibilidad de tener estimadores inconsistentes debido a la presencia de regresores endógenos. Los regresores endógenos se dan cuando algunos de los regresores en x están correlacionados con el error ε. Ésto es, cuando implicando que E (ε i x i ) 0, E (x i ε i ) = E [E (x i ε i x i )] = E [x i E(ε i x i )] 0.
Endogeneidad II Algunos ejemplos que generan este problema son: Omisión de variables Simultaneidad Errores de medición en los regresores Sesgos de selección muestral. Veamos algunos de ellos: Simultaneidad: ocurre cuando dos o más variables endógenas están conjuntamente determinadas por un sistema de ecuaciones simultáneas. Considérese el modelo de demanda-oferta q d = γ d p + X d β d + ε d, E(ε d ) = 0, Var(ε d ) = σ 2 d q s = γ s p + X s β s + ε s, E(ε s ) = 0, Var(ε s ) = σ 2 s q = q d = q s, Cov(ε d, ε s ) = 0,
Endogeneidad III donde q d, q s y p son las cantidades demandada y ofrecida, y el precio, respectivamente; y X d y X s son matrices de variables exógenas que afectan la demanda y oferta, respectivamente. Matricialmente, el modelo se expresa como ( ) ( ) ( ) 1 γd q X = d β d + 1 γ s p X s β s ( εd ε s ). ( ) 1 γd La solución, si el det = γ 1 γ d γ s 0, está dada por s ( ) q = p ( ) 1 [( ) 1 γd X d β d + 1 γ s X s β s ( ) [( 1 γs γ = d X d β d γ d γ s 1 1 X s β s ( εd ε s )] ) + ( εd ε s )].
Endogeneidad IV Esto es: 1 1 q = (γ d X s β γ d γ s γ s X d β d ) + (γ d ε s γ s ε d ), s γ d γ s 1 1 p = (X s β γ d γ s X d β d ) + (ε s ε d ) s γ d γ s Nótese que el precio p está correlacionado con ε d y ε s, Cov(p, ε d ) = σ2 d γ d γ s Cov(p, ε s ) = σ2 s γ d γ s.
Endogeneidad V Errores en las variables: algunas variables son medidas con error. Considérese el modelo y i = β 1 + β 2 x i + ε i, ε i i.i.d.(0, σ 2 ε) x i = x i + υ i, υ i i.i.d.(0, σ 2 υ), E(ε i υ i ) = 0 Por lo tanto, y i = β 1 + β 2 x i + ε i + β 2 υ i = β 1 + β 2 x i + ξ i, ξ i = ε i + β 2 υ i, obteniendo que Var(ξ i ) = σ 2 ε + β 2 2 σ2 υ, y E(ξ i x i ) = E(ξ i υ i ) = E(ε i + β 2 υ i υ i ) = E(ε i υ i ) + β 2 E(υ i υ i ) = β 2 υ i 0.
Endogeneidad VI Por lo tanto, Cov( x i, ξ i ) = E( x i ξ i ) = E [E( x i ξ i x i )] = E [ x i E(ξ i x i )] = E( x i β 2 υ i ) = E [(x i υ i ) β 2 υ i )] = β 2 x i E(υ i ) β 2 E(υi 2 ) { = β 2 συ 2 > 0, si β 2 < 0 < 0, si β 2 > 0.
Variable instrumental I 2.4.2 Variable instrumental Considere el modelo de regresión lineal y i = x i β + ε i, donde cada componente de x i es visto como un regresor exógeno si éste está incorrelacionado con el error ε i, i.e. E (x i ε i ) = 0. Si todos los regresores son exógenos entonces el estimador β = ( X X ) 1 X y, puede usarse. En particular, se sabe que β es consistente para β, β = β + ( 1 n n x i x i P β + Σ 1 x,x0 = β, ) 1 1 n n x i ε i
Variable instrumental II si n 1 n x P iε i 0 (dado que E (x i ε i ) = 0), y n 1 n x ix P i Σ x,x. Así, si cualquiera de los componentes en x i son endógenos, E (x i ε i ) 0, entonces β es inconsistente para β. Un método de solución al problema de obtención de estimadores inconsistentes es por medio del método de variable instrumental. El supuesto clave del método es la existencia de un vector r 1 de instrumentos z cumpliendo que: z esté incorrelacionado con el error ε. Esto es E (ε z) = 0 restricción de momentos condicional. z esté correlacionado con x. La restricción de momentos condicional implica (por ley de expectativas iteradas) que E (z i ε i ) = E [E (z i ε i z i )] = E [z i E (ε i z i )] = 0
Variable instrumental III Si algunos elementos de x no están correlacionados con ε, entonces éstos pueden también aparecer en z. Dado que ε i = y i x i β, la restricción de momentos poblacional o matricialmente, ( ) E Z ε ( )] E (z i ε i ) = E [z i y i x i β = 0, [ ] = E Z (y X β) = 0, constituye un sistema de r ecuaciones simultáneas.
Variable instrumental IV Condiciones de identificacion: Condición de rango para identificación: Existe una única solución del sistema de ecuaciones sí [ ( )] [ ( )] Rango E z i x i = Rango E Z X = p. Esto es, asegura que z es suficientemente correlacionada con x, y que la solución del sistema es factible. Condición de orden para identificación: Sí r < p, entonces Rango [ E ( z i x )] i < p. Por lo tanto, una condición necesaria para la identificación es que r p. Por lo tanto, el sistema es: Sobre-identificado si Rango [ E ( z i x i )] = p y r > p.
Variable instrumental V Exactamente identificado si Rango [ E ( )] z i x i = p y r = p. Sub-identificado (no identificado) sí r < p. Hallar instrumentos apropiados puede ser fácil en algunos casos, pero extremadamente difícil en otros. Muchas controversias empíricas se dan sobre si ciertos instrumentos son válidos. Malos instrumentos implican mala información y, por lo tanto, baja eficiencia.
Variable instrumental VI Ejemplo: Sistema exactamente identificado Asumiendo que el sistema es exactamente identificado, la solución única está dada por el estimador de variable instrumental ( ) 1Z β IV = Z X y ( n ) 1 n = z i x i z i y i. β IV es consistente y asintóticamente normal. Si Z = X, entonces β IV = β MCO
Variable instrumental VII Ejemplo: Sistema sobreidentificado Sí r > p, el sistema puede no tener una única solución. En este caso el método de los momentos generalizado es usado. El estimador GMM en su lugar elige β de modo que el vector 1 n n ) z i (y i x i β, sea tan pequeño como sea posible, usando una función de distancia cuadrática tal que β GMM minimice Q n (β) = { 1 n n ) z i (y } i x i β W n { 1 n n z i (y i x i β) }, donde W n es una matriz r r simétrica y definida positiva.
Aplicación I En particular, se tiene que: la ecuacion de momentos es por lo tanto Q n (β) = = { 1 n n h (w i, θ) = z i (y i x i β), ) z i (y } i x i β { 1 n Z (y X β) W n { 1 n n } { } 1 W n n Z (y X β). ) z i (y } i x i β
Aplicación II Ahora, por la proposición anterior, y dado que h(w i, θ) θ = Z (y X β) β = Z X, se tiene que Q n (β) β { } 1 { } 1 = 2 n Z X W n n Z (y X β) { } { } 1 1 = 2 n X Z W n n Z (y X β) = 0. De modo que ( ) X ZW n Z X β = X ZW n Z y.
Aplicación III Por lo tanto, si X ZW n Z X es invertible, el estimador GMM es ( ) 1X β GMM = X ZW n Z X ZW n Z y, con matriz de covarianza Cov ( βgmm ) = σ 2( ) 1X X ZW n Z X ZW n Z ZW n Z X ( ) 1. X ZW n Z X Si r = p, Z X = n z ix i es cuadrada e invertible, entonces, ( ) 1Z β GMM = Z X y ( n ) 1 n = z i x i z i y i = β IV = β MM
GMM Eficiente I El estimador GMM óptimo o eficiente puede obtenerse usando un procedimiento de dos etapas (estimador GMM en dos etapas). 1. Obtener un estimador GMM θ usando una elección subóptima de W n, por ejemplo W n = I por simplicidad, y estimar S, Ŝ = 1 n n h(w i, θ)h (w i, θ). 2. Hallar el estimador GMM óptimo usando W n = Ŝ 1. Esto es, el estimador θ OGMM que minimize Q n (θ) = { 1 n } { n h (w i, θ) Ŝ 1 1 n } n h (w i, θ).
Continuando con la aplicación I El estimador GMM óptima del modelo de regresión lineal de variable instrumental. Se sabe que h (w i, θ) = z i (y i x i β) = z i ε i. Para errores heterocedásticos, S es estimada consistentemente por Ŝ = 1 n = 1 n n h (w i, θ ) ( GMM h w i, θ ) GMM n ε 2 i z i z i = 1 n Z ΩZ, donde ε i = y i x i θ GMM es el i-ésimo residual de GMM, y Ω = diag( ε 2 1,..., ε2 n).
Continuando con la aplicación II Por lo tanto, el estimador GMM óptimo es ( ) 1X β OGMM = X ZŜ 1 Z X ZŜ 1 Z y [ ( ) ] 1 1 ( ) 1 = X Z Z ΩZ Z X X Z Z ΩZ Z y, con matriz de covarianza ) ( ) 1 Cov ( βogmm = X ZŜ 1 Z X [ ( ) ] 1 1 = n X Z Z ΩZ Z X.
Continuando con la aplicación III Para errores homocedásticos, S es estimada consistentemente por Ŝ = S 2 n n z i z i = S 2 n Z Z, Por lo tanto, el estimador GMM óptimo de variable instrumental es ( ) 1X β OGMM = X ZŜ 1 Z X ZŜ 1 Z y [ ( ] 1 1 ( 1 = X Z Z Z) Z X X Z Z Z) Z y = ( X P Z X ) 1X P Z y,
Continuando con la aplicación IV donde P Z = Z ( Z Z ) 1 Z es una matriz de proyección. Nótese que X = P Z X = Z ( Z Z) 1 Z X es la proyección de X sobre el espacio columna de Z.
Continuando con la aplicación V Así, el estimador de variable instrumental óptimo puede obtenerse por medio de un procedimiento en dos etapas (conocido como el estimador de mínimos cuadrados en dos etapas): 1. Regresar las columnas de X sobre Z y obtener la matriz ajustada X. 2. Regresar y sobre X para obtener el estimador de β ( β MCO2 = X ) 1 X X y ( ) 1X = X P Z X P Z y = β OGMM.
GMM principio unificador de estimación I 2.4.3 GMM como un principio unificador de estimación Múltiples estimadores son obtenidos por medio de la optimización (estimadores M) de una función escalar de la forma n N i (θ), θ Θ R p. Sí N i (θ) es diferenciable, entonces θ resuelve las c.p.o. n N i ( θ) θ = 0.
GMM principio unificador de estimación II Esta ecuación implica que θ es equivalente al estimador de momentos basado en la condición de momentos poblacional [ ] N i ( θ) E = 0. θ Casos particulares: Estimador MCO del modelo de regresión lineal. Se sabe que el estimador de β está dado por β MCO = arg min β R p n ( 2 ( 2. y i x i β) Ni (β) = y i x i β) Por lo tanto, ( ) n N i β β = 1 n n ) x i (y i x i β = 0.
GMM principio unificador de estimación III De modo que la respectiva condición de momentos poblacional es ( )] E [x i y i x i β = E (x i ε i ) = 0. Así, β MCO puede interpretarse como un estimador GMM. Estimador de máxima verosimilitud Asumiendo que la f.d.p del vector w i i.i.d. es f (w i, θ), el estimador de MV de θ está dado por θ MV = arg max θ Θ n log [f (w i, θ)] N i (θ) = log [f (w i, θ)]. Por lo tanto, n log [f (w i, θ)] θ = 0 N ( ) i β θ = log [f (w i, θ)]. θ
GMM principio unificador de estimación IV De modo que la respectiva condición de momentos poblacional es { } log [f (w i, θ)] E = 0. θ Así, θ MV tiene una interpretación como un estimador GMM.
Mínimos cuadrados generalizados I 2.5 Mínimos cuadrados generalizados: En la práctica, se presentan casos en los cuales el supuesto de errores homocedásticos e incorrelacionados no se cumple, Cov (ε X ) = σ 2 Ω, Ω definida positiva, simétrica y conocida. Ejemplos: σ 2 Ω = σ2 1 ρ 2 1 ρ ρ 2 ρ n 1 ρ 1 ρ ρ n 2 ρ 2 ρ 1., ρ ( 1, 1)....... ρ n 1 ρ n 2 ρ 1
Mínimos cuadrados generalizados II σ 2 1 0 0 σ 2 0 σ2 2 0 ( ) Ω =......, σ2 Ω = σ 2 I n 0 0 ci (n n ) 0 0 σn 2 Cuando se viola el supuesto de perturbaciones esféricas, entonces se tiene el modelo de regresión lineal generalizado, definido como donde y = X β + ε, ε X N (0, σ 2 Ω) y P (Rango(X ) = p) = 1.
Propiedades I 2.5.1 Propiedades y consecuencias del estimador de MCO en el contexto del modelo lineal generalizado El estimador β ( ) 1X = X X y es lineal e insesgado. La matriz de covarianza de β es ) Cov ( β X = σ 2( ) 1X ( ) 1, X X ΩX X X la cual puede ser mayor o menor que la fórmula incorrecta σ 2( X X ) 1, dado que ( ) 1X ( ) 1 ( ) 1 X X ΩX X X X X puede se semidefinida positiva o negativa.
Propiedades II Bajo los supuestos 1 n X X P Σ x,x y 1 n X Ω 1 X P Σ xωx donde Σ x,x y Σ xωx son finitas y no singulares, β es consistente. El estimador S 2 es, en general, sesgado e inconsistente dado que ( ) ( ) E e e X = E ε Mε X [ ( )] = Traza E Mεε X = σ 2 Traza (MΩ) σ 2.
Estimacion GLS I 2.5.2 Estimador de mínimos cuadrados generalizado -MCG- Un estimador apropiado del modelo generalizado se puede obtener considerando el modelo transformado Ω 1/2 y = Ω 1/2 X β + Ω 1/2 ε y = X β + ε. Nótese que ( ) Cov (ε X ) = Cov Ω 1/2 ε X [ ( ) ( ) ] = E Ω 1/2 ε Ω 1/2 ε X ( ) = Ω 1/2 E εε X Ω 1/2 = σ 2 Ω 1/2 ΩΩ 1/2 = σ 2 I.
Estimacion GLS II En lugar de usar la matriz Ω 1/2, también se puede usar otra matriz n n de transformación P tal que P P = Ω 1 implicando que PΩP = I. Esto se debe a la diagonalización de Ω A ΩA = Λ, donde Λ y A son las matrices (diagonal) de valores y (ortogonal) de vectores propios (A A = AA = I ) de Ω, respectivamente.
Estimacion GLS III La matriz de transformación requerida es P = Λ 1/2 A dado que P P = AΛ 1/2 Λ 1/2 A = AΛ 1 A ( ) 1 = A A ΩA A = AA Ω 1 AA = Ω 1 Así, premultiplicando el modelo por P se tiene que Py = PX β + Pε y = X β + ε, donde Cov (ε X ) = E ( Pεε P X ) = σ 2 PΩP = σ 2 I.
Estimacion GLS IV El estimador del modelo generalizado se obtiene minimizando la correspondiente suma de cuadrados de los errores β MCG = arg min(y X β) (y X β) β = arg min(y X β) Ω 1 (y X β) (distancia de Mahalanobis) β La solución expĺıcita del estimador de mínimos cuadrados generalizado (conocido como el estimador de Aitken) es ( ) 1X β MCG = X X y ( ) 1X = X Ω 1 X Ω 1 y.
Estimacion GLS V Error muestral, β MCG β Por lo tanto, ( ) 1X β MCG = X Ω 1 X Ω 1 y ( ) 1X = X Ω 1 X Ω 1 (X β + ε) ( ) 1X = β + X Ω 1 X Ω 1 ε. β MCG β = ( X Ω 1 X ) 1X Ω 1 ε. β MCG es un estimador lineal e insesgado. Matriz de covarianza de β MCG ) Cov ( βmcg X = σ 2( ) 1. X Ω 1 X
Estimacion GLS VI Teorema de Aitken: β MCG es eficiente entre la clase de estimadores lineales insesgados. Este resultado es una aplicación del Teorema Gauss-Markov al modelo de mínimos cuadrados generalizado. Bajo normalidad de los errores ( β N β, σ 2( ) ) 1 X Ω 1 X. β es un estimador consistente de β, β P β.
Estimacion GLS VII Un estimador insesgado y consistente de σ 2 es SMCG 2 = 1 n p e e = 1 ) ) (y n p X βmcg (y X βmcg = 1 n p (Ω 1/2 ( y X β MCG )) (Ω 1/2 ( y X β MCG )) = 1 n p e MCGΩ 1 e MCG, e MCG = y X β MCG El estimador de MCG está implementado en las funciones gls y lm.gls de los paquetes nlme y MASS, respectivamente.
Estimación FGLS I 2.5.3 Estimador de mínimos cuadrados generalizado factible Una desventaja del modelo de regresión lineal generalizado es que a menudo, en la práctica, la Ω matriz no es conocida completamente. Por lo tanto, el estimador β MCG no puede aplicarse directamente. Hay casos donde Ω depende de uno o más parámetros desconocidos Ω(γ), γ = (γ 1,..., γ s ). Para implementar el estimador de MCG, debe obtenerse un estimador consistente γ de γ y, por lo tanto, de Ω, y usar Ω = Ω( γ) en lugar de Ω, obteniendo el estimador de MCG factible β MCGF = ( X Ω 1 X ) 1X Ω 1 y.
Estimación en dos etapas I 2.5.4 Estimación de la matriz de covarianza Cov( β X ) bajo heterocedasticidad: estimación en dos etapas Considere el modelo de regresión lineal con errores independientes, pero no idénticamente distribuidos, ( ) y = X β + ε, E(ε X ) = 0, Cov(ε X ) = E εε X = Ω, con Ω = diag(ω 1,..., ω n ) desconocida y P (Rango(X ) = p) = 1. Cualquiera sea la forma de Ω, la matriz de covarianza del estimador, β = ( X X ) 1 X y, es ) ( ) 1X ( ) 1 Cov ( β X = X X ΩX X X ( n ) 1 ( n ) ( n ) 1 = x i x i ω i x i x i x i x i,
Estimación en dos etapas II conocida como la matriz de covarianza sandwich. diag(ε 2 1,..., ε2 n) es un estimador insesgado de diag(ω 1,..., ω n ), Ω = diag(ω 1,..., ω n ) ( ) = E εε X ( ) = E diag(ε 2 1,..., ε 2 n) X. Así, si los errores fueran observables, los ε 2 i s podrían emplearse para construir un estimador (ideal) insesgado de Cov( β X ), ( n ) 1 ( n ) ( n ) 1. Ĉov ideal ( β X ) = x i x i ε 2 i x i x i x i x i Este estimador no es factible dado que los ε i s no son observables.
Estimación en dos etapas III Los ε 2 i s pueden reemplazarse por los cuadrados de los residuales de MCO ei 2, e i = y i x i β, obteniendo el estimador ( n ) 1 ( n ) ( n ) 1, Ĉov White ( β X ) = x i x i e 2 i x i x i x i x i conocido como el estimador consistente-heterocedástico de White. Varios estimadores consistentes Ω = diag( ω 1,..., ω n ) de Ω han sido propuestos para reemplazarse en Cov( β X ), ) ( ) 1X ( Ĉov ( β X = X X ΩX X X ( n ) 1 ( n = x i x i ω i x i x i ) 1 ) ( n ) 1 x i x i,
Estimación en dos etapas IV Varianza Constante: ω i = S 2 = (n p) 1 n White: ω i = ei 2 MacKinnon-White 1: ω i = n n p e2 i MacKinnon-White 2: ω i = 1 1 p i e 2 i MacKinnon-White 3: ω i = Long-Ervin: ω i = e2 i 1 (1 p i ) 2 e2 i 1 (1 p i ) δ e2 1 i, δ i = mín {4, p i /p}, donde p i = P ii son los elementos de la diagonal de la matriz de proyección P = X ( X X ) 1 X. Estos estimadores están implementados en la función vcovhc del paquete sandwich.