Modelos básicos de datos en panel

3 tipos de estructuras de datos Corte transversal (Cross section) Muestra de individuos, hogares, firmas, países, etc. que se toman en un momento dado del tiempo. {y i, x i } N i=1, donde i representa individuos. Ej.: EPH de 2013, datos de PBI en 2013 para muchos países. Series de tiempo Muestra por varios periodos del mismo individuo, pais, firma, etc. {y t, x t } T t=1, donde t es tiempo. Ej.: Inflación en la Argentina. Datos en panel Combinación de las dos anteriores. {y it, x it } N,T i=1,t=1, donde i representa individuos y t tiempo. 1. Cortes transversales independientes 2. Muestras longitudinales

One-way error components model En un panel longitudinal el mismo individuo es observado a lo largo del tiempo. y it = α + X it β + u it i = 1, 2,..., N es el índice de individuos (firmas, familias, hogares, países), t = 1, 2,..., T es el índice de tiempo, α es un escalar, β es K 1, X it es la observación it de las K variables explicativas. El error tiene esta estructura: u it = µ i + ν it es el error compuesto. En inglés: one-way error components model. µ i : efecto individual no observado que captura todos los factores constantes a lo largo del tiempo en y it, ν it : errores idiosincráticos o shocks.

One-way error components model En notación matricial y = αι NT + X β + u = Z δ + u, donde y y u son vectores NT 1, X es una matriz NT K, Z = [ι NT, X ], δ = [α, β ] y ι NT es un vector de 1s con dimensión NT 1 u = Z µ µ + ν donde Z µ = I N ι T es una matriz NT N de 1s y 0s, es el producto de Kronecker, ι T es un vector de 1s de dimensión T, µ = [µ 1,..., µ N ] es un vector N 1 que contiene los efectos individuales, y ν es un vector NT 1 con los errores. De esta manera Z µ µ es un vector también NT 1.

Two-way error components model Consideremos el modelo y it = α + X it β + u it i = 1, 2,..., N es el índice de individuos (firmas, familias, hogares, países), t = 1, 2,..., T es el índice de tiempo, α es un escalar, β es K 1, X it es la observación it de las K variables explicativas. u it = µ i + λ t + ν it es el error compuesto. En inglés: two-way error components model. µ i : efecto individual no observado que captura todos los factores constantes a lo largo del tiempo en y it, λ t : efecto temporal no observado que captura todos los factores constantes a lo de los individuos en y it, ν it : errores idiosincráticos o shocks.

Two-way error components model En notación matricial u = Z µ µ + Z λ λ + ν, donde Z λ = ι N I T es una matriz NT T de 1s y 0s, ι N es un vector de 1s de dimensión N, λ = [λ 1,..., λ T ] es un vector T 1 que contiene los efectos temporales.

Paneles multi-dimensionales Los modelos anteriores se pueden extender a una mayor cantidad de dimensiones. Ejemplos de 3 dimensiones (i, j, t): 1 Modelos de comercio exterior podrían tener efectos por exportador, importador, tiempo, etc. 2 Modelos de inmigración podrían tener efectos por país de origen, país de destino, año de inmigración, etc. En ambos casos podríamos tener efectos para cada elemento, u ijt = µ i + α j + λ t + ν ijt, o efectos bilaterales, donde nos importan los efectos de a pares, u ijt = µ ij + λ t + ν ijt Un caso particular es el de los modelos anidados. Por ejemplo, si evaluamos poĺıticas educativas, tendríamos un efecto por alumno (i), que pertenece a una determinada clase (j), de una escuela (k) a lo largo del tiempo (t). Así podríamos pensar en una estructura de errores: u ijkt = µ i + α j + γ k + λ t + ν ijkt Ver el libro de Laszlo Matyas (http://www.metrixmdp.eu)

Una primera distinción Modelos Si cov(x it, u it ) = 0 OLS es sesgado. Por qué? Los siguientes estimadores se proponen como soluciones a este problema: Estimador en primeras diferencias Efectos fijos

Estimador en diferencias (first differences,fd) y it = β 0 + β 1 x it + µ i + ν it y it 1 = β 0 + β 1 x it 1 + µ i + ν it 1 y it = β 1 x it + ν it donde es el operador de diferencias, y it = y it y it 1 Lo que pasa es que µ i desaparece, entonces se acaba el problema!

Efectos fijos (fixed-effects,fe) y it = β 0 + β 1 x it + µ i + ν it ȳ i = β 0 + β 1 x i + µ i + ν i ỹ it = β 1 x it + ν i,t donde es una transformación que se aplica a cada invididuo (se usa en inglés within transformation), ỹ it = y it ȳ i Otra vez deseparece µ i! (porque µ i = T 1 T t=1 µ i = T 1 T µ i = µ i )

Efectos fijos (fixed-effects,fe) En los estimadores de efectos fijos µ i se asumen como parámetros fijos a ser estimados y ν it IID(0, σ 2 ν ). x it ν it, i, t. Otro modo de ver los modelos FE es E (ν it x it ) = 0 pero que E (ν it x it, µ i ) = 0. Entonces necesitamos estimar µ i.

Efectos fijos (fixed-effects,fe) En notación matricial y = αι NT + X β + Z µ µ + ν = Z δ + Z µ µ + ν Definamos P µ = Z µ (Z µz µ ) 1 Z µ como la matriz de proyección en Z µ, el subespacio de dummies por individuo. Z µ Z µ = I N J T. Entonces P µ = Z µ (Z µz µ ) 1 Z µ = I N J T donde J T = J T /T. P µ es una matriz que promedia las observaciones para los individuos. Así P µ y tiene elementos ȳ i = 1/T T t=1 y it repetido T veces para cada i. Probar que P µ es simétrica (P µ = P µ ) e idempotente (P µ P µ = P µ ) por lo que rank(p µ ) = tr(p µ ) = N.

Efectos fijos (fixed-effects,fe) Definamos también el complemento Q µ = I NT P µ. Q µ se define entonces como las desviaciones con respecto a las medias (en inglés within-group operator): ỹ it = y it ȳ i. Probar que Q µ es simétrica e idempotente, y que P µ Q µ = 0 NT, por lo que rank(q µ ) = tr(q µ ) = N(T 1). Entonces, Q µ y = Q µ X β + Q µ ν, ˆβ FE = (X Q µ X ) 1 X Q µ y Notar que ˆβ FE = ( N i=1 (X i (I T J T )X i )) 1 N i=1 (X i (I T J T )y i ). Qué significa? Qué tipo de variables quedan excluidas?

Efectos fijos (fixed-effects,fe) Notar que ˆβ FE es equivalente a un modelo OLS con una dummy para cada individuo i, ˆβ LSDV. La prueba es una aplicación del Teorema de Frisch-Waugh-Lovell y = X 1 β 1 + X 2 β 2 + u con estimadores OLS ˆβ = [ ˆβ 1 ˆβ2 ]. Usemos M 1 y = M 1 X 2 β 2 + M 1 u donde M 1 es la projección residual de X 1, el teorema muestra que ˆβ 2 = (X 2 M 1X 2 ) 1 X 2 M 1y Prueba: Consideremos y = P X y + M X y = X 1 ˆβ1 + X 2 ˆβ2 + M X y. Multiplicar ambos lados por X 2 M 1 y obtenemos X 2 M 1y = X 2 M 1X 2 ˆβ2. (usando M 1 X 1 = 0 y M X M 1 X 2 = 0). Resolver.

Efectos fijos (fixed-effects,fe) Notar que var( ˆβ FE ) = σ 2 ν (X Q µ X ) 1. Podemos plantear ˆµ i = ŷ i ˆβ FE x i o ˆµ FE = Q µ y ˆβ FE QµX como el estimador de los efectos fijos. Si T, ( ˆµ FE, ˆβ FE ) son estimadores consistentes e insesgados. Pero si T está fijo y N, sólo ˆβ FE es consistente, aunque ambos son insesgados. El problema es conocido como el problema de parámetros incidentales de Neyman y Scott (1948). Contraste de efectos fijos: correr el modelo LSDV, y contrastar conjuntamente por la significatividad de las dummies.

Efectos fijos (fixed-effects,fe)-two-way Para el modelo two-way tenemos Z λ Z λ = J N I T. Entonces P λ = Z λ (Z λ Z λ) 1 Z λ = J N I T donde J N = J N /N. Definamos la proyección residual Q µλ = E N E T = I N I T I N J T + J N I T + J N J T donde E N = I N J N y E T = I T J T. Esta transformación elimina los efectos de µ i y λ t simultáneamente. La matriz Q µλ hace la siguiente transformación: y it ȳ i ȳ t + ȳ. Entonces, Q µλ y = Q µλ X β + Q µλ ν, ˆβ FE 2 = (X Q µλ X ) 1 X Q µλ y Qué tipo de variables quedan excluidas?

Efectos fijos (fixed-effects,fe) Usar efectos fijos tiene algunas desventajas: Hay un costo en comparación con OLS sin controlar por las dummies por individuo. La transformación within es equivalente a estimar una dummy para cada individuo. O sea estimar N 1 parámetros adicionales. Más parámetros significa menos precisión. Entonces eso afecta los grados de libertad y por ende la precisión de lo que estimamos. Los grados de libertad son NT N K, comparado con NT 1 K También la transformación within (y first-differences) elimina TODO aquello que esta fijo para cada individuo. Entonces no se puede medir por ejemplo el efecto de SEXO, para individuos, o CONTINENTE para países.

Efectos fijos (fixed-effects,fe) Comparando FE con FD (Baltagi, p.17): FE es más eficiente que FD cuando ν it iid(0, σ 2 ν ). FD es más eficiente que FE cuando ν it es un paseo aleatorio (random walk).

Efectos aleatorios (random-effects,re) Un modelo alternativo es el de efectos aleatorios. Tiene un supuesto MUY importante y restrictivo: cov(x, µ) = 0. Consideremos el modelo y it = β 0 + β 1 x it + u it = β 0 + β 1 x it + µ i + ν it En este caso hay correlación serial: Cov(u it, u is ) = Cov(µ i + ν it, µ i + ν is ) = Var(µ i ) = 0 para t = s. El estimador de efectos aleatorios (RE) tiene en cuenta esta particularidad y produce un estimador eficiente GLS: ˆβ RE = (X Ω 1 X ) 1 (X Ω 1 y), donde Ω = E (uu ) es la matriz de varianzas-covarianzas de los errores compuestos. Una de las ventajas de RE es que se pueden reincorporar variables fijas por individuos: y it = β 0 + β 1 x it + β 2 z i + µ i + ν it donde z captura todas las variables que estan fijas para cada individuo y que se pueden observar.

Efectos aleatorios (random-effects,re) En el modelo RE µ i iid(0, σ 2 µ), ν it iid(0, σ 2 ν ), µ i ν it. Además tenemos X it µ i y X it ν it para todo i y t. Ω = E (uu ) = Z µ E (µµ )Z µ + E (νν ) = σ 2 µ(i N J T ) + σ 2 ν (I N I T ). Ω tiene esta estructura: cov(u it, u js ) = σµ 2 + σν 2 para i = j, t = s = σµ 2 para i = j, t = s = 0 para i = j Otra forma de verlo es como un modelo de equicorrelación intra cluster: correl(u it, u js ) = 1 para i = j, t = s = σ 2 µ/(σ 2 µ + σ 2 ν ) := ρ para i = j, t = s = 0 para i = j, t = s

Efectos aleatorios (random-effects,re) Cuáles serían las consecuancias de ignorar la correlación serial? Supongamos el siguiente modelo de regresión univariada: y it = βx it + µ i + ν it, donde µ i iid(0, σ 2 µ), ν it iid(0, σ 2 ν ), µ i ν it. Además tenemos x it µ i y X it ν it para todo i y t. Por un lado se puede probar que el estimador OLS ˆβ OLS = N i=1 T t=1 y it x it N i=1 T t=1 x2 it es insesgado y consistente. Sin embargo la varianza de OLS var( ˆβ OLS ) = σµ+ν 2 1 N i=1 T t=1 x2 it que es lo que estimaríamos de ignorar la correlación entre observaciones del mismo individuo. En particular, tendríamos var( ˆβ OLS ) = σµ+ν 2 1 N + σ 2 N i=1 T t=1 T s=1,t =s x it x is i=1 T t=1 x2 µ it ( N. i=1 T t=1 x2 it )2 El resultado es que los errores estándar que estima son incorrectos, por lo que toda la inferencia es incorrecta. Esta diferencia se llama el factor de Moulton. Notar que depende de la correlación intra-individuo de las Xs. En particular si las Xs no están relacionadas entre sí para un mismo individuo, o sea Cov(x it, x is ) = 0, t = s, entonces la varianza estándar es correcta.

Efectos aleatorios (random-effects,re) Para estimarlo vamos a tratar el problema como GLS (generalized least squares) donde se estima Ω. Siguiendo a Wansbeek y Kapteyn (1982,1983), Baltagi p.18, reemplacemos J T por T J T, y I T por (E T + J T ), donde por definición E T = I T J T. Entonces reagrupando términos tenemos Ω = T σ 2 µ(i N J T ) + σ 2 ν (I N E T ) + σ 2 ν (I N J T ) donde σ 2 1 = (T σ2 µ + σ 2 ν ). = (T σ 2 µ + σ 2 ν )(I N J T ) + σ 2 ν (I N E T ) = σ 2 1 P µ + σ 2 ν Q µ Esta es la descomposición espectral de Ω donde σ 2 1 (de multiplicidad N) y σ2 ν (de multiplicidad N(T 1)) son las raíces características de Ω. Esto permite hallar Ω r = σ1 2r P + σ2r ν Q para todo r (en particular r = 1). [ Por qué? Probar que es cierto.]

Efectos aleatorios (random-effects,re) Entonces, surgen los siguientes estimadores ˆσ 1 2 = u P µ u N tr(p µ ) = T ūi 2 /N i=1 ˆσ 2 ν = u Q µ u tr(q µ ) = T t=1 N i=1 (u it ū i ) 2 N(T 1) Notar que u no es observado... hay diferentes alternativas, todas ellas consistentes: (i) usar los residuos OLS, (ii) los residuos de FE, y (iii) otras.

Efectos aleatorios (random-effects,re) El estimador RE es entonces ˆβ RE = [(X Q µ X /σ 2 ν ) + (X (P µ J NT )X /σ 2 1 )] 1 [(X Q µ y/σ 2 ν ) + (X (P µ J NT )y/σ 2 1 )] = [W XX + φ 2 B XX ] 1 [W Xy + φ 2 B Xy ] donde W XX = X Q µ X, B XX = X (P µ J NT )X, φ 2 = σ 2 ν /σ 2 1. También var( ˆβ RE ) = σ 2 ν [W XX + φ 2 B XX ] 1. Por otro lado ˆβ FE = W 1 XX W Xy y ˆβ BE = B 1 XX B Xy, FE: fixed-effects-within; BE: between. Entonces, ˆβ RE = W 1 ˆβ FE + W 2 ˆβ BE donde W 1 = [W XX + φ 2 B XX ] 1 W XX y W 2 = [W XX + φ 2 B XX ] 1 φ 2 B XX = I W 1. Nota: Análisis cuando T, N, (σ 2 ν, σ 2 µ) 0,.

Efectos aleatorios (random-effects,re)-two-way En el modelo RE two-way µ i iid(0, σ 2 µ), λ t iid(0, σ 2 λ ), ν it iid(0, σ 2 ν ), µ i ν it, λ i ν it. Además tenemos X it µ i, X it λ t y X it ν it para todo i y t. Ω tiene esta estructura: Ω = E (uu ) = Z µ E (µµ )Z µ + Z µ E (λλ )Z λ + E (νν ) = σ 2 µ(i N J T ) + σ 2 λ (J N I T ) + σ 2 ν (I N I T ). cov(u it, u js ) = σµ 2 + σλ 2 + σ2 ν para i = j, t = s = σµ 2 para i = j, t = s = σλ 2 para i = j, t = s = 0 para i = j

Efectos aleatorios (random-effects,re)-two-way Para estimarlo vamos a tratar el problema como GLS (generalized least squares) donde se estima Ω. Baltagi p.37, reemplazar J N por NJ N, I N por E N + J N, J T por T J T, I T por E T + J T,entonces 4 Ω = η j Q j j=1 donde η 1 = σ 2 ν, η 2 = T σ 2 µ + σ 2 ν, η 3 = Nσ 2 λ + σ2 ν, y η 4 = T σ 2 µ + Nσ 2 ν + σ 2 ν, Q 1 = E N E T, Q 2 = E N J T, Q 3 = J N E T, y Q 4 = J N J T. Esta es la descomposición espectral de Ω donde η j son las raíces características. Cada Q j es simétrica e idempotente. Entonces, surgen los siguientes estimadores ˆη j = u Q j u, j = 1, 2, 3, 4 tr(q j )

Efectos aleatorios (random-effects,re)-two-way El estimador RE es entonces ˆβ RE = [(X Q 1 X /σ 2 ν ) + (X Q 2 X /η 2 ) + (X Q 3 X /η 3 )] 1 ] [(X Q 1 y/σ 2 ν ) + (X Q 2 y/η 2 ) + (X Q 3 y/η 3 )] = [W XX + φ 2 2 B XX + φ 2 3 C XX ] 1 [W Xy + φ 2 2 B Xy + φ 2 3 C Xy ] donde W XX = X Q 1 X, B XX = X Q 2 X, C XX = X Q 3 X, φj 2 var( ˆβ RE ) = σν 2 [W XX + φ2 2B XX + φ3 2C XX ] 1. = σ 2 ν /η j, j = 2, 3. También Entonces, ˆβ RE = W 1 ˆβ FE + W 2 ˆβ BE1 + W 3 ˆβ BE2 donde W 1 = [W XX + φ 2 2 B XX + φ 2 3 C XX ] 1 W XX, W 2 = [W XX + φ 2 2 B XX + φ 2 3 C XX ] 1 φ 2 2 B XX, y W 3 = [W XX + φ 2 2 B XX + φ 2 3 C XX ] 1 φ 2 2 C XX. [Probar que en este caso también el estimador es un promedio ponderado de tres estimadores. Análisis cuando T, N, (σν 2, σµ, 2 σλ 2 ) 0,.]

Contraste de Hausman Modelos El estimador de efectos fijos es siempre consistente. Sin embargo, el de efectos aleatorios es válido si las Xs no estan correlacionadas con los efectos individuales (µ i ). Entonces, un contraste de la validez de efectos aleatorios es Este es el llamado contraste de Hausman. H 0 : ˆβ FE ˆβ RE = 0 H A : ˆβ FE ˆβ RE = 0

Contraste de Hausman Modelos Notemos que el estimador RE es GLS, entonces es el de menor varianza. Por lo tanto var( ˆβ FE ) var( ˆβ RE ) es una matriz definida positiva. Para demostrarlo notemos que tanto W XX como B XX son matrices definidas positivas (formas cuadráticas), mientras que φ 2 > 0. Entonces [W XX + φ 2 B XX ] W XX es definida positiva, por lo que [W XX + φ 2 B XX ] 1 WXX 1 es definida negativa, o var( ˆβ RE ) var( ˆβ FE ) es definida negativa. Se puede probar que var( ˆβ FE ˆβ RE ) = var( ˆβ FE ) var( ˆβ RE ). Entonces, definamos H = ( ˆβ FE ˆβ RE ) [var( ˆβ FE ) var( ˆβ RE )] 1 ( ˆβ FE ˆβ RE ) tiene una distribución χ 2 K bajo la nula.

Contraste de Mundlak Modelos (Hsiao, 2003, sec. 3.2; Wooldridge, 2012, sec. 10.7.3) Mundlak (1978) propone usar un modelo de regresión que contenga los promedios de individuos i de las variables que varían en i y t: y it = β 0 + β 1 x it + β 2 z i + β 3 x i + µ i + ν it Entonces un contraste de H 0 : β 3 = 0 es un contraste por la validez de RE.

Cómo implementar paneles en? Los datos hay que organizarlos: id tiempo YVAR XVAR 1 1 y 11 x 11 1 2 y 12 x 12 1 3 y 13 x 13 2 1 y 21 x 21 2 2 y 22 x 22 2 3 y 23 x 23 Es muy importante que no haya valores repetidos. En el ejemplo se representa un panel balanceado. Podra ser desbalanceado si tuviera gaps (ej., la obs. i = 1, t = 2 no está). Primero tiene que identificar que se trata de datos en paneles. Para eso se nececita una variable numérica, ej. id, que identifica el individuo. Luego, iis id Pero si se tiene una muestra longitudinal con una estructura de series de tiempo, con una variable tiempo, tsset id tiempo Nota: la variable de tiempo tiene que ser en números discretos consecutivos. O sea, t = 2, 1, 0, 1,... o t = 1980, 1981, 1982...

Cómo implementar paneles en? Entonces estamos listos para usar datos en paneles: reg D.y D.x1 D.x2 D.x3 (modelo en diferencias, sólo con tsset) xtreg y x1 x2 x3, fe (modelo de efectos fijos) xi: reg y x1 x2 x3 i.id (lo mismo pero implementado a mano con dummies para id) [Nota: comparar con una regresión de las variables transformadas within. Cúal sería el problema con este modelo?] xtreg y x1 x2 x3, re (modelo de efectos aleatorios) xtreg y x1 x2 x3, be (modelo between) xi: xtreg y x1 x2 x3 i.tiempo, fe (modelo de efectos fijos, two-way)

Cómo implementar paneles en? Contraste de Hausman test xtreg y x1 x2 x3, fe est store fe xtreg y x1 x2 x3, re est store re hausman fe re

Cómo implementar paneles en? http://www.ats.ucla.edu/stat/stata/examples/eacspd/chapter10.htm http://www.wiley.com/legacy/wileychi/baltagi/datasets.html webuse grunfeld