El problema de la endogeneidad Variables proxy Variables instrumentales STATA. Endogeneidad. Gabriel Montes-Rojas

Gabriel V. Montes-Rojas

El problema de la endogeneidad Una variable es endógena si Cov(x j, error) = 0. Una variable es exógena si Cov(x j, error) = 0. Consideremos el modelo log(wage) = β 0 + β 1 educ + β 2 exper + β 3 abil + v Nuestro interés es estimar β 1 y β 2. Sin embargo, abil no se puede observar. Por ello obtendríamos estimadores sesgados (ver variables omitidas). En la práctica solo podemos estimar este modelo: donde u β 3 abil + v. log(wage) = γ 0 + γ 1 educ + γ 2 exper + u En este caso podemos argumentar que: Cov(educ, u) = 0, Cov(exper, u) = 0.

El problema de la endogeneidad Consideremos un modelo estructural general: y = β 0 + β 1 x 1 + β 2 x 2 +... + β K x K + γq + v, E (v x 1, x 2,..., x K, q) = 0. Supongamos que q es no observable. Entonces forma parte del error. Asumamos sin pérdida de generalidad que E (q) = 0 (como hay un intercepto no es ningún problema) y = β 0 + β 1 x 1 + β 2 x 2 +... + β K x K + u, u γq + v. Ahora consideremos la proyección de q en x como q = δ 0 + δ 1 x 1 +... + δ K x K + r, donde por definición E (r) = 0, Cov(x j, r) = 0, j = 1, 2,..., K. Entonces, y = (β 0 + γδ 0 ) + (β 1 + γδ 1 )x 1 + (β 2 + γδ 2 )x 2 +... + (β K + γδ K )x K + u, plim ˆβ j = β j + γδ j, j = 1, 2,..., K.

Errores en la medición Los problemas de endogeneidad abarcan otros casos. Por ejemplo supongamos que el modelo verdadero es y = x β + u, u iid(0, σ 2 u I) Asumamos que observamos x con errores y lo que observamos es x tal que x = x + ν, ν iid(0, ω 2 I). El vector ν es un vector de errores que se asume independiente de x y u (un supuesto fuerte). Sustituyendo x ν por x tenemos y = x β νβ + u = x β + u donde u u νβ. Notemos que u no es independiente de x porque ( E x u ) = E ( (x + ν) (u νβ) ) = Nω 2 β. Así, errores de medición (measurement errors) en las variables explicativas se puede ver como un problema de endogeneidad. Si asumimos que β > 0, el error u esta correlacionado en forma negativa con x. Esto se llama sesgo de atenuación (attenuation bias), ˆβ p β Nω 2 [E (x x )] 1 β.

Soluciones El problema de la endogeneidad Hay 3 posibles soluciones: 1 Medir la variable no observada. 2 Encontrar una variable proxy. 3 Encontrar una variable instrumental.

El problema de la endogeneidad Consideremos el modelo Tomemos x = (educ, exper). log(wage) = β 0 + β 1 educ + β 2 exper + β 3 abil + u Una potencial variable proxy para abil es IQ. La variable proxy debería satisfacer lo siguiente: 1 abil = δ 0 + δ 3 IQ+v 3, donde v 3 no esta correlacionado con educ, exper y IQ. 2 u no esta correlacionado con educ, exper y abil. Otra forma de expresarlo es E (lwage x, abil, IQ) = E (lwage x, abil), y decimos que la proxy es irrelevante para explicar los salarios una vez que las variables observables x y la variable abil son usadas. Entonces podemos estimar y = (β 0 + β 3 δ 0 ) + β 1 educ + β 2 exper + β 3 δ 3 IQ + u + β 3 v 3.

Ejemplo: IQ como proxy para abilidad use http://fmwww.bc.edu/ec-p/data/wooldridge/wage2, clear reg lwage educ exper tenure married south urban black reg lwage educ exper tenure married south urban black IQ gen educiq=educ*iq reg lwage educ exper tenure married south urban black IQ educiq Variables (1) (2) (3) educ.065.054.018 (.006) (.007) (.041) exper.014.014.014 (.002) (.002) (.003) tenure.012.011.011 (.002) (.002) (.002) married.199.200.201 (.039) (.039) (.039) south -.091 -.080 -.080 (.026) (.026) (.026) urban.184.182.184 (.027) (.027) (.027) black -.188 -.143 -.147 (.038) (.039) (.040) IQ -.0036 -.0009 (.0010) (.0052) educiq - - -.00034 (.00038)

Sesgo potencial usando una proxy: proxy imperfecta Asumamos por el contrario que abil = δ 0 + δ 1 educ + δ 2 exper + δ 3 IQ + v 3 y = (β 0 + β 3 δ 0 ) + (β 1 + β 3 δ 1 )educ +(β 2 + β 3 δ 2 )exper + β 3 δ 3 IQ + u + β 3 v 3 En este caso, IQ se define como una variable proxy imperfecta. Como puede verse MCO con proxy imperfecta tiene sesgo.

Consideremos la siguiente regresión: y = β 0 + β 1 x + u donde Cov(x, u) = 0 (o sea, x is endógena) Una variable instrumental (VI) z debería satisfacer: 1 No estar correlacionada con el error: Cov(z, u) = 0 2 Estar correlacionada con la variable endógena: Cov(x, z) = 0

Cómo podríamos estimar β 1 usando z? Notar que Por qué? β 1 = Cov(z, y) Cov(z, x) Cov(z, y) = Cov(z, β 0 + β 1 x + u) = Cov(z, β 0 ) + Cov(z, β 1 x) + Cov(z, u)

VI como un estimador en dos etapas Consideremos la regresión simple y = β 0 + β 1 x + u, donde Cov(x, u) = 0. Consideremos la siguiente regresión auxiliar (etapa 1): x = γ 0 + γ 1 z + r. Construir los valores predecidos ˆx γ 0 + γ 1 z. Notemos que x = ˆx + r and γ 1 = Cov(x,z) Var(z). Notemos que ˆx no esta correlacionado con r (por construcción) y también Cov( ˆx, u) = 0. Consideremos otra regresión (etapa 2): y = β 0 + β 1 ( ˆx + r) + u = β 0 + β 1 ˆx + v, donde v r + u y Cov( ˆx, v) = Cov( ˆx, r + u) = 0. Entonces, ( ) Cov(y, ˆx) ˆβ VI 1 = = Cov y, Cov(x,z) Var(z) ( ) z = β Var( ˆx) Cov(x,z) 1. Var Var(z) z

en regresión múltiple Consideremos el modelo y = β 1 x 1 + β 2 x 2 +... + β K x K + u donde Cov(x K, u) = 0 (o sea, x K es endógena) y Cov(x j, u) = 0, j = 1, 2,..., K 1 (el resto son exógenas, incluyendo una constante x 1 = 1). Una variable instrumental z debe satisfacer dos condiciones: 1 No estar correlacionada con el error: Cov(z, u) = 0 2 Estar correlacionada con la vriable endógena. Más formalmente, consideremos la proyección lineal de x K en todas las variables exógenas: x K = δ 1 x 1 +... + δ K 1 x K 1 + θz + r K, donde por definición E (r K ) = 0 y r K no está correlacionado con x 1, x 2,..., x K 1. El supuesto importante es que θ = 0.

Identificación de VI El problema de la endogeneidad Consideremos el modelo de regresión y = xβ + u. Definamos z (x 1,..., x K 1, z), como el vector de todas las variables exógenas. Hay entonces K condiciones de ortogonalidad: E (z u) = 0. Multiplicamos el modelo de regresión por z, y tomando esperanzas [E (z x)]β = E (z y), donde E (z x) es una matriz K K y E (z y) es K 1. Este sistema tiene una única solución si y sólo si la primera matriz tiene rango K, entonces β = [E (z x)] 1 E (z y). El estimador de variables instrumentales de β es ( ) 1 ( ) ˆβ VI = N 1 N z i x i i=1 N 1 N z i y i i=1 = (Z X) 1 (Zy)

Muchos instrumentos Cuando hay más de un instrumento (M, z 1, z 2,..., z M ) el estimador más eficiente es el de mínimos cuadrados en dos etapas (two-stage least squares, 2SLS): ( ) 1 ( ) ˆβ 2SLS = N 1 N ˆx i x i i=1 N 1 N ˆx i y i i=1 = ( ˆX X) 1 ( ˆXy) donde x K = δ 1 x 1 +... + δ K 1 x K 1 + θ 1 z 1 +... + θ M z M + r K ˆx K = ˆδ 1 x 1 +... + ˆδ K 1 x K 1 + ˆθ 1 z 1 +... + ˆθ M z M Notemos que ˆX = Z(Z Z) 1 Z X = P Z X, es una proyección de x en el espacio de z (x 1,..., x K 1, z 1,..., z M ), donde P Z es la matriz de proyección. Entonces, ˆX ˆX = ˆX X. Así el estimador 2SLS es un estimador de MCO donde ˆx se usa en vez de x. O sea, ˆβ2SLS = ( ˆX ˆX) 1 ( ˆXy)

Supuestos para identificación y consistencia de 2SLS Supuesto 2SLS.1: Para un vector 1 L z, E (z u) = 0. Supuesto 2SLS.2: (a) rango E (z z) = L; (b) rango E (z x) = K. Una condición necesaria para estas condiciones es que L K, o sea, más instrumentos que variables endógenas.

Identificación El problema de la endogeneidad Identificación: Si asumimos que E(z z) es no singular definamos la proyección x = zπ, donde Π = [E (z z)] 1 E (z x) es una matriz L K. Multiplicando por x, y tomando esperanzas tenemos E (x y) = E (x x)β + E (x u) = E (x x)β Así β esta identificado por β = [E (x x)] 1E (x y). Para esto necesitamos que E (x x ) sea no singular. Pero E (x x) = E (Π z x) = E (x z)[e (z z)] 1 E (z x) Entonces esta matriz es no singular si E(z x) tiene rango K (Supuesto 2SLS.2b). Para esto también necesitamos E (z z) no singular y entonces con rango L (Supuesto 2SLS.2a).

Consistencia de 2SLS ( ) ( ) 1 ( ˆβ 2SLS = N 1 N x i z i N 1 N z i z i N 1 N 1 z i x i i=1 i=1 i=1 ( ) ( ) 1 ( ) N 1 N x i z i i=1 N 1 N z i z i i=1 N 1 N z i y i i=1 Consistencia: Bajo los Supuestos 2SLS.1 y 2SLS.2, plim ˆβ 2SLS = β. Prueba: Ley de los grandes números y teorema de Slutsky.

Normalidad asintótica de 2SLS Supuesto 2SLS.3: E (u 2 z z) = σ 2 E (z z), donde σ 2 = E (u 2 ). Normalidad asintótica: Bajo los supuestos 2SLS.1, 2SLS.2 y 2SLS.3, N( ˆβ2SLS β) d N ( 0, σ 2 ([E (x z)][e (z z)] 1 [E (z x)]) ).

Contrastes para endogeneidad El estimador de 2SLS es menos eficiente (mayor varianza) que MCO con variable enxógenas. La estimación de modelos 2SLS es más demandante en términos computacionales. Entonces es importante chequear primero si hay endogeneidad para evitar usar un estimator ineficiente innecesariamente. Tomemos el modelo y 1 = β 0 + β 1 y 2 + β 2 z 1 + β 3 z 2 + u donde y 2 es (potencialmente) endógena; z 1 and z 2 son variables explicativas exógenas; z 3 and z 4 son IV. Para contrastar por endogeneidad: 1 y 2 = π 0 + π 1 z 1 + π 2 z 2 + π 3 z 3 + π 4 z 4 + v 2 y construir los residuos ˆv 2 2 y 1 = β 0 + β 1 y 2 + β 2 z 1 + +β 3 z 2 + δ 1 ˆv 2 + error 3 Contrastar por la significancia estadística de ˆv 2, H 0 : δ 1 = 0. 4 Si rechazamos la hipótesis nula entonces hay evidencia que u y v 2 están correlacionados y y 2 es endógena.

Contrastes para endogeneidad Consideremos ahora el contraste de Durbin-Wu-Hausman (DWH) que esta basado en la comparación de ˆβ 2SLS y ˆβ OLS. (La misma idea se ve en datos en panel para comparar RE y FE.) Bajo la hipótesis nula de exogeneidad, H 0 : E (x u) = 0. Entonces, 1 Ambos estimadores son consistentes para β. 2 Entonces la hipótesis nula se puede redefinir con H 0 : ˆβ2SLS = ˆβ OLS. 3 Bajo H 0 (y asumiendo homoscedasticidad) Avar[ N( ˆβ 2SLS ˆβ OLS )] = σ 2 ( [E (x x )] 1 [E (x x] 1). 4 Dado que MCO es más eficiente, entonces la varianza es definida semipositiva. 5 En particular, DWH = ( ˆβ 2SLS ˆβ OLS ) [( ˆX ˆX) 1 (X X)]( ˆβ 2SLS ˆβ OLS )/ˆσ 2 a χ 2 L K

Contraste para la validez de los instrumentos Requerimiento importante: Necesitamos más variables instrumentales que variables endógenas. 1 Supongamos que en el modelo anterior usamos 2SLS con z 3 como la única variable instrumental. 2 Computar û 3 = y 1 ˆβ 0 ˆβ 1 y 2 ˆβ 2 z 1 ˆβ 3 z 2. 3 Correr la regresión auxiliar û 3 = δ 0 + ˆδ 1 z 1 + ˆδ 2 z 2 + δ 4 z 4. 4 Chequer la significancia de z 4. 5 Esto nos da un contraste válido para la validez de z 4 como VI. Pero tenemos que asumir que z 3 es una VI válida.

Contraste para la validez de los instrumentos Contraste de Sargan-Hausman 1 Si tenemos más VIs que variables endógenas, entonces el modelo esta sobre-identificado (over-identified). 2 Consideremos H 0 : todas las VIs son exgógenas. Si rechazamos entonces alguna de las VIs es endgógena. 3 Estimar el modelo con todos las VIs usando 2SLS. Obtener los residuos û. 4 Correr la regresión de û en TODAS las variables exógenas (VIs, X exógenas, constante). 5 Computar NR 2 u a χ 2 L K, donde R2 u es el de la última regresión.

VI en El problema de la endogeneidad Asumamos que x1 is (potentialmente endógena y x2 is exógena. Asumamos la existencia de 2 VI: z1, z2 ivregress 2sls y (x1=z1 z2) x2 ivregress 2sls y (x1=z1 z2) x2, first (para que muestre la primera etapa) estat firststage (significancia de los instrumentos - necesitamos F > 10) También podemos usar reg x1 z1 z2 y test z1 z2 estat overid (validez de los instrumentos) estat endogenous (exogeneidad de todas las variables)

VI en El problema de la endogeneidad Para entender VI se puede correr un estimador en dos etapas a mano para reproducir ivreg y (x1=z1 z2) x2 Los mismos coeficientes se pueden obtener con reg x1 z1 z2 x2 predict x1hat reg y x1hat x2 Notar que los errores estándar son diferentes. Por qué?

Ejemplos de Wooldridge http://fmwww.bc.edu/gstat/examples/wooldridge/wooldridge15.html