El problema de la endogeneidad Variables proxy Variables instrumentales STATA. Endogeneidad. Gabriel Montes-Rojas

Documentos relacionados
2. Modelos con regresores endógenos

Economía Aplicada. Variables Instrumentales. Basado en Stock y Watson (cap.12), Wooldridge (cap. 15) y Angrist y Pischke (cap. 4)

Regresión con variables instrumentales

Estadística para la Economía y la Gestión IN 3401 Clase 5

Inferencia y Especificación en Modelos de Ecuaciones Simultáneas

Propiedades Asintóticas y Simulación en gretl

Econometria de Datos en Paneles

Modelos Lineales para Datos en Paneles. Walter Sosa Escudero. Banco Central de Chile

EXAMEN EXTRAORDINARIO DE ECONOMETRÍA Universidad Carlos III de Madrid Junio 2016

Soluciones Examen Final de Econometría Universidad Carlos III de Madrid 26 de Mayo de 2015

Estimación MCO, MCI en Modelos de Ecuaciones Simultáneas

Econometria I. Tema 4: Problemas de Especi cación y los Datos. Universidad Carlos III. Getafe, Madrid. Octubre-November 2008

Econometría Universidad Carlos III de Madrid Examen Extraordinario 25 de Junio de Pr (N (0, 1) > 1, 282) = 0, 10

T6. Modelos multiecuacionales

ECONOMETRIA. Tema 6: MODELOS CON VARIABLES EXPLICATIVAS ENDÓGENAS. César Alonso. Universidad Carlos III de Madrid

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica

Tema1. Modelo Lineal General.

SOLUCIONES EXAMEN FINAL EXTRAORDINARIO DE ECONOMETRÍA

Econometría Universidad Carlos III de Madrid Soluciones Examen Final 27 de Mayo de 2013

ECONOMETRÍA I. Tema 4: El Modelo de Regresión Lineal Múltiple: inferencia y validación

EXAMEN DE ECONOMETRÍA

Regresión Lineal Múltiple

Ejemplo 7.1. Heterocedasticidad. Pilar González y Susan Orbe. Dpto. Economía Aplicada III (Econometría y Estadística)

Economía Aplicada. Regresión Lineal. Basado en Stock y Watson (cap.4-6), Wooldridge (cap.3-5)

Sesión IV: Variables Instrumentales Variables Instrumentales

Soluciones Hoja de Ejercicios 4

EJEMPLO EMPIRICO SOBRE ESTIMACION DE SISTEMAS DE ECUACIONES UTILIZANDO EL SOFTWARE LIBRE GRETL

Modelos para variables categóricas

SOLUCIONES EXAMEN FINAL DE ECONOMETRÍA

Métodos Estadísticos para Economía y Gestión IN 540 Clase 7

UNIVERSIDAD CARLOS III DE MADRID ECONOMETRÍA EXAMEN FINAL (Modelo C)

T2. El modelo lineal simple

TEMA 3: PROPIEDADES DEL ESTIMADOR MCO

Modelos básicos de datos en panel

Econometría II. Hoja de Problemas 2

PROBLEMA 1: Nivel nutricional de los menores de 6 años

Tema 2. Heterocedasticidad. 1 El modelo de regresión lineal con errores heterocedásticos

Modelos con Datos de Panel

Econometría I Notas de Clase: Clase no. 10, 11, 12 y13.

ECONOMETRÍA I. Tema 6: Heterocedasticidad. Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía

Econometria I. Tema 6: Modelos de Ecuaciones Simultáneas. Universidad Carlos III. Getafe, Madrid. November 2008

Economía Aplicada. Datos de Panel. Departmento de Economía Universidad Carlos III de Madrid

Muestras longitudinales con correlación serial Paneles autorregresivos. Paneles dinámicos. Gabriel Montes-Rojas

Estimación Máxima Verosimilitud

Heteroscdasticidad y MCG

Econometría de series de tiempo aplicada a macroeconomía y finanzas

UNIVERSIDAD CARLOS III DE MADRID ECONOMETRÍA EXAMEN FINAL (Modelo B)

UNIVERSIDAD CARLOS III DE MADRID ECONOMETRÍA EXAMEN FINAL (Modelo A)

Tests de Hipotesis en Base al Principio de Verosimilitud

T3. El modelo lineal básico

Prácticas Tema 5. Ampliaciones del Modelo lineal básico

Overfit, cross validation y bootstrap

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Estimación MC2E, MVIL en Modelos de Ecuaciones Simultáneas

CALIFICACION: 287,33 218, sí 1 sí 1. Se especifica el siguiente modelo de regresión para el precio de las viviendas: G i =

Introduccion a los Modelos de Regresion

El Modelo de Regresión Lineal

Experimentos de Monte Carlo. Walter Sosa-Escudero

ECONOMETRIA. Tema 6: MODELOS CON VARIABLES EXPLICATIVAS ENDÓGENAS. César Alonso UC3M. Curso 2009/2010

ECONOMETRÍA I. Tema 3: El Modelo de Regresión Lineal Múltiple: estimación

Taller I Econometría I

Tema 4. Regresión lineal simple

PROPIEDADES DEL ESTIMADOR MCO

Econometría de Económicas Ejercicios para el tema 2 y 3

MODELOS DE ECUACIONES SIMULTANEAS

Tema 1. El Modelo de Regresión Lineal con Regresores Aleatorios.

Regresión Lineal Múltiple

Información sobre Gastos de Consumo Personal y Producto Interno Bruto ( ) en miles de millones de dólares de 1992.

Truncamiento y Selección

Grado en Finanzas y Contabilidad

EXAMEN FINAL DE ECONOMETRÍA SOLUCIONES Conteste cada pregunta en un cuadernillo diferente en dos horas y media

Regresión lineal simple

UNIVERSIDAD CARLOS III DE MADRID ECONOMETRÍA I Curso 2004/05 EXAMEN FINAL (Convocatoria extraordinaria) 1 de Septiembre de 2005 PROBLEMA

Los estimadores mínimo cuadráticos bajo los supuestos clásicos

ANÁLISIS DE REGRESIÓN

ECONOMETRÍA I. Tema 2: El Modelo de Regresión Lineal Simple. Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía

TEMA 6. Modelos para Datos de Panel

Econometría II. Hoja de Problemas 1

B.1 ANÁLISIS FACTORIAL COMÚN. cuyo propósito es reducir los datos en cantidad. Es también una técnica en la cual todas las

Estadística Diplomado

log Y = log + v log K + (1 )v log L 1=2 log(1 )v[log(k=l)] 2 + U = log K + 2 log L + 3 [log(k=l)] 2 + U;

UNIVERSIDAD CARLOS III DE MADRID ECONOMETRÍA EXAMEN FINAL (Modelo D)

Econometría Aplicada

Errores de especificación

CALIFICACION: - P C: precio medio de los productos sustitutivos existentes en el mercado en euros.

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

Estadística II Examen final junio 27/6/17 Curso 2016/17 Soluciones

Estimación MC3E, MVIC en Modelos de Ecuaciones Simultáneas

Hoja de Ejercicios 3 El modelo de regresión lineal múltiple

Economía Aplicada. Datos de panel. Ver Wooldridge cap. 13 y Stock y Watson cap. 10. Departamento de Economía Universidad Carlos III de Madrid 1 / 26

Solución Ejercicio 7.

TM 4. PROBLEMAS FRECUENTES PROVOCADOS POR LOS DATOS ECONOMICOS. 1. MULTICOLINEALIDAD: CONCEPTO Y TIPOS.

Errores de especificación. Series simuladas

TEMA 2: Propiedades de los estimadores MCO

Grado en Finanzas y Contabilidad

Mínimos Cuadrados Generalizados

ln Y = β 0 + β 1 ln X 1 + β 2 X 2 + ε, (4) ln Y = β 0 + β 1 X 1 + β 2 X 2 + ε, (3)

Econometría. Auxiliar 4. Profesor : Mattia Makovec Semestre : Otoño 2010 Auxiliar : Gonzalo Viveros A.

Economía Aplicada. Secciones Cruzadas Repetidas o Datos Fusionados. Basado en Wooldridge cap.13

ESCUELA SUPERIOR POLITECNICA DEL LITORAL

Transcripción:

Gabriel V. Montes-Rojas

El problema de la endogeneidad Una variable es endógena si Cov(x j, error) = 0. Una variable es exógena si Cov(x j, error) = 0. Consideremos el modelo log(wage) = β 0 + β 1 educ + β 2 exper + β 3 abil + v Nuestro interés es estimar β 1 y β 2. Sin embargo, abil no se puede observar. Por ello obtendríamos estimadores sesgados (ver variables omitidas). En la práctica solo podemos estimar este modelo: donde u β 3 abil + v. log(wage) = γ 0 + γ 1 educ + γ 2 exper + u En este caso podemos argumentar que: Cov(educ, u) = 0, Cov(exper, u) = 0.

El problema de la endogeneidad Consideremos un modelo estructural general: y = β 0 + β 1 x 1 + β 2 x 2 +... + β K x K + γq + v, E (v x 1, x 2,..., x K, q) = 0. Supongamos que q es no observable. Entonces forma parte del error. Asumamos sin pérdida de generalidad que E (q) = 0 (como hay un intercepto no es ningún problema) y = β 0 + β 1 x 1 + β 2 x 2 +... + β K x K + u, u γq + v. Ahora consideremos la proyección de q en x como q = δ 0 + δ 1 x 1 +... + δ K x K + r, donde por definición E (r) = 0, Cov(x j, r) = 0, j = 1, 2,..., K. Entonces, y = (β 0 + γδ 0 ) + (β 1 + γδ 1 )x 1 + (β 2 + γδ 2 )x 2 +... + (β K + γδ K )x K + u, plim ˆβ j = β j + γδ j, j = 1, 2,..., K.

Errores en la medición Los problemas de endogeneidad abarcan otros casos. Por ejemplo supongamos que el modelo verdadero es y = x β + u, u iid(0, σ 2 u I) Asumamos que observamos x con errores y lo que observamos es x tal que x = x + ν, ν iid(0, ω 2 I). El vector ν es un vector de errores que se asume independiente de x y u (un supuesto fuerte). Sustituyendo x ν por x tenemos y = x β νβ + u = x β + u donde u u νβ. Notemos que u no es independiente de x porque ( E x u ) = E ( (x + ν) (u νβ) ) = Nω 2 β. Así, errores de medición (measurement errors) en las variables explicativas se puede ver como un problema de endogeneidad. Si asumimos que β > 0, el error u esta correlacionado en forma negativa con x. Esto se llama sesgo de atenuación (attenuation bias), ˆβ p β Nω 2 [E (x x )] 1 β.

Soluciones El problema de la endogeneidad Hay 3 posibles soluciones: 1 Medir la variable no observada. 2 Encontrar una variable proxy. 3 Encontrar una variable instrumental.

El problema de la endogeneidad Consideremos el modelo Tomemos x = (educ, exper). log(wage) = β 0 + β 1 educ + β 2 exper + β 3 abil + u Una potencial variable proxy para abil es IQ. La variable proxy debería satisfacer lo siguiente: 1 abil = δ 0 + δ 3 IQ+v 3, donde v 3 no esta correlacionado con educ, exper y IQ. 2 u no esta correlacionado con educ, exper y abil. Otra forma de expresarlo es E (lwage x, abil, IQ) = E (lwage x, abil), y decimos que la proxy es irrelevante para explicar los salarios una vez que las variables observables x y la variable abil son usadas. Entonces podemos estimar y = (β 0 + β 3 δ 0 ) + β 1 educ + β 2 exper + β 3 δ 3 IQ + u + β 3 v 3.

Ejemplo: IQ como proxy para abilidad use http://fmwww.bc.edu/ec-p/data/wooldridge/wage2, clear reg lwage educ exper tenure married south urban black reg lwage educ exper tenure married south urban black IQ gen educiq=educ*iq reg lwage educ exper tenure married south urban black IQ educiq Variables (1) (2) (3) educ.065.054.018 (.006) (.007) (.041) exper.014.014.014 (.002) (.002) (.003) tenure.012.011.011 (.002) (.002) (.002) married.199.200.201 (.039) (.039) (.039) south -.091 -.080 -.080 (.026) (.026) (.026) urban.184.182.184 (.027) (.027) (.027) black -.188 -.143 -.147 (.038) (.039) (.040) IQ -.0036 -.0009 (.0010) (.0052) educiq - - -.00034 (.00038)

Sesgo potencial usando una proxy: proxy imperfecta Asumamos por el contrario que abil = δ 0 + δ 1 educ + δ 2 exper + δ 3 IQ + v 3 y = (β 0 + β 3 δ 0 ) + (β 1 + β 3 δ 1 )educ +(β 2 + β 3 δ 2 )exper + β 3 δ 3 IQ + u + β 3 v 3 En este caso, IQ se define como una variable proxy imperfecta. Como puede verse MCO con proxy imperfecta tiene sesgo.

Consideremos la siguiente regresión: y = β 0 + β 1 x + u donde Cov(x, u) = 0 (o sea, x is endógena) Una variable instrumental (VI) z debería satisfacer: 1 No estar correlacionada con el error: Cov(z, u) = 0 2 Estar correlacionada con la variable endógena: Cov(x, z) = 0

Cómo podríamos estimar β 1 usando z? Notar que Por qué? β 1 = Cov(z, y) Cov(z, x) Cov(z, y) = Cov(z, β 0 + β 1 x + u) = Cov(z, β 0 ) + Cov(z, β 1 x) + Cov(z, u)

VI como un estimador en dos etapas Consideremos la regresión simple y = β 0 + β 1 x + u, donde Cov(x, u) = 0. Consideremos la siguiente regresión auxiliar (etapa 1): x = γ 0 + γ 1 z + r. Construir los valores predecidos ˆx γ 0 + γ 1 z. Notemos que x = ˆx + r and γ 1 = Cov(x,z) Var(z). Notemos que ˆx no esta correlacionado con r (por construcción) y también Cov( ˆx, u) = 0. Consideremos otra regresión (etapa 2): y = β 0 + β 1 ( ˆx + r) + u = β 0 + β 1 ˆx + v, donde v r + u y Cov( ˆx, v) = Cov( ˆx, r + u) = 0. Entonces, ( ) Cov(y, ˆx) ˆβ VI 1 = = Cov y, Cov(x,z) Var(z) ( ) z = β Var( ˆx) Cov(x,z) 1. Var Var(z) z

en regresión múltiple Consideremos el modelo y = β 1 x 1 + β 2 x 2 +... + β K x K + u donde Cov(x K, u) = 0 (o sea, x K es endógena) y Cov(x j, u) = 0, j = 1, 2,..., K 1 (el resto son exógenas, incluyendo una constante x 1 = 1). Una variable instrumental z debe satisfacer dos condiciones: 1 No estar correlacionada con el error: Cov(z, u) = 0 2 Estar correlacionada con la vriable endógena. Más formalmente, consideremos la proyección lineal de x K en todas las variables exógenas: x K = δ 1 x 1 +... + δ K 1 x K 1 + θz + r K, donde por definición E (r K ) = 0 y r K no está correlacionado con x 1, x 2,..., x K 1. El supuesto importante es que θ = 0.

Identificación de VI El problema de la endogeneidad Consideremos el modelo de regresión y = xβ + u. Definamos z (x 1,..., x K 1, z), como el vector de todas las variables exógenas. Hay entonces K condiciones de ortogonalidad: E (z u) = 0. Multiplicamos el modelo de regresión por z, y tomando esperanzas [E (z x)]β = E (z y), donde E (z x) es una matriz K K y E (z y) es K 1. Este sistema tiene una única solución si y sólo si la primera matriz tiene rango K, entonces β = [E (z x)] 1 E (z y). El estimador de variables instrumentales de β es ( ) 1 ( ) ˆβ VI = N 1 N z i x i i=1 N 1 N z i y i i=1 = (Z X) 1 (Zy)

Muchos instrumentos Cuando hay más de un instrumento (M, z 1, z 2,..., z M ) el estimador más eficiente es el de mínimos cuadrados en dos etapas (two-stage least squares, 2SLS): ( ) 1 ( ) ˆβ 2SLS = N 1 N ˆx i x i i=1 N 1 N ˆx i y i i=1 = ( ˆX X) 1 ( ˆXy) donde x K = δ 1 x 1 +... + δ K 1 x K 1 + θ 1 z 1 +... + θ M z M + r K ˆx K = ˆδ 1 x 1 +... + ˆδ K 1 x K 1 + ˆθ 1 z 1 +... + ˆθ M z M Notemos que ˆX = Z(Z Z) 1 Z X = P Z X, es una proyección de x en el espacio de z (x 1,..., x K 1, z 1,..., z M ), donde P Z es la matriz de proyección. Entonces, ˆX ˆX = ˆX X. Así el estimador 2SLS es un estimador de MCO donde ˆx se usa en vez de x. O sea, ˆβ2SLS = ( ˆX ˆX) 1 ( ˆXy)

Supuestos para identificación y consistencia de 2SLS Supuesto 2SLS.1: Para un vector 1 L z, E (z u) = 0. Supuesto 2SLS.2: (a) rango E (z z) = L; (b) rango E (z x) = K. Una condición necesaria para estas condiciones es que L K, o sea, más instrumentos que variables endógenas.

Identificación El problema de la endogeneidad Identificación: Si asumimos que E(z z) es no singular definamos la proyección x = zπ, donde Π = [E (z z)] 1 E (z x) es una matriz L K. Multiplicando por x, y tomando esperanzas tenemos E (x y) = E (x x)β + E (x u) = E (x x)β Así β esta identificado por β = [E (x x)] 1E (x y). Para esto necesitamos que E (x x ) sea no singular. Pero E (x x) = E (Π z x) = E (x z)[e (z z)] 1 E (z x) Entonces esta matriz es no singular si E(z x) tiene rango K (Supuesto 2SLS.2b). Para esto también necesitamos E (z z) no singular y entonces con rango L (Supuesto 2SLS.2a).

Consistencia de 2SLS ( ) ( ) 1 ( ˆβ 2SLS = N 1 N x i z i N 1 N z i z i N 1 N 1 z i x i i=1 i=1 i=1 ( ) ( ) 1 ( ) N 1 N x i z i i=1 N 1 N z i z i i=1 N 1 N z i y i i=1 Consistencia: Bajo los Supuestos 2SLS.1 y 2SLS.2, plim ˆβ 2SLS = β. Prueba: Ley de los grandes números y teorema de Slutsky.

Normalidad asintótica de 2SLS Supuesto 2SLS.3: E (u 2 z z) = σ 2 E (z z), donde σ 2 = E (u 2 ). Normalidad asintótica: Bajo los supuestos 2SLS.1, 2SLS.2 y 2SLS.3, N( ˆβ2SLS β) d N ( 0, σ 2 ([E (x z)][e (z z)] 1 [E (z x)]) ).

Contrastes para endogeneidad El estimador de 2SLS es menos eficiente (mayor varianza) que MCO con variable enxógenas. La estimación de modelos 2SLS es más demandante en términos computacionales. Entonces es importante chequear primero si hay endogeneidad para evitar usar un estimator ineficiente innecesariamente. Tomemos el modelo y 1 = β 0 + β 1 y 2 + β 2 z 1 + β 3 z 2 + u donde y 2 es (potencialmente) endógena; z 1 and z 2 son variables explicativas exógenas; z 3 and z 4 son IV. Para contrastar por endogeneidad: 1 y 2 = π 0 + π 1 z 1 + π 2 z 2 + π 3 z 3 + π 4 z 4 + v 2 y construir los residuos ˆv 2 2 y 1 = β 0 + β 1 y 2 + β 2 z 1 + +β 3 z 2 + δ 1 ˆv 2 + error 3 Contrastar por la significancia estadística de ˆv 2, H 0 : δ 1 = 0. 4 Si rechazamos la hipótesis nula entonces hay evidencia que u y v 2 están correlacionados y y 2 es endógena.

Contrastes para endogeneidad Consideremos ahora el contraste de Durbin-Wu-Hausman (DWH) que esta basado en la comparación de ˆβ 2SLS y ˆβ OLS. (La misma idea se ve en datos en panel para comparar RE y FE.) Bajo la hipótesis nula de exogeneidad, H 0 : E (x u) = 0. Entonces, 1 Ambos estimadores son consistentes para β. 2 Entonces la hipótesis nula se puede redefinir con H 0 : ˆβ2SLS = ˆβ OLS. 3 Bajo H 0 (y asumiendo homoscedasticidad) Avar[ N( ˆβ 2SLS ˆβ OLS )] = σ 2 ( [E (x x )] 1 [E (x x] 1). 4 Dado que MCO es más eficiente, entonces la varianza es definida semipositiva. 5 En particular, DWH = ( ˆβ 2SLS ˆβ OLS ) [( ˆX ˆX) 1 (X X)]( ˆβ 2SLS ˆβ OLS )/ˆσ 2 a χ 2 L K

Contraste para la validez de los instrumentos Requerimiento importante: Necesitamos más variables instrumentales que variables endógenas. 1 Supongamos que en el modelo anterior usamos 2SLS con z 3 como la única variable instrumental. 2 Computar û 3 = y 1 ˆβ 0 ˆβ 1 y 2 ˆβ 2 z 1 ˆβ 3 z 2. 3 Correr la regresión auxiliar û 3 = δ 0 + ˆδ 1 z 1 + ˆδ 2 z 2 + δ 4 z 4. 4 Chequer la significancia de z 4. 5 Esto nos da un contraste válido para la validez de z 4 como VI. Pero tenemos que asumir que z 3 es una VI válida.

Contraste para la validez de los instrumentos Contraste de Sargan-Hausman 1 Si tenemos más VIs que variables endógenas, entonces el modelo esta sobre-identificado (over-identified). 2 Consideremos H 0 : todas las VIs son exgógenas. Si rechazamos entonces alguna de las VIs es endgógena. 3 Estimar el modelo con todos las VIs usando 2SLS. Obtener los residuos û. 4 Correr la regresión de û en TODAS las variables exógenas (VIs, X exógenas, constante). 5 Computar NR 2 u a χ 2 L K, donde R2 u es el de la última regresión.

VI en El problema de la endogeneidad Asumamos que x1 is (potentialmente endógena y x2 is exógena. Asumamos la existencia de 2 VI: z1, z2 ivregress 2sls y (x1=z1 z2) x2 ivregress 2sls y (x1=z1 z2) x2, first (para que muestre la primera etapa) estat firststage (significancia de los instrumentos - necesitamos F > 10) También podemos usar reg x1 z1 z2 y test z1 z2 estat overid (validez de los instrumentos) estat endogenous (exogeneidad de todas las variables)

VI en El problema de la endogeneidad Para entender VI se puede correr un estimador en dos etapas a mano para reproducir ivreg y (x1=z1 z2) x2 Los mismos coeficientes se pueden obtener con reg x1 z1 z2 x2 predict x1hat reg y x1hat x2 Notar que los errores estándar son diferentes. Por qué?

Ejemplos de Wooldridge http://fmwww.bc.edu/gstat/examples/wooldridge/wooldridge15.html