2. Modelos con regresores endógenos

. Introducción ema 3. Regresores Endógenos. Bibliografía: Wooldridge, 5., 5.4 y 6.2 En este tema vamos a estudiar el modelo lineal con regresores potencialmente endógenos. Veremos primero las consecuencias que tiene sobre el estimador MCO el hecho de que alguno de los regresores del modelo sea endógeno, analizando algunos ejemplos de modelos lineales con regresores endógenos. Después introduciremos un estimador apropiado para el modelo lineal con regresores endógenos. Finalmente estudiaremos cómo contrastar si los regresores del modelo son endógenos. Se dice que un regresor es endógeno si está correlacionado con el término de error del modelo. Por el contrario el regresor se dice que es exógeno si no está correlacionado con el término de error del modelo. Es decir, si consideramos el modelo lineal Y t = X tβ + u t = β + β 2 X 2t +.. + β j X jt +.. + β k X kt + u t se dice que X jt es endógeno si Cov(X jt, u t ) 0, y, por el contrario, se dice que X jt es exógeno si Cov(X jt, u t ) = 0 Nótese que, utilizando la ley de las esperanzas iteradas, el supuesto (a) E (u t X t ) = 0 implica que E (X t u t ) = 0 y por tanto para que se verique el supuesto (a) necesitamos que todos los regresores del modelo sean exógenos. Por consiguiente, si al menos uno de los regresores es endógeno, no se vericará el supuesto (a) y, como vimos en el ema, el estimador MCO será un estimador sesgado e inconsistente. 2. Modelos con regresores endógenos 2.. Variables omitidas Consideremos el siguiente modelo para el salario de los trabajadores log(w t ) = β + β 2 educ t + β 3 abil t + u t donde w t es el salario, educ t son los años de educación y abil t es la habilidad que generalmente es una variable inobservable. Suponemos que este modelo verica los supuestos del modelo de regresión con observaciones iid; en particular, se satisface el supuesto (a). Pero si abil t es inobservable podemos incluirla en el término de error y considerar el modelo log(w t ) = β + β 2 educ t + ε t () Si la habilidad inobservable está correlacionada con la educación, puesto que el termino de error del modelo () incluye la habilidad inobservable, tendremos que Cov(educ t, ε t ) 0

y por tanto educ t será endógena en el modelo (). Si educ t es endógena y estimamos por MCO la ecuación () obtendremos un estimador inconsistente de los parámetros del modelo. 2.2. Errores de medida Consideremos el modelo lineal con un único regresor que satisface el supuesto (a) del modelo de regresión con datos iid Y t = βx t + u t, para t =, 2,.. donde la variable X t es exógena, es decir E(X t u t ) = 0. Supongamos que la variable X t está medida con error, es decir nosotros no observamos X t sino que observamos X t = X t + ω t, donde ω t es el error de medida que verica Sustituyendo X t en el modelo y E(ω t ) = E(X t ω t ) = E(u t ω t ) = 0 Y t = β(x t ω t ) + u t = βx t βω t + u t = βx t + v t E(X t v t ) = E [(X t + ω t )(u t βω t )] = E(X t u t ) βe(x t ω t )+E(ω t u t ) βe(ω 2 t ) = βσ 2 ω 0 Por tanto X t es endógena y el estimador MCO de Y t en X t no es un estimador consistente de β. Obsérvese que: β + β = X t Y t (X t ) 2 = β + X t v t (X t ) 2 = X t v t (X t ) 2 p β βσ2 ω E((X t ) 2 ) β. En general, en un modelo de regresión múltiple basta con que una de las variables explicativas esté medida con error para que todas las componentes del estimador MCO sean inconsistentes. Si la variable dependiente presenta errores de medida y las variables explicativas son exógenas y no presentan errores de medida, entonces el estimador MCO es consistente. 2.3. Simultaneidad Consideremos ahora el sistema de ecuaciones simultáneas () : Y t = α 2 Y 2t + β X t + β 2 X 2t +.. + β k X kt + u t () (2) : Y 2t = α 2 Y t + β 2 X t + β 22 X 2t +.. + β 2k X kt. + u 2t (2) 2

Como Y 2t depende de Y t por la ecuación (2), e Y t está correlacionado con u t, Y 2t está correlacionado con u t, y por tanto Y 2t es endógeno en la ecuación (). Análogamente Y t es endógena en la ecuación (2). Ejemplo: Consideremos el caso habitual de un modelo de equilibrio de mercado: Ecuación de demanda: Ecuación de oferta: Condición de equilibrio: q dt = α p t + α 2 y t + u dt q st = β p t + u st q dt = q st donde y es renta que se supone determinada fuera del modelo lo que hace que sea exógena y suponemos que E [u dt y t ] = E [u st y t ] = 0; V ar [u dt y t ] = σ 2 d ; V ar [u st y t ] = σ 2 s; E [u dt u st y t ] = 0. Resolviendo para p: p t = α 2 β α y t + u dt u st β α = πy t + ν t. enemos entonces que Cov (p t, u dt ) = σ2 d β α 0 Cov (p t, u st ) = σ2 s β α 0 y por tanto el precio es endógeno tanto en la ecuación de oferta como en la ecuación de demanda. 3. El estimador de variables instrumentales Bibliografía: Wooldridge, 5.-5.3 3.. El modelo lineal simple Consideremos el modelo lineal simple Y t = β + β 2 X t + u t () para el que E(u t ) = 0 (nótese que este supuesto no es restrictivo ya que el modelo incluye un término constante y por tanto β se dene como β = E(Y t ) β 2 E(X t )). En este modelo la variable X t es endógena si Cov(X t, u t ) = E(X t u t ) 0. Si la variable X t es endógena sabemos que el estimador MCO de β = (β, β 2 ) no es consistente. Para poder obtener un estimador consistente de β necesitamos información adicional. En concreto necesitamos encontrar al menos una variable Z t que no esté correlacionada con el término de error y que esté correlacionada con X t, es decir que verique:. Cov(Z t, u t ) = 0 2. Cov(Z t, X t ) 0 3

Si Z t verica los supuestos y 2 se dice Z t es una variable instrumental o un instrumento para X t en el modelo (). Vamos a empezar estudiando el caso en el que tenemos un único instrumento (modelo exactamente identicado), y posteriormente introduciremos el caso en el que tengamos más de un instrumento (modelo sobreidenticado). Vamos a ver ahora que bajo los supuestos y 2 los parámetros β 2 y β están identicados. Utilizando el supuesto : Cov(Z t, Y t ) = β 2 Cov(Z t, X t ) + Cov(Z t, u t ) = β 2 Cov(Z t, X t ) puesto que Cov(Z t, X t ) 0 por el supuesto 2, el parámetro β 2 está denido en la población por β 2 = Cov(Z t, Y t ) (2) Cov(Z t, X t ) El estimador de variables instrumentales (VI) de β 2 se obtiene aplicando el método de los momentos (Z t Z)(Y t Y ) (Z t Z)(Y t Y ) t= t= β V I,2 = = (Z t Z)(X t X) (Z t Z)(X t X) donde Z = t= Z t, Y = t= Y t y X = t= instrumentales de β, puesto que E(u t ) = 0, utilizando el método de los momentos t= X t. En cuanto al estimador de variables t= β = E(Y t ) β 2 E(X t ) β V I, = Y β V I,2 X Se puede demostrar que el estimador VI de β es consistente y asintóticamente normal y, en general, es posible obtener un estimador consistente de la varianza límite lo que nos permitirá hacer inferencia (estos resultados se demostrarán en el contexto del modelo de regresión múltiple). Es importante resaltar el papel asimétrico que juegan los supuestos y 2. Mientras que el supuesto no es contrastable, el supuesto 2 sí lo es. Consideremos el modelo de regresión de X t sobre Z t X t = π + π 2 Z t + v t (3) puesto que π 2 = Cov(Z t, X t ), V ar(z t ) el supuesto 2 es equivalente a que π 2 0. Por tanto para contrastar este supuesto contrastaremos H 0 : π 2 = 0 H : π 2 0 4

utilizando el estimador MCO del modelo (3). Si rechazamos la hipótesis nula tendremos evidencia suciente de que se verica el supuesto 2. Puesto que el supuesto no es contrastable debe utilizarse la teoría económica u otro tipo de consideraciones para justicar su validez. Por ejemplo, supongamos que queremos estimar los rendimientos de la educación mediante la ecuación log(w t ) = β + β 2 educ t + u t En este tipo de ecuaciones, el término de error representa en parte la habilidad inobservable de los individuos. Hay mucha evidencia empírica que demuestra que la habilidad está correlacionada con la educación, ya que los individuos deciden los años de educación dependiendo de su habilidad. En algunos estudios empíricos se ha utilizado el mes de nacimiento como instrumento para el nivel de educación. Es claro que el mes de nacimiento no está correlacionado con la habilidad de los individuos y por tanto verica el supuesto. El problema potencial de este instrumento es si verica el supuesto 2, es decir si está correlacionado con el nivel de educación. Vamos a analizar ahora las consecuencias que tiene sobre las propiedades del estimador VI el que no se verique el supuesto. Vamos a calcular entonces el límite en probabilidad de β V I,2 cuando la covarianza entre Z t y u t no es necesariamente cero β V I,2 = (Z t Z)(Y t Y ) t= = (Z t Z)(X t X) t= = β 2 + (Z t Z)Y t t= = (Z t Z)X t t= (Z t Z)u t t= p β 2 + (Z t Z)X t t= (Z t Z)(β + β 2 X t + u t ) t= = (Z t Z)X t t= Cov(Z t, u t ) Cov(Z t, X t ) = β 2 + Corr(Z t, u t ) Corr(Z t, X t ) Si Z t y u t no están correlacionadas, es decir si se verica el supuesto, el estimador VI es consistente. Sin embargo, si la correlación entre Z t y u t no es cero, aunque sea muy pequeña, si la correlación entre Z t y X t está próxima a cero, la diferencia entre el límite en probabilidad de β V I,2 y el verdadero valor del parámetro (lo que se denomina el sesgo de consistencia) puede ser muy grande. Este resultado resalta la importancia de contrastar el supuesto 2, ya que si podemos garantizar que la correlación entre Z t y X t no está próxima a cero, el sesgo asintótico del estimador VI, si existe será pequeño, siempre y cuando, claro está, la correlación entre Z t y u t esté muy próxima a cero. El estimador MCO es un estimador de variables instrumentales que utiliza X t como instrumento. El límite en probabilidad de β MCO,2 es β MCO,2 p β 2 + Corr(X t, u t ) σ u σ X Si X t y u t no están correlacionados, el estimador MCO es consistente. Cuando tanto X t y u t como Z t y u t están correlacionados el estimador MCO será preferible al VI (en términos 5 σ u σ X

de sesgo asintótico) si Corr(X t, u t ) < Corr(Zt,ut) Corr(Z t,x t). Si X t y u t no están correlacionados, es decir si X t es exógena, el estimador MCO es consistente y si se verican los demás supuestos básicos, el estimador MCO es más eciente (asintóticamente) que cualquier estimador VI. 3.2. El modelo lineal múltiple con una única variable endógena Consideremos el modelo lineal múltiple Y t = X tβ + u t = β + β 2 X 2t +.. + β k X kt + u t donde β = (β, β 2,..β k ) y X t = (, X 2t,.., X kt ). Supondremos que el término de error tiene media cero y que las variables X 2t,.., X k,t son exógenas, es decir E(u t ) = 0 Cov(X jt, u t ) = E(X jt u t ) = 0, j = 2,..k y X k es potencialmente endógena, es decir la covarianza entre X kt y u t puede ser distinta de cero. Análogamente al caso del modelo lineal simple, para poder obtener un estimador consistente de β = (β, β 2,..β k ) necesitamos una variable adicional Z kt que no esté correlacionada con el término de error, es decir que verique que. Cov(Z kt, u t ) = E(Z kt u t ) = 0 Si denimos el vector Z t = (, X 2t,.., X k,t, Z kt ) tenemos k condiciones de momentos que denen el vector β en la población E(Z t u t ) = 0 E(u t ) = 0 Cov(X jt, u t ) = E(X jt u t ) = 0, j = 2,.., k Cov(Z kt, u t ) = E(Z kt u t ) = 0 (4) El estimador de variables instrumentales se obtiene por el método de los momentos. Las condiciones de momentos poblacionales (4)se pueden escribir como E(Z t u t ) = E(Z t (Y t X tβ) = E(Z t Y t ) E(Z t X t)β = 0 Si la matriz E(Z t X t) es no singular, es decir si se verica 2. E(Z t X t) 0 el vector de parámetros β está denido en la población por β = E(Z t X t) E(Z t Y t ) (5) Nótese que este supuesto 2 es el análogo al supuesto 2 que hacíamos en el modelo lineal simple. 6

El estimador de variables instrumentales de β se obtiene entonces aplicando el método de los momentos a la condición (5) ( β V I = ) Z t X t t= ( ) Z t Y t = Z t X t Z t Y t = (Z X) Z Y t= donde Z y X son las matrices k, Z = (Z, Z 2,.., Z ) y X = (X, X 2,.., X ), e Y es el vector, Y = (Y, Y 2,.., Y ). Al igual que en el modelo de regresión simple, el supuesto no es contrastable mientras que el supuesto 2 si lo es. El supuesto 2 en el modelo de regresión simple era que el instrumento estuviera correlacionado con la variable explicativa. Ahora no basta con que Cov(Z kt, X kt ) 0, ya que claramente si consideráramos Z kt igual a una combinación lineal de X 2t,.., X k,t, aunque Z kt estuviera correlacionada con X kt, no nos serviría como instrumento ya que en ese caso la matriz Z t X t tendría rango k y por tanto la matriz E(Z t X t) sería singular. El supuesto 2 ahora es equivalente a decir que X kt esté parcialmente correlacionada con Z kt una vez que tenemos en cuenta la correlación entre X kt y las restantes variables explicativas del modelo. Análogamente al caso del modelo lineal simple, podemos contrastar el supuesto 2 estimando un modelo auxiliar. Consideramos el modelo de regresión múltiple de X kt sobre una constante, X 2t,.., X k,t, Z kt X kt = π + π 2 X 2t +.. + π k X k,t + π k Z kt + v t (6) Se puede demostrar que el supuesto 2 es equivalente a que el coeciente de Z kt en (6) sea distinto de cero. Por tanto para contrastar este supuesto contrastaremos t= H 0 : π k = 0 H : π k 0 utilizando el estimador MCO del modelo (6). Si rechazamos la hipótesis nula tendremos evidencia suciente de que se verica el supuesto 2. Supongamos ahora que tenemos dos instrumentos válidos Z kt y Z k2t, podríamos utilizar cualquiera de los dos como instrumento y obtener así dos estimadores de VI distintos. Sin embargo, se puede demostrar que, en general, es posible obtener un estimador más eciente combinando los instrumentos disponibles. Dado que X 2t,.., X k,t, Z kt y Z k2t no están correlacionadas con el término de error, cualquier combinación lineal de estas variables Z kt = π + π 2 X 2t +.. + π k X k,t + π k Z kt + π k2 Z k2t tampoco estará correlacionada con el término de error y por tanto vericará el supuesto. De esta forma vemos que podemos calcular innitos estimadores de variables instrumentales utilizando distintas ponderaciones de las variables exógenas. La pregunta es ¾Cuál de todas estas combinaciones lineales da lugar al estimador asintóticamente más eciente?. Se puede demostrar que si el término de error u t es homocedástico el estimador VI más eciente se obtiene utilizando t= X kt = π + π 2 X 2t +.. + π k X k,t + π k Z kt + π k2 Z k2t 7

como instrumento, donde π = ( π, π 2,.., π k, π k, π k2 ) es el estimador MCO de la regresión de X kt sobre una constante, X 2t,.., X k,t, Z kt y Z k2t. El estimador VI que utiliza X kt como instrumento se denomina estimador de mínimos cuadrados en dos etapas. En este caso para contrastar el supuesto 2 tenemos que considerar el modelo X kt = π + π 2 X 2t +.. + π k X k,t + π k Z kt + π k2 Z k2t + v t (7) Se puede demostrar que el supuesto 2 es equivalente a que las variables Z kt y Z kt sean conjuntamente signicativas en (7). Por tanto para contrastar el supuesto 2 contrastaremos H 0 : π k = 0, π k2 = 0 H : π k 0 y/o π k2 0 utilizando el estimador MCO del modelo (7). Si rechazamos la hipótesis nula tendremos evidencia suciente de que se verica el supuesto 2. 3.3. El modelo lineal múltiple con varias variables endógenas Consideremos el modelo lineal múltiple Y t = X tβ + u t = β + β 2 X 2t +.. + β k X kt + u t donde β = (β, β 2,..β k ) y X t = (, X 2t,.., X kt ). Supondremos que el término de error tiene media cero y que las variables X 2t,.., X lt son exógenas, es decir E(u t ) = 0 Cov(X jt, u t ) = E(X jt u t ) = 0, j = 2,..l y X l+,t,.., X k son potencialmente endógenas, es decir la covarianza entre X jt y u t, j = l +,.., k puede ser distinta de cero. Análogamente al caso de una sola variable explicativa endógena, para poder obtener un estimador consistente de β = (β, β 2,..β k ) necesitamos ahora k l variables adicionales Z l+,t,.., Z kt que no estén correlacionadas con el término de error, es decir que veriquen que. Cov(Z jt, u t ) = E(Z jt u t ) = 0, j = l +,.., k Si denimos el vector Z t = (, X 2t,.., X lt, Z l+,t,..z kt ) tenemos k condiciones de momentos que denen el vector β en la población E(Z t u t ) = 0 E(u t ) = 0 Cov(X jt, u t ) = E(X jt u t ) = 0, Cov(Z jt, u t ) = E(Z jt u t ) = 0, j = 2,.., l j = l +,.., k El estimador de variables instrumentales se obtiene de nuevo por el método de los momentos. Igual que en el caso de una sola variable explicativa endógena, las condiciones de momentos poblacionales se pueden escribir como E(Z t u t ) = E [Z t (Y t X tβ)] = E(Z t Y t ) E(Z t X t)β = 0 8

Si la matriz E(Z t X t) es no singular, es decir si se verica 2. E(Z t X t) 0 el vector de parámetros β está denido en la población por β = E(Z t X t) E(Z t Y t ) y el estimador VI tiene la misma expresión que en la sección anterior. La diferencia fundamental entre el caso de una sola variable explicativa endógena y el caso de varias variables explicativas endógenas es que en este último caso el supuesto 2 no se puede expresar de forma sencilla en términos de los coecientes de un modelo auxiliar, y por tanto, no es tan fácilmente contrastable como lo era en el modelo con una única variable explicativa endógena. Nótese que si contrastamos la signicatividad conjunta de Z jt, j = l +,.., k en cada una de las regresiones X jt = π j + π j2 X 2t +.. + π jl X lt + π j,l+ Z l+,t +.. + π jk Z kt + v jt, j = l +,.., k y rechazamos la nula en todas ellas, esto no sería suciente para garantizar que se verica el supuesto 2, ya que por ejemplo, si π jk = 0, j = l +,.., k, Z kt no estaría parcialmente correlacionada con ninguna de las variables endógenas y por tanto no tendríamos sucientes instrumentos. Existen métodos para contrastar el supuesto 2 cuando hay más de una variable endógena pero no los vamos a ver en este curso. 3.4. Propiedades asintóticas del estimador de variables instrumentales Consistencia del estimador VI Si se verican los supuestos E(u t ) = 0 () E(Z t u t ) = 0 Cov(X jt, u t ) = E(X jt u t ) = 0, Cov(Z jt, u t ) = E(Z jt u t ) = 0, (2) Zt X t p E(Z t X t) = Σ ZX, Σ ZX 0 j = 2,.., l j = l +,.., k entonces el estimador VI es consistente. Demostración: β V I = β + ( Zt X t) Zt u t Consideremos la sucesión de vectores aleatorios W t = Z t u t. Puesto que los vectores W t son iid y todos tienen media cero (por el supuesto ), utilizando la ley de los grandes números tenemos que Z t u t p 0 () t= 9

Por otra parte, utilizando el supuesto 2 Zt X t p Σ ZX Como Σ ZX 0, por el teorema de la función continua ( Utilizando () y (2) tenemos β V I = β + Zt X t ( ) p Σ ZX (2) Zt X t) Zt u t p β Normalidad asintótica del estimador VI Si se cumplen las condiciones: E(u t ) = 0 () E(Z t u t ) = 0 Cov(X jt, u t ) = E(X jt u t ) = 0, Cov(Z jt, u t ) = E(Z jt u t ) = 0, (2) Zt X t p E(Z t X t) = Σ ZX, Σ ZX 0 (3) E(u 2 t Z t ) = σ 2 (4) Zt Z t p E(Z t Z t) = Σ Z > 0 j = 2,.., l j = l +,.., k entonces ( βv I β) Demostración: ( βv I β) = d N(0, σ 2 Σ ZX Σ ( Z Σ ). ZX) ( Zt X t) Zt u t ; Consideremos la sucesión de vectores aleatorios W t = Z t u t, ya sabemos que E(W t ) = 0 V ar(w t ) = V ar(z t u t ) = E(u 2 t Z t Z t) = E(E(u 2 t Z t Z t Z t )) = E(E(u 2 t Z t )Z t Z t) = σ 2 E(Z t Z t) = σ 2 Σ Z. Puesto que los vectores W t son iid y todos tienen media cero y varianza σ 2 Σ Z, utilizando el eorema Central del Límite Por otra parte, utilizando el supuesto 2 Zt u t p N(0, σ 2 Σ Z ) () Zt X t p Σ ZX 0

Como Σ ZX 0, por el teorema de la función continua ( ) Zt X t p Σ ZX (2) Utilizando () y (2) tenemos ( βv I β) d N(0, σ 2 Σ ZX Σ ( Z Σ ). ZX) Como ya mencionamos anteriormente el estimador MCO es un estimador VI que utiliza X t como vector de instrumentos. Si todos los regresores son exógenos el estimador MCO es consistente, y si se verican los demás supuestos, el estimador MCO es asintóticamente más eciente que cualquier otro estimador VI. Estimador de σ 2. σ 2 V I = (Yt X t β V I ) 2. Se puede demostrar que σ 2 V I es un estimador consistente de σ2. La varianza estimada del estimador VI se obtiene utilizando un estimador consistente de la varianza asintótica. Puesto que Zt X t p Σ ZX, Σ ZX 0 Zt Z t p E(Z t Z t) = Σ Z > 0 σ 2 V I p σ 2 La varianza estimada del estimador VI es ( var( β V I ) = σ2 V I ( Zt X t) = σ 2 V I (Z X) (Z Z) (X Z) Zt Z t) ( Xt Z t) 4. Contrastes de hipótesis con el estimador VI Bibliografía: Wooldridge, 5. Supongamos que queremos contrastar: H 0 : Rβ = r H : Rβ r donde R es una matriz q k, y r es un vector q, ambos conocidos. Suponiendo que se cumplen los supuestos () a (4) sabemos que ( βv I β) N(0, σ 2 Σ ZX Σ ( Z Σ ). ZX)

Multiplicando por la izquierda por R (R βv I Rβ) N(0, σ 2 RΣ ZX Σ ( Z Σ ZX) R ) Bajo H 0 Puesto que (R βv I r) N(0, σ 2 RΣ ZX Σ ( Z Σ ZX) R ) () σ 2 V I ( ) Z X ( ( ) Z Z) X Z p σ 2 Σ ZX Σ ( ) Z Σ ZX Multiplicando por la izquierda por R y por la derecha por R σ 2 V IR ( ) Z X ( ( ) Z Z) X Z R p σ 2 RΣ ZX Σ ( ) Z Σ ZX R (2) Utilizando (), (2) y el ejemplo 5 del ema tenemos que el estadístico de contraste es W = ( ) ( R β V I r σ V 2 I R ( Z X ) ( Z Z) ( X Z ) ) ( ) R R β V I r ( 2 = R β V I r) ( σ V I R (Z X) (Z Z) (X Z) R ) ( ) R β V I r = ( ) ( = R β V I r Rvar( β ) ) V I )R (R β V I r χ 2 q, bajo H 0. Así, para un nivel de signicación α rechazaremos H 0 si W > χ 2 q,α. Si q = podemos utilizar el estadístico W o bien, dado R β V I r es un escalar, utilizando (), (2) y el ejemplo 6 del ema podemos construir el estadístico de contraste t = R β V I r Rvar( β N(0, ) Bajo H 0 V I )R Con este estadístico podemos hacer contrastes de una y dos colas (especicar las regiones críticas en los contrastes de una cola y dos colas). En particular, si queremos contrastar una única restricción del tipo: el estadístico de contraste es t = H 0 : β j = βj 0 H : β j βj 0, β V Ij β 0 j SE( β V Ij ) N(0, ) Bajo H 0 donde SE( β V Ij ) es el error estándar de β V Ij, es decir la raíz cuadrada del elemento (j, j) de la matriz de varianzas estimada del estimador VI. 2

5. Contraste de endogeneidad Bibliografía: Wooldridge, 5.5 Consideremos el modelo de regresión lineal con un único regresor potencialmente endógeno: Y t = β + β 2 X 2t +... + β k X kt + u t, () donde E(u t ) = 0 E(X jt u t ) = 0, j = 2,..k y X kt es potencialmente endógena. Queremos contrastar si efectivamente X kt es o no endógena, es decir queremos contrastar H 0 : E(X kt u t ) = 0 H : E(X kt u t ) 0 (X kt es exógena) (X kt es endógena) Supongamos que Z kt es un instrumento válido, es decir E(Z kt u t ) = 0 y consideremos el modelo de regresión de X kt sobre todas las variables exógenas del modelo (incluido el instrumento Z kt ), es decir X kt = π + π 2 X 2t +... + π k X k t + π k Z kt + v t, (2) como las variables explicativas de este modelo no están correlacionadas con u t, X kt es exógena si y solo si v t y u t no están correlacionados. Por tanto si escribimos el modelo de regresión de u t sobre v t u t = γv t + ε t, (3) X kt es exógena si y solo si γ = 0. Substituyendo (3) en () Y t = β + β 2 X 2t +... + β k X kt + γv t + ε t, y por tanto contrastar si X kt es endógena es equivalente a contrastar si γ 0. El problema que presenta este contraste es que no se puede llevar a cabo en la practica ya que v t no es observable. Sin embargo, se puede demostrar que el contraste se puede realizar reemplazando los errores v t por los residuos MCO de la regresión (2). De forma que nalmente el contraste de endogeneidad consiste en contrastar en el modelo H 0 : γ = 0 H : γ 0 Y t = β + β 2 X 2t +... + β k X kt + γ v t + ε t, donde v t son los residuos MCO de la regresión (2). Este contraste es un contraste de signicatividad individual de la variable v t y se puede utilizar el estadístico de contraste robusto a heterocedasticidad. 3

Cuando haya más de una variable potencialmente endógena el contraste de endogeneidad consiste en: Paso: Para cada variable potencialmente endógena, estimar por MCO el modelo de regresión de dicha variable sobre todas las variables exógenas (incluidos los instrumentos) y calcular los residuos. Paso 2: Estimar por MCO un modelo ampliado que incluya todas las variables explicativas originales y los residuos de las regresiones del paso, y contrastar la signicatividad conjunta de todos los residuos de esta regresión ampliada. 4