Econometría 1. Karoll GOMEZ Segundo semestre 2017

Econometría 1 Karoll GOMEZ kgomezp@unal.edu.co http://karollgomez.wordpress.com Segundo semestre 2017

II. El modelo de regresión lineal

Esperanza condicional I Ejemplo: La distribución de los salarios Supangamos que nos interesa estudiar los salarios en Estados Unidos. Dada la variación de salarios a través de los trabajadores, el salario es una variable aleatoria y la distribución de probabilidad de los salarios estaría dada por: F (u) = Pr(salario u) La serie de salario observada se consideran como realizaciones de F (u) La media es la medida de tendencia central más común: E[log(wage)] = 2.95

Esperanza condicional II Varía la distribución del salario a través de la población?

Esperanza condicional III E[log(wage) sexo = M] = 3.05 E[log(wage) sexo = F ] = 2.81 E[log(wage) sexo = M, raza = blanco] = 3.07 E[log(wage) sexo = M, raza = negro] = 2.86

Esperanza condicional IV Ventajas de la esperanza condicional: Facilta comparaciones entre grupos en los datos Facilita el análisis al reducirlo a una medida y no tratar directamente con la distribución La econometría y el análisis de regresión centra su análisis en la media condicional.

Regresión I Asuma que se dispone de un vector de p variables predictoras X R p y una variable de respuesta Y R. Supóngase (X, Y ) distribuyen conjuntamente acorde con P(X, Y ) con medias E(X ) = µ X y E(Y ) = µ Y, y covarianzas Σ X X, Σ YY = σ 2 Y, y Σ X Y. Considérese ahora el problema de predecir a la variable Y por medio de una función de X, f (X ). La precisión de la predicción es medida por medio de una función de valor real función de pérdida L(Y, f (X )).

Regresión II La calidad de f como predictor es medida por medio de la pérdida esperada (conocida como función de riesgo), R(f ) = E [L(Y, f (X ))] = L(Y, f (X ))dp(x, Y ). Para una función de riesgo L(Y, f (X )) = (Y f (X )) 2 (error cuadrático medio), R(f ) = E [ (Y f (X )) 2] = (y f (x)) 2 dp(x, y) = (y f (x)) 2 dp(y x)dp(x) [ [ = E X EY X (Y f (X )) 2 X ]].

Regresión III R(f ) puede minimizarse en cada punto x, [ m(x) = arg min E Y X (Y f (X )) 2 X = x ] f : R p R Cuya solución es la media condicional (o función de regresión), m(x) = E(Y X = x) = ydp(y x) En efecto E [ (Y f (X )) 2] = E [ (Y m(x ) (f (X ) m(x )) 2] = E [ (Y m(x )) 2] + E [ (f (X ) m(x )) 2] 2E [(Y m(x )(f (X ) m(x ))] = E [ (Y m(x )) 2] + E [ (f (X ) m(x )) 2],

Regresión IV teniendo en cuenta que E [(Y m(x )(f (X ) m(x ))] = E {E [(Y m(x ))(f (X ) m(x )) X = x]} = E {E [(Y m(x )) X = x] (f (X ) m(x ))} = E {(E [Y X = x] m(x ))(f (X ) m(x ))} = E {(m(x ) m(x ))(f (X ) m(x ))} = 0 Así, el primer término en E [ (Y f (X )) 2] = E [ (Y m(x )) 2] + E [ (f (X ) m(x )) 2] no depende de f (X ), por lo tanto minimizar el riesgo equivale a minimizar E [ (f (X ) m(x )) 2], que es cero si f (X ) = m(x ).

Regresión V Si Y es linealmente relacionada con X = (X 1,..., X p ) entonces, Y = f (X, β) + ε = X β + ε p = β j X j + ε, j=1 donde ε es una variable aleatoria no observada (componente de error) con media 0 y varianza σ 2 > 0, e independiente de X. La relación es conocida como modelo de regresión lineal, donde β = (β 1,..., β p ) es un vector de parámetros fijos desconocidos y σ 2 es la varianza de error desconocida.

Regresión VI Reemplazando f (X ) = X β en R(f ), y diferenciado se tiene que β = [ ( E X X )] 1 E(X Y ) = Σ 1 X X Σ X Y. En la práctica, para estimar el vector β se dispone de una muestra de datos D = {(x i, y i ), i = 1,..., n}, donde x i = (x i1,..., x ip ). Así, el modelo de regresión lineal múltiple es: y i = β 1 x i1 + + β p x ip + ε i, i = 1,..., (n > p) = x i β + ε i donde x i = (x i1,..., x ip ).

Regresión VII El conjunto de n ecuaciones puede escribirse matricialmente como: y = X β + ε, donde y 1 x 11 x 12 x 1p β 1 ε 1 y 2 y =., X = x 21 x 22 x 2p......, β = β 2., ε = ε 2. y n x n1 x n2 x np β p ε n

Supuestos del modelo de regresión lineal I Dado la especificación del modelo de regresión, y = X β + ε, y i = x i β + ε i, i = 1,..., (n > p) 1. Aleatoriedad de la muestra: se tiene una muestra aleatoria de datos D = {(x i, y i ), i = 1,..., n} lo cual implica que las observaciones muestrales son iid. Adicionalmente, este supuesto tambien implica que el término de error ε también es iid.

Supuestos del modelo de regresión lineal II 2. Linealidad f (x i ) = x i β = β 0 + x i β Esto implica que la función f (x i ) es lineal en los parámetros y que el término de error del modelo entra en forma aditiva en el mismo.

Supuestos del modelo de regresión lineal III Figura: Fuente: Wooldrigde. (2015).

Supuestos del modelo de regresión lineal IV 3. Exogeneidad estricta Este supuesto implica que: E(ε i X ) = 0, i = 1,..., n. (i) la media incondicional del término de error es cero (por ley de las expectativas iteradas): E(ε i ) = E(ε i X ) = 0, i = 1,..., n. (ii) Los regresores son ortogonales al término de error para todas las observaciones E(x ij ε k ) = E [E(x ij ε k x ij )] = E [x ij E(ε k x ij )] = 0, i, k = 1,..., n, j = 1,..., p.

Supuestos del modelo de regresión lineal V (iii) La media condicional de la variable dependiente es una función lineal de los regresores 4. Matriz de diseño bien definida: Este supuesto implica que: E(Y X ) = X β E(y i x i ) = β 0 + x i β (i) No multicolinealidad: Rango de la matriz de datos (también matriz de diseño) es p con probabilidad 1. P (Rango(X ) = p) = 1

Supuestos del modelo de regresión lineal VI (ii) El número de observaciones en la muestra debe ser mayor al numero de parámetros estimar n > p. 5. Perturbaciones esféricas Homocedasticidad Var(ε i X ) = E(ε 2 i X ) [E(ε i X )] 2 = E(ε 2 i X ) = σ 2 > 0, i = 1,..., n. No correlación Cov(ε i, ε k X ) = E(ε i ε k X ) E(ε i X )E(ε k X ) = E(ε i ε k X ) = 0, i, k = 1,..., n; i k.

Supuestos del modelo de regresión lineal VII 6. Normalidad de los errores: ε i distribuye normal con media cero y varianza σ 2 condicional a X En suma: ε i X N (0, σ 2 ), i = 1,..., n. Matricialmente los supuestos del modelo de regresión lineal múltiple se resumen en que: Dada una muestra aleatoria de datos, D = {(x i, y i ), i = 1,..., n} el modelo cumple con la condición de que ε X N (0, σ 2 I n ) y P (Rango(X ) = p) = 1.

Estimación de mínimos cuadrados ordinarios I El método de estimación más popular es el método de mínimos cuadrados, en el cual β es obtenido por medio de la minimización de la suma de cuadrados de los errores SCE(β) = = n i=1 ε 2 i n (y i x i β) 2 i=1 = (y X β) (y X β) ( = y β X ) (y X β) = y y β X y y X β + β X X β = y y 2y X β + β X X β.

Estimación de mínimos cuadrados ordinarios II Teniendo en cuenta que (a z) z = a y (z Az) z entonces, diferenciado w.r.t. β se tiene que SCE(β) β = 2Az para A simétrica, = 2X y + 2X X β. Igualando a 0 se tiene el conjunto de p ecuaciones normales X X β = X y. Asumiendo que el Rango(X ) = p, la solución única está dada por b = β ( ) 1X = X X y ( n ) 1 n = x i x i x i y i. i=1 i=1

Estimación de mínimos cuadrados ordinarios III

Geometría del método de MCO I

Geometría del método de MCO II Figura: Ajuste MCO con X R 2. Fuente: Hastie, etal.(2009).

Geometría del método de MCO III Figura: Geometría de MCO con dos regresores. Fuente: Hastie, etal.(2009).

Conceptos relacionados I Los valores predichos (ajustados) de y i son ŷ i = x i β, o matricialmente ŷ = X β. Así, los residuales del modelo están dados por e i = y i ŷ i = y i x i β, o matricialmente e = y ŷ = y X β. De las ecuaciones normales se tiene que X ( y X β ) = X e = 0 Condición de ortogonalidad.

Conceptos relacionados II La condición de ortogonalidad implica que: cuando el modelo contiene una variable constante (intercepto), entonces n Error muestral, β β i=1 e i = 1 n e = 0, donde 1 n = (1,..., 1). ( ) 1X β = X X y ( ) 1X = X X (X β + ε) ( ) 1X ( ) 1X = X X X β + X X ε ( ) 1X = β + X X ε. Por lo tanto, β β = ( X X ) 1X ε.

Conceptos relacionados III El vector de residuales puede expresarse como e = y ŷ = y X β ( ) 1X = y X X X y ( ( ) 1X ) = I X X X y = ( I P ) y = My = ( I P ) ε = Mε donde P se denomina matriz de proyección dado que PX = X y Py = ŷ, y M matriz de proyección ortogonal ya que MX = 0. P y M son ambas matrices simétricas e idempotentes.

Conceptos relacionados IV La suma de cuadrados de los residuales está dada por SCR = e e = y My = (X β + ε) M(X β + ε) = (β X + ε ) M ( X β + ε ) = β X MX β + ε MX β + β X Mε + ε Mε = ε Mε. Estimador (insesgado) de la varianza del modelo σ 2 S 2 = SCR n p = e e n p.

Análisis de varianza I Dado que y = ŷ + e, entonces la suma de cuadrados totales es: n i=1 y 2 i = y y = (ŷ + e) (ŷ + e) = ŷ ŷ + e ŷ + ŷ e + e e = ŷ ŷ + 2ŷ e + e e = ŷ ŷ + 2 β X e + e e = ŷ ŷ + e e n n = ŷi 2 + ei 2. i=1 i=1

Análisis de varianza II Ahora, si el modelo tiene intercepto, la suma de cuadrados totales en términos de desviaciones (con respecto a la media ȳ) es: n (y i ȳ) 2 i=1 = (y ȳ1) (y ȳ1) = (ŷ ȳ1 + e) (ŷ ȳ1 + e) = (ŷ ȳ1) (ŷ ȳ1) + (ŷ ȳ1) e + e (ŷ ȳ1) + e e n n = (ŷ i ȳ) 2 + ei 2, i=1 i=1 donde 1 = (1,..., 1) es un vector de de dimensión n.

Análisis de varianza III Coeficiente de determinación n R 2 i=1 = (ŷ i ȳ) 2 n i=1 (y i ȳ) 2 n i=1 = 1 e2 i n i=1 (y i ȳ) 2 = 1 ˆσ2 e ˆσ 2 y [0, 1], donde ˆσ 2 e = n 1 n i=1 e2 i y ˆσ 2 y = n 1 n i=1 (y i ȳ) 2. El R 2 representa una medida del ajuste lineal del modelo, dado que éste mide la proporción de variación total en y i, n i=1 (y i ȳ) 2, explicada por la variación total en los regresores, n i=1 (ŷ i ȳ) 2. Si el modelo tiene intercepto, entonces R 2 [0, 1] y por lo tanto, entre más cercano a uno, entonces mejor es el ajuste.

Análisis de varianza IV Una dificultad del R 2 es que éste se incrementa a medida que se agregan regresores a la regresión. Una medida de ajuste que no presenta este problema es el R 2 ajustado, R 2 = 1 e e/(n p) y My/(n 1) = 1 1 n n p i=1 e2 1 1 n 1 n i=1 (y 1 ȳ) 2. La conexión entre el R 2 y R 2 está dada por R 2 = 1 n 1 n p (1 R2 ).