1. El Modelo Modelo de Regresión Lineal Simple El modelo de regresión lineal simple es un caso especial del múltple, donde se tiene una sola variable explicativa. y = β 0 + β 1 x + u (1.1) Donde u representa la influencia que otros factores, diferentes a x, tienen sobre y. Estos son llamados los errores de la regresión, que como se explicará más adelante son diferentes a los residuos de la misma (û). Para la interpretación del modelo es necesario establecer un supuesto básico: u = 0 Cuando se sacan entonces la diferencia a todo el modelo, se tiene que: Lo que quiere decir entonces que: y = β 1 x β 0 : Intercepto β 1 : Pendiente Ahora bien, el supuesto de que E(u) = 0 es una condición necesaria más no suficiente. Esto sólo asegura que la correlación entre la variable x y el término de error no presenten una dependencia lineal. La condición suficiente entonces para el modelo es: E(u x) = 0 Así pues, la media de u es independiente de x. Es pertinente ahora hacer una aclaración, linealidad hace referencia a los parámetros. Es decir, las variables pueden tomar cualquier forma funcional, pero los parámetros de la regresión deben ser siempre lineales y aditivos. Los siguientes modelos son lineales: y = β 0 + β 1 2 x + u log(y) i = β 0 + β 1 x 3 i De ahora en adelante log( ) hará referencia al logaritmo natural. 1
1.1. Estimación de los parámetros Se tiene que el problema de minimización en Mínimos Cuadrados Ordinarios es: mín ˆβ 0, ˆβ 1 û 2 i = (y i ˆβ 0 ˆβ 1 x i ) 2 Hallando las condiciones de primer orden se tiene: 2 2 (y i ˆβ 0 ˆβ 1 x i ) = 0 (1.1.2) [x i (y i ˆβ 0 ˆβ 1 x i )] = 0 (1.1.3) A continuación utilizamos varias propiedades de la sumatoria que se pueden encontrar en el apéndice A del Wooldridge. Analizando cada C.P.O. por separado se tiene que: La primera orden de condición da: (y i ˆβ 0 ˆβ 1 x i ) = 0 y i n ˆβ 0 ˆβ 1 y i ˆβ 1 x i = 0 x i = n ˆβ 0 Usando las propiedades de la sumatoria se tiene entonces: De la segunda resulta entonces: Reemplazando ˆβ 0 se tiene que: n ˆβ 0 = nȳ n ˆβ 1 x ˆβ 0 = ȳ ˆβ 1 x [x i (y i ˆβ 0 ˆβ 1 x i )] = 0 (x i y i x i ˆβ0 ˆβ 1 x 2 i ) = 0 [x i y i x i (ȳ ˆβ 1 x) ˆβ 1 x 2 i ] = 0 2
Aplicando las propiedades de la sumatoria: x i y i ȳ x i = ˆβ 1 ( x 2 i x x i ) x i y i n xȳ = ˆβ 1 ( x 2 i n x 2 ) ˆβ 1 = x iy i n xȳ x2 i n x2 Entonces la Funcióde Regresión muestral está definida por: ŷ ii = ˆβ 0 + ˆβ 1 x (1.1.4) Y la Función de Regresión poblacional es: y = β 0 + β 1 x (1.1.5) 1.2. Características del Modelo 1.2.1. Propiedades Algebraicas Los residuos de la regresión están definidos por: Los residuales tienen dos propiedades importantes: A. ûi = 0. B. x iû i = 0. û i = y i ŷ i (1.2.6) La segunda propiedad hace referencia a la covarianza muestral de los residuos y la variable independiente. Esto implica que la covarianza muestral de ŷ y û es 0, y por lo tanto ŷ i = ȳ iii. ii Nótese que acá se tienen los valores estimados, que son diferentes a los poblacionales (sin gorro). iii Esta demostración se le deja al lector. 3
Una vez definidos los residuales se puede definir la Suma Total de Cuadrados (SST), la Suma Explicada de Cuadrados (SSE), y la Suma de Residuos al Cuadrado (SSR). SST = SSE = SSR = (y i ȳ) 2 (1.2.7) (ŷ i yb) 2 (1.2.8) û i (1.2.9) SST : La Suma Total de Cuadrados mide la variación total muestral de y i ; es decir, qué tan dispersos están los datos distribuidos en la muestra. SSE: Mide la variación muestral del y estimado (ŷ i ). SSR: MIde la variación muestral de los residuales. Finalmente, se tiene que: SST = SSE + SSR iv (1.2.10) 1.2.1.1. Bondad de Ajuste La bondad de ajuste mide qué tan bien la línea de regresión se ajusta a los datos. Está definido por la siguiente fórmula: R 2 = SSE SST = 1 SSR SST (1.2.11) Esto representa la fracción de la variación muestral de y que está explicada por x. El rango es 0 R 2 1 puesto que la SSE no puede ser mayor a la SST. Este coeficiente de determinación se interpreta usualmente multiplicándolo por 100. Se dice entonces que el modelo explica α % de la variación de y. Es importante señalar que un R 2 bajo no significa que el modelo no es útil. 1.2.2. Forma Funcional A continuación se presenta una tabla con las transformaciones del modelo más comúnmente utilizadas y su interpretación. iv Esta demostración se le deja al lector. 4
Modelo Lin-Lin Cuadro 1: Interpretación de los coeficientes Interpretación y = β 1 x Ceteris Paribus un cambio de una unidad en x, representa un cambio de β 1 unidades en y. Lin-Log y = β 1 % x Ceteris Paribus un cambio porcentual en x, 100 y varía en bd unidades 100 Log-Lin % y = (100 β 1 ) x Ceteris Paribus si x aumenta en una unidad, se espera que y aumente en 100 β 1 % Log-Log % y = β 1 % x Ceteris Paribus un cambio porcentual de x significa un cambio de β 1 % en y. 1.3. Propiedades En esta sección se revisarán algunas de las propiedades en muestras finitas. 1.3.1. Insesgamiento Para tener esta propiedad se requieren de los siguientes supuestos: a Lineal en parámetros. b Muestra aleatoria. c Variación muestral aleatoria de la variable independiente. {x i ; i = 1, 2,, n} no son todos el mismo valor. d Media condicional de los errores es cero. E(u x) = 0. 5
La prueba de insesgadez para la pendiente es entonces: ˆβ 1 = x i x x 2 i n x 2 = y i (x i x)(β 0 β 1 x i + u i ) x2 i n x2 = (x i x)β 0 + [(x i x)x i ]β 1 + [(x i x)u i ] x2 i n x2 = β 1 + [(x i x)u i ] x2 i n x2 Tomando el valor esperado condicionado a x: E( ˆβ 1 x) = E(β 1 x) + E( [(x i x)u i ] x2 i x) n x2 1 ˆβ 1 = β 1 + ( x2 i ) [(x i x) E(u i x)] n x2 Se tiene que E(u i x) = 0 por supuesto ˆβ 1 = β 1 Haciendo la demostración para el intercepto: a Desarrollando ȳ. ˆβ 0 = ȳ }{{} ˆβ 1 x a y i = β 0 + β 1 x i + u i y i = (β 0 + β 1 x i + u i ) n n ȳ = β 0 + β 1 x + ū ˆβ 0 = β 0 + β 1 x + ū ˆβ 1 x Sacando el valor esperado condicionado a x: E( ˆβ 0 x) = β 0 + E[(β 1 ˆβ 1 )x x] + E(ū x) De la anterior prueba se sabe que ˆβ 1 = β 1 ˆβ 0 = β 0 1.3.2. Varianza Muestral Para demostrar esta propiedad se debe hacer un supuesto adicional: 6
5. Homocedasticidad. Var(u x) = σ 2. Para el lector debería ser claro que las varianzas muestrales de los parámetros entonces son: Var( ˆβ 1 ) = Var( ˆβ 0 ) = σ 2 n (x i x) σ2 n x2 i n (x i x) (1.3.12) (1.3.13) 1.3.2.1. Error estándar ˆσ 2 = SSR n 2 (1.3.14) Sacando la raíz cuadrada obtenemos el error estándar de la regresión ( ˆσ2 ). Lo mismo sucede con los errores de los parámetros: Se( ˆβ 1 ) = ˆσ (x i x) 2 (1.3.15) Se( ˆβ 0 ) = ˆσ x2 i n (x i x) 2 (1.3.16) 7