Modelo de Regresión Lineal Simple

1. El Modelo Modelo de Regresión Lineal Simple El modelo de regresión lineal simple es un caso especial del múltple, donde se tiene una sola variable explicativa. y = β 0 + β 1 x + u (1.1) Donde u representa la influencia que otros factores, diferentes a x, tienen sobre y. Estos son llamados los errores de la regresión, que como se explicará más adelante son diferentes a los residuos de la misma (û). Para la interpretación del modelo es necesario establecer un supuesto básico: u = 0 Cuando se sacan entonces la diferencia a todo el modelo, se tiene que: Lo que quiere decir entonces que: y = β 1 x β 0 : Intercepto β 1 : Pendiente Ahora bien, el supuesto de que E(u) = 0 es una condición necesaria más no suficiente. Esto sólo asegura que la correlación entre la variable x y el término de error no presenten una dependencia lineal. La condición suficiente entonces para el modelo es: E(u x) = 0 Así pues, la media de u es independiente de x. Es pertinente ahora hacer una aclaración, linealidad hace referencia a los parámetros. Es decir, las variables pueden tomar cualquier forma funcional, pero los parámetros de la regresión deben ser siempre lineales y aditivos. Los siguientes modelos son lineales: y = β 0 + β 1 2 x + u log(y) i = β 0 + β 1 x 3 i De ahora en adelante log( ) hará referencia al logaritmo natural. 1

1.1. Estimación de los parámetros Se tiene que el problema de minimización en Mínimos Cuadrados Ordinarios es: mín ˆβ 0, ˆβ 1 û 2 i = (y i ˆβ 0 ˆβ 1 x i ) 2 Hallando las condiciones de primer orden se tiene: 2 2 (y i ˆβ 0 ˆβ 1 x i ) = 0 (1.1.2) [x i (y i ˆβ 0 ˆβ 1 x i )] = 0 (1.1.3) A continuación utilizamos varias propiedades de la sumatoria que se pueden encontrar en el apéndice A del Wooldridge. Analizando cada C.P.O. por separado se tiene que: La primera orden de condición da: (y i ˆβ 0 ˆβ 1 x i ) = 0 y i n ˆβ 0 ˆβ 1 y i ˆβ 1 x i = 0 x i = n ˆβ 0 Usando las propiedades de la sumatoria se tiene entonces: De la segunda resulta entonces: Reemplazando ˆβ 0 se tiene que: n ˆβ 0 = nȳ n ˆβ 1 x ˆβ 0 = ȳ ˆβ 1 x [x i (y i ˆβ 0 ˆβ 1 x i )] = 0 (x i y i x i ˆβ0 ˆβ 1 x 2 i ) = 0 [x i y i x i (ȳ ˆβ 1 x) ˆβ 1 x 2 i ] = 0 2

Aplicando las propiedades de la sumatoria: x i y i ȳ x i = ˆβ 1 ( x 2 i x x i ) x i y i n xȳ = ˆβ 1 ( x 2 i n x 2 ) ˆβ 1 = x iy i n xȳ x2 i n x2 Entonces la Funcióde Regresión muestral está definida por: ŷ ii = ˆβ 0 + ˆβ 1 x (1.1.4) Y la Función de Regresión poblacional es: y = β 0 + β 1 x (1.1.5) 1.2. Características del Modelo 1.2.1. Propiedades Algebraicas Los residuos de la regresión están definidos por: Los residuales tienen dos propiedades importantes: A. ûi = 0. B. x iû i = 0. û i = y i ŷ i (1.2.6) La segunda propiedad hace referencia a la covarianza muestral de los residuos y la variable independiente. Esto implica que la covarianza muestral de ŷ y û es 0, y por lo tanto ŷ i = ȳ iii. ii Nótese que acá se tienen los valores estimados, que son diferentes a los poblacionales (sin gorro). iii Esta demostración se le deja al lector. 3

Una vez definidos los residuales se puede definir la Suma Total de Cuadrados (SST), la Suma Explicada de Cuadrados (SSE), y la Suma de Residuos al Cuadrado (SSR). SST = SSE = SSR = (y i ȳ) 2 (1.2.7) (ŷ i yb) 2 (1.2.8) û i (1.2.9) SST : La Suma Total de Cuadrados mide la variación total muestral de y i ; es decir, qué tan dispersos están los datos distribuidos en la muestra. SSE: Mide la variación muestral del y estimado (ŷ i ). SSR: MIde la variación muestral de los residuales. Finalmente, se tiene que: SST = SSE + SSR iv (1.2.10) 1.2.1.1. Bondad de Ajuste La bondad de ajuste mide qué tan bien la línea de regresión se ajusta a los datos. Está definido por la siguiente fórmula: R 2 = SSE SST = 1 SSR SST (1.2.11) Esto representa la fracción de la variación muestral de y que está explicada por x. El rango es 0 R 2 1 puesto que la SSE no puede ser mayor a la SST. Este coeficiente de determinación se interpreta usualmente multiplicándolo por 100. Se dice entonces que el modelo explica α % de la variación de y. Es importante señalar que un R 2 bajo no significa que el modelo no es útil. 1.2.2. Forma Funcional A continuación se presenta una tabla con las transformaciones del modelo más comúnmente utilizadas y su interpretación. iv Esta demostración se le deja al lector. 4

Modelo Lin-Lin Cuadro 1: Interpretación de los coeficientes Interpretación y = β 1 x Ceteris Paribus un cambio de una unidad en x, representa un cambio de β 1 unidades en y. Lin-Log y = β 1 % x Ceteris Paribus un cambio porcentual en x, 100 y varía en bd unidades 100 Log-Lin % y = (100 β 1 ) x Ceteris Paribus si x aumenta en una unidad, se espera que y aumente en 100 β 1 % Log-Log % y = β 1 % x Ceteris Paribus un cambio porcentual de x significa un cambio de β 1 % en y. 1.3. Propiedades En esta sección se revisarán algunas de las propiedades en muestras finitas. 1.3.1. Insesgamiento Para tener esta propiedad se requieren de los siguientes supuestos: a Lineal en parámetros. b Muestra aleatoria. c Variación muestral aleatoria de la variable independiente. {x i ; i = 1, 2,, n} no son todos el mismo valor. d Media condicional de los errores es cero. E(u x) = 0. 5

La prueba de insesgadez para la pendiente es entonces: ˆβ 1 = x i x x 2 i n x 2 = y i (x i x)(β 0 β 1 x i + u i ) x2 i n x2 = (x i x)β 0 + [(x i x)x i ]β 1 + [(x i x)u i ] x2 i n x2 = β 1 + [(x i x)u i ] x2 i n x2 Tomando el valor esperado condicionado a x: E( ˆβ 1 x) = E(β 1 x) + E( [(x i x)u i ] x2 i x) n x2 1 ˆβ 1 = β 1 + ( x2 i ) [(x i x) E(u i x)] n x2 Se tiene que E(u i x) = 0 por supuesto ˆβ 1 = β 1 Haciendo la demostración para el intercepto: a Desarrollando ȳ. ˆβ 0 = ȳ }{{} ˆβ 1 x a y i = β 0 + β 1 x i + u i y i = (β 0 + β 1 x i + u i ) n n ȳ = β 0 + β 1 x + ū ˆβ 0 = β 0 + β 1 x + ū ˆβ 1 x Sacando el valor esperado condicionado a x: E( ˆβ 0 x) = β 0 + E[(β 1 ˆβ 1 )x x] + E(ū x) De la anterior prueba se sabe que ˆβ 1 = β 1 ˆβ 0 = β 0 1.3.2. Varianza Muestral Para demostrar esta propiedad se debe hacer un supuesto adicional: 6

5. Homocedasticidad. Var(u x) = σ 2. Para el lector debería ser claro que las varianzas muestrales de los parámetros entonces son: Var( ˆβ 1 ) = Var( ˆβ 0 ) = σ 2 n (x i x) σ2 n x2 i n (x i x) (1.3.12) (1.3.13) 1.3.2.1. Error estándar ˆσ 2 = SSR n 2 (1.3.14) Sacando la raíz cuadrada obtenemos el error estándar de la regresión ( ˆσ2 ). Lo mismo sucede con los errores de los parámetros: Se( ˆβ 1 ) = ˆσ (x i x) 2 (1.3.15) Se( ˆβ 0 ) = ˆσ x2 i n (x i x) 2 (1.3.16) 7