Econometría Aplicada Inferencia estadística, bondad de ajuste y predicción Víctor Medina
Intervalos de confianza Intervalos de confianza
Intervalos de confianza Intervalos de confianza La pregunta que intentamos responder es en qué intervalo de valores es probable (a un cierto nivel de confianza) que el coeficiente β j esté contenido. Estimación del intervalo para un coeficiente Si consideramos un intervalo de confianza al 100(1 α)%, entonces la expresión que debe cumplir nuestra variable aleatoria t es P ( t c1 < t < t c2) = 100(1 α)% Luego si consideramos α = 5% y que la distribución t N K es simétrica, entonces t c1 = t c2 = t 1 5%/2,N K Obs. t c queda definido por los grados de libertad m = N K y por el nivel de confianza α, no depende del coeficiente β j!
Intervalos de confianza Recordando la distribución t-student
Intervalos de confianza Estimación del intervalo para un coeficiente Entonces el intervalo para β j queda definido por 100(1 α)% = P ( t c < t < t c) = P ( t 1 α/2,n K < ˆβ j β j se( ˆβ j) < t 1 α/2,n K) = P ( t 1 α/2,n K se( ˆβ j) < ˆβ j β j < t 1 α/2,n K se( ˆβ j)) = P (t 1 α/2,n K se( ˆβ j) > β j ˆβ j > t 1 α/2,n K se( ˆβ j)) = P ( ˆβ j + t 1 α/2,n K se( ˆβ j) > β j > ˆβ j t 1 α/2,n K se( ˆβ j)) Es decir, con 100(1 α)% de confianza, β j ( ˆβj t 1 α/2,n K se( ˆβ j), ˆβ j + t 1 α/2,n K se( ˆβ j) )
Intervalos de confianza Ejemplo en Stata... identificando el intervalo de confianza (t 0.975,72 1.993).
Intervalos de confianza Estimación del intervalor para una combinación lineal de coeficientes El resultado que recién presentamos se puede extender para una combinación lineal de los coeficientes. Supongamos que queremos estimar K λ = c 1β 1 + c 2β 2 +... + c Kβ K = c jβ j j=1 Luego, t = ˆλ λ se(ˆλ) = cj ˆβj c jβ j se( c j ˆβj) t N K
Intervalos de confianza Aplicación: Si se quiere incrementar el gasto en publicidad en 800.000 pesos y bajar el precio en 400 pesos, entonces el cambio esperado en las ventas son λ = E(V entas 1) E(V entas 0) = 2β 2 + 3β 3 = 400β 2 + 0.8β 3 Y el gerente quiere estimar el incremento y un intervalo de confianza al 90% Sabemos que el cambio estimado es ˆλ = 400 ˆβ 2 + 0.8 ˆβ 3 = 400 ( 0.0079079) + 0.8 1.862584 = 4.653227 El valor de t c = t 0.95,72 = 1.666, luego el intervalo es (ˆλ tcse(ˆλ), ˆλ + t cse(ˆλ) ) Es decir millones se(ˆλ) = se( 400 ˆβ 2 + 0.8 ˆβ 3) = var( 400 ˆβ 2) + var(0.8 ˆβ 3) + 2cov( 400 ˆβ 2, 0.8 ˆβ 3) =?
Intervalos de confianza se(ˆλ) = se( 400 ˆβ 2 + 0.8 ˆβ 3) = var( 400 ˆβ 2) + var(0.8 ˆβ 3) + 2cov( 400 ˆβ 2, 0.8 ˆβ 3) = 400 2 1.201e 6 + 0.8 2 0.46675603 + 2 400 0.8 0.00001974 = 0.7095896 Entonces, con un nivel del 90% decimos que el incremento en precio será λ (4.653227 1.666 0.7095896, 4.653227 + 1.666 0.7095896) = (3.471051, 5.835403)
Test de hipótesis Test de hipótesis
Test de hipótesis Test de hipótesis Básicamente los pasos de un test de hipótesis son 1. Determinar la hipótesis nula y la alternativa 2. Especificar el test estadístico y su distribución si la hipótesis nula es verdadera 3. Seleccionar α y determinar la región de rechazo 4. Calcular el valor del estadístico y, si se desea, el p-valor 5. Concluír Test de significancia de un coeficiente Cuando construimos nuestro modelo de regresión múltiple (o simple), lo hacemos creyendo que las variables explicaticas influencian la variable y. Para confirmar esta creencia, nos preguntamos si la data nos provee de evidencia suficiente.
Test de hipótesis Test de significancia de un coeficiente (dos colas) Luego, para averiguar si la variable x j se relaciona con y, testeamos la hipótesis nula H 0 : β j = c (en particular podemos pensar que c = 0) versus la hipótesis alternativa H 1 : β j c Para realizar el test, hacemos uso del estadístico que, si H 0 es cierta, entonces En particular, si c = 0 t = ˆβ j β j = ˆβ j c var( se( ˆβj) ˆβ t (N K) j) t = ˆβ j se( ˆβ j) t (N K)
Test de hipótesis Test de significancia de un coeficiente (dos colas) (Recuerde que podemos generalizar H 0 : β k = c con c cualquier valor, en particular 0)
Test de hipótesis Test de significancia de un coeficiente (una cola y > c) En caso de que queramos testear si el coeficiente es mayor a una constante c, entonces cambiamos nuestro planteamiento a versus la hipótesis alternativa H 0 : β j = c H 1 : β j > c Es decir, si nuestro estadístico t = ˆβ j c se( ˆβ j ) es mayor a nuestro valor crítico tc, entonces rechazamos H 0
Test de hipótesis Test de significancia de un coeficiente (una cola y > c)
Test de hipótesis Test de significancia de un coeficiente (una cola y < c) Para el caso que queramos testear que el coeficiente es menor a una constante c, tenemos H 0 : β j = c versus la hipótesis alternativa H 1 : β j < c Es decir, si nuestro estadístico t = ˆβ j c se( ˆβ j ) es menor a nuestro valor crítico tc, entonces rechazamos H 0
Test de hipótesis Test de significancia de un coeficiente (una cola y < c)
Test de hipótesis Test de significancia de una combinación lineal de coeficientes Siguiendo con nuestro ejemplo de Mcdonalds... el gerente de marketing nos asegura que una disminución en 200 pesos del índice de precio es más efectivo en el aumento de las ventas versus incrementar el gasto en publicidad en 500.000 pesos. Es decir, nos dice que 200 β 2 > 0.5 β 3. Usted no acepta esta preposición a menos que se pueda verificar con la data. Sabe que el cambio estimado en ventas por efecto de la disminución en precio es 200 ( 0.0079079) = 1.58158 y por efecto de publicidad 0.5 1.862584 = 0.931292, es decir, el gerente de mkt parece estar en lo correcto. Luego lo que queremos testear es H 0 : 200β 2 0.5β 3 0 versus H 1 : 200β 2 0.5β 3 > 0
Test de hipótesis Test de significancia de una combinación lineal de coeficientes Asumiendo que la igualdad en H 0 se cumple, el estadístico t bajo la hipótesis nula es t = 200 ˆβ 2 0.5 ˆβ 3 se( 200 ˆβ 2 0.5 ˆβ 3) t72 El valor crítico a un nivel de significancia del 5% es t 0.95,72 = 1.666, luego rechazamos H 0 si t 1.666 (o equivalentemente p-valor< 0.05) Para encontrar el estadístico t, debemos calcular se( 200 ˆβ 2 0.5 ˆβ 3), reemplazando los valores obtenidos anteriormente, tenemos que se( 200 ˆβ 2 0.5 ˆβ 3) 0.408 Luego t = 200 0.0079079 0.5 1.862584 = 1.593843 0.408 Como 1.594<1.666, entonces no existe evidencia suficiente como para rechazar H 0 Es decir, estadísticamente no podemos estar de acuerdo con la afirmación del gerente.
Bondad de ajuste Bondad de ajuste
Bondad de ajuste Bondad de ajuste Considerando el modelo y i = β 1 + β 2x i2 +... + β Kx ik + e i, notamos que podemos escribirlo como y i = ŷ i + ê i con ŷ i = ˆβ 1 + ˆβ 2x i2 +... + ˆβ Kx ik y ê i = y i ŷ i, luego y i ȳ = (ŷ i ȳ) + ê i (y i ȳ) 2 = (ŷ i ȳ) 2 + ê 2 i + 2(ŷ i ȳ)ê i Y sumando para todas las observaciones de la muestra tenemos que 1 N (y i ȳ) 2 = i=1 N N (ŷ i ȳ) 2 + i=1 i=1 ê 2 i Se define la suma de cuadrados totales SST = N (yi ȳ)2 i=1 La suma de cuadrados de la regresión SSR = N (ŷi ȳ)2 i=1 Suma de los cuadrados de los residuos SSE = N i=1 ê2 i 1 N Como ejercicio queda demostrar que (ŷi ȳ)êi = 0. Hint: utilizar sistema de i=1 ecuaciones para los estimadores MC.
Bondad de ajuste Bondad de ajuste Luego tenemos SST = SSR + SSE y se define el coeficiente de determinación R 2 R 2 = SSR N SST = (ŷi ȳ)2 i=1 N (yi ȳ)2 i=1 = 1 SSE SST = 1 N i=1 ê2 i N (yi ȳ)2 i=1 Como se observa R 2 es una medida entre la variación de la regresión (o el modelo con todas sus variables explicativas) versus la variación total de la variable dependiente. En otras palabras, R 2 cuantifica la cantidad de variación de la variable dependiente que es explicada por el modelo. R 2 puede tomar valores entre 0 y 1. Valor de R 2 cercanos a 1, nos dice que la variación de la variable dependiente es explicada en gran medida por las variaciones en las variables explicativas. Valores cercanos a 0, nos dice que la variación del modelo explica poco la variación de la variable dependiente.
Bondad de ajuste Bondad de ajuste Gráficamente para el caso K = 2
Repaso: Distribuciones (antes de seguir con inferencia) Repaso: Distribuciones (antes de seguir con inferencia)
Repaso: Distribuciones (antes de seguir con inferencia) Repaso: Distribuciones (antes de seguir con inferencia) Distribución normal y normal estándar Si x N(µ, σ 2 ), luego haciendo la transformación z = x µ σ z N(0, 1) implica que Distribución χ 2 Si z N(0, 1), entonces z 2 χ 2 1. Por otra parte, si tenemos n distribuciones independientes x i χ 2 1, entonces n x i χ 2 n i=1 Distribución t-student Si z N(0, 1) y x χ 2 n y son independientes, entonces z x/n t n
Repaso: Distribuciones (antes de seguir con inferencia) Distribuciones Distribución F de Fisher Si x χ 2 n (chi-cuadrado grado n) e y χ 2 m (chi-cuadrado grado m) y son independientes, entonces x/n y/m Fn,m Densidad 0.0 0.4 0.8 1.2 F de Fisher (df1,df2) (1,30) (3,30) (8,30) (20,30) (1,1) 0 1 2 3 4 5
Inferencia (continuación) Inferencia (continuación)
Inferencia (continuación) Test de hipótesis Hasta ahora, tenemos Un coeficiente Dos colas Una cola Combinación lineal de coeficientes Grupo de variables (hipótesis conjunta) Test de hipótesis conjunta (F-test) El interés es testear si un conjunto de coeficientes {β j} j {2,...,K} son o no estadísticamente significativos para el modelo. La motivación del test es que si comparamos el modelo completo (con las K 1 variables explicativas) versus un modelo reducido (por ejemplo, con R 1 variables explicativas) y medimos el aumento de sus errores al cuadrado, testeamos si esa diferencia responde a una cantidad significativa.
Inferencia (continuación) Test de hipótesis conjunta (F-test) H 0 : β R+1 = 0 y β R+2 = 0... y β K = 0 H 1 : β R+1 0 o β R+2 0... o β K 0 Modelo sin restricción (U): y = β 1 + β 2x 2 + + β Kx K Modelo con restricción (R): y = β 1 + β 2x 2 + + β Rx R (quitamos K R variables) 2 Luego, se calcula para cada modelo la suma de los cuadrados de sus residuos, es decir, SSE U y SSE R (note que este último siempre es mayor o igual al primero). Y se crea el estadístico F = (SSER SSEU )/(K R) SSE U /(N K) F (K R,N K) 2 Sin pérdida de generalidad se quitaron las últimas K R variables, pero tenga presente que puede ser cualquier combinación posible.
Inferencia (continuación) Test de hipótesis conjunta (F-test) En el caso que queramos testear la significancia del modelo completo, es decir, si todos los β s son cero versus al menos uno es distinto de cero, entonces 3 H 0 : β 2 = 0 y β 3 = 0... y β K = 0 H 1 : β 2 0 o β 3 0... o β K 0 Modelo sin restricción (U): y = β 1 + β 2x 2 + + β Kx K Modelo con restricción (R): y = β 1 (implica que ˆβ 1 = ȳ, es decir, SSE R = N i=1 (yi ŷi) = N (yi ȳ) = SST ) i=1 F = (SST SSE)/(K 1) SSE/(N K) F (K 1,N K) Este es el test que realizan los softwares estadísticos por defecto. 3 Que es equivalente a considerar que R = 1
Ejemplo en Stata, desde cero. Ejemplo en Stata, desde cero.
Predicción Predicción
Predicción Predicción La predicción es una de las herramienta mas utilizada en econometría, ya que intenta predecir un valor futuro (series de tiempo) o un valor para un individuo que no pertenecía a la muestra (data transversal) Se puede efectuar para un valor puntual y 0 o bien para el valor esperado E(y 0) Valor puntual Supongamos El modelo y = β 1 + β 2x 2 + + β Kx K + e (equivalente a y = Xβ + e) y su respectiva estimación E(y) = ŷ = ˆβ 1 + ˆβ 2x 2 + + ˆβ Kx K (equivalente a E(y) = X ˆβ) Queremos predecir el valor y 0 asociados a un vector de regresores x 0i con i = 2,..., K
Predicción Valor puntual Para predecir el valor de y 0 consideramos que se rige bajo el mismo modelo y 0 = β 1 + β 2x 02 + + β Kx 0K + e 0, luego la estimación MCO sería ŷ 0 = x t 0 ˆβ, por lo tanto el error de predicción es Que tiene Error de estimación del vector β u 0 = y 0 ŷ 0 = x t 0(β ˆβ) + e 0 Error estocástico inherente al modelo e 0 Si se conservan los supuestos del modelo de regresion lineal, entonces el valor esperado del error de predicción es cero, luego var(u 0) = E(u 2 0) = E(x t 0(β ˆβ)(β ˆβ) t x 0 + 2x t 0(β ˆβ)e 0 + e 2 0) = σ 2 + σ 2 x t 0(X t X) 1 x 0
Predicción Predicción de un valor puntual Luego, bajo supuestos de normalidad del error e 0, el error de predicción u 0 es una combinación lineal de dos variables normales y por lo tanto tambien distribuye bajo una normal N(0, σu) 2 Vemos que su varianza σu 2 depende de σ 2 (desconocido), de los valores x0 t (conocidos) y de X (conocidos). Razones análogas a las ya vistas tenemos que y 0 ŷ 0 σ2 (1 + x t 0 (Xt X) 1 x 0) N(0, 1) y 0 ŷ 0 ˆσ2 (1 + x t 0 (Xt X) 1 x 0) tn K Entonces podemos construir un intervalo de confianza para el valor futuro y 0 a un nivel α y 0 [ŷ 0 t 1 α/2,n K se(û 0), ŷ 0 + t 1 α/2,n K se(û 0)]
Predicción Predicción de un valor medio Supongamos ahora que estamos interesados en estimar el valor esperado E(y 0) = x t 0β. La predicción, al igual que en el caso anterior, será ŷ 0 = x0 t ˆβ La diferencia es que el error de predicción ahora está dado por u 0 = E(y 0) ŷ 0 = x t 0(β ˆβ) Luego la varianza es var(u 0) = x0var(β t ˆβ)x 0 = σ 2 x0(x t t X) 1 x 0 Por lo tanto, tenemos que E(y 0) a un nivel α E(y 0) [ŷ 0 t 1 α/2,n K se(û 0), ŷ 0 + t 1 α/2,n K se(û 0)]
Predicción Ejemplo predicción Consideremos la versión sencilla del ingreso vs. la escolaridad dada por îngreso i = 0.0144 + 0.724Escolaridad i Donde x 2 i = 2054, N = 13, x = 12, ˆσ 2 = 0.8936. Queremos estimar la predicción media y puntual de x 0 = 20, es decir, ŷ 0 = 0.0144 + 0.724 20 = 14.4656 Es fácil derivar una expresión para la varianza del error de predicción en el caso univariado var(u 0) = σ 2 + σ 2 x0(x t t X) 1 x 0 = σ 2[ 1 + 1 + ] (x 0 x) 2 N ( x 2 i N x2 ) var(u 0) = σ 2 x0(x t t X) 1 x 0 = σ 2[ ] 1 + (x 0 x) 2 N ( x 2 i N x2 ) Luego, reemplazando tenemos var(u 0) = 0.8936 [ 1 + 1 + ] (20 12)2 13 182 = 1.2762 var(u 0 ) = 0.8936 [ 1 + ] (20 12)2 13 182 = 0.3826 Y t 0.975,11 = 2.2, luego
Predicción Gráficamente Los intervalos de confianza de la predicción