Econometría 1. Karoll GOMEZ Segundo semestre 2017

Documentos relacionados
Econometría 1. Karoll GOMEZ Segundo semestre 2017

Taller I Econometría I

ANÁLISIS DE REGRESIÓN

Estadística para la Economía y la Gestión IN 3401

ECONOMETRÍA I. Tema 2: El Modelo de Regresión Lineal Simple. Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía

Econometría II. Hoja de Problemas 1

Tema1. Modelo Lineal General.

Introduccion a los Modelos de Regresion

Tema 4. Regresión lineal simple

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

Índice Introducción Economía y Estadística Análisis de Regresión. Clase 1. Introducción a la Econometría. Profesor: Felipe Avilés Lucero

7. REGRESIÓN POR MÍNIMOS CUADRADOS: REGRESIÓN POLINOMIAL. Jorge Eduardo Ortiz Triviño

Modelo de Regresión Lineal Simple

ECONOMETRÍA I. Tema 3: El Modelo de Regresión Lineal Múltiple: estimación

1. Conceptos de Regresión y Correlación. 2. Variables aleatorias bidimensionales. 3. Ajuste de una recta a una nube de puntos

Contenido. vii. Prólogo... i Presentación... iii Grupo de trabajo...v. 1. Introducción y conceptos preliminares...1

Estadística y sus aplicaciones en Ciencias Sociales 7. El modelo de regresión simple. Facultad de Ciencias Sociales - UdelaR

Estadística II. Laura M. Castro Souto

Modelado y simulación en Ingeniería Química. Manuel Rodríguez

Errores de especificación

El Modelo de Regresión Lineal

TEMA 4 Modelo de regresión múltiple

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

T2. El modelo lineal simple

Mínimos cuadrados generalizados y máxima verosimilitud

Modelo de Regresión Lineal

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Microeconometría. Karoll GOMEZ Segundo semestre 2017

REGRESIÓN Y ESTIMACIÓN TEMA 1: REGRESIÓN LINEAL SIMPLE

Econometría 1. Karoll GOMEZ Segundo semestre 2017

Métodos Estadísticos Multivariados

El Modelo de Regresión Lineal General Estimación

Soluciones Examen Final de Econometría Universidad Carlos III de Madrid 26 de Mayo de 2015

Se permite un folio escrito por las dos caras. Cada problema se realiza en hojas diferentes y se entregan por separado.

Capítulo 8. Selección de variables Introducción

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

TEMA 2: Propiedades de los estimadores MCO

Tema 8: Regresión y Correlación

Método de cuadrados mínimos

Estadística. Tema 3. Esperanzas Esperanza. Propiedades Varianza y covarianza. Correlación

Regresión Lineal Múltiple

Tema 1. El Modelo de Regresión Lineal con Regresores Aleatorios.

T3. El modelo lineal básico

TEMA 5: Especificación y Predicción en el MRL

El modelo de regresión múltiple

Regresión lineal simple

Los estimadores mínimo cuadráticos bajo los supuestos clásicos

ASIGNATURA: ESTADISTICA II (II-055) Ing. César Torrez

Curso de nivelación Estadística y Matemática

TODO ECONOMETRIA TEMA 1: MODELO BASICO DE REGRESIÓN LINEAL MULTIPLE (MBRL)

Estadística para la Economía y la Gestión IN 3401 Clase 5

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Regresión Lineal Simple y Múltiple Regresión Logística

Regresión Simple. Leticia Gracia Medrano. 2 de agosto del 2012

Econometría Aplicada

Capítulo 2. Medidas Estadísticas Básicas Medidas estadísticas poblacionales

El Modelo de Regresión Simple

TEMA 3: PROPIEDADES DEL ESTIMADOR MCO

TEMA 10 Correlación y regresión. El modelo de regresión simple

Relación 3 de problemas

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística

Definición de Correlación

Información sobre Gastos de Consumo Personal y Producto Interno Bruto ( ) en miles de millones de dólares de 1992.

Fundamentos del Análisis Econométrico. Dante A. Urbina

Unidad Temática 3: Estadística Analítica. Unidad 9 Regresión Lineal Simple Tema 15

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

Profesor: Hugo S. Salinas. Primer Semestre Tabla 1: Inteligencia y Rendimiento. X Y Figura 1: Inteligencia y Rendimiento.

ECONOMETRIA. Tema 2: El Modelo de Regresión Lineal Simple. César Alonso UC3M. César Alonso (UC3M) ECONOMETRIA. Tema 2 1 / 62

La econometría : una mirada de pájaro

Modelo de Regresión Lineal

Ejemplo 7.1. Heterocedasticidad. Pilar González y Susan Orbe. Dpto. Economía Aplicada III (Econometría y Estadística)

PROPIEDADES DEL ESTIMADOR MCO

Estadística aplicada al medio ambiente

Generalmente, el objetivo de cualquier estudio de econometría es la. búsqueda de relaciones matemáticas que permitan explicar el comportamiento

Tema 10: Introducción a los problemas de Asociación y Correlación

TEMA 3 Modelo de regresión simple

Grado en Finanzas y Contabilidad

Multicolinealidad Introducción. Uno de los supuestos básicos del modelo lineal general. y = Xβ + u

1.-Fuentes de perturbación no esféricas. Autocorrelación y Heterocedasticidad.

Modelación estadística: La regresión lineal simple

Escuela de Economía Universidad de Carabobo Profesor: Exaú Navarro Pérez.

MÍNIMOS CUADRADOS GENERALIZADOS

Tema 3: Análisis de datos bivariantes

Jesús García Herrero TÉCNICAS CLÁSICAS DE ANÁLISIS DE DATOS

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

= 15 CALIFICACION:

Estadística II Tema 1: Distribución normal multivariante

Lectura No. 8. Contextualización. Nombre: Métodos de Análisis ANÁLISIS FINANCIERO 1

INTRODUCCIÓN A REGRESIÓN LINEAL. Simple y Múltiple

Econometría de Económicas Ejercicios para el tema 2 y 3

Teoría de la decisión

GEOESTADÍSTICA APLICADA

ESTADÍSTICA APLICADA. Tema 4: Regresión lineal simple

Linear Regression and the Least-squares problem

Econometría de series de tiempo aplicada a macroeconomía y finanzas

RESUMEN DE ALGUNOS CONCEPTOS ESTADÍSTICOS ELEMENTALES Y NOTACIÓN EMPLEADA EN EL CURSO

Econometría Aplicada

Transcripción:

Econometría 1 Karoll GOMEZ kgomezp@unal.edu.co http://karollgomez.wordpress.com Segundo semestre 2017

II. El modelo de regresión lineal

Esperanza condicional I Ejemplo: La distribución de los salarios Supangamos que nos interesa estudiar los salarios en Estados Unidos. Dada la variación de salarios a través de los trabajadores, el salario es una variable aleatoria y la distribución de probabilidad de los salarios estaría dada por: F (u) = Pr(salario u) La serie de salario observada se consideran como realizaciones de F (u) La media es la medida de tendencia central más común: E[log(wage)] = 2.95

Esperanza condicional II Varía la distribución del salario a través de la población?

Esperanza condicional III E[log(wage) sexo = M] = 3.05 E[log(wage) sexo = F ] = 2.81 E[log(wage) sexo = M, raza = blanco] = 3.07 E[log(wage) sexo = M, raza = negro] = 2.86

Esperanza condicional IV Ventajas de la esperanza condicional: Facilta comparaciones entre grupos en los datos Facilita el análisis al reducirlo a una medida y no tratar directamente con la distribución La econometría y el análisis de regresión centra su análisis en la media condicional.

Regresión I Asuma que se dispone de un vector de p variables predictoras X R p y una variable de respuesta Y R. Supóngase (X, Y ) distribuyen conjuntamente acorde con P(X, Y ) con medias E(X ) = µ X y E(Y ) = µ Y, y covarianzas Σ X X, Σ YY = σ 2 Y, y Σ X Y. Considérese ahora el problema de predecir a la variable Y por medio de una función de X, f (X ). La precisión de la predicción es medida por medio de una función de valor real función de pérdida L(Y, f (X )).

Regresión II La calidad de f como predictor es medida por medio de la pérdida esperada (conocida como función de riesgo), R(f ) = E [L(Y, f (X ))] = L(Y, f (X ))dp(x, Y ). Para una función de riesgo L(Y, f (X )) = (Y f (X )) 2 (error cuadrático medio), R(f ) = E [ (Y f (X )) 2] = (y f (x)) 2 dp(x, y) = (y f (x)) 2 dp(y x)dp(x) [ [ = E X EY X (Y f (X )) 2 X ]].

Regresión III R(f ) puede minimizarse en cada punto x, [ m(x) = arg min E Y X (Y f (X )) 2 X = x ] f : R p R Cuya solución es la media condicional (o función de regresión), m(x) = E(Y X = x) = ydp(y x) En efecto E [ (Y f (X )) 2] = E [ (Y m(x ) (f (X ) m(x )) 2] = E [ (Y m(x )) 2] + E [ (f (X ) m(x )) 2] 2E [(Y m(x )(f (X ) m(x ))] = E [ (Y m(x )) 2] + E [ (f (X ) m(x )) 2],

Regresión IV teniendo en cuenta que E [(Y m(x )(f (X ) m(x ))] = E {E [(Y m(x ))(f (X ) m(x )) X = x]} = E {E [(Y m(x )) X = x] (f (X ) m(x ))} = E {(E [Y X = x] m(x ))(f (X ) m(x ))} = E {(m(x ) m(x ))(f (X ) m(x ))} = 0 Así, el primer término en E [ (Y f (X )) 2] = E [ (Y m(x )) 2] + E [ (f (X ) m(x )) 2] no depende de f (X ), por lo tanto minimizar el riesgo equivale a minimizar E [ (f (X ) m(x )) 2], que es cero si f (X ) = m(x ).

Regresión V Si Y es linealmente relacionada con X = (X 1,..., X p ) entonces, Y = f (X, β) + ε = X β + ε p = β j X j + ε, j=1 donde ε es una variable aleatoria no observada (componente de error) con media 0 y varianza σ 2 > 0, e independiente de X. La relación es conocida como modelo de regresión lineal, donde β = (β 1,..., β p ) es un vector de parámetros fijos desconocidos y σ 2 es la varianza de error desconocida.

Regresión VI Reemplazando f (X ) = X β en R(f ), y diferenciado se tiene que β = [ ( E X X )] 1 E(X Y ) = Σ 1 X X Σ X Y. En la práctica, para estimar el vector β se dispone de una muestra de datos D = {(x i, y i ), i = 1,..., n}, donde x i = (x i1,..., x ip ). Así, el modelo de regresión lineal múltiple es: y i = β 1 x i1 + + β p x ip + ε i, i = 1,..., (n > p) = x i β + ε i donde x i = (x i1,..., x ip ).

Regresión VII El conjunto de n ecuaciones puede escribirse matricialmente como: y = X β + ε, donde y 1 x 11 x 12 x 1p β 1 ε 1 y 2 y =., X = x 21 x 22 x 2p......, β = β 2., ε = ε 2. y n x n1 x n2 x np β p ε n

Supuestos del modelo de regresión lineal I Dado la especificación del modelo de regresión, y = X β + ε, y i = x i β + ε i, i = 1,..., (n > p) 1. Aleatoriedad de la muestra: se tiene una muestra aleatoria de datos D = {(x i, y i ), i = 1,..., n} lo cual implica que las observaciones muestrales son iid. Adicionalmente, este supuesto tambien implica que el término de error ε también es iid.

Supuestos del modelo de regresión lineal II 2. Linealidad f (x i ) = x i β = β 0 + x i β Esto implica que la función f (x i ) es lineal en los parámetros y que el término de error del modelo entra en forma aditiva en el mismo.

Supuestos del modelo de regresión lineal III Figura: Fuente: Wooldrigde. (2015).

Supuestos del modelo de regresión lineal IV 3. Exogeneidad estricta Este supuesto implica que: E(ε i X ) = 0, i = 1,..., n. (i) la media incondicional del término de error es cero (por ley de las expectativas iteradas): E(ε i ) = E(ε i X ) = 0, i = 1,..., n. (ii) Los regresores son ortogonales al término de error para todas las observaciones E(x ij ε k ) = E [E(x ij ε k x ij )] = E [x ij E(ε k x ij )] = 0, i, k = 1,..., n, j = 1,..., p.

Supuestos del modelo de regresión lineal V (iii) La media condicional de la variable dependiente es una función lineal de los regresores 4. Matriz de diseño bien definida: Este supuesto implica que: E(Y X ) = X β E(y i x i ) = β 0 + x i β (i) No multicolinealidad: Rango de la matriz de datos (también matriz de diseño) es p con probabilidad 1. P (Rango(X ) = p) = 1

Supuestos del modelo de regresión lineal VI (ii) El número de observaciones en la muestra debe ser mayor al numero de parámetros estimar n > p. 5. Perturbaciones esféricas Homocedasticidad Var(ε i X ) = E(ε 2 i X ) [E(ε i X )] 2 = E(ε 2 i X ) = σ 2 > 0, i = 1,..., n. No correlación Cov(ε i, ε k X ) = E(ε i ε k X ) E(ε i X )E(ε k X ) = E(ε i ε k X ) = 0, i, k = 1,..., n; i k.

Supuestos del modelo de regresión lineal VII 6. Normalidad de los errores: ε i distribuye normal con media cero y varianza σ 2 condicional a X En suma: ε i X N (0, σ 2 ), i = 1,..., n. Matricialmente los supuestos del modelo de regresión lineal múltiple se resumen en que: Dada una muestra aleatoria de datos, D = {(x i, y i ), i = 1,..., n} el modelo cumple con la condición de que ε X N (0, σ 2 I n ) y P (Rango(X ) = p) = 1.

Estimación de mínimos cuadrados ordinarios I El método de estimación más popular es el método de mínimos cuadrados, en el cual β es obtenido por medio de la minimización de la suma de cuadrados de los errores SCE(β) = = n i=1 ε 2 i n (y i x i β) 2 i=1 = (y X β) (y X β) ( = y β X ) (y X β) = y y β X y y X β + β X X β = y y 2y X β + β X X β.

Estimación de mínimos cuadrados ordinarios II Teniendo en cuenta que (a z) z = a y (z Az) z entonces, diferenciado w.r.t. β se tiene que SCE(β) β = 2Az para A simétrica, = 2X y + 2X X β. Igualando a 0 se tiene el conjunto de p ecuaciones normales X X β = X y. Asumiendo que el Rango(X ) = p, la solución única está dada por b = β ( ) 1X = X X y ( n ) 1 n = x i x i x i y i. i=1 i=1

Estimación de mínimos cuadrados ordinarios III

Geometría del método de MCO I

Geometría del método de MCO II Figura: Ajuste MCO con X R 2. Fuente: Hastie, etal.(2009).

Geometría del método de MCO III Figura: Geometría de MCO con dos regresores. Fuente: Hastie, etal.(2009).

Conceptos relacionados I Los valores predichos (ajustados) de y i son ŷ i = x i β, o matricialmente ŷ = X β. Así, los residuales del modelo están dados por e i = y i ŷ i = y i x i β, o matricialmente e = y ŷ = y X β. De las ecuaciones normales se tiene que X ( y X β ) = X e = 0 Condición de ortogonalidad.

Conceptos relacionados II La condición de ortogonalidad implica que: cuando el modelo contiene una variable constante (intercepto), entonces n Error muestral, β β i=1 e i = 1 n e = 0, donde 1 n = (1,..., 1). ( ) 1X β = X X y ( ) 1X = X X (X β + ε) ( ) 1X ( ) 1X = X X X β + X X ε ( ) 1X = β + X X ε. Por lo tanto, β β = ( X X ) 1X ε.

Conceptos relacionados III El vector de residuales puede expresarse como e = y ŷ = y X β ( ) 1X = y X X X y ( ( ) 1X ) = I X X X y = ( I P ) y = My = ( I P ) ε = Mε donde P se denomina matriz de proyección dado que PX = X y Py = ŷ, y M matriz de proyección ortogonal ya que MX = 0. P y M son ambas matrices simétricas e idempotentes.

Conceptos relacionados IV La suma de cuadrados de los residuales está dada por SCR = e e = y My = (X β + ε) M(X β + ε) = (β X + ε ) M ( X β + ε ) = β X MX β + ε MX β + β X Mε + ε Mε = ε Mε. Estimador (insesgado) de la varianza del modelo σ 2 S 2 = SCR n p = e e n p.

Análisis de varianza I Dado que y = ŷ + e, entonces la suma de cuadrados totales es: n i=1 y 2 i = y y = (ŷ + e) (ŷ + e) = ŷ ŷ + e ŷ + ŷ e + e e = ŷ ŷ + 2ŷ e + e e = ŷ ŷ + 2 β X e + e e = ŷ ŷ + e e n n = ŷi 2 + ei 2. i=1 i=1

Análisis de varianza II Ahora, si el modelo tiene intercepto, la suma de cuadrados totales en términos de desviaciones (con respecto a la media ȳ) es: n (y i ȳ) 2 i=1 = (y ȳ1) (y ȳ1) = (ŷ ȳ1 + e) (ŷ ȳ1 + e) = (ŷ ȳ1) (ŷ ȳ1) + (ŷ ȳ1) e + e (ŷ ȳ1) + e e n n = (ŷ i ȳ) 2 + ei 2, i=1 i=1 donde 1 = (1,..., 1) es un vector de de dimensión n.

Análisis de varianza III Coeficiente de determinación n R 2 i=1 = (ŷ i ȳ) 2 n i=1 (y i ȳ) 2 n i=1 = 1 e2 i n i=1 (y i ȳ) 2 = 1 ˆσ2 e ˆσ 2 y [0, 1], donde ˆσ 2 e = n 1 n i=1 e2 i y ˆσ 2 y = n 1 n i=1 (y i ȳ) 2. El R 2 representa una medida del ajuste lineal del modelo, dado que éste mide la proporción de variación total en y i, n i=1 (y i ȳ) 2, explicada por la variación total en los regresores, n i=1 (ŷ i ȳ) 2. Si el modelo tiene intercepto, entonces R 2 [0, 1] y por lo tanto, entre más cercano a uno, entonces mejor es el ajuste.

Análisis de varianza IV Una dificultad del R 2 es que éste se incrementa a medida que se agregan regresores a la regresión. Una medida de ajuste que no presenta este problema es el R 2 ajustado, R 2 = 1 e e/(n p) y My/(n 1) = 1 1 n n p i=1 e2 1 1 n 1 n i=1 (y 1 ȳ) 2. La conexión entre el R 2 y R 2 está dada por R 2 = 1 n 1 n p (1 R2 ).