Estadística para la Economía y la Gestión IN 3401 Clase 5

Documentos relacionados
Modelo lineal general (K variables)

Estadística para la Economía y la Gestión IN 3401

Errores de especificación

TEMA 5: Especificación y Predicción en el MRL

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

Regresión Lineal. Rodrigo A. Alfaro. Rodrigo A. Alfaro (BCCh) Regresión Lineal / 16

ECONOMETRIA. Tema 5: ERRORES DE ESPECIFICACIÓN. César Alonso UC3M. César Alonso (UC3M) ECONOMETRIA. Tema 5 1 / 35

Estadística y sus aplicaciones en Ciencias Sociales 7. El modelo de regresión simple. Facultad de Ciencias Sociales - UdelaR

Econometria de Datos en Paneles

El Modelo de Regresión Lineal

Grado en Finanzas y Contabilidad

TEMA 3: PROPIEDADES DEL ESTIMADOR MCO

Estadística para la Economía y la Gestión IN 3401 Clase 5

Econometría. Auxiliar 4. Profesor : Mattia Makovec Semestre : Otoño 2010 Auxiliar : Gonzalo Viveros A.

Ejemplo 6.2. Pilar González y Susan Orbe. Dpto. Economía Aplicada III (Econometría y Estadística)

Estimación MCO, MCI en Modelos de Ecuaciones Simultáneas

Ejercicio 5. Pilar González y Susan Orbe. Dpto. Economía Aplicada III (Econometría y Estadística)

Tema 8: Regresión y Correlación

TEMA 4 Modelo de regresión múltiple

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

Econometría II. Hoja de Problemas 1

Econometría Aplicada

Capítulo 6 Multicolinealidad Luis Quintana Romero. Econometría Aplicada Utilizando R

DETERMINANTES DE LOS INGRESOS

ECONOMETRÍA I. Tema 3: El Modelo de Regresión Lineal Múltiple: estimación

Examen de Introducción a la Econometría 8 de septiembre de 2008

Métodos Estadísticos Multivariados

T4. Modelos con variables cualitativas

PROPIEDADES DEL ESTIMADOR MCO

Tema 6. Multicolinealidad. Contenido Multicolinealidad perfecta Multicolinealidad de grado alto

T2. El modelo lineal simple

ECONOMETRÍA I. Tema 5: Análisis de regresión múltiple con información cualitativa

ANÁLISIS DE REGRESIÓN

Regresión Lineal Múltiple

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

Grado en Finanzas y Contabilidad

Econometría Aplicada

Regresores deterministas

Econometria I. Tema 6: Modelos de Ecuaciones Simultáneas. Universidad Carlos III. Getafe, Madrid. November 2008

Estadística Diplomado

Gráfico 1: Evolución del exceso de rentabilidad de la empresa y de la cartera de mercado

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

ASOCIACIÓN ENTRE DOS VARIABLES CONTINUAS: REGRESIÓN Y CORRELACIÓN

ECONOMETRÍA I. Tema 2: El Modelo de Regresión Lineal Simple. Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

Variables Cualitativas

Econometría III Examen. 29 de Marzo de 2012

Estimación MC2E, MVIL en Modelos de Ecuaciones Simultáneas

Hoja de Ejercicios 3 El modelo de regresión lineal múltiple

Prueba de Hipótesis. Para dos muestras

Estimación del modelo lineal con dos variables

Tema 4. Regresión lineal simple

Tema 10: Introducción a los problemas de Asociación y Correlación

Hoja de Ejercicios 4 Análisis de regresión con información cualitativa

Econometría II. Tema 1: Revisión del Modelo de Regresión Múltiple Ejercicios

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

peso edad grasas Regresión lineal simple Los datos

El Modelo de Regresión Lineal General Estimación

Regresión con errores autocorrelacionados

Econometría de Económicas Ejercicios para el tema 2 y 3

CALIFICACION: - P C: precio medio de los productos sustitutivos existentes en el mercado en euros.

Variables Dependientes Limitadas

ECUACIONES DE RECTAS Y PLANOS

Modelo clásico de regresión lineal normal (MCRLN)

Tribunal de la Oposición al Cuerpo Superior de Estadísticos del Estado

ESTADÍSTICA. Tema 4 Regresión lineal simple

Economía Aplicada. Causalidad y Experimentos Sociales. Departmento de Economía Universidad Carlos III de Madrid

Departamento de Fundamentos del Análisis Económico. Universidad de Alicante. Curso 2011/12. ECONOMETRÍA I Hoja de problemas del Tema 4

Aplicaciones de apoyo al diagnóstico médico. Identificación de objetos amigos y enemigos. Identificación de zonas afectadas por un desastre natural.

Economía Aplicada. ¾Es importante el tamaño de la clase? Un experimento controlado

Modelos elección discreta y variable dependiente limitada

BLOQUE 3 TEMA 11 ESTIMACIÓN DE PARÁMETROS. ERRORES DE ESTIMACIÓN

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

Tercera práctica de REGRESIÓN.

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística

La línea recta: Serie1

Qué es una regresión lineal?

El Modelo de Regresión Simple

Sesión 7 - Modelos de variable censurada y truncada

TODO ECONOMETRIA. Bondad del ajuste Contraste de hipótesis

Estimación de ecuaciones estructurales

TEMA 3: Contrastes de Hipótesis en el MRL

Estimaciones puntuales. Estadística II

ANÁLISIS DE FRECUENCIAS

Pronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple

Regresión polinomial y factores

Marco Hernando Albarrán Núñez. Facultad de Ciencias Universidad Nacional Autónoma de México.

Estadística Inferencial. Sesión 2. Distribuciones muestrales

Econometría dinámica y financiera

Inferencia. Mauricio Olivares. 19 de junio de 2015 ITAM

Prácticas Tema 6. Modelos de ecuaciones simultáneas

Estadística I para futuros ingenieros Unidad 4. Segunda parte

Econometría de series de tiempo aplicada a macroeconomía y finanzas

7. ANÁLISIS DE VARIABLES CUANTITATIVAS: REGRESIÓN LINEAL SIMPLE

Estadísticas II. M. en E. M. Milagros Eugenia Faci. 15 de julio de 2010

CAPÍTULO 4 PROBLEMAS DE ADECUACIÓN MODELO-REALIDAD (I) ERRORES DE ESPECIFICACIÓN

Los estimadores mínimo cuadráticos bajo los supuestos clásicos

Teorema Central del Límite (1)

UNA PROPUESTA PARA LA MAXIMIZACIÓN DE LA ESTADÍSTICA Q K

Transcripción:

Estadística para la Economía y la Gestión IN 3401 Clase 5 21 de octubre de 2009

1 Variables Dummies o cualitativas 2 Omisión de Variables Relevantes Impacto sobre el Insesgamiento Impacto sobre la Varianza Ejemplo 3 Inclusión de Variables Irrelevantes Impacto sobre el Insesgamiento Impacto sobre la Varianza Ejemplo

En en análisis de regresión, la variable dependiente esta influida frecuentemente no solo por variables continuas como son el ingreso, producción, precios, etc..., sino también por variables que son esencialmente cualitativas, estos son regresores binarios, es decir, variables que sólo toman el valor 0 o 1. Dichas variables son llamadas variables dummies, variables dicotómicas o variables ficticias. Muchas veces el regresor es binario porque así fue recogido en la encuesta. Sin embargo, en otros casos el regresor binario ha sido construido a partir de otras variables de los datos.

Algunos ejemplos de variable dummies son: género, raza, religión, nacionalidad, región geográfica, etc. Por ejemplo, se ha encontrado que manteniendo todos los demás factores constantes, las trabajadoras mujeres ganan menos que sus colegas hombres, y que las personas de color ganan menos que las blancas. Este patrón puede resultar de discriminación sexual o racial, pero cualquiera sea la razón, las variables cualitativas tales como género o raza sí influyen sobre la variable dependiente.

Por ejemplo, consideremos la siguiente variable dummy para género (mujer/hombre) del individuo. Entonces la variable dummy consistirá en un vector (n 1) con elementos 0 o 1 según corresponda. Es decir: { 1 Mujer d 1i = 0 Hombre Pensemos en una ecuación simple de salarios E(Salario(W)/Género), la cual implica el siguiente modelo: W i = β 0 + β 1 d 1i + ɛ i entonces, dada la especificación escogida para la dummy, tenemos que: β 0 = E(W Hombre) β 0 + β 1 = E(W Mujer)

Alternativamente, podríamos haber definido la dummy de la siguiente forma: { 0 Mujer d 2i = 1 Hombre y el modelo W i = β 0 + β 1 d 2i + ɛ i entonces, en esta segunda especificación escogida para la dummy, tenemos que: β 0 = E(W Mujer) β 0 + β 1 = E(W Hombre)

Una tercera forma de definir el modelo sería incluyendo ambas dummies: W i = β 1 d 1i + β 2 d 2i + ɛ i con el cual tendríamos que los retornos a ambos géneros serían: β 1 = E(W Mujer) β 2 = E(W Hombre) Los tres modelos anteriores son equivalentes. Note que en el tercer modelo no incluimos término constante ya que ello haría que la matriz X fuese singular y por lo tanto, no invertible (Trampa de las Dummies).

Ejemplo 1 Contamos con datos de ingreso proveniente de la ocupación principal para el año 2000, de acuerdo a zona geográfica de Chile: Norte (de la primera a la cuarta región), Centro (quinta región, sexta región y región metropolitana) y Sur (de la séptima a la duodécima región). Zona Geográfica Salario Promedio Norte 270.154 Centro 296.857 Sur 240.238 Suponga que deseamos averiguar si el salario promedio difiere entre las distintas zonas geográficas.

Consideremos el siguiente modelo de regresión para el salario (y i ): y i = β 0 + β 1 D 1i + β 2 D 2i + ɛ i D 1i : es una variable dummy que toma valor 1 si la persona i vive en el norte y cero sino. D 2i : es una variable dummy que toma valor 1 si la persona i vive en el sur y cero sino. De esta forma, el salario promedio de los individuos que viven en el norte es: E(Y i D 1i = 1, D 2i = 0) = β 0 + β 1 de igual forma el salario promedio de los individuos que viven en el sur es: E(Y i D 1i = 0, D 2i = 1) = β 0 + β 2 y por último, el salario promedio de los individuos que viven en el centro es: E(Y i D 1i = 0, D 2i = 0) = β 0

Necesitamos ver si estas diferencias son estadísticamente significativas. El modelo estimado es: La diferencia en los salarios promedios entre regiones es estadísticamente significativa. Es importante tener claro que las variables dicotómicas simplemente señalaran las diferencias, si es que estas existen, pero no sugieren razones por las cuales estas se presentan.

Los modelos econométricos generalmente son más amplios e introducen tanto variables explicativas continuas como dicotómicas. Por ejemplo, es razonable suponer que, además del género, existen otros factores que explican el salario (educación y experiencia, entre otros) Especifiquemos nuevamente el modelo como E(W Educación,Género): W i = β 0 + β 1 d 2i + β 2 E i + ɛ i Dicho modelo presenta un efecto intercepto para el género, es decir, hombres y mujeres poseen diferente intercepto, pero igual pendiente (β 2 ) en educación (retorno a la educación).

Gráficamente...

Ahora, si quisiéramos especificar un modelo en que además las pendientes varíen con el género (retornos a la educación diferenciados), tendríamos el siguiente modelo: donde: W i = β 0 + β 1 d 2i + β 2 E i + β 3 d 2i E i + ɛ i E(Salario(W ) E, Hombre) = β 0 + β 1 + (β 2 + β 3 )E E(Salario(W ) E, Mujer) = β 0 + β 2 E Por lo tanto el efecto marginal de la eduación es: Hombres: E(Salario(W ) E, Hombre) E Mujeres: E(Salario(W ) E, Mujer) E = β 2 + β 3 = β 2

Gráficamente...

Ejemplo 2 A continuación veremos la aplicación de la llamada. Ec uación de Mincer para estimar el retorno a la educación. Los datos corresponden a un grupo de jóvenes chilenos egresados de la educación media técnica, los que fueron entrevistados en 1997. La primera figura muestra la estimación de la ecuación de Mincer en su versión original (1974): ln(w i ) = α + βeducacion i + ɛ i

Consideremos ahora una versión más completa del modelo en que incluimos la experiencia y una dummy que toma el valor 1 si el individuo es una mujer: Note que el retorno a la educación sigue siendo positivo, mientras que la dummy para mujer es negativa (Qué significa que el parámetro sea negativo?).

Veamos a continuación, la misma especificación, sólo que esta vez la dummy se define como 1 si el individuo es hombre: Cómo es el parámetro de la dummy para el hombre comparado con el de la mujer? Qué pasa con la estimación del resto de los parámetros?.

Impacto sobre el Insesgamiento Omisión Variable Relevante Considere el siguiente modelo poblacional (expresado en desvíos con respecto a la media): Y = X 1 β 1 + X 2 β 2 + ɛ Suponga ahora que el investigador se equivoca y estima el siguiente modelo: Y = X 1 β 1 + ɛ Estimando el modelo incorrecto obtenemos: por lo cual: ˆβ 1 = (X 1X 1 ) 1 X 1Y = β 1 + (X 1X 1 ) 1 X 1X 2 β 2 + (X 1X 1 ) 1 X 1ɛ E( ˆβ 1 ) = β 1 + (X 1X 1 ) 1 X 1X 2 β 2 = β 1 + Zβ 2

Impacto sobre el Insesgamiento Ello implica que por lo general, la omisión de variables relevantes (que pertenecen al modelo poblacional), causará que los parámetros estimados sea sesgados. Ello no sucederá, sólo en el caso que Z = 0 (es decir que X 1 y X 2 sea ortogonales) o si β 2 = 0 (aunque dicho caso es contradictorio, dado que implicaría que la variable no pertenece al modelo poblacional). La dirección del sesgo es difícil de obtener, sin embargo, el análisis se simplifica si pensamos en β 1 y β 2 como escalares. En dicho caso: E( ˆβ 1 ) = β 1 + Cov(X 1, X 2 ) β 2 V (X 1 ) La dirección del sesgo depende de como covarien las variables incluidas con respecto a las excluidas y del signo del parámetro omitido.

Impacto sobre la Varianza Estimando el modelo incorrecto, el estimador de la varianza será: V ( ˆβ 1 X 1 ) = σ 2 (X 1X 1 ) 1 mientras que si hubiéramos estimado el modelo correcto, se puede demostrar que la varianza del estimador insesgado de β 1 ( ˆβ 1 ) correspondería a: V ( ˆβ 1 X 1, X 2 ) = σ 2 (X 1M 2 X 1 ) 1 donde M 2 = I X 2 (X 2 X 2) 1 X 2. Luego, comparamos las inversas de ambas matrices: (V ( ˆβ 1 X 1 )) 1 (V ( ˆβ 1 X 1, X 2 )) 1 = σ 2 (X 1X 2 (X 2X 2 ) 1 X 2X 1 ) tal que se puede demostrar que dicha matriz es definida positiva. Por lo tanto, el omitir variables relevantes implica que los parámetros estimados serán sesgados y que sus varianzas serán menores.

Ejemplo Suponga que un investigador quiere estimar el retorno a la educación y que el modelo verdadero(obviamente es un caso ilustrativo) está dado por: W i = β 1 E i + β 2 EXP i + ɛ i Donde W i corresponde al logaritmo del salario del individuo i, E i corresponde a los años de educación del individuo i, EXP i corresponde a los años de experiencia laboral del individuo i y ɛ i corresponde a un término de error bien comportado. Sin embargo este investigador utiliza el siguiente modelo para su estimación. W i = β 1 E i + ɛ i

Ejemplo Los resultados del modelo verdadero son: Los resultados del modelo estimado son:

Ejemplo Podemos ver el parámetro que acompaña a la variable años de educación es menor en el modelo estimado que en el modelo verdadero. Esta dirección del sesgo se puede explicar por el signo del parámetro que acompaña a la variable experiencia en el modelo verdadero y a la relación existente entre educación y experiencia en el mercado laboral.

Impacto sobre el Insesgamiento Inclusión Variable Irrelevante Considere ahora el siguiente modelo poblacional: Y = X 1 β 1 + ɛ Suponga ahora que el investigador se equivoca y estima el siguiente modelo: Y = X 1 β 1 + X 2 β 2 + ɛ Estimando el modelo incorrecto obtenemos: ˆβ 1 = (X 1M 2 X 1 ) 1 X 1M 2 Y = β 1 + (X 1M 2 X 1 ) 1 X 1M 2 ɛ donde M 2 se define igual que el la sección anterior. Entonces: E( ˆβ 1 ) = β 1

Impacto sobre el Insesgamiento Con el mismo razonamiento, se puede demostrar que: E(ˆσ 2 ) = ( ˆɛ ˆɛ ) E n k 1 k 2 = σ 2 es decir, la inclusión de variable irrelevantes no causa sesgo en los parámetros estimados, ni en la varianza de los errores estimados. Bajo dichos resultados, pareciera que es mejor poner muchos regresores en nuestro modelo. Sin embargo, nos falta estudiar que sucede con la varianza de los parámetros estimados.

Impacto sobre la Varianza Recordemos que: con lo cual, la varianza estimada: ˆβ 1 = β 1 + (X 1M 2 X 1 ) 1 X 1M 2 ɛ V ( ˆβ 1 X 1, X 2 ) = σ 2 (X 1M 2 X 1 ) 1 mientras que la varianza verdadera es: V ( ˆβ 1 X 1) = σ 2 (X 1X 1 ) 1 entonces, como probamos con anterioridad, la varianza verdadera es menor que la varianza estimada. Ello implica que el incluir regresores adicionales, aumenta la varianza de nuestros parámetros estimados, lo cual se traduce en parámetros menos eficientes.

Ejemplo Suponga que un investigador quiere estimar el retorno a la educación y que el modelo verdadero(obviamente es un caso ilustrativo) está dado por: W i = β 1 + β 2 E i + ɛ i Donde W i corresponde al logaritmo del salario del individuo i, E i corresponde a los años de educación del individuo i y ɛ i corresponde al término de error bien comportado. Sin embargo este investigador utiliza el siguiente modelo para su estimación. W i = β 1 + β 2 E i + β 3 D i + ɛ i Donde D i corresponde a una variable dicotómica que toma el valor 1 si el individuo fuma y 0 si no fuma.

Ejemplo Los resultados del modelo verdadero son: Los resultados del modelo estimado son:

Ejemplo Podemos ver no existe una variación importante en los parámetros del modelo estimado y el modelo verdadero. Sin embargo, tal como habíamos demostrado, la varianza de los parámetros aumenta disminuyendo entonces la eficiencia.