Valoración de estudios basados en el Análisis de Regresión Múltiple (SW Cap. 7)

Documentos relacionados
Funciones de Regresión No Lineales (SW Cap. 6)

Econometría III Examen. 29 de Marzo de 2012

ANÁLISIS DE REGRESIÓN

Regresión Múltiple (SW Capítulo 5) Estimación MCO de la relación entre las notas y el número de estudiantes por profesor:

TODO ECONOMETRIA TEMA 1: MODELO BASICO DE REGRESIÓN LINEAL MULTIPLE (MBRL)

TEMA 3: PROPIEDADES DEL ESTIMADOR MCO

Economía Aplicada. ¾Es importante el tamaño de la clase? Un experimento controlado

Obligatoria Optativa Extracurricular Curso Seminario Taller. Clave seriación 45 Laboratorio. Horas prácticas de campo

Hoja de Ejercicios 3 El modelo de regresión lineal múltiple

MÓDULO: MÉTODOS CUANTITATIVOS

TEMA 5: Especificación y Predicción en el MRL

Clase de Métodos 1: Inferencia Causal y Métodos Cuasi-Experimentales. Sveta Milusheva DIME, World Bank

Econometría de Económicas Ejercicios para el tema 2 y 3

Diplomado en Econometría Coordinadora académica: M.F. Esperanza Sainz López

Prueba de Hipótesis. Para dos muestras

PROPIEDADES DEL ESTIMADOR MCO

Regresión Lineal. Rodrigo A. Alfaro. Rodrigo A. Alfaro (BCCh) Regresión Lineal / 16

ENUNCIADOS DE PROBLEMAS

Gráfico 1: Evolución del exceso de rentabilidad de la empresa y de la cartera de mercado

ECONOMETRIA. Tema 5: ERRORES DE ESPECIFICACIÓN. César Alonso UC3M. César Alonso (UC3M) ECONOMETRIA. Tema 5 1 / 35

Sesión IV: Variables Instrumentales Variables Instrumentales

El Modelo de Regresión Lineal

Errores de especificación

La econometría : una mirada de pájaro

Métodos de Investigación en Psicología (11) Dra. Lucy Reidl Martínez Dra. Corina Cuevas Reynaud Dra. Renata López Hernández

ECONOMETRÍA I. Tema 2: El Modelo de Regresión Lineal Simple. Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía

Estadística y sus aplicaciones en Ciencias Sociales 7. El modelo de regresión simple. Facultad de Ciencias Sociales - UdelaR

Determinantes del Precio de Viviendas en Chile. Andrés Sagner GIF Banco Central de Chile

Grado en Finanzas y Contabilidad

Tema 4. Regresión lineal simple

IN INVESTIGACIÓN DE MERCADOS Diseño de la investigación Investigación causal. André Carboni Semestre primavera 2012

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Capítulo 6 Multicolinealidad Luis Quintana Romero. Econometría Aplicada Utilizando R

Tema 2. Regresión Lineal

Tema 1. Introducción: el modelo econométrico

Metodología de la Investigación: Validez y Confiabilidad. Prof. Reinaldo Mayol Arnao

TEMA 6. Modelos para Datos de Panel

Econometria I. Tema 6: Modelos de Ecuaciones Simultáneas. Universidad Carlos III. Getafe, Madrid. November 2008

LA PREDICCIÓN DE LA DEMANDA EN EVALUACIÓN DE PROYECTOS

Examen de Grado Sección de Econometría Agosto y se obtienen los siguientes resultados. Observe que parte de la información ha sido omitida.

3. RELACION ENTRE DOS CONJUNTOS DE DATOS.

ESTADÍSTICA. Tema 4 Regresión lineal simple

PROGRAMA DE CURSO. Horas de Trabajo Personal Horas de Cátedra. Básica. Resultados de Aprendizaje

TODO ECONOMETRIA. Bondad del ajuste Contraste de hipótesis

Auxiliar 9. MNL y MLE. Daniel Olcay. 21 de octubre de 2014 IN4402. Daniel Olcay (IN4402) Auxiliar 9 21 de octubre de / 13

Regresión y Correlación

Hoja de Ejercicios 4 Variables Instrumentales y MC2E. Modelos de ecuaciones simultáneas

Evaluando Impactos: Midiendo el Impacto

ANÁLISIS ESTADÍSTICO REGRESIÓN LINEAL SIMPLE

T2. El modelo lineal simple

INFORME TÉCNICO PREVIO DE EVALUACIÓN DE SOFTWARE ESTADÍSTICO Y ECONOMÉTRICO Informe Nro DSIC

Estadística para la Economía y la Gestión IN 3401 Clase 5

Economía Aplicada. Modelos con variables dependiente binarias. Departamento de Economía Universidad Carlos III de Madrid

Inferencia causal. Francisco Gallego PUC Chile y J-PAL Santiago, 9 de abril de 2013

Taller Análisis de Datos Multinivel

Diseño de Experimentos

2. Modelos con regresores endógenos

ECONOMETRÍA I. Tema 1: La naturaleza de la econometría y los datos econométricos

Estadística para la Economía y la Gestión IN 3401 Clase 5

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica

TEMA 5. Modelos para Datos de Conteo

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

Economía Aplicada. Causalidad y Experimentos Sociales. Departmento de Economía Universidad Carlos III de Madrid

ESTADÍSTICA APLICADA. Tema 4: Regresión lineal simple

CARTA DESCRIPTIVA. Clave: ECO Créditos: 8. Conocimientos: Probabilidad y estadística. Algebra lineal. Econometría I.

CASO 5-3 MILAN FOOD COOPERATIVE (B)

Modelos de Variable Dependiente Limitada. Econometría Aplicada UCEMA Daniel Lema

CALIFICACION: - P C: precio medio de los productos sustitutivos existentes en el mercado en euros.

Universidad Carlos III de Madrid Econometría Funciones de regresión no lineales Hoja de Ejercicios 8

Introducción a la Estadística Aplicada en la Química

Ideas básicas del diseño experimental

Econometria de Datos en Paneles

7. REGRESIÓN POR MÍNIMOS CUADRADOS: REGRESIÓN POLINOMIAL. Jorge Eduardo Ortiz Triviño

Estimación de Parámetros. Jhon Jairo Padilla A., PhD.

Estimación de Parámetros. Jhon Jairo Padilla A., PhD.

Regresión múltiple. Demostraciones. Elisa Mª Molanes López

Universidad Técnica de Babahoyo CORRELACIÓN DE VARIABLES Y REGRESIÓN LINEAL

I Inferencia Causal. Claudio Ferraz Managua, 3 Marzo 2008

Tema 3: Análisis de datos bivariantes

Diplomado en Estadística Aplicada

Paga igual ser perseverante que ser listo? Los retornos a las habilidades cognitivas y socio-emocionales en el Perú Urbano

Estructura de este tema. Tema 4 Regresión lineal simple. Ejemplo: consumo de vino y dolencias cardíacas. Frecuencias

Métodos no-experimentales II (Diferencias-en-Diferencia)

ESTADISTICA II. INGENIERIA INFORMATICA, 3 ER Curso

TEMA 4 Modelo de regresión múltiple

Estadística Inferencial. Sesión 11. Regresión y correlación múltiple

Tema 10: Introducción a los problemas de Asociación y Correlación

ANALISIS ESTADISTICO MINISTERIO DE ECONOMIA Y FINANZAS

CUESTIONES Y PROBLEMAS DE DISTRIBUCIONES DE FRECUENCIAS BIDIMENSIONALES PROPUESTOS EN EXÁMENES

Modelo lineal general (K variables)

Definición de Correlación

UNIVERSIDAD AUTÓNOMA DE CHIAPAS FACULTAD DE INGENIERÍA CAMPUS I PROBABILIDAD Y ESTADISTICA

ECONOMIA APLICADA. Introducción: Datos Económicos

DISEÑO METODOLÓGICO Ámbito de la Investigación: Unidad(es) de análisis o estudio:

Tema 8: Regresión y Correlación

Estimación del Probit Ordinal y del Logit Multinomial

Regresión lineal. Marcelo Rodríguez Ingeniero Estadístico - Magíster en Estadística

Métodos Experimentales & No-experimentales I

TEMA 3.- EL ANALISIS ESTADISTICO DE LA INFORMACION (MODELIZACION) DIFERENTES TIPOS DE PROCEDIMIENTOS ESTADISTICOS

Psicometría Tema 6 VALIDEZ DE LAS INFERENCIAS I

Transcripción:

Valoración de estudios basados en el Análisis de Regresión Múltiple (SW Cap. 7) El Análisis de Regresión múltiple tiene las siguientes ventajas: Brinda una estimación del efecto que sobre Y tiene un cambio arbitrario de X. Resuelve el problema de sesgo por variable omitida, si una variable omitida puede ser medida e incluida en el análisis. Puede tratar relaciones no lineales (efectos que varían con las X s) No obstante, OLS podría proporcionar un estimador sesgado del verdadero efecto causal. 7-1

Esquema para la valoración de estudios estadísticos Validez interna y externa Validez interna: la inferencia estadística acerca de los efectos causales se validan por el estudio poblacional. Validez externa: la inferencia estadística puede generalizarse a partir de la población e inferirse a otras poblaciones y escenarios, donde escenario se refiere a aspectos legales, políticos y entorno físico relacionados con las características más sobresalientes. 7-2

Problemas relacionados con la Validez externa Hasta dónde podemos generalizar los resultados de tamaño de clase a partir de las escuelas en los distritos de California? Diferencias en poblaciones o California en 2005? o Massachusetts en 2005? o México en 2005? Diferencias en los escenarios o Diferentes requerimientos legales vinculados a la educación especial o Diferente tratamiento de la educación bilingüe o Diferencias en las características de profesores 7-3

Problemas relacionados con la Validez interna Análisis de regresión múltiple (SW Sección 7.2) Validez interna: la inferencia estadística acerca de los efectos causales se validan a partir de la población que está siendo estudiada. Cinco problemas para la validez interna en los estudios de regresión: 1. Sesgo por variable omitida 2. Error en la forma funcional 3. Sesgo por errores en las variables 4. Sesgo por selección de muestra 5. Sesgo por causalidad simultánea Todos implican que E(u i X 1i,,X ki ) 0. 7-4

1. Sesgo por variable omitida Surge cuando una variable omitida simultáneamente (i) es un determinante de Y y (ii) está correlacionada con al menos uno de los regresores incluidos. Posibles soluciones al Sesgo por variable omitida Si la variable puede ser medida, incluirla como un regresor en la regresión múltiple; Si es posible, utilizar datos de panel en los cuales cada entidad (individual) se observa más de una vez; Si la variable no puede ser medida, utilizar regresión con variables instrumentales; Generar un experimento aleatorio controlado. 7-5

2. Error en la forma funcional Surge cuando la forma funcional es incorrecta por ejemplo, cuando se omite un término de interacción incorrectamente; luego la inferencia sobre los efectos causales estará sesgada. Posibles soluciones al error de especificación forma funcional Variable dependiente continua: utilizar la especificación no lineal en X apropiada (logaritmos, interacciones, etc.) Variable dependiente discreta (ejemplo: binaria): se necesita una extensión de los métodos de regresión múltiple (análisis probit o logit para variables dependientes binarias). 7-6

3. Sesgo por errores en las variables Hasta ahora se ha supuesto que X está medida sin error. Pero en realidad, frecuentemente los datos económicos tienen errores de medida Errores al cargar los datos Errores de recolección en encuestas ( cuándo comenzó su actual trabajo?) Problemas de preguntas ambiguas ( cuál fue su renta en el último año?) Problemas con las respuestas falsas intencionales en las encuestas ( Cuál es el valor actual de sus activos financieros? Con qué frecuencia bebe y conduce?) 7-7

En general, el error de medida en un regresor conduce a un Sesgo por error en las variables. Ejemplo: suponiendo que Y i = β 0 + β 1 X i + u i es correcto en el sentido de que permanecen los tres supuestos de mínimos cuadrados (en particular E(u i X i ) = 0). Digamos que X i = no medida y es el verdadero valor de X X % i = versión medida imprecisamente de X 7-8

Luego o Y i = β 0 + β 1 X i + u i = β 0 + β 1 X % i + [β 1 (X i X % i) + u i ] Y i = β 0 + β 1 X % i + u% i, donde u% i = β 1 (X i X % i) + u i Si X % i está correlacionado con u% i entonces β ˆ 1 estará sesgado: cov( X % i, u% i ) = cov( X % i,β 1 (X i = β 1 cov( X % i,x i X % i) + u i ) X % i) + cov( X % i,u i ) = β 1 [cov( X % i,x i ) var( X % i)] + 0 0 Porque en general cov( X % i,x i ) var( X % i). 7-9

Y i = β 0 + β 1 X % i + u% i, donde u% i = β 1 (X i X % i) + u i Si X i está medida con error, X % i está en general correlacionado con u% i, entonces β ˆ 1 es sesgado e inconsistente. Es posible derivar fórmulas para este sesgo, pero requiere hacer supuestos matemáticos específicos acerca del proceso del error de medida (por ejemplo, que u% i y X i están incorrelacionados). Estas fórmulas son especiales y particulares pero, en general se observa que el error de medida en X conduce a un sesgo. 7-10

Posibles soluciones al sesgo por errores en las variables Obtener datos correctos. Desarrollar un modelo específico del proceso del error de medida. Esto sólo es posible si se conoce mucho acerca de la naturaleza del error de medida por ejemplo cruzando una colección de datos grabados con una submuestra y analizando las discrepancias para luego modelizarlas. (Muy especializado para este contexto.) Regresión con variables instrumentales. 7-11

4. Sesgo por selección de muestra Hasta ahora hemos supuesto una muestra aleatoria simple de la población. En algunos casos, la muestra aleatoria simple es una contrariedad porque la muestra, en efecto, se selecciona a sí misma El sesgo por selección de muestra ocurre cuando un proceso de selección (i) influye en la disponibilidad de los datos y (ii) este proceso está relacionado con la variable dependiente. 7-12

Ejemplo #1: Fondos de inversión Tiene el fondo de inversión administrado un comportamiento activo permanece el mercado de fondos? Estrategia empírica: o Esquema de muestra: muestra aleatoria simple de fondos de inversión disponible para el público en un tiempo dado. o Datos: rendimiento de últimos 10 años. o Estimador: promedio de 10 años del rendimiento de la muestra de fondos de inversión, menos el rendimiento de 10 años del S&P500 o Existe sesgo de selección de muestra? 7-13

El sesgo por selección de muestra genera correlación entre un regresor y el término de error. Ejemplo de Fondos de inversión: rendimiento i = β 0 + β 1 fondo i + u i Si en la muestra tenemos un fondo (fondo i = 1) significa que su rendimiento fue mejor que un fondo fallido que no está en la muestra de manera que corr(fondo i,u i ) = 0. 7-14

Ejemplo #2: rentabilidad de la educación Cuál es la rentabilidad de un año adicional de educación? Estrategia empírica: o Esquema de muestra: muestra aleatoria simple de trabajadores o Datos: ingresos y años de educación o Estimador: ln(ingresos) sobre los años de educación o Ignorar consecuencias de sesgo por variable omitida y error de medida existe sesgo por selección de la muestra? 7-15

Posibles soluciones al sesgo por selección de muestra Recoger la muestra de manera que se evite la selección de muestra. o Ejemplo de Fondos de inversión: cambiar la muestra, en lugar de los datos disponibles al final del período 10, a los disponibles al comienzo del período (incluyendo los fondos fallidos) o Ejemplo de rentabilidad de la educación: recoger la muestra de graduados, no de trabajadores (incluyendo los desempleados) Generar un experimento aleatorio controlado. Construir un modelo del problema de la selección de muestra y estimar ese modelo. 7-16

5. Sesgo por causalidad simultánea Hasta ahora hemos supuesto que X causa Y. Qué ocurre si Y también causa X,? Ejemplo: Efecto del tamaño de clase Bajos resultados STR comparados con mejores test scores Suponiendo distritos que tienen recursos extras con bajos test scores: como resultado del proceso político estos también tienen bajos STR Qué significa en una regresión de TestScore sobre STR? 7-17

Sesgo por causalidad simultánea en ecuaciones (a) Efecto causal de X sobre Y: Y i = β 0 + β 1 X i + u i (b) Efecto causal de Y sobre X: X i = γ 0 + γ 1 Y i + v i Grandes u i significan grandes Y i, los cuales implican grandes X i (si γ 1 >0) Entonces corr(x i,u i ) 0 Así β ˆ 1 es sesgado e inconsistente. Ej: Un distrito con un test scores particularmente malo dado el STR (u i negativo) recibe recursos extras, con lo cual baja su STR; luego STR i y u i están correlacionados 7-18

Posibles soluciones al sesgo por causalidad simultánea Experimento aleatorio controlado. Debido a que X i se elige aleatoriamente por el experimentador, no hay retroalimentación desde la variable resultado a Y i (suponiendo obediencia perfecta). Desarrollar y estimar un modelo completo en ambas direcciones de causalidad. Esta es la idea que está detrás de muchos macro-modelos (ej. Federal Reserve Bank-US). Esto es extremadamente difícil en la prática. Utilizar regresión con variables instrumentales para estimar el efecto causal de interés (efecto de X sobre Y, ignorando el efecto de Y sobre X). 7-19

Aplicar este esquema: Test Scores y Tamaño de Clase (SW Capítulo 7.3) Objetivo: Valorar las amenazas a la validez interna y externa del análisis empírico del test score de California. Validez externa o Comparar los resultados para California y Massachusetts o Razonar Validez interna o Ir a la lista de los cinco posibles problemas de validez interna y razonar 7-20

A) Verificar la validez externa comparar el estudio de California utilizando los datos de Massachusetts Datos de Massachusetts 220 distritos de educación primaria Test: 1998 MCAS test total de cuarto grado (Math + English + Science) Variables: STR, TestScore, PctEL, LunchPct, Income 7-21

Los datos de Massachusetts: resumen de estadísticos 7-22

7-23

7-24

7-25

Logarítmica v. function cúbica para Income? Evidencia de no linealidad en la relación TestScore-STR? Existe interacción significativa HiEL STR? 7-26

Predicción de efectos para una reducción de 2 en el tamaño de clase Especificación lineal para Massachusetts: "TestScore = 744.0 0.64STR 0.437PctEL 0.582LunchPct (21.3) (0.27) (0.303) (0.097) 3.07Income + 0.164Income 2 0.0022Income 3 (2.35) (0.085) (0.0010) Efecto estimado = -0.64 (-2) = 1.28 Error estándar = 2 0.27 = 0.54 NOTA: var(ay) = a 2 var(y); SE(aβ ˆ 1 ) = a SE( β ˆ 1 ) 95% CI = (1.28 ± 1.96 0.54) = (0.22, 2.34) Calcular los efectos predichos en modelos no lineales 7-27

Utilizar el método antes y después : "TestScore = 655.5 + 12.4STR 0.680STR 2 + 0.0115STR 3 0.434PctEL 0.587LunchPct 3.48Income + 0.174Income 2 0.0023Income 3 Reducción estimada de 20 a 18 estudiantes: TestScore " = [12.4 20 0.680 20 2 + 0.0115 20 3 ] [12.4 18 0.680 18 2 + 0.0115 18 3 ] = 1.98 Comparar con la estimación del modelo lineal de 1.28 SE de este efecto estimado: usar el método reordenar la regresión ( transformar los regresores ) 7-28

Resumen de resultados para Massachussets 1. El coeficiente de STR cae desde 1.72 a 0.69 cuando se incluyen las variables de control para las características estudiante y distrito un indicio de que la estimación original contiene sesgo por variable omitida. 2. El efecto de tamaño de clase es estadísticamente significativo al 1%, después de controlar por las características estudiante y distrito 3. No hay evidencia estadística sobre no linealidades en la relación TestScore STR 4. No hay evidencia estadística de interacción STR PctEL 7-29

Comparación de efectos de tamaño de clase estimados: CA vs. MA 7-30

Resumen: Comparación de los análisis de regresión de California y Massachusetts El efecto de tamaño de clase cae tanto en los datos de CA como en los de MA cuando se añaden las variables de control para las características estudiante y distrito. El efecto del tamaño de clase es estadísticamente significativo en ambos conjuntos de datos (CA y MA) El efecto estimado de una reducción de 2 estudiantes en STR es cuantitativamente similar para CA, MA. Ningún conjunto de datos muestra evidencia de interacción STR PctEL. Existe alguna evidencia de no linealidad STR en los datos de CA, pero no en los de MA. 7-31

B) Amenazas a la validez interna Qué muestra y qué no muestra la comparación CA vs. MA? 1. Sesgo por variable omitida Estos análisis controlan o tienen en cuenta: distritos demográficos (ingresos) algunas características de los estudiantes (% que aprende inglés) Qué falta? características adicionales de los estudiantes, ej. aptitudes naturales (pero está esto correlacionado con STR?) Acceso a oportunidades de estudiar en el extranjero Calidad del profesor (posiblemente los mejores profesores son atraídos por las escuelas con menores STR) 7-32

Sesgo por variable omitida Hemos controlado muchos factores relevantes omitidos; La naturaleza de este Sesgo por variable omitida necesitaría ser similar en California y Massachusetts para ser consistente con estos resultados; En esta aplicación estaremos en condiciones de comparar estas estimaciones basadas en datos observados con estimaciones basadas en datos experimentales una verificación de este método de regresión múltiple. 7-33

2. Error en la forma funcional Hemos tratado bastantes formas funcionales diferentes, en los datos de California y Mass. Los efectos no lineales son modestos Esto no es un gran problema. 3. Sesgo por errores en las variables STR es una medida algo grosera del tamaño de clase Presumiblemente existe algún error de medida estudiantes que hacen el examen y se desplazan a otros distritos En el mejor de los casos, nos gustaría tener datos individualizados de los estudiantes, por nivel de grado. 7-34

4. Sesgo por selección de muestra La muestra se refiere a todos los distritos con enseñanza pública elemental (en California; en Mass.) no hay razón para que la selección sea un problema. 5. Causalidad simultánea Si los resultados de los tests afectan al tamaño de clase -> causalidad simultánea. Ej.: si los distritos con peores resultados reciben dinero para contratar más profesores. Esto no tuvo lugar en California ni Mass. durante estas muestras, por ello el sesgo de causalidad simultánea no es un argumento importante. 7-35

Resumen Esquema para evaluar los estudios de regresión: o Validez interna o Validez externa Cinco problemas para la validez interna: 1. Sesgo por variable omitida 2. Error en la forma funcional 3. Sesgo por errores en las variables 4. Sesgo por selección de muestra 5. Sesgo por causalidad simultánea 7-36