Econometría Avanzada FLACSO 2014
Hemos cubierto: Mapa Planteamiento de una pregunta económica de interés Diferencias entre econometría y estadística Métodos: Lineales (MCO) revisión, variables instrumentales No-lineales: ML, MCNL, GMM Basado en supuestos de distribución de y Basado en información/modelo a priori de no-linealidad Metodología generalizada, permite incorporar más información a estimación (+ cierta ganancia de eficiencia), IV no lineales
Mapa Hasta ahora: Hemos hablado únicamente de datos transversales (no existe el tiempo) (A) Quedarían: Series de tiempo (B) Datos de Panel (datos longitudinales) - (A+B)
Que nos queda? 1. Concluir métodos para datos transversales Otros métodos (datos transversales): Modelos de decisión discreta: Probit, Logit, multinomiales Tobit (truncamiento) Inferencia: tests de hipótesis (cobertura incluye modelos lineales, no lineales, series de tiempo, datos de panel) 2. Métodos de panel (introducción)
Inferencia
Distribución asintótica (GMM) En cualquier modelo, inferencia se basa en distribución asintótica de los estimadores. En su forma más general: θ GMM a ~ N θ 0, (G 0 W 0 G 0 ) 1 (G 0 W 0 S 0 W 0 G 0 )(G 0 W 0 G 0 ) 1 G 0 = h (CPO) θ S 0 = h θ h θ W 0 = 1/S 0 1. Matriz de Varianza Covarianza de los Estimadores (k x k) 2. Inferencia (errores estándares) de θ o sus combinaciones tiene que ser función de los elementos de esta matriz
Inferencia: Tests de hipótesis (cap 7 CT) Versión no-lineal, ej.: (restricción) Existe una versión no-lineal del test de Wald, el cual se deriva utilizando el método Delta (ver CT 7.2). Dicho método, calcula la varianza de h θ, v h θ de manera que inferencia pueda ser llevada a cabo a través de: Dicha varianza es una función no-lineal de la restricción y de la varianza de los parámetros
Inferencia: Tests de hipótesis (cap 7 CT) Test de Wald Donde R tiene dimensiones h x k (h=#de hipótesis; k=# de regresores) Ejemplo (modelo lineal): β 0 = 1; β 2 β 3 = 2 ~χ(h)
Inferencia: Tests de hipótesis (cap 7 CT) Alternativa para tests de hipótesis no-lineales : bootstrap. Razones: Test de demasiado complejo calculo para aplicar método delta (Wald). Ej. (Poisson) g x = xexp(xβ) La distribución del estimador en muestras pequeñas puede ser muy distinto a la distribución asintótica. Tarea/taller 4: bootstrap.
Método de Bootstrap Es una variante de métodos de Monte Carlo Estudios de Monte Carlo: simulaciones, basadas en submuestreo, diseñadas para obtener resultados numéricos; es decir cuando no se cuenta con, o no son confiables, resultados analíticos (en nuestro caso, resultados asintóticos) Idea básica de Monte Carlo: existe una relación de interés que se quiere investigar pero para la cual no existe una solución analítica. Se procede a muestrear varias veces utilizando datos de las variables que se conocen para que a través de cada muestreo se vaya mapeando la relación de interés
Método de Bootstrap Idea básica de bootstrap: Existe una muestra de tamaño N sobre la cual se desea investigar alguna propiedad de distribución para propósitos de inferencia Se procede realizar los cálculos pertinentes (ej. Media) para una sub-muestra M<N Se repite el último paso (con reemplazo) muchas veces (ej. 1000) Se obtiene una distribución (empírica) del estadístico de interés y se procede con la inferencia
Ejemplo: Media Muestra de N=10.000 observaciones para variable y Queremos un estimador de la media: E y = y = 1 y N i i=1 Para posteriormente realizar una inferencia: Ho: y=0 Asumiendo y es iid y normalidad, en la situación estándar se puede utilizar el test de t: y ~t(n 1) SE(y) Sin embargo, en caso de no contar con esta última ecuación, se puede recurrir al siguiente ejercicio de bootstrap N
Ejemplo: Media 1. De la muestra de N=10.000 observaciones para variable y, tomar una sub-muestra (1) aleatoria M<N, por ejemplo 40. 2. Calcular la media para la sub-muestra (1): y 1 = 1 y N i,1 i=1 3. Guardar este valor y 1 y repetir ejercicio (con reemplazo) múltiples veces. Por ejemplo 1.000 veces: y 1,, y 1.000 3. Estas 1.000 replicas de la media para cada sub-muestra representan la distribución (empírica) del estimador 4. Por lo tanto, se procede con la inferencia utilizando esta distribución: Cálculo de la media de y 1,, y 1.000 Cálculo del SE de y 1,, y 1.000 Cálculo de los intervalos de confianza M
Método de Bootstrap De manera más general. Consideremos el siguiente modelo estadístico de interés: y i = f(x i, θ, e i ) Posiblemente no lineal en x, θ y el error e. Se procede con la estimación de acuerdo a un método seleccionado por el investigador (ej. MCO, GMM, ML, etc.) y se obtienen θ. Interés está en realizar inferencia con respecto a θ o, de manera más general, a una función de θ: g(θ)
Método de Bootstrap Al igual que en el ejemplo de la media, se procede a tomar una sub-muestra (ej. M=40) de (y,x) Para la primera sub-muestra (1), se procede con la estimación del modelo de acuerdo al método seleccionado por el investigador (ej. MCO, GMM, ML, etc.) y se obtiene θ 1 y posteriormente g(θ 1 ). Se repite el proceso (con reemplazo), múltiples veces (ej. W=1.000) Se genera una distribución de g(θ) utiilzando g θ 1,, g θ W Y se procede con inferencia
Método de Bootstrap Y se procede con inferencia: Media del estimador: g θ i = 1 W W i=1 g θ i Error Estándar: 1 g θ i g θ i 2 W W i=1 Intervalos de confianza (ej. α = 0,95) Se ordena g θ i de menor a mayor: g θ 1 < < g θ W CI low = g θ (1 α)/2w CI high = g θ α/2w
Bootstrap Paramétrico Una variación del Bootstrap se basa en utilizar la distribución de los parámetros calculados, θ, para estimar una distribución del estimador de interés g(θ) Se hace un muestreo aleatorio de θ utilizando la distribución asintótica de θ que arroja la estimación (matriz de varianza-covarianza y vector de estimados θ se utilizan para generar números aleatorios de θ provenientes de una distribución normal multivariada). Para cada θ generada de manera aleatoria con el procedimiento anterior, se estima g(θ) y se procede de manera idéntica al método de bootstrap (no paramétrico) antes descrito.
Bootstrap Paramétrico Esta variación se la utiliza cuando el modelo es de difícil estimación (rutinas que demoran varias semanas o meses, por ejemplo). En el taller 4 ustedes realizarán este ejercicio para los datos generados en el taller 3.
Otros métodos (datos transversales)
Modelos de Decisión Discreta Se dan cuando la variable dependiente corresponde a una y solamente una de varias opciones mutuamente excluyentes. En general el orden de las opciones no es crítica. Versión más sencilla es aquella en la que existen dos opciones: modelos Binarios Opción 1: y es codificada como 0 Opción 2: y codificada como 1
Modelos de Decisión Discreta Como práctica general, estos modelos se los estima con ML puesto que se utiliza la distribución Bernoulli como idónea de la generación de la variable dependiente: f y; λ = p y (1 p) 1 y Adicionalmente, dado que p, por definición, debe estar entre 0 y 1, se realiza un supuesto adicional para su distribución: Función de distribución acumulativa o cdf, la cual es la integral de la función de densidad de probabilidad o pdf (cdf = pdf)
Modelos de Decisión Discreta Las dos opciones más utilizadas en econometría para la cdf son el logit y el probit Logit Probit Cdf de la normal estanarizada p i =
Logit o Probit? Logit tiene algunas ventajas: Su cálculo es más simple pues la cdf es analítica ( solución cerrada ) CPO (necesarias para ML) son sencillas (analíticas) Razón de efectos marginales (odds ratio) es constante: dp/dx i dp/dx j = β i β j (recuerden modelos de índice simple simple index models ):
Logit o Probit? Sin embargo: Probit tiene extensiones importantes como el modelo Tobit (cuando datos están truncados) Algunos lo consideran por esta razón En aplicaciones sencillas (es decir pocas observaciones, pocos regresores), no existen diferencias importantes en tiempo de cómputo entre un modelo u otro. Finalmente, se puede comparar los dos modelos en función del log-likelihood
Qué hacemos cuando estimamos un modelo Logit (o Probit)? Ejemplo (C&T, p. 14.2, 14.3)
Qué hacemos cuando estimamos un modelo Logit (o Probit)? Ejemplo (C&T, p. 14.2, 14.3)
Qué hacemos cuando estimamos un modelo Logit (o Probit)? Ejemplo (C&T, p. 14.2, 14.3)
Logit y Probit como modelos de Variables Latentes En algunos casos, el modelo de interés especifica una variable dependiente, continua, que está explicada por una serie de variables independientes X: Index function model Sin embargo, y no es observable (es latente ). presente o potencial pero no evidente o activo Lo que se observa es una manifestación imperfecta de la misma:
Ejemplos: Logit y Probit como modelos de Variables Latentes y es una variable continua que determina el nivel de riesgo de una corrida bancaria que enfrenta un país. Se observa únicamente y = 1 si se evidencia corrida bancaria y 0 caso contrario y son las horas que una persona está dispuesta a trabajar dependiendo del nivel de salario. Se observa únicamente y = 1 si el individuo está trabajando y 0 caso contrario. y es un indicador de cuánto desea un individuo comprar un artículo. Se observa únicamente y = 1 si el individuo lo compra y 0 caso contrario.
Logit y Probit como modelos de Formalmente: Variables Latentes Porqué?
Logit y Probit como modelos de Formalmente: Variables Latentes Porqué? Volvemos al caso de especificar forma funcional para F (): Probit (normal) o Logit Principal diferencia: aquí se hace un supuesto sobre la distribución del error u en el caso anterior (ej. Taller 3) no existió error (explícito). Esto permite expresar de manera más intuitiva modelos multinomiales
Modelos Multinomiales Extensión directa de modelos binomiales. Intuición es la misma, excepto que al tener más de 2 alternativas, la distribución ya no es binomial sino multinomial. Específicamente, para m alternativas: Adicionalmente, y haciendo uso de la especificación estos modelos como uno de variable latente:
Modelos Multinomiales Por lo tanto, la densidad multinomial (para propósitos de estimación ML) está dada (para un individuo/observación) por: Más específicamente: Con el requerimiento de que: p ij ε 0,1 y que p ij j = 1 Modelo Logit: cumple con estas condiciones; ej:
Modelos Multinomiales Dada la densidad para un individuo i: f i y = p i1 y i1 p im y im = m p ij y ij j=1 Pregunta: Cómo se procedería a la estimación via ML si i = 1, N? Trabajo en grupo: escribir la función likelihood, loglikelihood y la condición de primer orden con respecto a un parámetro β
Modelo Tobit Pueden existir otros problemas de latencia parcial : Censura (Censoring): valores de y superiores a un umbral no son observados (pero si sus variables explicativas). Ej. se tienen datos x (variables explicativas) para todos los individuos, pero datos para la variable y solo para individuos de ingreso bajo y medio (por ej por razones de confidencialidad). Truncamiento (Truncation): caso más severo pues no se observa ni y ni x más allá del umbral. Ej. Solo se observa la muestra de la población de ingresos bajos
Ilustración del problema Simlulación C&T (sección 16.2): Número de horas de trabajo que uno desea trabajar (potencialmente negativo)
Logística Esta semana Clases viernes, Mayo 2 Asignación de taller # 4, entrega 5 de Mayo Siguientes dos semanas: Clases Miércoles y Viernes siguiente semana (5-9 de Mayo), posible laboratorio Mayo 9 Taller 5 (final) entrega Mayo 12 Lunes (12) y Miércoles (14), presentaciones proyecto Viernes (16) examen final (lista de preguntas de preparación será distribuida con 1 semana de anticipación)