Econometría Aplicada

Documentos relacionados
Análisis de datos Categóricos

1 Introducción. 2 Modelo. Hipótesis del modelo MODELO DE REGRESIÓN LOGÍSTICA

Métodos Estadísticos Multivariados

Teorema Central del Límite (1)

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

INTERVALOS DE CONFIANZA Julián de la Horra Departamento de Matemáticas U.A.M.

EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD)

ESTADÍSTICA. Tema 4 Regresión lineal simple

Estimación del Probit Ordinal y del Logit Multinomial

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Tema 8: Contraste de hipótesis

INTERVALOS DE CONFIANZA. La estadística en cómic (L. Gonick y W. Smith)

T4. Modelos con variables cualitativas

Tema 9: Contraste de hipótesis.

Determinación del tamaño de muestra (para una sola muestra)

TEMA 3: Contrastes de Hipótesis en el MRL

Tema 5. Muestreo y distribuciones muestrales

RESUMEN DE ALGUNOS CONCEPTOS ESTADÍSTICOS ELEMENTALES Y NOTACIÓN EMPLEADA EN EL CURSO

1. La Distribución Normal

Contrastes de hipótesis paramétricos

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

ESTIMACIÓN PUNTUAL Julián de la Horra Departamento de Matemáticas U.A.M.

Tema 5: Introducción a la inferencia estadística

Práctica 5 ANÁLISIS DE UNA MUESTRA INTERVALOS DE CONFIANZA CONTRASTE DE HIPÓTESIS

Unidad IV: Distribuciones muestrales

Conceptos del contraste de hipótesis

Algunas Distribuciones Continuas de Probabilidad. UCR ECCI CI-1352 Probabilidad y Estadística Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Estadística y sus aplicaciones en Ciencias Sociales 6. Prueba de hipótesis. Facultad de Ciencias Sociales, UdelaR

Estadística y sus aplicaciones en Ciencias Sociales 7. El modelo de regresión simple. Facultad de Ciencias Sociales - UdelaR

Formulario. Estadística Administrativa. Módulo 1. Introducción al análisis estadístico

Tercera práctica de REGRESIÓN.

Distribuciones de Probabilidad

Generación de variables aleatorias continuas Método de rechazo

Tema 5. Contraste de hipótesis (I)

Econometría de series de tiempo aplicada a macroeconomía y finanzas

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

Introducción a la regresión ordinal

Percepción de los Precios por Parte de los Hogares: El caso de la Electricidad en el Perú

Tema 2. Regresión Lineal

Simulación I. Investigación Operativa, Grado en Estadística y Empresa, 2011/12

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

Conceptos Básicos de Inferencia

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

Variables aleatorias

El Algoritmo E-M. José Antonio Camarena Ibarrola

Variables aleatorias

1. VALORES FALTANTES 2. MECANISMOS DE PÉRDIDA

Tema 7 Intervalos de confianza Hugo S. Salinas

Ejercicios T2 y T3.- DISTRIBUCIONES MUESTRALES Y ESTIMACIÓN PUNTUAL

matemáticas como herramientas para solución de problemas en ingeniería. PS Probabilidad y Estadística Clave de la materia: Cuatrimestre: 4

Distribuciones de probabilidad bidimensionales o conjuntas

Estimación por intervalo del parámetro de la distribución de Poisson con una sola observación

Contrastes de Hipótesis paramétricos y no-paramétricos.

Cálculo de Probabilidades II Preguntas Tema 1

La eficiencia de los programas

Distribuciones de probabilidad

1. (F, +) es un grupo abeliano, denominado el grupo aditivo del campo.

Multicolinealidad. Universidad de Granada. RSG Incumplimiento de las hipótesis básicas en el modelo lineal uniecuacional múltiple 1 / 17

Unidad Temática 3: Probabilidad y Variables Aleatorias

TEMA 3. Algunos modelos de probabilidad de tipo discreto. 3.1 Al finalizar el tema el alumno debe conocer...

Tema 13: Distribuciones de probabilidad. Estadística

Contrastes de hipótesis estadísticas. Contrastes paramétricos

4. NÚMEROS PSEUDOALEATORIOS.

Econometría II Grado en finanzas y contabilidad

Examen de Matemáticas Aplicadas a las CC. Sociales II (Septiembre 2009) Selectividad-Opción A Tiempo: 90 minutos

Curso de Probabilidad y Estadística

2 Introducción a la inferencia estadística Introducción Teoría de conteo Variaciones con repetición...

Análisis Probit. StatFolio de Ejemplo: probit.sgp

Tema 7: Estadística y probabilidad

4. Complementos sobre Problemas de Contorno para S.D.O. Lineales. 4. Complementos sobre Problemas de Contorno

INTERPRETACIÓN DE LA REGRESIÓN. Interpretación de la regresión

Modelos de elección binaria

Probabilidad y Estadística Descripción de Datos

INDICE. Prólogo a la Segunda Edición

Tema 5 Algunas distribuciones importantes

Introducción al Tema 8. Tema 6. Variables aleatorias unidimensionales Distribución. Características: media, varianza, etc. Transformaciones.

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

Econometria de Datos en Paneles

ESTADÍSTICA DESCRIPTIVA

INFERENCIA ESTADISTICA

ÍNDICE CAPÍTULO 1. INTRODUCCIÓN

Teoría de la decisión

Nombre y Apellidos:... EXAMEN ECONOMETRÍA II (Enero 2010)

INFERENCIA ESTADÍSTICA

UNIVERSIDAD AUTONOMA DE SANTO DOMINGO

INSTITUTO POLITÉCNICO NACIONAL SECRETARIA ACADEMICA DIRECCIÓN DE ESTUDIOS PROFESIONALES EN INGENIERÍA Y CIENCIAS FÍSICO MATEMÁTICAS

CM0244. Suficientable

Modelos de probabilidad. Modelos de probabilidad. Modelos de probabilidad. Proceso de Bernoulli. Objetivos del tema:

Clase 10: Extremos condicionados y multiplicadores de Lagrange

TÉCNICO SUPERIOR UNIVERSITARIO EN PROCESOS INDUSTRIALES ÁREA SISTEMAS DE GESTIÓN DE LA CALIDAD EN COMPETENCIAS PROFESIONALES

Se permite un folio escrito por las dos caras. Cada problema se realiza en hojas diferentes y se entregan por separado.

478 Índice alfabético

CAPÍTULO 4 RECOPILACIÓN DE DATOS Y CÁLCULO DEL VPN. En el presente capítulo se presenta lo que es la recopilación de los datos que se tomarán

Tema 2.- Formas Cuadráticas.

Métodos de Pareo FN1. Fernanda Ruiz Nuñez Noviembre, 2006 Buenos Aires

Z i

Regresión lineal SIMPLE MÚLTIPLE N A Z IRA C A L L E J A

Pronósticos, Series de Tiempo y Regresión. Capítulo 4: Regresión Lineal Múltiple

Transcripción:

Econometría Aplicada y función de Verosimilitud Víctor Medina

Los objetivos de esta parte del curso principalmente son: 1. Dar algunos ejemplos de decisiones económicas donde la variable dependiente es una varible binaria. 2. Explicar por qué Probit y Logit son usualmente preferibles a mínimos cuadrados cuando estimamos un modelo de variable dependiente binaria. 3. Conocer otras formas de estimación, en particular, introducir la función de verosimilitud. Hasta ahora nos hemos enfocado en modelos econométricos donde la variable dependiente es continua: cantidades, precios, etc. Sin embargo, muchas de las decisiones que los individuos y las empresas hacen no pueden ser medidas por una variable continua. Ahora veremos modelos que son usados para describir decisiones (si o no) o comportamientos (bueno, malo, etc.)

Modelos con variables dependientes binarias Muchas de las decisiones que hacemos, o que las empresas hacen, son dicotómicas. Por ejemplo, decidir si comprar una casa o arrendar. Una empresa decide si publicitar su producto en el diario o no, etc. Como econometristas estamos interesados en explicar por qué decisiones particulares son tomadas, y qué factores entran en el proceso de decisión. También nos gustaría saber cuánto contribuye cada factor en la decisión. Este tipo de decisiones se puede interpretar por un indicador binario que toma el valor 1 si una de las opciones es elegidas o 0 en caso contrario. Ahora,la variable dependiente (y) toma valores 0 o 1 (no la variable independiente como vimos anteriormente). Esto afecta nuestra elección de modelo estadístico. Ejemplos son variados: Modelo econométrico que explica por qué un banco acepta o rechaza créditos Modelo econométrico que explica por qué algunas mujeres deciden estudiar ingeniería y otras no Modelo econométrico que explica por qué un cliente se va a la competencia y otros se quedan

Modelos con variables dependientes binarias Supongamos que queremos explicar por qué una persona decide o bien viajar al trabajo en el transantiago o manejar su propio auto (asumiendo por simplicidad que estas son las dos únicas opciones). Entonces { 1 si maneja y = 0 si ocupa transantiago Si la probabilidad que una persona maneje al trabajo es p, entonces P (y = 1) = p y P (y = 0) = 1 p, es decir, la función de probabilidad es Con E(y) = p y var(y) = p(1 p) f(y) = p y (1 p) 1 y, y = 0, 1 Qué factores podrían afectar la decisión? Supongamos que el tiempo que toma un medio versus el otro. Definimos por ahora sólo una variable dada por x = (tiempo en transantiago tiempo en auto) A priori esperamos que si x aumenta, p también.

Modelo de probabilidad lineal En los modelo de regresión vistos, hemos separado la variable dependiente como la suma de su valor esperado y la parte aleatoria y = E(y) + e = p + e Luego, relacionamos la parte esperada de la forma E(y) = p = β 1 + β 2x, o de otra forma, y = β 1 + β 2x + e La función de densidad de probabilidad para y y el error e toman los valores Se puede observar que var(e) = (β 1 + β 2x)(1 β 1 β 2x) Es decir, el error es heterocedástico.

Modelo de probabilidad lineal En la práctica, este enfoque puede traer algunas dificultades en su implementación. Si estimamos los parámetros del valor esperado de y con MC, tendríamos ˆp = ˆβ 1 + ˆβ 2x Cuando usamos este modelo para predecir comportamiento, podríamos obtener valores de ˆp mayores a 1 o menores a 0, lo cual pierde sentido en términos probabilísticos. El otro problema que aparece es que el modelo lineal implícitamente asume que un incremento marginal en x tiene un efecto constante en la probabilidad dp dx = β2 Es decir, a medida que aumentamos x, la probabilidad de manejar aumenta a una tasa constante. Sin embargo, p está acotada, por lo tanto, una tasa de incremento constante no es posible.

Modelo Probit Una función que resuelve los problemas anteriores es la función Probit. Su función de distribución acumulada se ilustra a continuación (normal estándar)

Modelo Probit Y su función de densidad de probabilidad es

Modelo Probit Si Z es una variable aleatoria normal estándar, entonces la función Probit es (distribución normal acumulada) Φ(z) = P (Z z) = z 1 2π e 0.5u2 du El modelo Probit computa la probabilidad p que y tenga el valor 1 p = P (Z β 1 + β 2x) = Φ(β 1 + β 2x) Si supieramos los valores de β 1 y β 2, podríamos calcular la probabilidad que una persona vaya manejando al trabajo. Debemos estimar los coeficientes!

Función de Verosimilitud Supongamos que aleatoriamente seleccionamos 3 personas. Dos de ellas manejan al trabajo y la otra va en transantiago. Es decir, y 1 = 1, y 2 = 1 e y 3 = 0. Además, supongamos que los valores de x, en minutos, son x 1 = 15, x 2 = 6 y x 3 = 7. Cuál es la probabilidad conjunta de observar y 1 = 1, y 2 = 1 e y 3 = 0? La densidad marginal es f(y i) = [Φ(β 1 + β 2x i)] y i [1 Φ(β 1 + β 2x i)] 1 y i, y i = 0, 1 Si las observaciones son independientes, entonces la probabilidad conjunta es la multiplicación de las densidades marginales Para nuestro ejemplo, f(y 1, y 2, y 3) = f(y 1)f(y 2)f(y 3) P (y 1 = 1, y 2 = 1, y 3 = 0) = Φ(β 1 + β 2 15)Φ(β 1 + β 2 6)(1 Φ(β 1 + β 2 7)) = L(β 1, β 2) En estadística, la probabilidad de observar la muestra se llama función de verosimilitud

Función de Verosimilitud La notación L(β 1, β 2) indica que la función depende de los parámetros desconocidos. El método de máxima verosimilitud (MV) busca los parámetros β 1 y β 2 que maximizan la probabilidad de observar esa muestra. Desgraciadamente el problema no es despejable y se deben utilizar métodos iterativos para calcular los coeficientes En general, se utiliza el logaritmo de la función de verosimilitud porque facilita el cálculo de maximización En nuestro ejemplo ln L(β 1, β 2) = ln Φ(β 1 + β 2 15) + ln Φ(β 1 + β 2 6) + ln[1 Φ(β 1 + β 2 7)] Tanto ln L(β 1, β 2) como L(β 1, β 2) tienen el mismo argmax, es decir, al maximizar ln L y L llegamos a los mismos β 1 y β 2 A β 1 y β 2 son los estimadores de máxima verosimilitud Usamos 3 observaciones sólo con un fin ilustrativo, en la realidad la estimación a través de máxima verosimilitud se debe usar para muestras grandes, sino tenemos problemas de interpretación.

Ejemplo Transantiago Supongamos que tenemos la siguiente información de usuarios de transantiago y autos. donde dtiempo = (t_bus t_auto)/10

Ejemplo Transantiago Los resultados de la regresion probit son P (auto = 1) = Φ(β 1 + β 2 dtiempo)

Ejemplo Transantiago Efecto marginal Supongamos que queremos estimar el efecto marginal de incrementar el tiempo en el transporte público si es que este toma 20 minutos más que el viaje en auto, es decir, dˆp ddtiempo = φ( β 1 + β 2dtiempo) β 2 = φ( 0.0644 + 0.3 2) 0.3 = φ(0.5355) 0.3 = 0.3456 0.3 = 0.1037 Luego, un incremento de 20 minutos en el tiempo de viaje en bus, trae consigo un incremento en la probabilidad de ir en auto en 0.1037 Predecir el comportamiento Supongamos ahora que una persona se demora 30 minutos más en bus que en auto en llegar a su trabajo, entonces la probabilidad estimada que eligirá el auto es ˆp = Φ( β 1 + β 2dtiempo) = Φ( 0.0644 + 0.3 3) = 0.7983 En otras palabras, la persona estaría más inclinada a irse en auto que en bus.

Modelo Logit Ya vimos que el modelo Probit presentaba algunas complicaciones por su forma funcional (distribución normal) φ(u) = 1 2π e 0.5u2, < u < Una alternativa es el modelo Logit, que también tiene la forma de S y su densidad de probabilidad viene dada por λ(l) = e l (1 + e l ) 2, < l < La función de distribución acumulada, a diferencia de la distribución normal, tiene una expresión cerrada, dada por l Λ(l) = P (L l) = λ(x)dx 1 = 1 + e l

Modelo Logit Comparación de densidades de probabilidad logit probit 0.4 0.3 y 0.2 0.1 0.0 4 2 0 2 4 x

Modelo Logit Comparación de distribuciones acumuladas logit probit 1.00 0.75 y 0.50 0.25 0.00 4 2 0 2 4 x

Modelo Logit Entonces, la probabilidad p que un valor observado tome el valor 1 es p = P (L β 1 + β 2x) = Λ(β 1 + β 2x) = 1 1 + e (β 1+β 2 x) = eβ 1+β 2 x 1 + e β 1+β 2 x y, por lo tanto, 1 1 p = 1 + e β 1+β 2 x La estimación es análoga al caso Probit, intercambiando Φ por Λ. Es decir, si consideramos N observaciones, la función de verosimilitud para el modelo Probit es N L(β 1, β 2) = Φ(β 1 + β 2x i) y i (1 Φ(β 1 + β 2x i)) 1 y i i=1 y la función de verosimilitud del modelo Logit N L( β 1, β 2) = Λ( β 1 + β 2x i) y i (1 Λ( β 1 + β 2x i)) 1 y i i=1

Generalizaciones de Modelo Probit y Logit La generalización de los modelos cuando tenemos K parámetros a estimar es directa y queda de la siguiente forma Modelo Probit N L(β 1, β 2,..., β K) = Φ[X iβ] y i (1 Φ[X iβ]) 1 y i i=1 donde X iβ = β 1 + β 2x i2 + + β Kx ik Modelo Logit N L( β 1, β 2,..., β y K) = Λ[X i β] i 1 y (1 Λ[X i β]) i i=1 donde X i β = β1 + β 2x i2 + + β Kx ik

Ejemplo Transantiago Con el modelo Probit teníamos P (auto = 1) = Φ(β 1 + β 2 dtiempo)

Ejemplo Transantiago Con el modelo Logit tenemos P (auto = 1) = Λ(β 1 + β 2 dtiempo)

Ejemplo Transantiago

Estimadores de Máxima Verosimilitud Para ilustrar el significado del estimador de máxima verosimilitud, consideremos el siguiente ejemplo. Se lanza un dado tres veces, obteniendo los siguientes resultados (asumimos que los lanzamientos son independientes), {3, 1, 5} Les dicen que existen dos dados, Uno donde la probabilidad de que salga un 1 es p = 1/6 Otro donde la probabilidad de que salga un 1 es p = 1/2 De qué dado es más probable que se hayan obtenido esos números? La probabilidad de obtener esa secuencia para el primer dado es (1 p)p(1 p) = 1 6 ( 5 6 )2 = 0.1157407 La probabilidad de obtenerla con el segundo dado es (1 p)p(1 p) = 1 2 ( 1 2 )2 = 0.125

Estimadores de Máxima Verosimilitud Es decir, es más probable obtener la secuencia {3,1,5} con el segundo dado. El estimador de máxima verosimilitud actúa encontrando ˆp que maximiza la probabilidad de obtener los valores observados En este caso, la función de verosimilitud es L(p) = (1 p)p(1 p) = p(1 p) 2 Luego, el ˆp que maximiza la probabilidad de haber obtenido esa secuencia es dl(p) dp = (1 p)(1 3p)! = 0 ˆp = 1 3 ˆp = 1 El ˆp que maximiza L es ˆp = 1 3

Estimadores de Máxima Verosimilitud (EMV) Gráficamente, la función de verosimilitud es 0.15 0.10 L(p) 0.05 0.00 0.00 0.25 0.50 0.75 1.00 p

Inferencia con Estimadores de Máxima Verosimilitud Inferencia con Estimadores de Máxima Verosimilitud

Inferencia con Estimadores de Máxima Verosimilitud Inferencia con Estimadores de Máxima Verosimilitud Si estimamos a través de MV, Cómo podemos testear hipótesis y construir intervalos de confianza? Supongamos que X es una variable aleatoria (discreta o continua) con función de densidad de probabilidad f(x θ), donde θ es desconocido. La función logaritmo de verosimilitud para una muestra x 1,..., x N es ln L(θ) = N ln f(x i θ) i=1 Si f(x θ) es relativamente suave y otras consideraciones técnicas son satisfechas, entonces para muestras lo suficientemente grandes, el estimador de máxima verosimilitud ˆθ del parámetro θ tiene una distribución que es aproximadamente normal (es asintóticamente normal) ˆθ a N(θ, var(ˆθ)) Entonces el intervalo de confianza asintótico a un nivel α quedaría definido por θ [ˆθ Z 1 α/2 se(ˆθ), ˆθ + Z 1 α/2 se(ˆθ)]

Inferencia con Estimadores de Máxima Verosimilitud Inferencia con Estimadores de Máxima Verosimilitud Varianza de EMV Como hemos visto anteriormente, un elemento clave en la inferencia estadística es la varianza del estimador (o su error estándar). Cómo la estimamos? se(ˆθ) 2 = var(ˆθ) = [ ( d 2 ln L(θ) E dθ 2 )] 1

Inferencia con Estimadores de Máxima Verosimilitud Inferencia con Estimadores de Máxima Verosimilitud Cuando usamos EMV, existen 3 test que se pueden usar. Test de razón de verosimilitud (LR test) Test de Wald Test de score o multiplicador de Lagrange (test LM) Los tres son asintóticamente equivalentes, es decir, darán los mismos resultados cuando la muestra es grande. Supongamos que estamos testeando H 0 : θ = c vs H 1 : θ c Básicamente lo que hacen los tres test es medir la distancia ˆθ c pero la distancia la definen de manera diferente.

Inferencia con Estimadores de Máxima Verosimilitud Test LR Si consideramos la siguiente figura Definimos LR = 2[ln L(ˆθ) ln L(c)] H 0 χ 2 1 Luego, rechazamos H 0 a un nivel α si LR χ 2 1 α,1

Inferencia con Estimadores de Máxima Verosimilitud Test de Wald Si consideramos ahora la siguiente figura, podemos notar que la distancia depende de la curvatura Definimos W = (ˆθ c) 2[ d2 ln L(θ) ] H0 χ 2 dθ 2 1

Inferencia con Estimadores de Máxima Verosimilitud Test de Wald Entre mayor es la curvatura de la función log-verosimilitud, menor es la varianza. Es decir, tenemos más información acerca del parámetro desconocido θ. O en otras palabras, entre más información tenemos, la varianza es menor (más precisa es nuestra estimación). Usando esta idea, se define la información de Fisher ( d 2 ) ln L(θ) I(θ) = E dθ 2 Y se define de una segunda forma el estadístico de Wald, como W = (ˆθ c) 2 I(θ) En muestras grandes, las dos definiciones son equivalentes. Para implementar el test de Wald, usamos la varianza estimada var(ˆθ) = [I(ˆθ)] 1

Inferencia con Estimadores de Máxima Verosimilitud Test LM Este test también intenta medir la distancia entre ˆθ y c. La pendiente de la función log-verosimilitud (definida como score) es s(θ) = d ln L(θ) dθ La lógica es que si ˆθ está cerca de c, entonces la pendiente en c debiera ser cercana a cero. Se define LM = s(c)2 I(θ) H 0 χ 2 1

Inferencia con Estimadores de Máxima Verosimilitud Para implementar el test LM podemos evaluar la medida de información I(θ) en el punto c, es decir, Observaciones de cada test LM = s(c)2 I(c) En casos donde la estimación de MV es dificil de obtener, el test LM tiene la ventaja que ˆθ no se necesita A diferencia del test de Wald que necesita I(ˆθ) y ˆθ. Es preferible cuando la estimación de ˆθ como su varianza son fáciles de obtener El test LR necesita calcular la función log-verosimilitud en ˆθ y c LR es el test que es considerado el más confiable, es decir, si estamos en duda, mejor usar LR.