Econometría Aplicada

Econometría Aplicada y función de Verosimilitud Víctor Medina

Los objetivos de esta parte del curso principalmente son: 1. Dar algunos ejemplos de decisiones económicas donde la variable dependiente es una varible binaria. 2. Explicar por qué Probit y Logit son usualmente preferibles a mínimos cuadrados cuando estimamos un modelo de variable dependiente binaria. 3. Conocer otras formas de estimación, en particular, introducir la función de verosimilitud. Hasta ahora nos hemos enfocado en modelos econométricos donde la variable dependiente es continua: cantidades, precios, etc. Sin embargo, muchas de las decisiones que los individuos y las empresas hacen no pueden ser medidas por una variable continua. Ahora veremos modelos que son usados para describir decisiones (si o no) o comportamientos (bueno, malo, etc.)

Modelos con variables dependientes binarias Muchas de las decisiones que hacemos, o que las empresas hacen, son dicotómicas. Por ejemplo, decidir si comprar una casa o arrendar. Una empresa decide si publicitar su producto en el diario o no, etc. Como econometristas estamos interesados en explicar por qué decisiones particulares son tomadas, y qué factores entran en el proceso de decisión. También nos gustaría saber cuánto contribuye cada factor en la decisión. Este tipo de decisiones se puede interpretar por un indicador binario que toma el valor 1 si una de las opciones es elegidas o 0 en caso contrario. Ahora,la variable dependiente (y) toma valores 0 o 1 (no la variable independiente como vimos anteriormente). Esto afecta nuestra elección de modelo estadístico. Ejemplos son variados: Modelo econométrico que explica por qué un banco acepta o rechaza créditos Modelo econométrico que explica por qué algunas mujeres deciden estudiar ingeniería y otras no Modelo econométrico que explica por qué un cliente se va a la competencia y otros se quedan

Modelos con variables dependientes binarias Supongamos que queremos explicar por qué una persona decide o bien viajar al trabajo en el transantiago o manejar su propio auto (asumiendo por simplicidad que estas son las dos únicas opciones). Entonces { 1 si maneja y = 0 si ocupa transantiago Si la probabilidad que una persona maneje al trabajo es p, entonces P (y = 1) = p y P (y = 0) = 1 p, es decir, la función de probabilidad es Con E(y) = p y var(y) = p(1 p) f(y) = p y (1 p) 1 y, y = 0, 1 Qué factores podrían afectar la decisión? Supongamos que el tiempo que toma un medio versus el otro. Definimos por ahora sólo una variable dada por x = (tiempo en transantiago tiempo en auto) A priori esperamos que si x aumenta, p también.

Modelo de probabilidad lineal En los modelo de regresión vistos, hemos separado la variable dependiente como la suma de su valor esperado y la parte aleatoria y = E(y) + e = p + e Luego, relacionamos la parte esperada de la forma E(y) = p = β 1 + β 2x, o de otra forma, y = β 1 + β 2x + e La función de densidad de probabilidad para y y el error e toman los valores Se puede observar que var(e) = (β 1 + β 2x)(1 β 1 β 2x) Es decir, el error es heterocedástico.

Modelo de probabilidad lineal En la práctica, este enfoque puede traer algunas dificultades en su implementación. Si estimamos los parámetros del valor esperado de y con MC, tendríamos ˆp = ˆβ 1 + ˆβ 2x Cuando usamos este modelo para predecir comportamiento, podríamos obtener valores de ˆp mayores a 1 o menores a 0, lo cual pierde sentido en términos probabilísticos. El otro problema que aparece es que el modelo lineal implícitamente asume que un incremento marginal en x tiene un efecto constante en la probabilidad dp dx = β2 Es decir, a medida que aumentamos x, la probabilidad de manejar aumenta a una tasa constante. Sin embargo, p está acotada, por lo tanto, una tasa de incremento constante no es posible.

Modelo Probit Una función que resuelve los problemas anteriores es la función Probit. Su función de distribución acumulada se ilustra a continuación (normal estándar)

Modelo Probit Y su función de densidad de probabilidad es

Modelo Probit Si Z es una variable aleatoria normal estándar, entonces la función Probit es (distribución normal acumulada) Φ(z) = P (Z z) = z 1 2π e 0.5u2 du El modelo Probit computa la probabilidad p que y tenga el valor 1 p = P (Z β 1 + β 2x) = Φ(β 1 + β 2x) Si supieramos los valores de β 1 y β 2, podríamos calcular la probabilidad que una persona vaya manejando al trabajo. Debemos estimar los coeficientes!

Función de Verosimilitud Supongamos que aleatoriamente seleccionamos 3 personas. Dos de ellas manejan al trabajo y la otra va en transantiago. Es decir, y 1 = 1, y 2 = 1 e y 3 = 0. Además, supongamos que los valores de x, en minutos, son x 1 = 15, x 2 = 6 y x 3 = 7. Cuál es la probabilidad conjunta de observar y 1 = 1, y 2 = 1 e y 3 = 0? La densidad marginal es f(y i) = [Φ(β 1 + β 2x i)] y i [1 Φ(β 1 + β 2x i)] 1 y i, y i = 0, 1 Si las observaciones son independientes, entonces la probabilidad conjunta es la multiplicación de las densidades marginales Para nuestro ejemplo, f(y 1, y 2, y 3) = f(y 1)f(y 2)f(y 3) P (y 1 = 1, y 2 = 1, y 3 = 0) = Φ(β 1 + β 2 15)Φ(β 1 + β 2 6)(1 Φ(β 1 + β 2 7)) = L(β 1, β 2) En estadística, la probabilidad de observar la muestra se llama función de verosimilitud

Función de Verosimilitud La notación L(β 1, β 2) indica que la función depende de los parámetros desconocidos. El método de máxima verosimilitud (MV) busca los parámetros β 1 y β 2 que maximizan la probabilidad de observar esa muestra. Desgraciadamente el problema no es despejable y se deben utilizar métodos iterativos para calcular los coeficientes En general, se utiliza el logaritmo de la función de verosimilitud porque facilita el cálculo de maximización En nuestro ejemplo ln L(β 1, β 2) = ln Φ(β 1 + β 2 15) + ln Φ(β 1 + β 2 6) + ln[1 Φ(β 1 + β 2 7)] Tanto ln L(β 1, β 2) como L(β 1, β 2) tienen el mismo argmax, es decir, al maximizar ln L y L llegamos a los mismos β 1 y β 2 A β 1 y β 2 son los estimadores de máxima verosimilitud Usamos 3 observaciones sólo con un fin ilustrativo, en la realidad la estimación a través de máxima verosimilitud se debe usar para muestras grandes, sino tenemos problemas de interpretación.

Ejemplo Transantiago Supongamos que tenemos la siguiente información de usuarios de transantiago y autos. donde dtiempo = (t_bus t_auto)/10

Ejemplo Transantiago Los resultados de la regresion probit son P (auto = 1) = Φ(β 1 + β 2 dtiempo)

Ejemplo Transantiago Efecto marginal Supongamos que queremos estimar el efecto marginal de incrementar el tiempo en el transporte público si es que este toma 20 minutos más que el viaje en auto, es decir, dˆp ddtiempo = φ( β 1 + β 2dtiempo) β 2 = φ( 0.0644 + 0.3 2) 0.3 = φ(0.5355) 0.3 = 0.3456 0.3 = 0.1037 Luego, un incremento de 20 minutos en el tiempo de viaje en bus, trae consigo un incremento en la probabilidad de ir en auto en 0.1037 Predecir el comportamiento Supongamos ahora que una persona se demora 30 minutos más en bus que en auto en llegar a su trabajo, entonces la probabilidad estimada que eligirá el auto es ˆp = Φ( β 1 + β 2dtiempo) = Φ( 0.0644 + 0.3 3) = 0.7983 En otras palabras, la persona estaría más inclinada a irse en auto que en bus.

Modelo Logit Ya vimos que el modelo Probit presentaba algunas complicaciones por su forma funcional (distribución normal) φ(u) = 1 2π e 0.5u2, < u < Una alternativa es el modelo Logit, que también tiene la forma de S y su densidad de probabilidad viene dada por λ(l) = e l (1 + e l ) 2, < l < La función de distribución acumulada, a diferencia de la distribución normal, tiene una expresión cerrada, dada por l Λ(l) = P (L l) = λ(x)dx 1 = 1 + e l

Modelo Logit Comparación de densidades de probabilidad logit probit 0.4 0.3 y 0.2 0.1 0.0 4 2 0 2 4 x

Modelo Logit Comparación de distribuciones acumuladas logit probit 1.00 0.75 y 0.50 0.25 0.00 4 2 0 2 4 x

Modelo Logit Entonces, la probabilidad p que un valor observado tome el valor 1 es p = P (L β 1 + β 2x) = Λ(β 1 + β 2x) = 1 1 + e (β 1+β 2 x) = eβ 1+β 2 x 1 + e β 1+β 2 x y, por lo tanto, 1 1 p = 1 + e β 1+β 2 x La estimación es análoga al caso Probit, intercambiando Φ por Λ. Es decir, si consideramos N observaciones, la función de verosimilitud para el modelo Probit es N L(β 1, β 2) = Φ(β 1 + β 2x i) y i (1 Φ(β 1 + β 2x i)) 1 y i i=1 y la función de verosimilitud del modelo Logit N L( β 1, β 2) = Λ( β 1 + β 2x i) y i (1 Λ( β 1 + β 2x i)) 1 y i i=1

Generalizaciones de Modelo Probit y Logit La generalización de los modelos cuando tenemos K parámetros a estimar es directa y queda de la siguiente forma Modelo Probit N L(β 1, β 2,..., β K) = Φ[X iβ] y i (1 Φ[X iβ]) 1 y i i=1 donde X iβ = β 1 + β 2x i2 + + β Kx ik Modelo Logit N L( β 1, β 2,..., β y K) = Λ[X i β] i 1 y (1 Λ[X i β]) i i=1 donde X i β = β1 + β 2x i2 + + β Kx ik

Ejemplo Transantiago Con el modelo Probit teníamos P (auto = 1) = Φ(β 1 + β 2 dtiempo)

Ejemplo Transantiago Con el modelo Logit tenemos P (auto = 1) = Λ(β 1 + β 2 dtiempo)

Ejemplo Transantiago

Estimadores de Máxima Verosimilitud Para ilustrar el significado del estimador de máxima verosimilitud, consideremos el siguiente ejemplo. Se lanza un dado tres veces, obteniendo los siguientes resultados (asumimos que los lanzamientos son independientes), {3, 1, 5} Les dicen que existen dos dados, Uno donde la probabilidad de que salga un 1 es p = 1/6 Otro donde la probabilidad de que salga un 1 es p = 1/2 De qué dado es más probable que se hayan obtenido esos números? La probabilidad de obtener esa secuencia para el primer dado es (1 p)p(1 p) = 1 6 ( 5 6 )2 = 0.1157407 La probabilidad de obtenerla con el segundo dado es (1 p)p(1 p) = 1 2 ( 1 2 )2 = 0.125

Estimadores de Máxima Verosimilitud Es decir, es más probable obtener la secuencia {3,1,5} con el segundo dado. El estimador de máxima verosimilitud actúa encontrando ˆp que maximiza la probabilidad de obtener los valores observados En este caso, la función de verosimilitud es L(p) = (1 p)p(1 p) = p(1 p) 2 Luego, el ˆp que maximiza la probabilidad de haber obtenido esa secuencia es dl(p) dp = (1 p)(1 3p)! = 0 ˆp = 1 3 ˆp = 1 El ˆp que maximiza L es ˆp = 1 3

Estimadores de Máxima Verosimilitud (EMV) Gráficamente, la función de verosimilitud es 0.15 0.10 L(p) 0.05 0.00 0.00 0.25 0.50 0.75 1.00 p

Inferencia con Estimadores de Máxima Verosimilitud Inferencia con Estimadores de Máxima Verosimilitud

Inferencia con Estimadores de Máxima Verosimilitud Inferencia con Estimadores de Máxima Verosimilitud Si estimamos a través de MV, Cómo podemos testear hipótesis y construir intervalos de confianza? Supongamos que X es una variable aleatoria (discreta o continua) con función de densidad de probabilidad f(x θ), donde θ es desconocido. La función logaritmo de verosimilitud para una muestra x 1,..., x N es ln L(θ) = N ln f(x i θ) i=1 Si f(x θ) es relativamente suave y otras consideraciones técnicas son satisfechas, entonces para muestras lo suficientemente grandes, el estimador de máxima verosimilitud ˆθ del parámetro θ tiene una distribución que es aproximadamente normal (es asintóticamente normal) ˆθ a N(θ, var(ˆθ)) Entonces el intervalo de confianza asintótico a un nivel α quedaría definido por θ [ˆθ Z 1 α/2 se(ˆθ), ˆθ + Z 1 α/2 se(ˆθ)]

Inferencia con Estimadores de Máxima Verosimilitud Inferencia con Estimadores de Máxima Verosimilitud Varianza de EMV Como hemos visto anteriormente, un elemento clave en la inferencia estadística es la varianza del estimador (o su error estándar). Cómo la estimamos? se(ˆθ) 2 = var(ˆθ) = [ ( d 2 ln L(θ) E dθ 2 )] 1

Inferencia con Estimadores de Máxima Verosimilitud Inferencia con Estimadores de Máxima Verosimilitud Cuando usamos EMV, existen 3 test que se pueden usar. Test de razón de verosimilitud (LR test) Test de Wald Test de score o multiplicador de Lagrange (test LM) Los tres son asintóticamente equivalentes, es decir, darán los mismos resultados cuando la muestra es grande. Supongamos que estamos testeando H 0 : θ = c vs H 1 : θ c Básicamente lo que hacen los tres test es medir la distancia ˆθ c pero la distancia la definen de manera diferente.

Inferencia con Estimadores de Máxima Verosimilitud Test LR Si consideramos la siguiente figura Definimos LR = 2[ln L(ˆθ) ln L(c)] H 0 χ 2 1 Luego, rechazamos H 0 a un nivel α si LR χ 2 1 α,1

Inferencia con Estimadores de Máxima Verosimilitud Test de Wald Si consideramos ahora la siguiente figura, podemos notar que la distancia depende de la curvatura Definimos W = (ˆθ c) 2[ d2 ln L(θ) ] H0 χ 2 dθ 2 1

Inferencia con Estimadores de Máxima Verosimilitud Test de Wald Entre mayor es la curvatura de la función log-verosimilitud, menor es la varianza. Es decir, tenemos más información acerca del parámetro desconocido θ. O en otras palabras, entre más información tenemos, la varianza es menor (más precisa es nuestra estimación). Usando esta idea, se define la información de Fisher ( d 2 ) ln L(θ) I(θ) = E dθ 2 Y se define de una segunda forma el estadístico de Wald, como W = (ˆθ c) 2 I(θ) En muestras grandes, las dos definiciones son equivalentes. Para implementar el test de Wald, usamos la varianza estimada var(ˆθ) = [I(ˆθ)] 1

Inferencia con Estimadores de Máxima Verosimilitud Test LM Este test también intenta medir la distancia entre ˆθ y c. La pendiente de la función log-verosimilitud (definida como score) es s(θ) = d ln L(θ) dθ La lógica es que si ˆθ está cerca de c, entonces la pendiente en c debiera ser cercana a cero. Se define LM = s(c)2 I(θ) H 0 χ 2 1

Inferencia con Estimadores de Máxima Verosimilitud Para implementar el test LM podemos evaluar la medida de información I(θ) en el punto c, es decir, Observaciones de cada test LM = s(c)2 I(c) En casos donde la estimación de MV es dificil de obtener, el test LM tiene la ventaja que ˆθ no se necesita A diferencia del test de Wald que necesita I(ˆθ) y ˆθ. Es preferible cuando la estimación de ˆθ como su varianza son fáciles de obtener El test LR necesita calcular la función log-verosimilitud en ˆθ y c LR es el test que es considerado el más confiable, es decir, si estamos en duda, mejor usar LR.