Modelos para variables categóricas

Documentos relacionados
Modelos elección discreta y variable dependiente limitada

Modelos con variable dependiente limitada

T4. Modelos con variables cualitativas

TEMA 4 Regresión logística

Estimación del Probit Ordinal y del Logit Multinomial

Guillermo Ayala Gallego Universidad de Valencia

Econometría Avanzada FLACSO 2014

Regresión de Poisson. Microeconomía Cuantitativa. R. Mora. Departmento de Economía Universidad Carlos III de Madrid

Economía Aplicada. Modelos con variables dependiente binarias. Departamento de Economía Universidad Carlos III de Madrid

El problema de la endogeneidad Variables proxy Variables instrumentales STATA. Endogeneidad. Gabriel Montes-Rojas

ESCUELA SUPERIOR POLITECNICA DEL LITORAL

Soluciones Examen Final de Econometría Universidad Carlos III de Madrid 26 de Mayo de 2015

TEMA 5. Modelos para Datos de Conteo

Estadística II Tema 4. Regresión lineal simple. Curso 2009/10

Auxiliar 9. MNL y MLE. Daniel Olcay. 21 de octubre de 2014 IN4402. Daniel Olcay (IN4402) Auxiliar 9 21 de octubre de / 13

TEMA 3. Modelos de Elección Discreta

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS. Modelos Probit y Tobit aplicados al estudio de la oferta laboral de los trabajadores secundarios en el Perú


Econometría Aplicada

Estimación Probit. Microeconomía Cuantitativa. R. Mora. Departmento de Economía Universidad Carlos III de Madrid

Sesión 5 - Modelos de elección discreta multinomiales I

Taller I Econometría I

Microeconomía Cuantitativa. R. Mora

Tema 4. Regresión lineal simple

Regresión Lineal Múltiple

Análisis de datos Categóricos

Pérdida Esperada. Pérdida Esperada (PE): Valor esperado de pérdida por riesgo crediticio en un horizonte de tiempo determinado.

Análisis de datos Categóricos

Introducción a la regresión ordinal

Variables Dependientes Limitadas

Universidad de la República, Facultad de Ciencias Económicas y Administración.

Prácticas Tema 4: Modelo con variables cualitativas

Métodos Estadísticos Multivariados

Tema 4: Otros Métodos de Análisis de Datos Cuantitativos y Cualitativos

Análisis de Datos. Regresión logística. Profesor: Dr. Wilfrido Gómez Flores

Modelo de Regresión Lineal Simple

Econometría 1. Karoll GOMEZ Segundo semestre 2017

Estimación del modelo lineal con dos variables

Análisis de datos Categóricos

ECONOMETRÍA I. Tema 4: El Modelo de Regresión Lineal Múltiple: inferencia y validación

TEMA 3: Contrastes de Hipótesis en el MRL

Introduccion a los Modelos de Regresion

Modelo de Regresión Lineal

Econometría 1. Karoll GOMEZ Segundo semestre 2017

EXAMEN DE ECONOMETRÍA

Distribuciones de parámetros conocidos

Test χ 2 de Bondad de Ajuste y Test de Independencia

ESCUELA SUPERIOR POLITECNICA DEL LITORAL

Tema1. Modelo Lineal General.

Maestría en Bioinformática Probabilidad y Estadística: Clase 3

ECONOMETRÍA II Prof.: Begoña Álvarez TEMA 1 INTRODUCCIÓN. Estimación por máxima verosimilitud y conceptos de teoría asintótica

Modelo lineal general (K variables)

Modelos de Variable Dependiente Limitada. Econometría Aplicada UCEMA Daniel Lema

Tema 10: Introducción a los problemas de Asociación y Correlación

Análisis estadístico de los factores de riesgo que influyen en la enfermedad Angina de Pecho. Flores Manrique, Luz CAPÍTULO IV ANALISIS DE LOS DATOS

Regresión lineal simple

Modelos de elección discreta Aplicaciones en ordenador

Modelos lineales generalizados

Econometría III Examen. 29 de Marzo de 2012

T2. El modelo lineal simple

1. Modelos Loglineales tablas de 2 entradas

TEMA 5: Especificación y Predicción en el MRL

Econometría Aplicada

Mínimos cuadrados generalizados y máxima verosimilitud

T3. El modelo lineal básico

Distribuciones multivariadas

TEMA 3: PROPIEDADES DEL ESTIMADOR MCO

CÁLCULO DE PROBABILIDADES

ANÁLISIS DE REGRESIÓN

1. Conceptos de Regresión y Correlación. 2. Variables aleatorias bidimensionales. 3. Ajuste de una recta a una nube de puntos

Hoja de Ejercicios 4 Análisis de regresión con información cualitativa

Índice. Diseños factoriales. José Gabriel Palomo Sánchez E.U.A.T. U.P.M. Julio de 2011

Unidad Temática 3: Estadística Analítica. Unidad 9 Regresión Lineal Simple Tema 15

Overfit, cross validation y bootstrap

Introducción al modelo de regresión logística

Modelos para Variables Censuradas y Truncadas

Los estimadores mínimo cuadráticos bajo los supuestos clásicos

5. Descripción teórica de los modelos econométricos. La naturaleza del estudio que esta tesis pretende realizar nos lleva a enfrentarnos

ECONOMETRÍA I. Tema 2: El Modelo de Regresión Lineal Simple. Patricia Moreno Juan Manuel Rodriguez Poo Alexandra Soberon Departamento de Economía

Andrea Bayancela Espinel Coordinación y edición: Eugenio Paladines y David Villamar

GUIÓN TEMA 3. CONTRASTE DE HIPÓTESIS EN EL MRL Contrastes de hipótesis en el MRL

TEMA 10 Correlación y regresión. El modelo de regresión simple

Curs de Modelització Estadística Bàsica amb Deducer. Anabel Blasco Ana Vázquez Anna Espinal Llorenç Badiella Oliver Valero

Jesús García Herrero TÉCNICAS CLÁSICAS DE ANÁLISIS DE DATOS

Análisis de datos Categóricos

Introducción a los modelos de elección discreta

Transcripción:

Gabriel V. Montes-Rojas

Modelo logit multinomial Supongamos que la variable dependiente toma muchos valores, ej. y = 0, 1, 2..., J, aunque los valores de y no representan ningún orden en particular. Éste es el modelo multinomial. Ejemplo: Modelos de elección dicreta (discrete choice models). y podría ser la marca de un producto que el consumidor compra: y = 0 A y = 1 B y = 2 C y = 3 D y = 4 E Ejemplo: Participación en la fuerza laboral. y podría ser el status laboral de la persona: y = 0 empleado y = 1 desempleado y = 2 fuera de la fuerza laboral

Modelo logit multinomial Seleccionemos sin pérdida de generalidad un grupo base. Por convención corresponde a j = 0. Cada valor de y contiene los parámetros β j, j = 1, 2,..., J, vectores K j 1. (Si J = 1 tenemos el modelo logit.) En un modelo logit multinomial para modelar cada probabilidad tenemos exp(x β j ) P[y = j x] = 1 + J h=1 exp(x β, j = 1, 2,..., J h) Notemos que la suma debe ser 1 (o sea J h=0 P[y = h x] = 1), entonces 1 P[y = 0 x] = 1 + J h=1 exp(x β, j = 1, 2,..., J h) Construir el logaritmo de la función de verosimilitud: l i (β) = J j=0 1[y i = j]log(p[y = j x]). McFadden (1984) muestra que esta función es cóncava global, entonces tiene un máximo.

Modelo logit multinomial Los efectos parciales son P(y = j x) x k = P(y = j x) { β jk [ J β hk exp(x β h ) h=1 ] /g(x, β) donde β hk es el elemento k de β h y g(x, β) = 1 + J h=1 exp(x β h). Notemos que un cambio en x k afecta todas las probabilidades simúltaneamente. Una interpretación de β j está dada por p j (x, β)/p 0 (x, β) = exp(x β j ), j = 1, 2,..., J. Entonces, el cambio en p j (x, β)/p 0 (x, β) ante un cambio en x k (asumiendo es contínua) es β jk exp(x β j ) x k. O lo que es lo mismo, el log odds-ratio es linear en x: log(p j (x, β)/p 0 (x, β)) = x β j. Este resultado se extiende a comparaciones entre j y h: log(p j (x, β)/p h (x, β)) = x(β j β h ) Cómo se interpretaría el caso de x k dummy? Hacer. },

Modelo logit multinomial Una vez estimado podemos construir las probabilidades estimadas, p j (x, β), j = 0, 1,..., J. Para cada i podemos predecir el resultado usando la mayor probabilidad. O sea, ŷ i = max{j = 0, 1,..., J : p j (x i, ˆβ)}. Podríamos construir una medida de bondad del ajuste: peudo R 2 = N i=1 1[ŷ i =y i ] N. McFadden (1974) propone usar el likelihood ratio index: LRI = 1 L( ˆ β) L(β = 0)

Modelo logit multinomial Una de las características de este modelo es que las mismas variables x se usan para todas las alternativas j. En este caso los controles afectan al individuo, pero no son específicas de las caratcerśticas j = 0, 1, 2,..., J.

Modelo logit multinomial: STATA http://www.stata.com/manuals13/rmlogit.pdf http://www.ats.ucla.edu/stat/stata/output/stata_mlogit_output.htm mlogit y x1 x2 x3 mfx, predict(p outcome(1)) (efectos marginales para y = 1) mfx, predict(p outcome(2)) (efectos marginales para y = 2)

Modelo de elección probabiĺıstica: logit condicional (McFadden, 1974, Wooldridge, 2012, cap.16) Supongamos que hay j = 0, 1,..., J variables latentes que representan la utilidad del individuo i yij = x ij β j + a ij, donde a ij son variables no observadas que afectan los gustos de las personas. x ij es un vector de 1 K que puede diferir entre alternativas e individuos (notar que depende de j, no sólo de i). Ejemplo: alternativas de transporte, x ij puede contener el tiempo de viaje, o el costo del viaje. Ejemplo: alternativas de prepagas, x ij puede contener el costo o las características del plan. Definamos y i = max{yi0, y i1,..., y ij }. Si a ij, j = 0, 1,..., J son variables aleatorias independientes con distribución F (a) = exp[ exp( a)] (distribución de valores extremos de tipo I), entonces exp(x ij β j ) P(y i = j x i ) = J h=0 exp(x, j = 0, 1,..., J. ihβ h )

Modelo de elección probabiĺıstica: logit condicional (McFadden, 1974, Wooldridge, 2012, cap.16) Los efectos marginales son p j (x)/ x jk = p j (x)[1 p j (x)]β jk, j = 0, 1,..., J, k = 1,..., K p j (x)/ x hk = p j (x)p h (x)β hk, j = 0, 1,..., J, k = 1,..., K Ver en STATA: http://www.stata.com/manuals13/rclogit.pdf

Independencia de alternativas irrelavantes Un gran problema de estos modelos (mlogit o clogit) es que la elección entre dos alternativas dadas no depende de una tercera. log(p j (x, β)/p h (x, β)) = x(β j β h ) Este supuesto viene del supuesto de independencia de los errores y homocedásticos. Se puede proponer un contraste de Hausman para ver la validez del modelo (Hausman y McFadden, 1984). Supongamos que la alternativa j = h es irrelevante, entonces exlcuirla no afecta los resultados entre las restantes. Si es relevante, excluirla debería generar inconsistencias. Sin embargo el modelo con j = 0, 1,..., h 1, h + 1,.., J es más eficiente que el modelo con j = 0, 1,.., J (?Por qué?) Así, ( ˆβ all ˆβ h ) [ ˆV h ˆV all )] 1 ( ˆβ all ˆβ h ) d χ 2 K bajo la nula de alternativas irrelevantes.

Independencia de alternativas irrelavantes Existen otras alternativas que no tienen este supuesto. En este modelo a i sigue una distribución multivariada normal con correlaciones arbitrarias entre a ij y a ih, para todo j = h. Sin embargo el modelo es mucho más complejo para estimar (problemas de convergencia). Ver en STATA: http://www.stata.com/manuals13/rmprobit.pdf

Modelo probit de orden (ordered probit model) Supongamos que la variable dependiente toma muchos valores, ej. y = 0, 1, 2..., J, y los valores de y representan un orden en particular. Éste es el modelo de orden. Ejemplo: y podría ser salario mensual y = 0 sin ingreso y = 1 $ 1 a $ 500 y = 2 $ 501 a $ 1000 y = 3 $ 1001 a $ 2000 y = 4 $ 2001 a $ 5000 y = 5 mayor que $ 5000 Tiene sentido usar una regresión MCO?

Modelo probit de orden (ordered probit model) Asumamos una variable latente y dada por y = x β + e, e x N(0, 1) Consideremos un modelo con J + 1 categorías indexadas por j = 0, 1, 2..., Jy supongamos J umbrales o puntos de corte desconocidos α 1 < α 2 <... < α J que satisfacen y = 0 si y α 1 y = 1 si α 1 < y α 2. y = J si y α J Entonces la distribución condicional es P(y = 0 x) = P(y α 1 x) = P(x β + e α 1 x) = Φ(α 1 x β) P(y = 1 x) = P(α 1 < y α 2 x) = Φ(α 2 x β) Φ(α 1 x β). P(y = J 1 x) = P(α J 1 < y α J x) = Φ(α J x β) Φ(α J 1 x β) P(y = J x) = P(y > α J x) = 1 Φ(α J x β)

Modelo probit de orden (ordered probit model) El modelo se puede estimar por MLE: l i (β) = 1[y i = 0]log[Φ(α 1 x β)] + 1[y i = 1]log[Φ(α 2 x β) Φ(α 1 x β)] +... + 1[y i = J]log[1 Φ(α J x β)]. Los efectos marginales se pueden calcular como: p 0 (x)/ x k = β k φ(α 1 x β), p J (x)/ x k = β k φ(α J x β), p j (x)/ x k = β k [φ(α j 1 x β) φ(α j x β), 0 < j < J

Modelo probit de orden (ordered probit model) Un supuesto que sale del modelo es el supuesto de regresiones paralelas. Podríamos armar el modelo de orden usando una serie de modelos probit. Por ejemplo, construir w ij = 1 si y ij j, w ij = 0 si y ij > j para j = 0, 1,..., J 1. Entonces tenemos, P(y j x) = P(y α j x) = G (α j x β) El modelo de orden asume que los parámetros β son los mismos en todos los probit bivariados, excepto por la constante (α). Un subproducto de este análisis es obtener P(y j x) x h = β h g(α j x β)

Modelo probit de orden (ordered probit model): STATA oprobit y x1 x2 x3 mfx, predict(p outcome(1)) (efectos marginales para y = 1) mfx, predict(p outcome(2)) (efectos marginales para y = 2) http://www.stata.com/manuals13/rologit.pdf http://www.stata.com/manuals13/roprobit.pdf