Modelos elección discreta y variable dependiente limitada Profesor: Graciela Sanroman Facultad de Ciencias Económicas y Administración Año 2010
Modelos multinomiales Los modelos multinomiales son aquellos en los cuales el conjunto de elección es discreto pero hay más de dos alternativas. Consideramos el caso en el cual no existe un orden jerárquico entre las alternativas; ejemplos de este tipo de problemas es la elección de la carrera, de la ocupación, de un plan de salud, de un restaurante para la cena, etc. La idea central es que el conjunto de alternativas que enfrenta el individuo es nito (pero mayor que dos) y a su vez que no existe un orden determinado en las alternativas (no hay un contenido cuantitativo)
Modelos multinomiales: ejemplo Consideremos el ejemplo del medio de transporte, 8 < 1 bus y i = 2 taxi : 3 auto particular Aquí los números no tienen ningun sentido; además, como tengo más de dos alternativas no puedo hablar de éxito o fracaso.
Modelos multinomiales: M+1 alternativas Consideremos un caso en el cual existen M+1 alternativas.de no un conjunto de variables binarias 1 yi = j d ji = 0 en caso contrario j = 0,...M Similarmente p ji = Pr(y i = j j x i ) = Pr(d ji = 1 j x i ) Nota: La cantidad de alternativas podría variar entre individuos. No obstante en esta exposición supondremos que todos los individuos enfrentan el mismo conjunto de alternativas.
Modelos multinomiales: verosimilitud del modelo La verosimilitud del modelo estará dada por L(β) = L(β) = l i (β) = N M i=1 j=0 p d ji ji N l i (β) i=1 M d ji ln(p ji ) j=0
Logit multinomial El logit multinomial supone que p ji = Pr(d ji = 1 j x i ) = exp(x0 i β j ) M j=0 exp(x 0 i β j ) este modelo se estandariza sin perder generalidad asumiendo que una alternativa base a la que denominamos como alternativa 0 cumple con β 0 = 0, o sea, p 0i = Pr(d 0i = 1 j x i ) = 1 1 + M j=1 exp(x 0 i β j ). Notar que tengo K M parámetros a estimar. Quedando así perfectamente de nido el problema de máxima verosimilitud. McFadden (1974) demostró que la log-verosimilitud de este problema es globalmente cóncava por lo cual el estimador máximo verosímil es muy atractivo.
Logit multinomial: modelo RUM El modelo logit multinomial puede asociarse a modelos de utilidad estocástica. Supongamos que la utilidad que le brinda al individuo la alternativa j está dada por u ji = v ji + ε ji j = 0, 1,...M y que v ji depende de características del individuo v ji = x i β j o de atributos de la alternativa j o sea v ji = z j δ j p ji = Pr [u ji = max(u 0i, u 1i,..., u Mi )] McFadden probó que el modelo Logit multinomial puede derivarse de un modelo de utilidad estocástica si los ε ji son variables aleatorias independientes cuya distribución es la distribución de valor extremo de tipo 1, la función de distribución de probabilidad acumulada es F (ε ji ) = exp f exp (ε ji )g y densidad exp f ε ji exp (ε ji )g. Lo importante es que si eso se cumple ε ji ε ki se distribuye logistica
Logit multinomial: efectos parciales Obtener e interpretar los efectos parciales de este modelo es difícil (incluso pueden ser de distinto signo que los coe cientes asociados) ( " Pr(y = j j x) M = Pr(y = j j x) β x jk β hk exp x 0 # β h m x 0 β ) k h=1 donde β hk es el elemento k-esimo de β h y m (x 0 β) = 1 + M h=1 exp (x 0 β h ).
Logit multinomial: odd-ratio y log-odd-ratio Generalmente cuando estimamos estos modelos nos concentramos en los denominados odd-ratio p ji p 0i = exp(x 0 i β j ) y el log-odd ratio ln( p ji p 0i ) = x 0 i β j cuando comparamos una alternativa j respecto a la alternativa base, y p h i ji = exp xi β 0 p j β k ki y el log-odd ratio ln( p ji ) = xi β 0 p j β k ki cuando comparamos la alternativa j respecto a otra alternativa k.
Logit multinomial: probabilidades condicionales Es importante notar que otra propiedad de este modelo es que cuando estimamos la probabilidad de que y = j condicional a que la variable y asume el valor j o k obtenemos un problema de tipo binario, Pr (d ji = 1 j x; d ji + d ki = 1) = = = p ji p ji + p ki exp(xi 0β j ) exp(x 0 i β j ) + exp(x0 i β k ) 1 1 + exp(xi β 0 k β j ) Se observa que cuando comparamos la probabilidad de una alternativa en relación a otra sólo interesan los coe cientes de las alternativas bajo análisis. Esto se da así debido al supuesto de independencia de las variables aleatorias ε. Esta característica se denomina propiedad de independencia de las alternativas irrelevantes (IAI). Este es un defecto del modelo.
Logit multinomial: Independencia de las alternativas irrelevantes Ejemplo: medios de transporte. Supongamos que inicialmente tenemos dos alternativas: 2/3 de la población utiliza auto propio 1/3 usa un bus rojo. El ratio de probabilidades es igual a 2/3 1/3 = 2 Consideremos que se modi ca el conjunto de alternativas y se incorpora un bus verde, sería razonable suponer que ahora: auto propio 2/3, bus rojo 1/6, bus verde 1/6, ahora el odd ratio= 2/3 1/6 = 4. No obstante el multinomial logit diría que sigue siendo 2. Aquí el problema es sencillo de solucionar porque es claro la sustituibilidad de bus verde frente a bus rojo, no obstante en otros problemas el dilema no es sencillo. Entonces, lo que estamos necesitando es un modelo que permita que las ε estén correlacionadas de forma de incorporar los distintos grados de sustituibilidad entre las alternativas.
Probit multinomial Supongamos que u ji con j = 0, 1, 2,...M es la utilidad estocástica asociada a la alternativa j. De namos el vector u i = (u 0i, u 1i,..., u Mi ) 0. Suponemos u i N M +1 x 0 i β j, Ω Nuevamente p ji = Pr [u ji = max(u 0i, u 1i,..., u Mi )]
Probit multinomial Ejemplo M = 2 u 0i = x 0 i β 0 + ε 0i u 1i = x 0 i β 1 + ε 1i u 2i = x 0 i β 2 + ε 2i ε i N M +1 (0, Ω) 2 σ 2 3 0 σ 01 σ 03 Ω = 4 σ 2 1 σ 12 5 σ 2 2 Pr [d 1i = 1] = Pr [u 1i > u 0i, u 1i > u 2i ] h i = Pr x 0 i β 1 + ε 1i > x 0 i β 0 + ε 0i, x 0 i β 1 + ε 1i > x 0 i β 2 + ε 2i h i = Pr ε 0i ε 1i > x 0 i (β 1 β 0 ), ε 2i ε 1i > x 0 i (β 1 β 2 )
Probit multinomial Como ε i N(0, Ω) entonces ξ i = ε0i ε 2i ε 1i ε 1i N(0, Γ) Γ = σ 2 1 + σ 2 0 2σ 01 σ 2 1 σ 01 σ 12 + σ 02 σ 2 1 + σ2 2 2σ 12 Pr(d 1i = 1 j x i ) = Z x 0 i (β 1 β 0 ) Z 0 x i (β 1 β 2 ) f (ε 0i ε 1i, ε 2i ε 1i ) d (ε 0i ε 1i ) d ( para calcular la integral múltiple tengo que proceder por cálculo númerico, y el problema se transforma en irresoluble para más de 3 alternativas. Como alternativa se pueden utilizar métodos de estimación por simulación.
Modelos de respuesta ordenada Algunas veces cuando se piensa que las opciones tienen un orden natural, por ejemplo, no trabajar, trabajar parcial, trabajar full time. Este tipo de modelos multinomiales se denominan modelos de respuesta ordenada. Como el nombre lo sugiere si y es una variable ordenada entonces los valores que asignamos a cada alternativa ya no son totalmente arbitrarios. Por ejemplo y podrìa ser un rating de credito de 0 a 5 con y = 5 representando el mayor rating y y = 0 el rating menor. El hecho de que 5 es mejor que 4 es información útil; no obstante, la diferencia entre 5 y 4 no tiene un sentido de magnitud los valores tienen un sentido ordinal.
Modelos de respuesta ordenada Sea y una variable de respuesta ordenada que asume valores f0, 1, 2,...Mg para un M entero conocido. El modelo probit ordenado para y (condicional en los regresores x) puede ser derivado desde un modelo de variable latente. Suponga que la variable latente y se de ne como y = x 0 β + e con e j x Normal(0, 1) donde β es un vector k 1 y x no incluye constante. Sea α 1 < α 2... < α J valores de corte conocidos (parametros umbral) de namos y = 0 si y < α 1 y = 1 si α 1 < y < α 2.. y = J si y > α J
Modelos de respuesta ordenada Dado el supuesto de normalidad de la variable e se sigue directamente que Pr(y = 0 j x) = Pr( y < α 1 j x) = Pr(x 0 β + e < α 1 j x) = Φ(α 1 x 0 β) Pr(y = 1 j x) = Pr( α 1 < y < α 2 j x) = Pr(α 1 < x 0 β + e < α 2 j x) = Φ(α 2 x 0 β) Φ(α 1 x 0 β).. Pr(y = J 1 j x) = Pr( α J 1 < y < α J j x) = Pr(α J 1 < x 0 β + e < α J j x) = Φ(α J x 0 β) Φ(α J 1 x 0 β) Pr(y = J j x) = Pr( y > α J j x) = Pr(x 0 β + e > α J j x) = 1 Φ(α J x 0 β)
Modelos de respuesta ordenada El vector de parámetros α y β pueden estimarse por Máxima Verosimilitud. La contribución de cada individuo i esta dada por l i (α, β) = 1 [y i = 0] log Φ(α 1 x 0 β) +1 [y i = 1] log Φ(α 2 x 0 β) Φ(α 1 x 0 β)... +1 [y i = J] log 1 Φ(α J x 0 β) Otras funciones de distribución en lugar de la normal pueden ser utilizadas. Por ejemplo la función logistica da lugar a los conocidos como modelos logit ordenados. En cualquier caso debemos recordar que el interés de estos modelos no está en β per-se. En la mayoría de los casos no estamos interesados en E (y j x) = x 0 β en la medida en que y es una construcción muy abstracta.
Modelos de respuesta ordenada En general el interés estará en las probabilidades condicionales Pr(y = j j x). Los efectos cuando el regresor es una variable continua están dados por, Pr(y = 0 j x) x k = β k φ(α 1 x 0 β) Pr(y = J j x) x k = β k φ(α J x 0 β) Pr(y = j j x) x k = β k φ(αj 1 x 0 β) φ(α j x 0 β) 0 < j < J Notar que mientras el signo del efecto de x k sobre Pr(y = 0 j x) y Pr(y = J j x) está totalmente determinado por el signo de β pero no asì para el efecto sobre (y = j j x) para 0 < j < J el cual depende también de φ(α j 1 x 0 β) φ(α j x 0 β).similarmente se obtienen los efectos en el modelo logit ordenado. Como en los modelos multinomiales las predicciones del modelo pueden obtenerse asignando la opción que obtenga la mayor probabilidad. A partir de ello es posible obtener indicadores de porcentaje de predicciones correctas.