Técnicas de Análisis de Datos de Elección n Discreta

Técncas de Análss de Datos de Eleccón n Dscreta Sub-Gerenca de Investgacón GPR Vernes, 07 de abrl de 0006 Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL). 1

Contendo Introduccón Modelos de varable dependente bnara Probt Logt Modelos de varable dependente de eleccón múltple Probt ordenado Logt multnomal Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL).

Las estmacones lneales cláscas se usan para dentfcar asocacones estadístcas entre varables (dependente vs. exógenas): y = xβ + e Estas estmacones funconan correctamente cuando se hacen sobre varables dependentes contínuas: Ingreso del hogar Gasto en telefonía Mnutos consumdos Para esto se asumen supuestos sobre la forma del error (homocedastcdad, normaldad) 0 000 4000 6000 8000 10000 Introduccón n (1) 0 1000 000 3000 Grupo 1 : Almentos-Gasto Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL). 3

Introduccón n () Sn embargo, puede ser necesaro trabajar con varables dependente dscretas: Acceso a telefonía fja / móvl Calfcacón sobre el servco de las empresas (bueno, regular, etc.) Plan tarfaro escogdo Estratega de telecomuncacón del hogar (fjo, móvl, ambos) En estos casos, los modelos lneales cláscos presentan problemas: x ˆ β [ 0,1] En y = xβ + e, tendría una dstrbucón no normal. Heterocedastcdade en el error, producto de la forma de su varanza Var[ e ] = E y E y = E y x β = = = [ ( )] [ ] [ ( )( ) ( ) ] E y y xβ + xβ, como xβ ( xβ ) + ( xβ ) ( x β )( 1 x β ) y = y Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL). 4

0.5 1 Modelos de varable dependente bnara 0 0 40 60 80 100 x S S G( xβ ) G( xβ ) y Reg. lneal Normal Logstca Por este motvo se recurre a funcones que permten caracterzar mejor la dstrbucón de la varable dependente. En el caso de varables dependentes dcotómcas una forma de caracterzar a la varable dependente es: P( y = 1x) = G( xβ ) p( x) Este tpo de modelos, debdo a que x no afecta drectamente a P(y=1), sno a través del índce xß, son conocdos como modelos de índces, donde xβ = β + β x +... + β se defne como la funcón de dst. normal acum.: PROBIT. se defne como la funcón de dst. logístca acum.: LOGIT. 1 k x k Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL). 5

Modelos de varable dependente bnara () Las varables dscretas dcotómcas tambén pueden ser modeladas como realzacones dependentes de otra varable no observable (latente). En este caso, se asume que la varable no observada debe traspasar un umbral para que la varable dependente tome el valor de 1: Pr y = 1x = Pr y* > 0 = [ ] [ ] Pr [ x' β + u > 0] S se asume que el error está dstrbudo smétrcamente alrededor de cero, entonces podrá replantearse la últma expresón como: Pr [ x ' β + u > 0] = Pr[ u < x' β ] = F( x' β ) Donde nuevamente, dependendo de la forma de la dstrbucón que se le asgne al error, se tratará de un modelo LOGIT o PROBIT. Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL). 6

Modelos de varable dependente bnara (3) Fnalmente, tambén es posble modelar las varables dscretas como resultado de modelos de utldad aleatora, donde se asume que el valor observado de la varable dscreta representa que dcha alternatva es la que mayor utldad ofrece al agente. En este caso, se podrían modelas las alternatvas como: U 0 = V0 + ε 0 y U1 = V1 + ε1 donde los V representan componentes determnístcos y los ε representan componentes estocástcos (shocks dosncráscos). En este caso: Pr y = 1 = Pr U > U = Pr V + ε > V + ε [ ] [ 1 0] [ 1 1 0 0] = Pr[ ε 0 ε1 < V1 V0 ] = F( V V ) 1 Dependendo de la forma funconal que se asuma para la dferenca de los errores se puede llegar a los conocdos modelos probt y logt: S se asume que los errores son normales, su dferenca es normal, y se estaría en el modelo probt. S se asume que los errores son ndependentes con dstrbucón valor extremo tpo 1, entonces la dferenca tendría una dstrbucón logístca (logt). 0 Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL). 7

Modelo probt (1) En cualquera de las especfcacones planteadas, el modelo probt x' β representa: p = Φ x' β = φ z dz ( ) ( ) donde Φ( ) es la dstrbucón acumulada normal estándar. Los efectos margnales, a dferenca de las regresones lneales, no son los parámetros, sno una funcón de los msmos: p = φ ( x' β ) β j x j Las estmacones se realzan usando la metodología de máxma verosmltud, y son fáclmente manejables usando dstntos paquetes econométrcos (Stata, EVIews, SPSS, etc.) Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL). 8

Modelo probt: : estmacón n en Stata. probt movl meperho ngre anho_est uso_cab j_hombre j_anho_est p_gas_elec Iteraton 0: log lkelhood = -119.15 Iteraton 4: log lkelhood = -1054.3311 Probt regresson Number of obs = 1968 LR ch(7) = 39.59 Prob > ch = 0.0000 Log lkelhood = -1054.3311 Pseudo R = 0.135 movl Coef. Std. Err. z P> z [95% Conf. Interval] -------------+---------------------------------------------------------------- meperho.100079.015791 6.34 0.000.06913.13107 ngre.000085 9.16e-06 3.11 0.00.0000106.0000465 anho_est.077978.0131391 5.93 0.000.056.1037304 uso_cab.596038.1709 4.66 0.000.3435119.8416956 j_hombre -.1439711.0759859-1.89 0.058 -.99006.0049585 j_anho_est.057537.0104097 5.53 0.000.03711.077963 p_gas_elec.434145.0959651 4.51 0.000.44364.60506 _cons -.675154.159888-16.73 0.000 -.98859 -.361779 Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL). 9

Modelo probt: : estmacón n en Stata (). dprobt movl meperho ngre anho_est uso_cab j_hombre j_anho_est p_gas_elec Probt regresson, reportng margnal effects Number of obs = 1968 LR ch(7) = 39.59 Prob > ch = 0.0000 Log lkelhood = -1054.3311 Pseudo R = 0.135 movl df/dx Std. Err. z P> z x-bar [ 95% C.I. ] ---------+-------------------------------------------------------------------- meperho.033654.00577 6.34 0.000 4.41108.0383.043968 ngre 9.59e-06 3.09e-06 3.11 0.00 198.16 3.5e-06.000016 anho_est.06014.0043971 5.93 0.000 8.59146.017583.0348 uso_cab.199103.046183 4.66 0.000.18177.11559.8651 j_hombre* -.04933.065011-1.89 0.058.744411 -.10164.00618 j_anho~t.019385.0034869 5.53 0.000 9.94461.01494.06163 p_gas_~c*.13605.061905 4.51 0.000.809959.08188.183953 ---------+-------------------------------------------------------------------- obs. P.3104675 pred. P.789491 (at x-bar) (*) df/dx s for dscrete change of dummy varable from 0 to 1 z and P> z correspond to the test of the underlyng coeffcent beng 0 Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL). 10

Modelo probt: : estmacón n en Stata (3) Probt model for movl -------- True -------- Classfed D ~D Total -----------+--------------------------+----------- + 0 131 333-409 16 1635 -----------+--------------------------+----------- Total 611 1357 1968 Classfed + f predcted Pr(D) >=.5 True D defned as movl!= 0 -------------------------------------------------- Senstvty Pr( + D) 33.06% Specfcty Pr( - ~D) 90.35% Postve predctve value Pr( D +) 60.66% Negatve predctve value Pr(~D -) 74.98% -------------------------------------------------- False + rate for true ~D Pr( + ~D) 9.65% False - rate for true D Pr( - D) 66.94% False + rate for classfed + Pr(~D +) 39.34% False - rate for classfed - Pr( D -) 5.0% -------------------------------------------------- Correctly classfed 7.56% -------------------------------------------------- Los valores predchos pueden ser una medda de bondad del modelo, pero en varables concentradas en un valor, es mejor no consderarlos. Los porcentajes corresponden a los porcentajes vertcales y horzontales del cuadro. Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL). 11

Modelo probt: : estmacón n en Stata (4) Senstvty/Specfcty 0.00 0.5 0.50 0.75 1.00 Senstvty 0.00 0.5 0.50 0.75 1.00 0.00 0.5 0.50 0.75 1.00 Probablty cutoff 0.00 0.5 0.50 0.75 1.00 1 - Specfcty Area under ROC curve = 0.7455 Senstvty Specfcty Una mejor medda del ajuste es la curva ROC (recever operatng characterstcs): Fraccón de y=1 predchos correctamente (senstvty) contra la fraccón de y=0 valorados ncorrectamente (1 - specfcty), para cada valor de corte. Idealmente, en el prmer gráfco el cruce de las curvas debería estar en un parte alta del cuadro. En el segundo gráfco, el área bajo la curva ROC debería acercarse lo más posble a 1. Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL). 1

Modelo logt (1) Igualmente, en cualquera de las especfcacones planteadas, el modelo logt representa: x' β e 1 p = Λ( x' β ) = = x' β x' β 1+ e 1+ e donde Λ () es la dstrbucón acumulada logístca. Los efectos margnales tenen la sguente forma: p = Λ( x' β )[ 1 Λ( x' β )] β j x j Las estmacones se realzan tambén usando la metodología de máxma verosmltud, y al gual que los modelos probt son fáclmente manejables usando programas como Stata, EVIews o SPSS Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL). 13

Modelo logt: : estmacón n en Stata (1). logt movl meperho ngre anho_est uso_cab j_hombre j_anho_est p_gas_elec Iteraton 0: log lkelhood = -119.15 Iteraton 4: log lkelhood = -1053.0395 Logstc regresson Number of obs = 1968 LR ch(7) = 33.17 Prob > ch = 0.0000 Log lkelhood = -1053.0395 Pseudo R = 0.136 movl Coef. Std. Err. z P> z [95% Conf. Interval] -------------+---------------------------------------------------------------- meperho.1740915.070953 6.43 0.000.109857.71974 ngre.000087.000058 3.1 0.001.00003.000133 anho_est.10599.0496 5.43 0.000.0779685.1661513 uso_cab.986105.16703 4.64 0.000.5693844 1.403037 j_hombre -.405713.185968-1.87 0.061 -.496165.0114738 j_anho_est.0969034.0178906 5.4 0.000.0618386.1319683 p_gas_elec.753563.173007 4.36 0.000.41441 1.09641 _cons -4.53344.855136-15.84 0.000-5.0894-3.963747 Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL). 14

Modelo logt: : estmacón n en Stata (). dlogt movl meperho ngre anho_est uso_cab j_hombre j_anho_est p_gas_elec Margnal effects from logt Number of obs = 1968 ch(7) = 83.58 Prob > ch = 0.0000 Log Lkelhood = -1053.0395 Pseudo R = 0.136 movl Coef. Std. Err. z P> z [95% Conf. Interval] -------------+---------------------------------------------------------------- meperho.0346503.0053571 6.47 0.000.041505.04515 ngre.0000165 5.17e-06 3.18 0.001 6.3e-06.000066 anho_est.0494.0044411 5.47 0.000.0155898.039985 uso_cab.19690.04186 4.65 0.000.1136071.789733 j_hombre -.047881.055869-1.87 0.061 -.0980314.00673 j_anho_est.01987.003531 5.46 0.000.013665.06078 p_gas_elec.1499779.0339 4.4 0.000.0834917.16464 _cons -.900305.0493696-18.4 0.000 -.997065 -.8035399 Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL). 15

Modelo logt: : estmacón n en Stata (3). estat class Logstc model for movl -------- True -------- Classfed D ~D Total -----------+--------------------------+----------- + 09 134 343-40 13 165 -----------+--------------------------+----------- Total 611 1357 1968 Classfed + f predcted Pr(D) >=.5 True D defned as movl!= 0 -------------------------------------------------- Senstvty Pr( + D) 34.1% Specfcty Pr( - ~D) 90.13% Postve predctve value Pr( D +) 60.93% Negatve predctve value Pr(~D -) 75.6% -------------------------------------------------- False + rate for true ~D Pr( + ~D) 9.87% False - rate for true D Pr( - D) 65.79% False + rate for classfed + Pr(~D +) 39.07% False - rate for classfed - Pr( D -) 4.74% -------------------------------------------------- Correctly classfed 7.76% -------------------------------------------------- Senstvty/Specfcty 0.00 0.5 0.50 0.75 1.00 Senstvty 0.00 0.5 0.50 0.75 1.00 0.00 0.5 0.50 0.75 1.00 Probablty cutoff 0.00 0.5 0.50 0.75 1.00 1 - Specfcty Area under ROC curve = 0.7480 Senstvty Specfcty Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL). 16

Probt vs. Logt Pequeñas dferencas en probabldades predchas (mayores en las colas de la dstrbucón). Parámetros estmados dferen, como consecuenca de las dstntas dstrbucones que se asumen. Se puede asumr certa correspondenca: ˆ β ˆ β ˆ β Logt Probt Logt 4 ˆ β.5 ˆ β 1.6 ˆ β Es posble hacer comparacones basadas en el logartmo del rato de verosmltud, sempre que ambos modelos tengan la msma cantdad de parámetros. Sn embargo, por lo general, los valores de los logartmos de los ratos suelen ser muy cercanos, lo que mplca poca gananca al pasar de un modelo a otro. MCO MCO Probt Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL). 17

Modelos de varable dependente de eleccón n múltplem Cuando se trabaja con varables dependentes con más de dos categorías, los modelo bnaros resultan nsufcentes. En estos casos, debe dferencarse s la varable dependente corresponde a: un ordenamento natural (p.ej. bueno, regular, malo) respuestas no ordenadas (p.ej. plan tarfaro escogdo). En el caso de ordenamentos naturales, la forma más común de abordarlos son los modelos probt ordenados. Para el caso de respuestas no ordenadas, se suele trabajar con modelos logt multnomales. Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL). 18

Pr Pr Pr Modelos probt ordenados Los modelos probt suponen varables dscretas que toman valores de acuerdo a la sguente especfcacón: y = 0 s y < γ y y = 1 = s s γ En este caso, los parámetros del modelo son los β y γ. Los γ representan los umbrales que determnan el valor de y para el valor alcanzado por y *. Por tanto, la probabldad de cada alternatva es: Las tres probabldades se ntegran en una únca expresón que se estma por el método de Máxma Verosmltud γ 1 [ y = 0] = Pr[ y < γ 1] = Pr[ X β + u < γ 1] = Φ( γ 1 X β ) [ y = 1] = Pr[ γ 1 y < γ ] = Pr[ γ 1 < X β + u < γ ] = Φ( γ X β ) Φ( γ 1 X β ) [ y = ] = Pr[ y γ ] = Pr[ X β + u γ ] = Φ( X β γ ) < y y 1 < γ Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL). 19

Probt ordenado: estmacón n en Stata (1) Ordered probt regresson Number of obs = 18668 LR ch(8) = 193.05 Prob > ch = 0.0000 Log lkelhood = -16475.481 Pseudo R = 0.0058 percep_hogar Coef. Std. Err. z P> z [95% Conf. Interval] -------------+---------------------------------------------------------------- ngre 9.93e-06 5.14e-06 1.93 0.054-1.50e-07.0000 anho_est -.01483.0098-7.0 0.000 -.07369 -.0156376 tup -.0663465.0198465-3.34 0.001 -.10545 -.07448 uso_cab.330814.0450017 7.35 0.000.461.4190158 pared_lad -.055831.0008 -.76 0.006 -.0954633 -.0161991 j_edad.0010595.0005769 1.84 0.066 -.0000713.00190 j_hombre -.0450704.016848 -.08 0.038 -.0875718 -.005691 transf_nac -.154807.0183677-8.43 0.000 -.190807 -.118807 -------------+---------------------------------------------------------------- /cut1-1.66974.0408116-1.74964-1.58985 /cut.459358.039084.3490887.50789 /cut3 1.90544.0433183 1.80538 1.99034 Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL). 0

Probt ordenado: estmacón n en Stata (). mfx, predct(p outcome(1)) Margnal effects after oprobt y = Pr(percep_hogar==1) (predct, p outcome(1)) =.65781435 varable dy/dx Std. Err. z P> z [ 95% C.I. ] X ---------+-------------------------------------------------------------------- ngre -1.99e-06.00000-1.93 0.054-4.0e-06 3.e-08 1030.77 anho_est.0043159.0006 7.14 0.000.003131.005501 6.3673 tup*.013005.0038 3.4 0.001.005558.00447.316317 uso_cab -.066467.00914-7.7 0.000 -.08437 -.048554.118399 (*) dy/dx s for dscrete change of dummy varable from 0 to 1. mfx, predct(p outcome()) Margnal effects after oprobt y = Pr(percep_hogar==) (predct, p outcome()) =.5500659 varable dy/dx Std. Err. z P> z [ 95% C.I. ] X ---------+-------------------------------------------------------------------- ngre.85e-06.00000 1.93 0.054-4.4e-08 5.7e-06 1030.77 anho_est -.0061686.00086-7.18 0.000 -.007853 -.004484 6.3673 tup* -.018960.00565-3.36 0.001 -.03008 -.007893.316317 uso_cab.094996.0196 7.33 0.000.069598.10388.118399 (*) dy/dx s for dscrete change of dummy varable from 0 to 1 Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL). 1

Modelos logt multnomales (1) A dferenca de los modelos ordenados, en que la eleccón depende una únca funcón índce, en los modelos de respuesta no ordenada, este supuesto carece de sentdo. El enfoque más smple utlzado es el del modelo logt multnomal. Este modelo, que se plantea para J+1 opcones posbles corresponde a la sguente especfcacón: Pr Pr [ y = 0] = 1+ j= 1 exp j ( X β ) l exp [ ] ( X β ) y = 0 = J j 1+ exp( X β ) J j= 1 1 para l = 1, K, J. En esta especfcacón, exste un conjunto de parámetros dferente para cada una de las alternatvas posbles. Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL).

Modelos logt multnomales () Una propedad mportante de los modelos logt multnomal es: Pr Pr [ y = l] [ y = j] = exp exp l ( X β ) j ( X β ) l ( X ( β β j ) Esta propedad permte reducr a un modelo logt bnomal la eleccón entre dos categorías específcas, condconado a que la eleccón fue realzada entre dchas varables En Stata, la estmacón del logt multnomal se realza por el método de máxma verosmltud, y se estman los dferencales de los parámetros. = exp Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL). 3

Logt multnomal: : estmacón n en Stata (1). mlogt var1 meperho ngre tup f domno==8 Multnomal logstc regresson Number of obs = 08 LR ch(9) = 456.36 Prob > ch = 0.0000 Log lkelhood = -64.5051 Pseudo R = 0.0795 var1 Coef. Std. Err. z P> z [95% Conf. Interval] -------------+---------------------------------------------------------------- 1 meperho.57311.030051 8.56 0.000.19841.316098 ngre.000807.000068 1.85 0.000.0006839.0009301 tup -.0087858.117649-0.08 0.938 -.98009.194 _cons -.49800.1915335-13.04 0.000 -.8734 -.1603 -------------+---------------------------------------------------------------- meperho.08086.041376 1.91 0.057 -.003019.168744 ngre.00054.0000799 6.56 0.000.0003677.0006808 tup.7618867.1496397 5.09 0.000.4685983 1.055175 _cons -.59598.57709-10.07 0.000-3.10107 -.090894 -------------+---------------------------------------------------------------- 3 meperho.3715936.03736 11.35 0.000.3074389.4357483 ngre.000947.0000644 14.71 0.000.00081.0010735 tup -.03717.130377-0.9 0.776 -.97064.1836 _cons -3.74849.16577-17.31 0.000-4.17967-3.34017 (var1==0 s the base outcome) Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL). 4

Logt multnomal: : estmacón n en Stata (). mfx compute, predct(outcome(1)) Margnal effects after mlogt y = Pr(var1==1) (predct, outcome(1)) =.35306993 varable dy/dx Std. Err. z P> z [ 95% C.I. ] X ---------+-------------------------------------------------------------------- meperho.070817.00536 5.05 0.000.01657.037594 4.53487 ngre.0000903.00001 10.86 0.000.000074.000107 180.84 tup* -.033009.019-1.51 0.13 -.075957.00995.404891 (*) dy/dx s for dscrete change of dummy varable from 0 to 1. mfx compute, predct(outcome()) Margnal effects after mlogt y = Pr(var1==) (predct, outcome()) =.11771168 varable dy/dx Std. Err. z P> z [ 95% C.I. ] X ---------+-------------------------------------------------------------------- meperho -.011809.00389-3.03 0.00 -.019437 -.004181 4.53487 ngre -3.19e-06.00001-0.49 0.6 -.000016 9.5e-06 180.84 tup*.085756.01571 5.46 0.000.054965.116547.404891 (*) dy/dx s for dscrete change of dummy varable from 0 to 1 Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL). 5

Técncas de Análss de Datos de Eleccón n Dscreta Sub-Gerenca de Investgacón GPR Vernes, 07 de abrl de 0006 Gerenca de Polítcas Regulatoras - GPR Organsmo Supervsor de Inversón Prvada en Telecomuncacones (OSIPTEL). 6