CAPITULO III VARIABLE DEPENDIENTE CUALITATIVA Y LIMITADA



Documentos relacionados
MODELOS DE ELECCIÓN BINARIA

Tema 21: Distribución muestral de un estadístico

truncación inferior en el punto a=25 es igual a El grado de truncación es del

Regresión y correlación Tema Contraste sobre β 1.2 Regresión en formato ANOVA. 2. Correlación. Contraste sobre ρ xy

Muestra: son datos de corte transversal correspondientes a 120 familias españolas.

Pregunta Hoy está nublado, cuál es la probabilidad de que mañana continúe nublado? cuál es la probabilidad de que está nublado pasado mañana?

CURSO INTERNACIONAL: CONSTRUCCIÓN DE ESCENARIOS ECONÓMICOS Y ECONOMETRÍA AVANZADA. Instructor: Horacio Catalán Alonso

a) Qué población (la de hombres o la de mujeres) presenta un salario medio mayor? b) Qué porcentaje de varones gana más de 900?

Modelo de Regresión Lineal Múltiple. Heterocedasticidad. Dr. Víctor Aguirre

1.Variables ficticias en el modelo de regresión: ejemplos.

Modelos lineales Regresión simple y múl3ple

Estadística con R. Modelo Probabilístico Lineal

Aspectos fundamentales en el análisis de asociación

DISTRIBUCION DE RENDIMIENTOS: APLICACIONES

Análisis estadístico de incertidumbres aleatorias

Análisis de Regresión y Correlación

Figura 1

Investigación y Técnicas de Mercado. Previsión de Ventas TÉCNICAS CUANTITATIVAS ELEMENTALES DE PREVISIÓN UNIVARIANTE. (IV): Ajustes de Tendencia

4. PROBABILIDAD CONDICIONAL

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 19 de Septiembre de :30 horas. Pregunta 19 A B C En Blanco

CAPÍTULO 4 MARCO TEÓRICO

Bloque 5. Probabilidad y Estadística Tema 2. Estadística descriptiva Ejercicios resueltos

Población: Es el conjunto de todos los elementos cuyo conocimiento nos interesa y serán objeto de nuestro estudio.

MODELOS PARA DATOS DE RECUENTO

4. REPRESENTACIONES GRÁFICAS PARA DATOS CATEGÓRICOS.

Licenciatura en Administración y Dirección de Empresas INTRODUCCIÓN A LA ESTADÍSTICA EMPRESARIAL

Problemas donde intervienen dos o más variables numéricas

Ejemplo: Consumo - Ingreso. Ingreso. Consumo. Población 60 familias

1.-Especificaciones lineales de las variables explicativas

1 EY ( ) o de E( Y u ) que hace que g E ( Y ) sea lineal. Por ejemplo,

Problema: Existe relación entre el estado nutricional y el rendimiento académico de estudiantes de enseñanza básica?

APLICACIÓN DEL ANALISIS INDUSTRIAL EN CARTERAS COLECTIVAS DE VALORES

CAPITULO CUATRO MEDIDAS DE DISPERSION, ASIMETRIA Y CURTOSIS

Econometría de corte transversal. Pablo Lavado Centro de Investigación de la Universidad del Pacífico

EJERCICIOS: Tema 3. Los ejercicios señalados con.r se consideran de conocimientos previos necesarios para la comprensión del tema 3.

Organización y resumen de datos cuantitativos

Tema 4: Variables aleatorias

PyE_ EF2_TIPO1_

PREGUNTAS TIPO TEST Y EJERCICIOS PRÁCTICOS PROPUESTOS EN EXÁMENES DE LOS CAPÍTULOS 2, 3 Y 4 (DISTRIBUCIONES DE FRECUENCIAS UNIDIMENSIONALES )

Distribuciones de probabilidad

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 6 de Junio de :00 horas. Pregunta 19 A B C En Blanco. Pregunta 18 A B C En Blanco

CORRELACION Y REGRESION

T. 5 Estadísticos de forma de la distribución

Las acciones a considerar en el proyecto de una estructura o elemento estructural se pueden clasificar según los criterios siguientes:

FE DE ERRATAS Y AÑADIDOS AL LIBRO FUNDAMENTOS DE LAS TÉCNICAS MULTIVARIANTES (Ximénez & San Martín, 2004)

( ) MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO ( mas ) y Y. N n. S y. MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO ( mas )

En este caso, el valor actual de una unidad monetaria pagadera al final del año de fallecimiento de

Estadísticos muéstrales

CAPÍTULO 3 DIAGNÓSTICOS DE REGRESIÓN

3. VARIABLES ALEATORIAS.

H 0 : La distribución poblacional es uniforme H 1 : La distribución poblacional no es uniforme

Tema 6. Estadística descriptiva bivariable con variables numéricas

CAPÍTULO IV. MEDICIÓN. De acuerdo con Székely (2005), existe dentro del período información

Modelos de elección simple y múltiple. Regresión logit y probit. Modelos multilogit y multiprobit.

El contexto básico para el análisis es un modelo de regresión de la forma: α (1)

Análisis de Varianza no paramétricos

-.GEOMETRÍA.- a) 37 cm y 45 cm. b) 16 cm y 30 cm. En estos dos, se dan la hipotenusa y un cateto, y se pide el otro cateto:

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 17 de Mayo de :00 horas

VII. Solución numérica de ecuaciones diferenciales

3 - VARIABLES ALEATORIAS

DISTRIBUCIONES BIDIMENSIONALES

El Impacto de las Remesas en el PIB y el Consumo en México, 2015

Inferencia en Regresión Lineal Simple

EJERCICIO 1 1. VERDADERO 2. VERDADERO (Esta afirmación no es cierta en el caso del modelo general). 3. En el modelo lineal general

Un estimado de intervalo o intervalo de confianza ( IC

Introducción a la Física. Medidas y Errores

Examen Final de Econometría Grado

Medidas de Variabilidad

EXAMEN FINAL DE ECONOMETRIA, 3º CURSO (GRADOS EN ECO y ADE) 20 DE JUNIO DE horas

4 BALANZA DE MOHR: Contracción de mezcla alcohol/h2o

EJERCICIOS. Ejercicio 1.- Para el modelo de regresión simple siguiente: Y i = βx i + ε i i =1,..., 100. se tienen las siguientes medias muestrales:

CAPÍTULO IV METODOLOGÍA. Para llevar a cabo la investigación se ha tenido en cuenta el siguiente diseño:

Una matriz es un conjunto de elementos de cualquier naturaleza aunque, en general, son números ordenados en filas y columnas.

CAPÍTULO 5 REGRESIÓN CON VARIABLES CUALITATIVAS

HOMOGENEIDAD DE POBLACIONES ESTADISTICAS. EL PROBLEMA DE LA MIXTURA DE COMPONENTES

SEGUNDA PARTE RENTAS FINANCIERAS

5 Análisis de regresión múltiple con información cualitativa

Instituto Tecnológico Superior del Sur del Estado de Yucatán EGRESIÓN LINEAL REGRESI. 10 kg. 10 cm

Solución Taller No. 10 Econometría II Prof. Bernal

Modelo Lineal Múltiple. Clase 03. Profesor: Carlos R. Pitta. ICPM050, Econometría. Universidad Austral de Chile Escuela de Ingeniería Comercial

Facultad de Ingeniería División de Ciencias Básicas Coordinación de Ciencias Aplicadas Departamento de Probabilidad y Estadística

TEMA 4. Modelos para Datos Censurados y de Selección Muestral.

Solución de los Ejercicios de Práctica # 1. Econometría 1 Prof. R. Bernal

Probabilidad Grupo 23 Semestre Segundo examen parcial

CURSO 2007 PRACTICO 12 MODELOS DE VARIABLE DEPENDIENTE CUALITATIVA EJERCICIO 1 A)

TEMA III EL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Análisis de Resultados con Errores

VARIABLES ALEATORIAS BIDIMENSIONALES. DISTRIBUCIONES

MUESTREO EN POBLACIONES FINITAS

ELECTROSTÁTICA. CAMPO ELÉCTRICO EN EL VACÍO.

Especialista en Estadística y Docencia Universitaria REGRESION LINEAL MULTIPLE

Nos interesa asignar probabilidades a valores numéricos obtenidos a partir de fenómenos aleatorios, es decir a variables aleatorias.

Regresión y Correlación

) para toda permutación (p p 1 p

Variables Aleatorias. Variables Aleatorias. Variables Aleatorias. Objetivos del tema: Al final del tema el alumno será capaz de:

FIABILIDAD (V): COMPARACIÓN (NO PARAMÉTRICA) DE MUESTRAS

Análisis de Weibull. StatFolio de Muestra: Weibull analysis.sgp

MODELOS DE SECUENCIACIÓN EN MÁQUINAS 1

e i para construir el modelo econométrico que se escribe a continuación:

Transcripción:

CAPITULO III VARIABLE DEPENDIENTE CUALITATIVA Y LIMITADA 1. MODELOS DE ELECCION DISCRETA Los modelos de eleccón dscreta consderan una varable ndcadora dependente. Esta varable ndcadora podrá tomar dos o más valores, s toma sólo dos valores (cero o uno) se trata de una varable dcotómca. Exsten numerosos ejemplos de varables explcadas, a saber: o Exsten tambén muchos métodos de analzar los modelos de regresón en lo que el valor de la varable dependente es cero o uno. Por ejemplo: el modelo de probabldad lneal, la funcón dscrmnante, modelo probt y modelo logt. 1.1. MODELO DE PROBABILIDAD LINEAL Se utlza para denotar un modelo de regresón en el que la varable dependente Y es dcotómca, y toma el valor de uno o cero. Por smplcdad, asumremos una sola varable explcatva (X). La varable Y es una varable ndcadora que denota la ocurrenca o no ocurrenca de un evento. El modelo se descrbe como: con. La esperanza condconal probabldad de que ocurre el evento, dado., se nterpreta como la El valor calculado de Y a partr de la ecuacón de regresón ( ) nos da la probabldad estmada de que ocurre el evento, dado un valor específco para X. En la práctca, estas probabldades estmadas pueden encontrarse fuera del rango admsble (0, 1).

78 Las razones por las cuales no se puede aplcar mínmos cuadrados ordnaros son: 1º La no normaldad de las perturbacones.- Dado que toma los valores de 1 o 0 entonces los errores en la regresón tomará los valores sguentes: En realdad los sguen una dstrbucón bnomal. Aunque el método de mínmos cuadrados ordnaros no requere esto, se asumen con fnes de nferenca estadístca. Por lo tanto, exste un problema con la aplcacón de las pruebas usuales de sgnfcanca. El supuesto de normaldad no es tan crítco, porque las estmacones puntuales de mínmos cuadrados ordnaros sguen sendo nsesgados; además, a medda que aumenta ndefndamente el tamaño de la muestra los estmadores de mínmos cuadrados ordnaros tenden por lo general a tener una dstrbucón normal. Por lo tanto, para muestras grandes, la nferenca estadístca de los modelos de probabldad lneal segurá el procedmento usual de mínmos cuadrados ordnaros bajo el supuesto de normaldad. 2º La varanza de la perturbacón es heterocedástca.- Las probabldades respectvas de los eventos son: se tene que: sacando factor común ( ) y smplfcando nos da: tambén se puede expresar de la sguente forma:

79 La varanza de es heterocedástca porque depende de la esperanza condconal de, que depende del valor que tome. Los estmados de mínmos cuadrados ordnaros de no serán efcentes. Es posble utlzar el procedmento sguente para estmar el modelo: I.- II.- Se estma el modelo (ecuacón 1) por mínmos cuadrados ordnaros y a contnuacón se calcula. Se estma por mínmos cuadrados ponderados el modelo transformado sguente: se solucona el problema heterocedástco, pero subsste los otros. 3º La predccón cae fuera de los lmtes ( 0, 1 ).- La crítca más mportante se refere a la propa formulacón, que la esperanza condconal puede estar fuera de los límtes (0,1). El gráfco de la sguente págna revela la acumulacón de puntos sobre y. Es fácl que los valores predchos se encuentren fuera del ntervalo (0,1) y que los errores de predccón sean muy grandes. Exsten dos métodos para saber s los estmadores están efectvamente entre 0 y 1; son:

1.- Estmar el modelo de probabldad lneal por mínmos cuadrados ordnaros y ver s los se encuentran entre 0 y 1, s alguno de ellos es 80 menor a cero entonces se supone que para estos casos mayores a 1, se suponen guales a uno. es cero; s son 2.- Dseñar una técnca de estmacón que garantce que las probabldades condconales estmadas de estén entre 0 y 1. Los modelos Logt y Probt garantzarán que todas las probabldades estmadas se encuentren entre los límtes lógcos 0 y 1. 4º La medda de bondad de ajuste.- 1.2. EJEMPLO El coefcente de determnacón consderado tene un valor lmtado en los modelos de respuesta dcotómca. El coefcente de determnacón será alto, úncamente cuando la dspersón específca esté muy cercana a los puntos A y B del gráfco anteror, puesto que en este caso es fácl fjar la línea recta unendo los dos puntos. En este caso el predcho está muy cerca de 0 o 1. John Aldrch y Forrest Nelson plantean que el uso del coefcente de determnacón como un estadístco resumen debe evtarse en aquellos modelos que contengan varables dependentes cualtatvas. El modelo especfcado es: Las varables se defnen: NOMBRE DEFINICIÓN UNIDAD DE MEDIDA CAPAGO CAPACIDAD DE PAGO NUEVOS SOLES CLIENTE CONDICIÓN DEL CLIENTE PUNTUAL = 1 MOROSO = 0 EDAD EDAD DEL CLIENTE AÑOS GARANTÍA MONTO DE LA GARANTÍA NUEVOS SOLES INTERÉS TASA DE INTERÉS EFECTIVA MENSUAL PORCENTAJE

81 NOMBRE DEFINICIÓN UNIDAD DE MEDIDA NUMCUOTA NÚMERO DE CUOTAS PERÍODO DURACIÓN DEL PRÉSTAMO MESES PRÉSTAMO MONTO DEL PRÉSTAMO NUEVOS SOLES SEXO SEXO MASCULINO = 1 FEMENINO = 0 VALCUOTA VALOR DE LA CUOTA NUEVOS SOLES Para estmarlo se dspone de nformacón estadístca recoplada de una nsttucón fnancera del Departamento de Pura. El método de estmacón es mínmos cuadrados ponderados y el procedmento a segur es el sguente: 1º Estmar el modelo por mínmos cuadrados ordnaros Se escrbe en el Evews: LS CLIENTE C EDAD PRESTAMO SEXO PERIODO a contnuacón se oprme ENTER y nos da el resultado sguente: Dependent Varable: CLIENTE Method: Least Squares Sample: 1 60 Included observatons: 60 =========================================================== Varable Coeffcent Std. Error z-statstc Prob. =========================================================== C -0.815473 0.306770-2.658258 0.0103 EDAD 0.014550 0.005161 2.819315 0.0067 PRESTAMO 1.89E-05 9.95E-06 1.895651 0.0633 SEXO 0.159441 0.110854 1.438297 0.1560 PERIODO 0.064383 0.022997 2.799581 0.0070 =========================================================== R-squared 0.332861 Mean dependent var 0.516667 Adjusted R-squared 0.284341 S.D. dependent var 0.503939 S.E. of regresson 0.426316 Akake nfo crter 1.212381 Sum squared resd 9.995971 Schwarz crteron 1.386910 Log lkelhood -31.37144 F-statstc 6.860387 Durbn-Watson stat 1.511575 Prob(F- statstc) 0.000149 ===========================================================

82 2º Se realza la estmacón de la probabldad de la sguente forma: Abrr la ecuacón Procs Forecast OK y se muestra un gráfco y el software crea un cono con el nombre que se le colocó a la estmacón (CLIENTEF). Para observar los resultados de la varable CLIENTEF se da dos clc y paquete nos muestra lo sguente: CLIENTEF ========================================================== Modfed: 1 60 // ft(f=actual) clentef 1 0.417364 1.104751 0.155492 0.803627 0.554091 6 0.814965 0.515421 0.486014 0.909758 0.899076 11 0.475652 0.765374 0.770710 1.321578 0.987106 16 0.536256 0.575847 1.014905 0.341672 0.405989 21 0.230938 0.643846 0.488985 0.437800 0.606510 26 0.259805 0.262450 0.206271 0.085420 0.620479 31 0.717948-0.136817 0.397171 0.315820 0.243069 36 0.389929 0.804237 0.755200 0.045541 0.188897 41 0.618349 0.155769 0.417060 0.830059 0.278586 46 1.075758 0.486799 0.248942 0.408926 0.518848 51 0.317095 0.186445 0.067943 0.465541 0.483412 56 0.673622 0.643638 0.507839 0.651220 0.545000 ========================================================== 3º Estmamos la varanza generándola de la sguente forma: GENR W = CLIENTEF * ( 1 - CLIENTEF ) y el Evews nos da el sguente resultado: W ===================================================== Modfed: 1 60 // w=clentef*(1-clentef) 1 0.243171-0.115724 0.131314 0.157811 0.247074 6 0.150797 0.249762 0.249804 0.082099 0.090738 11 0.249407 0.179577 0.176716-0.424990 0.012728 16 0.248686 0.244247-0.015127 0.224932 0.241162 21 0.177606 0.229308 0.249879 0.246131 0.238656 26 0.192306 0.193570 0.163723 0.078124 0.235485 31 0.202498-0.155536 0.239426 0.216078 0.183987 36 0.237884 0.157440 0.184873 0.043467 0.153215 41 0.235993 0.131505 0.243121 0.141061 0.200976 46-0.081498 0.249826 0.186970 0.241706 0.249645 51 0.216546 0.151683 0.063327 0.248813 0.249725 56 0.219855 0.229368 0.249939 0.227132 0.247975 =====================================================

83 4º Por últmo, se estma el modelo transformado por mínmos cuadrados ordnaros, es decr, se aplca mínmos cuadrados ponderados. El comando que se aplca es el sguente: Quck Estmate Equaton escrbr en la pantalla en blanco lo sguente: CLIENTE C EDAD PRESTAMO SEXO PERIODO, luego clc en OPTIONS se marca WEIGHTED LS / TSLS y en Weght se escrbe: 1 / SQR( W ) OK OK y se muestra el sguente resultado: Dependent Varable: CLIENTE Method: Least Squares Sample: 1 60 Included observatons: 55 Excluded observatons: 5 Weghtng seres: 1/SQR(W) ========================================================== Varable Coeffcent Std. Error z-statstc Prob. ========================================================== C -0.861520 0.236827-3.637769 0.0007 EDAD 0.014138 0.005080 2.782852 0.0076 PRESTAMO 2.84E-05 1.09E-05 2.597112 0.0123 SEXO 0.187273 0.106147 1.764279 0.0838 PERIODO 0.064795 0.019214 3.372355 0.0014 ========================================================== Weghted Statstcs ========================================================== R-squared 0.639966 Mean dependent var 0.496512 Adjusted R-squared 0.611163 S.D. dependent var 0.632757 S.E. of regresson 0.394567 Akake nfo crter 1.064452 Sum squared resd 7.784153 Schwarz crteron 1.246937 Log lkelhood -24.27243 F-statstc 13.15823 Durbn-Watson stat 1.394854 Prob(F- statstc) 0.000000 ========================================================== Unweghted Statstcs ========================================================== R-squared 0.290121 Mean dependent var 0.490909 Adjusted R-squared 0.233330 S.D. dependent var 0.504525 S.E. of regresson 0.441760 Sum squared resd 9.757613 Durbn-Watson stat 1.391563 ========================================================== Las varables edad, préstamo y perodo son sgnfcatvas al 5% (Prob < 0.05) y la varable sexo es sgnfcatva al 10 % (Prob < 0.10) y el modelo es estadístcamente sgnfcatvo al 5 % (Prob < 0.05).

84 Se predce dentro de la muestra con la nstruccón sguente: Abrr la ecuacón Procs Forecast OK y se muestra un gráfco y el software crea un cono con el nombre que se le colocó a la estmacón (CLIENTEF1). Para observar los resultados de la varable CLIENTEF1 se da dos clc y paquete nos muestra lo sguente: CLIENTEF1 ========================================================= Modfed: 1 60 // modprobln.ft(f=actual) clentef1 1 0.453183 1.264643 0.135592 0.836835 0.598836 6 0.850146 0.519971 0.488047 1.081373 0.993891 11 0.530495 0.822073 0.907713 1.590984 0.994447 16 0.531559 0.572147 0.991846 0.311970 0.395700 21 0.185995 0.640793 0.466289 0.421358 0.568752 26 0.200522 0.216839 0.177498 0.057164 0.580712 31 0.705757-0.186881 0.349757 0.259422 0.188732 36 0.333220 0.805080 0.713630 0.020425 0.178108 41 0.585508 0.103903 0.390143 0.822291 0.239000 46 1.073549 0.468637 0.223544 0.397997 0.464635 51 0.294014 0.161586 0.019346 0.446526 0.426291 56 0.618380 0.623329 0.494666 0.619459 0.525189 ========================================================= y los resultados se comparan con los valores observados de la varable endógena, obtenendose 42 predccones correctas ( 20 para CLIENTE = 1 y 22 PARA CLIENTE = 0) y nos da un Coefcente de Bondad de Conteo de 70 %. 1.3. MODELO LOGIT Y PROBIT Un enfoque alternatvo es suponer un modelo de regresón: no se observa ( se conoce como varable " latente " ). Lo que se observa es una varable ndcadora defnda por: La dferenca entre la especfcacón (2) y el modelo de probabldad lneal es que en este últmo se analzan las varables dcotómcas tal como son, en tanto que en (2) se supone la exstenca de una varable latente subyacente para la que se observa una

85 evdenca dcotómca. Ejemplo: 1º la persona tene o no empleo. la propensón o capacdad de encontrar empleo. 2º s la persona compra o no un automóvl. el deseo o capacdad de adqurr un automóvl. por lo tanto, las varables explcatvas de (2) contendrán varables que explquen ambos elementos. Supongamos que, esto nos permte fjar la escala de. Combnando (2) y (3) obtenemos: donde F es la funcón de dstrbucón acumulada de u. S la dstrbucón de u es smétrca, entonces anteror se puede escrbr:, la expresón Los Observados son sólo realzacones de un proceso bnomal cuyas probabldades están dadas por (4) y que varían de un ensayo a otro (de pendendo de ), entonces la funcón de verosmltud se puede escrbr: La forma funconal para F en (4) dependerá de la suposcón en torno al térmno de error u. Se ha creado un problema de estmacón porque es no lneal no solamente en sno tambén en los ; entonces, no se puede estmar medante mínmos cuadrados ordnaros. En esta stuacón, es precso recurrr al método de máxma verosmltud para estmar los parámetros. El método de máxma verosmltud consste en la maxmzacón de la funcón de verosmltud (ecuacón 5) para el modelo LOGIT y PROBIT y ésto se logra por medo de métodos no lneales de estmacón. La funcón de verosmltud es cóncava (no tene

múltples máxmos) y, por lo tanto, cualquer valor ncal de los parámetros será útl. Es costumbre comenzar las teracones para el modelo logt y probt con los estmados del modelo de probabldad lneal. S la nformacón dsponble es sobre famlas ndvduales, donde s una famla posee una casa y s no la posee; entonces el modelo a estmar es (5) por el método de máxma verosmltud. 1.3.1. CONSTRUCCIÓN DE UN MODELO LOGIT O PROBIT Los requstos para la construccón de un modelo logt o probt son: 1º Contar con una muestra representatva de clentes cumpldos e ncumpldos, cuyo tamaño mínmo se establece vía crteros estadístcos. 2º Contar con sufcente nformacón de los clentes contenda en sus solctudes de crédto o expedentes. 3º Selecconar las posbles varables explcatvas de la probabldad de default de los clentes, en base al conocmento o experenca preva y a procedmentos estadístcos (test de sgnfcanca ndvdual). 4º Escoger el modelo más apropado en base a tests estadístcos sobre la "bondad de ajuste" o "caldad predctva" del modelo. El procedmento a segur es: 1º El sgnfcado de las varables aparece en el ítem 1.2. 2º Buscar el mejor modelo explcatvo de la probabldad de default (cumplmento) de los clentes, en base al sguente procedmento general: 2.1. Realzacón de regresones bvarables y seleccón de varables explcatvas según sgno y sgnfcanca estadístca ndvdual (escogemos las de probabldad menor del 10 por cento). Se estman varas regresones de la sguente forma: Clente = α + βx + u para selecconar la varable se requere analzar: el sgno correcto, la sgnfcanca de β (s es altamente sgnfcatvo, sgnfcatvo o relatvamente sgnfcatvo) y el R 2 (debe estar entre 0.2 y 0.6). 2.2. Comparacón de correlacones entre varables a fn de elmnar el problema de 86

multcolnealdad. Entre las varables correlaconadas optamos por la de mayor R2 de Mc Fadden. Una vez dentfcadas las varables más relevantes a partr de modelos bvarables, podemos descartar algunas de ellas en base a su correlacones. Varables altamente correlaconadas (con coefcentes de correlacón mayores a 0.5) resultan redundantes, es decr, basta con que me quede con una de ellas en el modelo, ya que s las ncluyo todas sus sgnfcancas estadístcas ndvduales tenden a ser bajas (no se puede dstngur el mpacto de cada una de ellas sobre la varable dependente). El crtero práctco es elmnar las varables correlaconadas con menor sgnfcanca estadístca ndvdual en las regresones bvarables, con menor R 2 (Mc Fadden). Para obtener la Matrz de Correlacones entre varables, aplco: Quck/Group Statstcs/Correlatons y se escrbe el nombres de las varables selecconadas en el ítem anteror. 2.3. Construccón de modelos multvarables en sus versones logt, probt y lneal ncorporando las varables escogdas luego de los pasos 1 y 2. Los modelos se van perflando para dejar sólo las varables estadístcamente sgnfcatvas (probabldad menor del 10 por cento). Con las varables explcatvas escogdas, luego de los pasos 2.1. y 2.2. se estma el modelo en su versón logt, probt o lneal. El modelo se perfla para dejar sólo las varables con sgnos adecuados y estadístcamente sgnfcatvas (prob < 0.10). 2.4. Evaluacón de los modelos alternatvos en base a sguentes crteros arrojados por el programa E-vews: 1.- Sgno correcto de los coefcentes. 2.- Sgnfcanca estadístca ndvdual de los parámetros de acuerdo al z-statstc y su probabldad correspondente. 3.- Sgnfcanca conjunta del modelo. 4.- Bondad de ajuste en base a R2 de Mc Fadden, Expectaton-Predcton Table, Goodness-of-Ft Test (Hosmer-Lemeshow). A) Bondad de ajuste: La regla práctca nos dce que este valor debe encontrarse entre 0.2 y 0.6 para consderarse aceptable en el contexto de la modelacón de probabldades. Se han sugerdo varas meddas de bondad de ajuste para este tpo de modelos, por ejemplo: 1.- La correlacón entre CALF y CALFF al cuadrado: 87

88 2.- Basada en la suma de cuadrados resdual: 3.- Amemya: 4.- Mc - Fadden: 5.- Cragg - Uhler: = Funcón de Máxma Verosmltud con respecto a todos los parámetros. = Funcón de Máxma Verosmltud cuando se hace con la restrccón 6.- R 2 de conteo: B) Expecaton-Predcton Table: Esta prueba nos permte averguar cuál es el porcentaje de acerto en las predccones que obtene el modelo.

C) Goodness-of-Ft Test: (test de Hosmer-Lemeshow). Esta prueba parte de agrupar las observacones en quantles y evalúa el desempeño del modelo en cada uno de ellos en térmnos del número de observacones que predce el modelo que deben ubcarse en cada quantl vs el número de observacones real. Por defecto, me ndca que la nformacón se va a agrupar en 10 quantles o grupos según nveles. Lo deal es que el número total de observacones por quantl sea el más grande posble (prueba para muestras grandes). Se recomenda hacer esta prueba con el mayor número posble de observacones posble en cada quantl. 5.- Crtero de Hannan Qunn (por ser una "funcón de pérdda", convene mnmzarlo frente a los modelos alternatvos). Este es un crtero para comparar modelos alternatvos. La regla es escoger el modelo con menor H-Q (no se aplca al MLP). 6.- Curva de Respuesta de Probabldad de cada varable explcatva del modelo. Esta prueba es ratfcatora del test de sgnfcanca estadístca ndvdual de las varables explcatvas. Nos permte evdencar medante un gráfco ad hoc s cada una de estas varables tene poder para dscrmnar entre buenos y malos pagadores, partendo de un valor "c" como parámetro de corte entre quenes se consderan dentro de ambas categorías; usualmente este valor se stúa en 0.5, es decr, quenes tenen una probabldad de cumplr menor o gual que 0.5 (50 por cento), se asumen como malos clentes y los que tenen una mayor, buenos clentes. 2.5. Seleccón del modelo fnal en base a la perfomance relatva de éste al comparar, entre modelos alternatvos, los resultados de los test sugerdos en el ítem anteror. Lo prmero que cabe destacar es que, en el caso del MLP, los efectos margnales de las varables explcatvas son constantes para todos los ndvduos, mentras que en los casos del logt y el probt, estos efectos son dferentes para cada ndvduo, dependendo de los valores de las varables explcatvas que lo caracterzan. Usualmente, en los modelos logt y probt se calculan los efectos 89

margnales de una varable o regresor para cada ndvduo, a fn de tener una dea del rango de varacón de dchos efectos y se asume que el promedo de estos efectos ndvduales es una buena aproxmacón al "efecto margnal global" de la varable (s se quere tener un número - resumen), lo cual, desde luego, parte de la premsa de que se cuenta con una muestra sufcentemente representatva. Pese a que los parámetros j de cada regresor, en los modelos logt y probt, no nos mden, por sí solos el, efecto margnal de dcho regresor, s nos ndcan la dreccón (sgno) del cambo nducdo en la probabldad por la varable explcatva. 2.6. Una vez elegdo el modelo fnal, cálculo de los efectos margnales respectvos Los efectos de los cambos en las varables explcatvas sobre las probabldades de que cualquer observacón pertenezca a uno de los dos grupos, son proporconados por: 90 donde: y es la funcón de densdad normal estándar. 1.3.2. MODELO LOGIT PARA DATOS AGRUPADOS S la dstrbucón acumulada de LOGIT, es decr: es logístca, se tene el llamado modelo donde Las probabldades son:

91 El cocente entre ambas probabldades es: aplcando logartmo neperano, nos da: En el modelo de probabldad lneal se supone como funcón lneal de las varables explcatvas; aquí, la razón logarítmca de momos o logt es una funcón lneal de las varables explcatvas. Tene las sguentes característcas: 1.- Dado que P va de 0 a 1, es decr, a medda que Z varía entre y el logt está entre y. En otras palabras, aunque las probabldades se encuentran entre 0 y 1, los logt no tenen estos límtes. 2.- Aunque el logt es lneal en X, las probabldades msmas no lo son, en contraste con el modelo de probabldad lneal, donde las probabldades aumentan lnealmente con X. 3.- La nterpretacón del modelo logt es: mde el cambo en logt por un cambo untaro en X, es decr, nos muestra cómo varía la factbldad del logt en favor de poseer una casa a medda que X camba en una undad. S es relatvamente grande y s cada observacón en una clase de, está dstrbuda en forma ndependente como una varable bnomal, entonces: por lo tanto, el térmno de perturbacón en el modelo logt es heterocedástco y el método de estmacón adecuado es mínmos cuadrados ponderados. El procedmento para estmar una regresón logt (7) es:

( 1 ) Para cada nvel de, se calcula la probabldad estmada de poseer una casa como. 92 ( 2 ) Para cada valor de, obténgase el logt como: ( 3 ) Para soluconar el problema de heterocedastcdad, se transforma así: donde las ponderacones, porque se dstrbuye normal con varanza gual a s es sufcentemente grande. ( 4 ) Estmar el modelo transformado utlzando mínmos cuadrados ordnaros (es un modelo sn ntercepto). ( 5 ) Establecer los ntervalos de confanza y/o las pruebas de hpótess en el marco usual de mínmos cuadrados ordnaros, pero mantenendo en mente que todas las conclusones serán valdas, s la muestra es razonablemente grande. Para pequeñas muestras los resultados estmados deben nterpretarse cudadosamente. 1.3.3. MODELO PROBIT PARA DATOS AGRUPADOS S los errores sguen una dstrbucón normal, se tene un modelo PROBIT (o NORMIT), es decr: donde es un índce de convenenca no observable que está determnado por una o varas varables explcatvas, así: y t es la varable normal estandarzada, es decr, t se dstrbuye. Es razonable suponer que para cada famla hay un nvel crítco o umbral del índce,, tal que s excede a, ocurre el evento, de lo contraro no sucederá. El

umbral al gual que no es observable, pero s se supone que esta dstrbudo normalmente con la msma meda y varanza. Por lo tanto, es posble estmar los parámetros y los valores del índce no observable. Es decr, la probabldad sería: 93 Como representa la probabldad de que un evento ocurra, P se mde por el área de la curva normal estándar desde hasta. Para obtener la nformacón de, como tambén de y, tomamos el nverso de la funcón de dstrbucón probablístca acumulada normal. Se ha creado un problema de estmacón porque es no lneal no solamente en sno tambén en los ; entonces, no se puede estmar medante mínmos cuadrados ordnaros. S es relatvamente grande y s cada observacón en una clase de, está dstrbuda en forma ndependente como una varable bnomal, entonces: por lo tanto, el térmno de perturbacón en el modelo probt es heterocedástco y el método de estmacón adecuado es mínmos cuadrados ponderados. El procedmento para estmar una regresón probt es: ( 1 ) Para cada nvel de, se calcula la probabldad estmada de poseer una casa como. ( 2 ) Dado, obténgase el índce de utldad como: ( 3 ) Para soluconar el problema de heterocedastcdad, se transforma así:

94 donde las ponderacones, porque se dstrbuye normal con varanza gual a s es sufcentemente grande. ( 4 ) Estmar el modelo transformado utlzando mínmos cuadrados ordnaros (es un modelo sn ntercepto). ( 5 ) Establecer los ntervalos de confanza y/o las pruebas de hpótess en el marco usual de mínmos cuadrados ordnaros, pero mantenendo en mente que todas las conclusones serán valdas, s la muestra es razonablemente grande. Para pequeñas muestras los resultados estmados deben nterpretarse cudadosamente. S la nformacón esta agrupada o replcada (observacones repetdas), entonces se puede obtener nformacón sobre la varable dependente y el índce de utldad; por lo tanto, el modelo a estmar se aplca mínmos cuadrados ponderados. 1.3.4. MODELO LOGIT VERSUS MODELO PROBIT Desde el punto de vsta teórco, la dferenca entre ambos modelos es la dstrbucón de probabldades (normal para el modelo probt y logístca para el modelo logt); ambas dstrbucones están muy próxmas entre sí, excepto en los extremos, la logístca tene colas lgeramente más planas, es decr, la curva normal o probt se acerca a los ejes más rápdamente que la curva logístca. Por esta razón, no es probable obtener resultados muy dferentes, a menos que las muestras sean grandes. Sn embargo, los estmados de los parámetros de ambos métodos no son drectamente comparables; porque la dstrbucón logístca tene una varanza y la dstrbucón normal tene una varanza de 1. Entonces ambos coefcentes se relaconan de la sguente forma: Amemya sugere multplcar los estmados LOGIT por 1/1.6 = 0.625 porque esta transformacón produce una aproxmacón más cercana entre la dstrbucón logístca y la funcón de dstrbucón normal estándar. Es decr, la relacón sería: Tambén sugere que los coefcentes del modelo de probabldad lneal

95 y los coefcentes del modelo logt se relaconan así: Aplcando regla de tres smple logramos encontrar la relacón entre los coefcentes del modelo probt y el modelo de probabldad lneal, que nos da: S se tene muestras de tamaños desguales, no se afectan la estmacón de los coefcentes de la varables explcatvas del modelo logt, pero s se afecta el térmno constante. Este resultado no es valdo para el modelo probt n para el modelo de probabldad lneal. S el modelo estmado se utlza para propóstos de predccón, es necesaro ajustar el térmno constante. Desde el punto de vsta práctco, es generalmente utlzado con preferenca el modelo logt sobre el modelo probt. 2. MODELOS DE ELECCIÓN MÚLTIPLE Exsten varas formas en que se pueden analzar este problema: 1º Con datos no ordenados: se utlza cuando las alternatvas que presenta la varable endógena no ndcan nngún orden. Pueden ser: 1.1. Multnomal, se utlza cuando los regresores del modelo hacen referenca a las observacones muestrales, por lo que varían entre observacones pero no entre alternatvas. 1.2. Condconal, se utlza cuando los regresores del modelo hacen referenca a las alternatvas, por lo que sus valores varían entre alternatvas pudendo hacerlo o no entre observacones. 2º Con datos ordenados: se utlza cuando las alternatvas de la varable endógena representan un orden entre ellas. Generalzaremos los resultados anterores a casos en los que los ndvduos hacen eleccones entre tres o más alternatvas mutuamente excluyentes. Un modelo multnomal de respuesta cualtatva se defne de la sguente forma:

Asume que la varable dependente Y toma m + 1 valores {0, 1, 2,..., m }, entonces el modelo multnomal vendrá dado: ( ) ( ) PY = j = F X *, θ ; = 12,,..., n y j= 12,,..., m. Y Y X * j θ donde y son vectores de varables ndependentes y parámetros respectvamente. m De esta forma, depende de un en partcular cuando los ndvduos tenen dferentes conjuntos de eleccón. Para defnr el estmador de en el modelo usualmente se defnen Σ n = 1 ( m + 1) = 1 s Y = j = 0 s Y j; = 12,..., n y j = 12,,..., m. θ varables bnaras, de la forma: 96 La funcón de verosmltud vene defnda como: ln $ θ n m L = Y ln F θ = 1 j= 0 donde el estmador nsesgado de se defne como una solucón a la ecuacón: j ln L = 0. θ Los modelos multnomales de respuestas cualtatvas se pueden clasfcar en modelos ordenados y no ordenados. 2.1. MODELOS ORDENADOS Un modelo ordenado se defne como: ( =,θ ) = ( ) PY jx ps j θ S j θ US para alguna medda de probabldad p, sobre X y { } sucesvos que depende sobre X y tal que. j, y una secuenca fnta de ntervalos j j =R En los modelos ordenados, los valores que Y toma, corresponden a una partcón sobre la línea real. A dferenca de modelo no ordenado, donde la partcón correspondería a partcones no sucesvas sobre la línea real o a partcones de dmensones mayores sobre el espaco eucldano. En la mayoría de las aplcacones, el modelo ordenado toma la forma:

97 ( ) ( ) ( ) PY= jx, α, β = Fα X β Fα X β ; j= 01,,..., m; α = ; α α ; α = j+ 1 j 0 j j+ 1 m+ 1 Para alguna dstrbucón F, se puede defnr un modelo Logt ordenado o Probt ordenado. 2.1.1. MODELO LOGIT El modelo logt multnomal se defne como: 1 m PY ( = j) = exp( Xj β) exp ( Xj β) ; = 12,,..., n y j= 01,,..., m k = 0 Mc Fadden (1974) consdera el sguente modelo multecuaconal dervado del problema del consumdor. Consdere a un ndvduo cuyas utldades están asocadas con tres alternatvas, de la forma sguente: U j U = µ + ε, con j = 012,, j j j donde no es una funcón estocástca sno determnstca. Por otro lado, es el usual térmno aleatoro de error. De esta forma, el ndvduo elge aquella alternatva en la que obtene la mayor utldad. El multnomal logt se puede dervar del problema de maxmzar la utldad sí y sólo sí los son ndependentes y la funcón de dstrbucón ε j ε j ( ε j ) de vene dada por De esta manera, la probabldad de que el ( = 2) = ( 2 > 1, 2 > 0) ( = 2) = P( ε 2 + µ 2 µ 1 > ε1, ε 2 + µ 2 µ 0 > ε0) exp( µ 2 ) ( = 2) = exp( µ ) + exp( µ ) + exp( µ ) PY PU U U U PY PY [ ] exp exp. ndvduo elja una alternatva j, será: 0 1 2 ε j y tomará una forma parecda a la defncón del modelo logt multnomal sí hacemos y = X. µ µ = X β µ µ β 2 0 2 1 0 1 2.2. MODELOS NO ORDENADOS Se enfocara el caso en que las alternatvas no están ordenadas.

98 2.2.1. MODELO LINEAL DE PROBABILIDAD S asummos que hay tres opcones j = 1, 2, 3, escrbmos el modelo: P = α + β X P = α + β X P = α + β X 1 1 1 2 2 2 3 3 3 P j es la probabldad de que el ndvduo elegrá la j ésma opcón, mentras que es el valor de X para el j ésmo ndvduo. X Para estmar cada una de las tres ecuacones en el modelo por mínmos cuadrados ordnaros, no es necesaro ejecutar las tres regresones lneales de probabldad. Dado que las probabldades estmadas están restrngdas para sumar 1, los nterceptos estmados para sumar 1 y los parámetros de pendente para sumar 0. Entonces, sólo se necesta ejecutar dos de las tres regresones de mínmos cuadrados. La solucón para los parámetros de la tercera ecuacón se derva de las prmeras dos. 2.2.2. MODELO LOGIT En este tpo de modelos las alternatvas de la varable respuesta ndcan la pertenenca de las observacones a un determnado grupo sn ncorporar nformacón ordnal. La formulacón de un Logt Multnomal queda recogda a través de la sguente ecuacón: P P ( ) Pr ob Y = j = P = j e j 1 j= 0 β X j e β X Donde para el caso sencllo de un modelo en el que la varable endógena presenta tres posbles alternatvas de eleccón y sólo exste una varable explcatva en la modelzacón, la probabldad asocada a cada una de las alternatvas posbles de eleccón tomarían las sguentes expresones: 1 1 1 e = P = α1+ β1x α2+ β2x X 1+ e + e 1+ e + e α1+ β1x e = α1+ β1x α2+ β2x 1 + e + e 0 0 0 P + P + P = con. 0 1 2 1 j α + β X α + β α + β X 1 1 2 2

99 3. MODELO CON VARIABLE DEPENDIENTE LIMITADA Exsten un gran número de datos cuya observacón nos muestra que están lmtados o acotados de alguna forma. Este fenómeno lleva a dos tpos de efectos: el truncamento y la censura. El efecto de truncamento ocurre cuando la muestra de datos es extraída aleatoramente de una poblacón de nterés, por ejemplo, cuando se estuda el ngreso y la pobreza se establece un valor sobre el cual el ngreso se encuentra por encma o por debajo del msmo.. De esta forma, algunos ndvduos podrán no ser tendos en cuenta. Por otro lado, censurar es un procedmento en el cual los rangos de una varable son lmtados a pror por el nvestgador; este procedmento produce una dstorsón estadístca smlar al proceso de truncamento. 3.1. MODELO TRUNCADO Una dstrbucón truncada es la parte de una dstrbucón no truncada antes o después de un valor específco; magínese por ejemplo que nosotros deseamos conocer la dstrbucón de los ngresos anterores a 100,000 o el número de vajes a una zona mayores de 2, ésta será tan sólo una parte de la dstrbucón total. S una varable contnua aleatora X, tene una funcón de densdad de probabldades, y a es una constante, entonces: Pr ob X ( a) f X X ( a) f X X f X > = Pr ob X ( ) ( > a) s X tene una dstrbucón normal con meda µ y desvacón estándar σ, entonces: µ α = σ a µ σ ( > a) = 1 Φ = 1 Φ( α ) a Φ( α ) donde y es funcón de densdad acumulatva, entonces la dstrbucón normal truncada será: φ 2 1 ( X µ ) 1 X f X ( ) e 2 2 2πσ 2 2 σ φ µ σ σ > = = = 1 Φ 1 Φ Φ ( ) ( α ) ( α ) 1 ( α ) donde será la funcón de densdad de probabldades normal estándar. La dstrbucón µ = 0 σ = 1 normal estándar truncada con y para a gual a -0.5, 0 y 0.5, será:

100 S con constante, entonces la meda vendrá dada por: y la varanza por: donde ( ) λα ( ) λα 2 X N[ µσ, ] ( ) α = a µ / σ E[ X truncamento ] = µ + σλ( α) [ ] σ 2 ( 1 δ( α) ) var X truncamento = ( ) Φ( α ) ( ) Φ( α ) φα = s el truncamento ocurre en X > a 1 φα = 1 µ. Por otro lado, nosotros observamos que: s el truncamento ocurre en X < a Tomando el logartmo de la dstrbucón normal truncada, y al realzar la suma de los logartmos de estas densdades, se obtene: 2 1 ( ( 2π) σ ) ( Y β X) n n ln L = 2 ln + ln ln 1 2 2 2σ = 1 a Φ β X σ Las condcones necesaras para maxmzar ln L serán:

101 n ln L Y β X λ = X β σ σ = 0 2 = 1 n 2 ln L 1 ( Y β X) α X = + σ σ σ σ = 2 2 4 2 = 1 2 2 2 0 α donde y. a βx = φα λ ( ) = σ 1 Φ α ( ) 3.2. MODELO CENSURADO Un procedmento normal con datos mcroeconómcos, consste en censurar la varable dependente. Cuando la varable dependente es censurada, los valores en un determnado rango son todos transformados a un valor sngular. De esta forma, s defnmos una varable aleatora y transformada de la varable orgnal como: * * * Y = 0 s Y 0 Y = Y s Y > 0 El gráfco de la dstrbucón censurada es: µ µ Pr ob Y = 0 = 0 = Φ = 1 Φ σ σ * ( ) Pr ob( Y ) * Y N( µσ, 2 ) La dstrbucón correspondente a será: s Y * > 0 y tene la densdad de Y *, entonces la dstrbucón tene partes dscretas y

contnuas, donde la probabldad total será de 1como se requere. Para lograr esto, se asgna la probabldad total en la regón censurada al punto de censuramento. La meda de una varable censurada vendrá dada por: ( ) = Φa+ ( 1 Φ)( µ + σλ) EY 102 y la varanza: [ Φ] ( ) σ ( 1 Φ) ( 1 δ) ( α λ) 2 2 Var Y = + a µ Φ Φ Φ σ = = = * ( α ) Pr ob( Y a) donde: ; ; 2 δ = λ λα. φ λ = 1 Φ 3.3. MODELO TOBIT El modelo Tobt se orgnó en el estudo de consumo de benes no perecederos por parte de las economías doméstcas; el mporte dedcado al consumo de estos benes se anula en el caso de famlas que no pueden dedcar un mínmo de renta a la adquscón de este tpo de productos. Así, el modelo Tobt es de la forma: y β = * 0 1 y + β x + u s m * m s y < m en el que el valor m es el límte mínmo por debajo del cual la varable endógena no puede caer. Este modelo puede consderarse como uno de eleccón bnara, en el que la varable endógena toma valores dependentes de las exógenas o ben un mínmo que no depende de éstas. Supongamos que se observa s, y no s. Entonces, se defnrá como: asume que.

103 Se le llama modelo Tobt o probt de Tobn o modelo censurado de regresón normal, debdo a que se censura (no se permte observar) algunas observacones de (aquellas que ). El objetvo es estmar los parámetros y. Ejemplo 1.- Se especfca la demanda de automóvles de la sguente forma: donde Son los gastos en automóvles y x el ngreso. En la muestra habría un gran número de observacones para las cuales los gastos en automóvles son cero. El modelo censurado de regresón se puede especfcar como: 2.- S exsten observacones sobre varas personas, de las cuales sólo algunas tenen empleo, podemos especfcar el modelo: Caso horas trabajadas, Caso salaros, Método de estmacón β La estmacón de y σ medante mínmos cuadrados ordnaros no se puede utlzar con observacones postvas, pues cuando se escrbe el modelo: el térmno de error no tene meda cero. Dado que las observacones con se omten, esto supone que sólo se ncluyen en la muestra las observacones para las

cuales. Por lo tanto, la dstrbucón de es normal truncada y su meda no es cero. La Dstrbucón normal truncada es: 104 donde la funcón de densdad estándar normal es: y la funcón de dstrbucón acumulada estándar normal es: Un método de estmacón que se sugere comúnmente es el de máxma verosmltud, que es el sguente: s maxmzamos la funcón de verosmltud con respecto a y, obtendremos los estmados de máxma verosmltud de estos parámetros. Los modelos Tobt se refere a modelos censurados o truncados donde el rango de la varable dependente se restrnge de alguna forma. Dado el crecente uso de los modelos tpo Tobt, Amemya realzó la laborosa tarea de clasfcar, los modelos Tobt de acuerdo con smltudes en la funcón de verosmltud. La caracterzacón de los tpos de modelos Tobt es la sguente: β σ

105 TIPO VARIABLE DEPENDIENTE Y 1 Y 2 Y 3 1 CENSURADO - - 2 BINARIO CENSURADO - 3 CENSURADO CENSURADO - 4 CENSURADO CENSURADO CENSURADO 5 BINARIO CENSURADO CENSURADO