ESTUDIO COMPARATIVO DE TÉCNICAS DE CALIFICACIÓN CREDITICIA

Tamaño: px
Comenzar la demostración a partir de la página:

Download "ESTUDIO COMPARATIVO DE TÉCNICAS DE CALIFICACIÓN CREDITICIA"

Transcripción

1 UNIVERSIDAD SIMÓN BOLÍVAR DECANATO DE ESTUDIOS POSTGRADO MAESTRIA EN ESTADISTICA ESTUDIO COMPARATIVO DE TÉCNICAS DE CALIFICACIÓN CREDITICIA Trabajo de Grado presentado a la Universidad Simón Bolívar por Erika Patricia Gomes Goncalves como requisito para optar al título de Magíster Scientiarum en Estadística realizado con la asesoría de Prof. Henryk Gzyl Prof. Mayra Rodríguez Abril, 2009

2

3 iii UNIVERSIDAD SIMÓN BOLÍVAR DECANATO DE ESTUDIOS DE POSTGRADO MAESTRIA EN ESTADISTICA ESTUDIO COMPARATIVO DE TÉCNICAS DE CALIFICACIÓN CREDITICIA Erika Patricia Gomes Goncalves Abril, 2009 Resumen En este trabajo se utilizan métodos y modelos matemáticos para extraer información útil y encontrar patrones de comportamiento en los datos con el objetivo de agrupar y ordenar a los solicitantes de financiamientos en función de su riesgo de incumplimiento, estos procedimientos permiten evaluar de forma ágil y rápida las capacidades de endeudamiento de los clientes mitigando las pérdidas acarreadas por morosidad. Estos métodos son utilizados para clasificar a los solicitantes de crédito en grupos de buenos o malos, clasificación que permite obtener estimaciones más concretas del riesgo mediante el cálculo de la probabilidad de incumplimiento del individuo en estudio, de acuerdo a una serie de características obtenidas mediante formularios o bases de datos disponibles en la entidad crediticia. El objetivo de está tesis es dar una visión de varias de las metodologías estadísticas y no estadísticas de discriminación crediticia utilizadas junto con sus implementaciones y compararlas de manera de comprobar la habilidad de estas técnicas para distinguir entre dos grupos en tres muestras simuladas. Los métodos utilizados en este trabajo fueron discriminación Bayesiana, discriminador lineal de Fisher, Regresión Logística, Probit, Tobit, árboles de clasificación, k vecinos más cercanos, programación lineal, redes neuronales, algoritmos genéticos y máquinas de soporte vectorial, concluyéndose que los mejores métodos de clasificación corresponden a Árboles de decisión o clasificación y Máquinas de Soporte Vectorial. Palabras claves: técnicas de calificación crediticia, simulación, cópulas.

4 iv ÍNDICE GENERAL Pág. APROBACIÓN DEL JURADO... ii RESUMEN... iii INDICE GENERAL... iv INDICE DE TABLAS... vi INDICE DE FIGURAS... xvi INTRODUCCIÓN... 1 CAPÍTULO II: FUNCIONES CÓPULAS Definiciones y Propiedades Tipos de Funciones Cópulas Simulación con Cópulas CAPÍTULO III: TÉCNICAS ESTADÍSTICAS, NO ESTADÍSTICAS Y DE VALIDACIÓN Técnicas Estadísticas Enfoque Bayesiano Bayes Para atributos discretos Bayes para atributos continuos Discriminador Lineal de Fisher Regresión Logística Probit Tobit Árboles de Clasificación K- Vecinos más cercanos Técnicas no Estadísticas Programación Lineal Redes Neuronales Algoritmos genéticos Máquinas de soporte vectorial Validación Matriz de confusión

5 v Evaluación de hipótesis basado en costes Validación Cruzada Validación Cruzada Bootstrap Distancia de Mahalanobis Estadístico Kolmogorov Smirnov ROC Gini Curva de estrategia CAPÍTULO IV: METODOLOGÍA CAPÍTULO V: SIMULACIÓN CAPÍTULO VI: RESULTADOS Conjunto de Datos Conjunto de Datos Conjunto de Datos CAPÍTULO VII: CONCLUSIONES Y RECOMENDACIONES Conclusiones Recomendaciones REFERENCIAS BIBLIOGRÁFICAS

6 vi INDICE DE TABLAS Tablas Pág Matriz de Confusión Atributos a considerar para la implementación de la metodología Copulas utilizadas para la simulación del segundo conjunto de datos Puntajes para los atributos Datos alternativos para la verificación de los métodos de clasificación Matriz de confusión del conjunto de validación Resultados de las técnicas validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap para el conjunto de entrenamiento Valores de distancia Mahalanobis, estadístico KS y coeficiente de Gini Matriz de confusión para el conjunto de validación Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap para el conjunto de entrenamiento Matriz de confusión para el conjunto de validación Precisión de los errores obtenidos mediante diversos tipos de remuestreo Matriz de confusión para el conjunto de validación Umbrales obtenidos por minimización de algún tipo de error Clasificación obtenida con la muestra de la tabla Coeficientes del modelo obtenido por discriminación Lineal de Fisher Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Matriz de confusión para el conjunto de validación Valores de distancia Mahalanobis, KS y coeficiente de Gini Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap Matriz de confusión para el conjunto de validación Matriz de confusión para el conjunto de validación Precisión obtenida mediante diversos tipos de remuestreo utilizando el conjunto de entrenamiento

7 vii Matriz de confusión para el conjunto de validación Algunos umbrales obtenidos por minimización de algún tipo de error Resultados obtenidos con la muestra de la tabla Coeficientes del método de regresión Logística Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap Matriz de confusión para el conjunto de validación Valores de distancia Mahalanobis, KS y coeficiente de Gini Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap Matriz de confusión para el conjunto de validación Matriz de confusión para el conjunto de validación Precisión obtenida mediante diversos tipos de remuestreo Matriz de confusión para el conjunto de validación Umbrales obtenidos por minimización de algún tipo de error Resultados obtenidos con la muestra de la tabla Coeficientes del Método Probit Resultados de aplicar validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Matriz de confusión para el conjunto de validación Valores de distancia Mahalanobis, KS y coeficiente de Gini Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap para el conjunto de entrenamiento Matriz de confusión para el conjunto de validación Matriz de confusión para el conjunto de validación Precisión obtenida mediante diversos tipos de remuestreo Matriz de confusión para el conjunto de validación Umbrales obtenidos por minimización de algún tipo de error Resultados obtenidos con la muestra de la tabla Coeficientes del método Tobit

8 viii Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Matriz de confusión para el conjunto de validación Valores de distancia Mahalanobis, KS y coeficiente de Gini Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Matriz de confusión para el conjunto de validación Matriz de confusión para el conjunto de validación Precisión obtenida mediante diversos tipos de remuestreo Matriz de confusión para el conjunto de validación Algunos umbrales obtenidos por la minimización de algún tipo de error Resultados obtenidos con la muestra de la tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Matriz de confusión para el conjunto de validación Resultados obtenidos con la muestra de la tabla Errores obtenidos para diferentes valores de k y D Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Matriz de confusión para el conjunto de validación Matriz de confusión para el conjunto de validación Matriz de confusión para el conjunto de validación Resultados obtenidos con la muestra de la tabla Coeficientes del modelo obtenido mediante Programación Lineal Matriz de confusión para el conjunto de validación Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap para el conjunto de entrenamiento Coeficientes del modelo obtenido mediante Programación Lineal Matriz de confusión para el conjunto de validación Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap Valores de distancia Mahalanobis, KS y coeficiente de Gini Matriz de confusión para el conjunto de validación

9 ix Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap para el conjunto de entrenamiento Matriz de confusión para el conjunto de validación Matriz de confusión para el conjunto de validación Algunos umbrales obtenidos por la minimización de algún tipo de error Resultados obtenidos con la muestra de la tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Matriz de confusión para el conjunto de validación Valores de distancia Mahalanobis, KS y coeficiente de Gini Matriz de confusión para el conjunto de validación Precisión obtenida mediante diversos tipos de remuestreo Matriz de confusión para el conjunto de validación Algunos umbrales obtenidos por minimización de algún tipo de error Resultados obtenidos con la muestra de la tabla Coeficientes del modelo obtenido mediante Algoritmos Genéticos Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Matriz de confusión para el conjunto de validación Valores de distancia Mahalanobis, KS y coeficiente de Gini Matriz de confusión para el conjunto de validación Precisión obtenida mediante diversos tipos de remuestreo Matriz de confusión para el conjunto de validación Algunos umbrales obtenidos por minimización de algún tipo de error Resultados obtenidos con la muestra de la tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Matriz de confusión para el conjunto de validación Valores de distancia Mahalanobis, KS y coeficiente de Gini Matriz de confusión para el conjunto de validación Precisión obtenida mediante diversos tipos de remuestreo Matriz de confusión para el conjunto de validación Algunos umbrales obtenidos por minimización

10 x Resultados obtenidos con la muestra de la tabla Matriz de correlación utilizada para la aplicación de la cópula Gaussiana Matriz de confusión para el conjunto de validación Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap Valores de distancia Mahalanobis, KS y coeficiente de Gini Matriz de confusión para el conjunto de validación Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Matriz de confusión para el conjunto de validación Precisión de los errores obtenidos mediante diversos tipos de remuestreo Matriz de confusión para el conjunto de validación Umbrales obtenidos por minimización de algún tipo de error Resultados obtenidos con la muestra de la tabla Coeficientes del modelo obtenido por discriminación Lineal de Fisher Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap Matriz de confusión para el conjunto de validación Valores de distancia Mahalanobis, KS y coeficiente de Gini Matriz de confusión para el conjunto de validación Precisión obtenida mediante diversos tipos de remuestreo utilizando el conjunto de entrenamiento Matriz de confusión para el conjunto de validación Umbrales obtenidos por minimización de algún tipo de error Resultados obtenidos con la muestra de la tabla Coeficientes del método de regresión Logística Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap Matriz de confusión para el conjunto de validación Valores de distancia Mahalanobis, KS y coeficiente de Gini Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap Matriz de confusión para el conjunto de validación

11 xi Matriz de confusión para el conjunto de validación Precisión obtenida mediante diversos tipos de remuestreo Matriz de confusión para el conjunto de validación Umbrales obtenidos por minimización de algún tipo de error Resultados obtenidos con la muestra de la tabla Coeficientes del Método Probit Resultados de aplicar validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Matriz de confusión para el conjunto de validación Valores de distancia Mahalanobis, KS y coeficiente de Gini Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap para el conjunto de entrenamiento Matriz de confusión para el conjunto de validación Matriz de confusión para el conjunto de validación Precisión obtenida mediante diversos tipos de remuestreo Matriz de confusión para el conjunto de validación Umbrales obtenidos por minimización de algún tipo de error Resultados obtenidos con la muestra de la tabla Coeficientes del método Tobit Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Matriz de confusión para el conjunto de validación Valores de distancia Mahalanobis, KS y coeficiente de Gini Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Matriz de confusión para el conjunto de validación Matriz de confusión para el conjunto de validación Precisión obtenida mediante diversos tipos de remuestreo Matriz de confusión para el conjunto de validación Algunos umbrales obtenidos por la minimización de algún tipo de error Resultados obtenidos con la muestra de la tabla

12 xii Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Matriz de confusión para el conjunto de validación Resultados obtenidos con la muestra de la tabla Errores obtenidos para diferentes valores de k y D Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Matriz de confusión para el conjunto de validación Matriz de confusión para el conjunto de validación Matriz de confusión para el conjunto de validación Resultados obtenidos con la muestra de la tabla Coeficientes del modelo obtenido mediante Programación Lineal Matriz de confusión para el conjunto de validación Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap Valores de distancia Mahalanobis, KS y coeficiente de Gini Matriz de confusión para el conjunto de validación Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap para el conjunto de entrenamiento Matriz de confusión para el conjunto de validación Matriz de confusión para el conjunto de validación Algunos umbrales obtenidos por la minimización de algún tipo de error Resultados obtenidos con la muestra de la tabla Matriz de confusión para el conjunto de validación Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Valores de distancia Mahalanobis, KS y coeficiente de Gini Matriz de confusión para el conjunto de validación Precisión obtenida mediante diversos tipos de remuestreo Matriz de confusión para el conjunto de validación Algunos umbrales obtenidos por minimización de algún tipo de error Resultados obtenidos con la muestra de la tabla Coeficientes del modelo obtenido mediante Algoritmos Genéticos

13 xiii Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Matriz de confusión para el conjunto de validación Valores de distancia Mahalanobis, KS y coeficiente de Gini Matriz de confusión para el conjunto de validación Precisión obtenida mediante diversos tipos de remuestreo Matriz de confusión para el conjunto de validación Algunos umbrales obtenidos por minimización de algún tipo de error Resultados obtenidos con la muestra de la tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Matriz de confusión para el conjunto de validación Valores de distancia Mahalanobis, KS y coeficiente de Gini Matriz de confusión para el conjunto de validación Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Matriz de confusión para el conjunto de validación Precisión obtenida mediante diversos tipos de remuestreo Matriz de confusión para el conjunto de validación Algunos umbrales obtenidos por minimización Resultados obtenidos con la muestra de la tabla Matriz de confusión para el conjunto de validación Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap Valores de distancia Mahalanobis, KS y coeficiente de Gini Matriz de confusión para el conjunto de validación Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Matriz de confusión para el conjunto de validación Precisión de los errores obtenidos mediante diversos tipos de remuestreo Matriz de confusión para el conjunto de validación Umbrales obtenidos por minimización de algún tipo de error Resultados obtenidos con la muestra de la tabla

14 xiv Coeficientes del método de regresión Logística Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap Matriz de confusión para el conjunto de validación Valores de distancia Mahalanobis, KS y coeficiente de Gini Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap Matriz de confusión para el conjunto de validación Matriz de confusión para el conjunto de validación Precisión obtenida mediante diversos tipos de remuestreo Matriz de confusión para el conjunto de validación Umbrales obtenidos por minimización de algún tipo de error Resultados obtenidos con la muestra de la tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Matriz de confusión para el conjunto de validación Resultados obtenidos con la muestra de la tabla Matriz de confusión para el conjunto de validación Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Valores de distancia Mahalanobis, KS y coeficiente de Gini Matriz de confusión para el conjunto de validación Precisión obtenida mediante diversos tipos de remuestreo Matriz de confusión para el conjunto de validación Algunos umbrales obtenidos por minimización de algún tipo de error Resultados obtenidos con la muestra de la tabla Coeficientes del modelo obtenido mediante Algoritmos Genéticos Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Matriz de confusión para el conjunto de validación Algunos umbrales obtenidos por minimización de algún tipo de error Valores de distancia Mahalanobis, KS y coeficiente de Gini Matriz de confusión para el conjunto de validación

15 xv Precisión obtenida mediante diversos tipos de remuestreo Matriz de confusión para el conjunto de validación Resultados obtenidos con la muestra de la tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Matriz de confusión para el conjunto de validación Valores de distancia Mahalanobis, KS y coeficiente de Gini Matriz de confusión para el conjunto de validación Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento Matriz de confusión para el conjunto de validación Precisión obtenida mediante diversos tipos de remuestreo Matriz de confusión para el conjunto de validación Umbrales obtenidos por minimización de algún tipo de error Resultados obtenidos con la muestra de la tabla Resultados obtenidos con las técnicas de D. Bayes, D. Fisher, R. Logística, Probit y Tobit para el conjunto de datos Resultados obtenidos con la técnica de Árboles de Clasificación para el conjunto de datos Resultados obtenidos con la técnica K- vecinos más cercanos para el conjunto de datos Resultados obtenidos con la técnica Programación Lineal para el conjunto de datos Resultados obtenidos con las técnicas Redes Neuronales, Algoritmos genéticos y Máquinas de Soporte Vectorial para el conjunto de datos Resultados obtenidos con las técnicas de D. Bayes, R. Logística, Redes Neuronales, Algoritmos Genéticos y Máquinas de Soporte Vectorial para el conjunto de datos Resultados obtenidos con la técnica de árboles de clasificación para el conjunto de datos Resultados obtenidos con las técnicas de R. Logística, Probit y Tobit para el conjunto de datos Resultados obtenidos con las técnicas de D. Bayes, R. Logística, Redes Neuronales, Algoritmos Genéticos y Máquinas de Soporte Vectorial para el conjunto de datos Resultados obtenidos con la técnica de árboles de clasificación para el conjunto de datos

16 xvi INDICE DE FIGURAS Figuras Pág Ejemplo de cópula Gaussiana. Caso Bivariado Ejemplo de cópula t. Caso Bivariado, para diferentes valores de correlación y 2 grados de libertad Ejemplo de cópula t. Caso Bivariado, para diferentes valores de grados de libertad y 1000 grados de libertad Efecto no deseado para la función t-cópula Ejemplo de cópula de Gumbel. Caso Bivariado, para diferentes valores de asociación Ejemplo de cópula de Clayton. Caso Bivariado, para diferentes valores de asociación Ejemplo de cópula de Frank. Caso Bivariado, para diferentes valores de asociación Diferencias entre el modelo logístico y el modelo probit Árbol de Clasificación Binario Poda de un árbol de Clasificación Red Neuronal Componentes de una Red Neuronal Función de activación Umbral y Logística Función de activación Tangente Hiperbólico Conjunto linealmente separable Separación lineal perfecta por método MSV de margen máximo Proceso de validación de las técnicas de discriminación Comparación: modelo con sobreajuste (izquierda), modelo bien ajustado (derecha) Distribución de los buenos (derecha) y los malos (izquierda), con algunas tasas de error Densidad de Probabilidad de los buenos y malos Distribución acumulada de los buenos y los malos... 71

17 xvii Curva ROC Ejemplo de la poca separabilidad que tiene el conjunto crediticia Histograma de los atributos considerados para los grupos de buenos y malos Distribución de frecuencias predicha para los buenos y malos Densidad de probabilidad predicha para los buenos y los malos Distancia Kolmogorov- Smirnov y Curva ROC Curva de Estrategia Umbrales para la clasificación de clientes en buenos y malos Distribución de los grupos de buenos y malos obtenidos por discriminador de Fisher Densidad de probabilidad predicha entre los buenos y los malos obtenidos por discriminador lineal de Fisher Distancia Kolmogorov- Smirnov y Curva ROC Comparación de las curvas ROC de Bayes (azul) y Fisher (negro) Curva de estrategia Umbrales para la clasificación de clientes en buenos y malos Distribución de los grupos de buenos y malos obtenidos por Regresión Logística Densidad de probabilidad predicha entre los buenos y los malos obtenida por Regresión Logística Distancia Kolmogorov- Smirnov y Curva ROC Comparaciones con la curva ROC Curva de estrategia Umbrales para la clasificación de clientes en buenos y malos Distribución de los grupos de buenos y malos obtenidos con Probit Densidad de probabilidad predicha entre los buenos y los malos obtenidos con Probit Distancia Kolmogorov- Smirnov y Curva ROC Curva de estrategia Umbrales para la clasificación de clientes en buenos y malos Distribución predicha de los grupos de buenos y malos obtenidos por Regresión Tobit para el conjunto de datos de entrenamiento

18 xviii Densidad de probabilidad predicha entre los buenos y los malos obtenidos por Regresión Tobit Distancia Kolmogorov- Smirnov y Curva ROC Curva de estrategia Umbrales para la clasificación de clientes en buenos y malos Árbol de clasificación obtenido con el conjunto de entrenamiento Errores obtenidos usando el parámetro D = 1. 5 y diferentes valores de k Distribución de frecuencias predicha para los buenos y malos Densidad de probabilidad predicha entre los buenos y los malos obtenidos por PL Densidad de probabilidad predicha entre los buenos y los malos obtenidos por PL Distancia Kolmogorov- Smirnov y Curva ROC Curva de estrategia Distribución de frecuencias predicha para los buenos y malos Distancia Kolmogorov- Smirnov y Curva ROC Curva de estrategia Distribución de frecuencias predicha para los buenos y malos Densidad de probabilidad predicha entre los buenos y los malos Distancia Kolmogorov- Smirnov y Curva ROC Curva de estrategia Distribución de frecuencias predicha para los buenos y malos junto con algunos umbrales Distribución de frecuencias predicha para los buenos y malos Densidad de probabilidad predicha para los buenos y los malos Distancia Kolmogorov- Smirnov y Curva ROC Curva de estrategia Densidad de probabilidad predicha entre los buenos y los malos junto con algunos umbrales Histograma de los atributos considerados para los grupos de buenos y malos

19 xix Distribución de frecuencias predicha para los buenos y malos Densidad de probabilidad predicha de los buenos y los malos Distancia Kolmogorov- Smirnov y Curva ROC Curva de estrategia Distribución de los grupos de buenos y malos obtenidos por discriminador de Fisher Densidad de probabilidad predicha entre los buenos y los malos obtenidos por el discriminador lineal de Fisher Distancia Kolmogorov- Smirnov y Curva ROC Curva de estrategia Distribución de los grupos de buenos y malos obtenidos por Regresión Logística Densidad de probabilidad predicha entre los buenos y los malos obtenida por Regresión Logística Distancia Kolmogorov- Smirnov y Curva ROC Curva de estrategia Distribución de los grupos de buenos y malos obtenidos con Probit Densidad de probabilidad predicha entre los buenos y los malos obtenidos con Probit Distancia Kolmogorov- Smirnov y Curva ROC Curva de estrategia Distribución predicha de los grupos de buenos y malos obtenidos por Regresión Tobit para el conjunto de datos de entrenamiento Densidad de probabilidad predicha entre los buenos y los malos obtenidos por Regresión Tobit Distancia Kolmogorov- Smirnov y Curva ROC Curva de estrategia Árbol de clasificación obtenido con el conjunto de entrenamiento Distancia Kolmogorov- Smirnov y Curva ROC Curva de estrategia Distribución de frecuencias predicha para los buenos y malos Distancia Kolmogorov- Smirnov y Curva ROC Curva de estrategia

20 xx Distribución de frecuencias predicha para los buenos y malos Densidad de probabilidad predicha entre los buenos y los malos Distancia Kolmogorov- Smirnov y Curva ROC Curva de estrategia Distribución de frecuencias predicha para los buenos y malos Densidad de probabilidad predicha para los buenos y los malos Distancia Kolmogorov- Smirnov y Curva ROC Curva de estrategia Histograma de los atributos considerados para los grupos de buenos y malos Distribución de los grupos de buenos y malos Densidad de probabilidad predicha entre los buenos y los malos Distancia Kolmogorov- Smirnov y Curva ROC Curva de estrategia Distribución de los grupos de buenos y malos obtenidos por Regresión Logística Densidad de probabilidad predicha entre los buenos y los malos obtenida por Regresión Logística Distancia Kolmogorov- Smirnov y Curva ROC Curva de estrategia Árbol de clasificación obtenido con el conjunto de entrenamiento Distribución de frecuencias predicha para los buenos y malos Distancia Kolmogorov- Smirnov y Curva ROC Curva de estrategia Distribución de frecuencias predicha para los buenos y malos Densidad de probabilidad predicha entre los buenos y los malos Distancia Kolmogorov- Smirnov y Curva ROC Distribución de frecuencias predicha para los buenos y malos Densidad de probabilidad predicha para los buenos y los malos Distancia Kolmogorov- Smirnov y Curva ROC Curva de estrategia

21 1 INTRODUCCIÓN En los últimos años se ha podido observar un importante crecimiento en la cartera de créditos de la banca venezolana, cuya causa se encuentra principalmente en el aumento de la liquidez ocurrida como consecuencia de los altos ingresos petroleros y el control cambiario establecido por el gobierno nacional, medida que propicio una reducción importante en las tasas de interés a partir del año 2002, trayendo como consecuencia la reducción, por parte de la banca, de la dependencia de las inversiones en títulos públicos, incrementando su participación en las carteras de crédito. Esto es claro para el año 2006, donde los ingresos provenientes por cartera de crédito duplican a los ingresos por inversiones de valores [17]. Esto ha propiciado un mayor interés por parte de la banca en adoptar modelos de gestión de riesgos que proporcionen la capacidad de controlar, clasificar y pronosticar de manera eficaz cualquier posibilidad de pérdida, generada por el incumplimiento de un individuo o individuos de sus responsabilidades financieras. La falta de sistemas rápidos y precisos que contribuyan al control y disminución del riesgo pueden acarrear problemas de liquidez que ponen en peligro no sólo la ganancias de la entidad financiera sino los recursos de los depositantes e incluso el buen desenvolvimiento de la economía nacional. Es por todo esto que las entidades financieras requieren de un proceso constante de evaluación y medición de riesgo, que demanda la implementación de modelos que constituyan una herramienta de apoyo en el proceso de la toma de decisiones. Estos modelos son ampliamente mencionados en la bibliografía y son denominados modelos de Credit Scoring, los cuales permiten calificar el riesgo mediante técnicas de minería de datos para la extracción de información mediante métodos estadísticos y de inteligencia

22 2 artificial, siendo el método más utilizado por la banca la regresión logística por su fácil implementación [14]. En virtud de lo señalado, se propone dar una visión de varias de las metodologías estadísticas y no estadísticas utilizadas para la clasificación crediticia, con el fin de implementarlas y compararlas de manera de comprobar la habilidad de estás técnicas para la discriminación de los clientes en grupos de riesgo. Dichos métodos permiten evaluar de forma ágil y rápida las capacidades de endeudamiento de los solicitantes de financiamiento mitigando las pérdidas acarreadas por morosidad al clasificar a los cliente en grupos de buenos o malos, lo cual permite obtener estimaciones concretas del riesgo mediante el cálculo de la probabilidad de incumplimiento del individuo en estudio, de acuerdo a una serie de características o atributos obtenidos mediante formularios o bases de datos disponibles en la entidad crediticia. Entre dichos métodos se enumeran: análisis discriminante, regresión logística, modelos probit, modelos tobit, árboles de decisión, programación lineal, vecinos más cercanos, algoritmos genéticos, redes neuronales y máquinas de soporte vectorial. Estás técnicas no sustituyen el juicio humano por el contrario, son sólo una parte del proceso de la toma de decisiones, la cual está influenciada por las características del mercado y de lo que la entidad financiera quiera arriesgar. Se pretende con este trabajo realizar un estudio comparativo de las técnicas de discriminación más usadas en la literatura, utilizando para ello tres conjuntos de datos que se diferencian únicamente en la relación existente entre las características individuales de cada solicitante y la variable de respuesta, la cual indica si un individuo es moroso o no.

23 3 Se espera que los resultados obtenidos en este proyecto sirvan de apoyo a la banca para el desarrollo de investigaciones enfocadas en la obtención de nuevos métodos que permitan medir y clasificar el riesgo. El presente trabajo está organizado en capítulos de la siguiente manera, en el capítulo 1, se presenta el planteamiento del problema y los fundamentos del mismo. En el capítulo 2, se describe las funciones cópulas, presentándolas como estructuras flexibles que permite caracterizar diferentes tipos de dependencia, en el capítulo 3 se presenta un resumen de los métodos a utilizar para resolver el problema propuesto y los instrumentos de validación a aplicar sobre los resultados obtenidos. El capítulo 4 describe la metodología a seguir. El capítulo 5 describe los datos utilizados para la resolución del problema, los cuales fueron obtenidos mediante simulación, funciones cópulas e información bancaria. Finalmente el capítulo 6, presenta los resultados junto con la discusión de los mismos. En los anexos se muestran algunas tablas que resumen los resultados obtenidos para los tres conjuntos de datos.

24 4 CAPITULO I PLANTEAMIENTO DEL PROBLEMA En los últimos años el entorno económico venezolano se ha visto influenciado por factores que han tenido un gran impacto sobre la dinámica del sistema financiero. Estos factores incluyen el aumento de los precios del petróleo ocurridos a partir del año 2002, el cual generó una alta acumulación de reservas internacionales, que se tradujo en un rápido incremento de la liquidez monetaria, situación que ocurre dentro de un ambiente de control de cambios, que impide la colocación de activos en los mercados financieros internacionales. Todo esto, aunado a una baja en las tasas de interés, propicio un acelerado crecimiento en el sector crediticio. Adicionalmente, las regulaciones impuestas al sector financiero en los últimos años han influido en el aumento en la oferta y demanda de créditos en varios sectores de la economía que no eran considerados en el pasado, entre estos están los créditos al consumo, turismo, sector agrícola, entre otros. [3] Este crecimiento puede afectar el desempeño del sector financiero en caso de presentarse problemas de morosidad, puesto que estos perjudican la rentabilidad y la liquidez de la entidad, y representan un problema de solvencia si la institución o instituciones empiezan a generar pérdidas sostenidas. Incluso, si el porcentaje de créditos malos es relativamente alto, la confianza en el sistema puede verse afectada iniciando una corrida bancaria y hasta un gran número de quiebras. La morosidad en la cartera de créditos ha sido interpretada en la literatura económica no sólo como una señal o reflejo de incrementos en el riesgo, sino además, como episodios de crisis financieras [46]. Por todo lo anterior, es claro que dado el crecimiento constante de la banca y los cambios que día a día se suscitan en el ámbito de la economía mundial y nacional es

25 5 necesario crear mecanismos que sean capaces de discriminar los riesgos inherentes en el otorgamiento de financiamientos, que dado el crecimiento de las participaciones en las carteras de crédito disminuyan el efecto que el incumplimiento tiene sobre la liquidez y las consecuencias que se suscitan de esta. Para ello es necesario un estudio exhaustivo de la información derivada de relaciones pasadas y presentes que el cliente ha mantenido con la entidad, puesto que el riesgo estará en función de la solvencia del deudor y de otras características propias del cliente. Es así como todo esto se traduce en un problema de clasificación, en el que dado un conjunto de observaciones cuya pertenencia a una determinada clase se conoce a priori, se busca una regla que permita clasificar las nuevas observaciones en dos grupos: los que con alta probabilidad podrán hacer frente a sus obligaciones crediticias y los que por el contrario resultaran fallidos. Suponga que A es el conjunto de todas las posibles combinaciones de valores que puede tomar un vector x ( x x,..., ) =, el cual es un arreglo de p variables aleatorias 1, 2 x p que describe la información disponible de un determinado cliente. El objetivo es encontrar una regla que particione al conjunto A en dos subconjuntos llamados clientes o solicitantes del crédito dentro de la partición prospectos para dicho crédito, mientras que aquellos en la partición AG AG y A B, donde los son considerados como buenos AB como malos candidatos para la aprobación del financiamiento, esto con el fin de que al rechazar a todos los individuos que caigan en la partición AB se minimice todo posible riesgo a la entidad bancaria. Esta asignación trae consigo un costo que corresponde a los dos tipos de error que pueden ocurrir al tomar la decisión de aprobar o no una solicitud, esto es, clasificar a algún cliente como malo cuando en realidad es bueno y viceversa.

26 6 El problema al que nos enfrentamos puede especificarse mediante la siguiente expresión (1.1) g x) = f ( x, x,..., x ) + ε (1.1) ( 1 2 p donde x es un vector de variables o atributos para un solicitante en particular, ε es la perturbación aleatoria, (x) f con x ( x x,..., ) 1, 2 x p = es la función que determina la relación existente entre las variables utilizadas y g(x) es un valor o puntaje que indica que tan bueno o tan malo es el solicitante. El objetivo principal de los modelos de clasificación se centra en estimar la función que permita ajustar con la máxima exactitud las observaciones de la muestra, de manera que el error incurrido en la predicción sea mínimo.

27 7 CAPITULO II FUNCIONES CÓPULAS Las funciones cópulas son herramientas utilizadas para describir la estructura de dependencia entre un grupo de variables aleatorias de las cuales se conoce su comportamiento individual. Sencillamente son funciones que construyen una distribución multivariada a partir de sus distribuciones marginales univariadas. Su principal propósito es describir la interrelación entre varias variables aleatorias. La idea de una función que caracterice la estructura de dependencia entre diferentes variables aleatorias proviene de los trabajos de Hoeffding ( ), aunque fue Sklar en 1959 quién definió y estableció la denominación de cópula [26]. Las cópulas permiten representar funciones de distribución conjunta así como distinguir el comportamiento de las marginales, a partir del patrón de dependencia capturado por la cópula misma. Esto resulta muy útil no sólo para el modelaje, sino también para la estimación o simulación de variables aleatorias [4]. Para comprender correctamente el funcionamiento de estás funciones es necesario presentar las bases teóricas que la rigen.

28 Definiciones y propiedades Definición Una cópula es una función de distribución conjunta con distribuciones marginales univariadas uniformes que relaciona un grupo de variables. Formalmente se puede expresar como: C ( u u,..., u ) = P[ U u, U u,..., U u ] 1, 2 n n n (2.1) donde U 1, U 2,..., U n representan variables aleatorias uniformes. Por lo anterior, es posible concluir que la cópula logra calcular toda la información sobre dependencia que existe en el conjunto de variables, definida por la transformación uniforme de las distribuciones marginales, independientemente de la distribución de probabilidad que tenga cada una de ellas [6, 13] Propiedades Una cópula d - dimensional es una función de C tal que cumple con lo siguiente: 1. C :[0,1] d [0,1] 2. Para cualesquiera u j [0,1] 3. Para cualesquiera u j [0,1] con j { 1,...,d } con j { 1,...,d } se cumple C( 0,0,...,,...,0) = 0 se cumple C (1,1,..., u j,...,1) = u j 4. C es d - creciente, i.e. para todo ( u 1,...,u n ), ( v 1,...,v n ) tenemos u j d [0,1] con u j v j 2 2 i id... ( 1) C( g1 i,..., g ) 0 1 did i1 = 1 id = 1 donde g = u g = v j1 j y j j 2 para todo j { 1,...,d } Toda función que satisfaga estas propiedades es una cópula. [11, 28].

29 9 Las propiedades anteriores indican que las cópulas son funciones uniformes multivariadas, crecientes y no negativas. Dado el resultado anterior no es sorprendente pensar que cada función de distribución en d R encierra una función cópula. Por otro lado, si escogemos una cópula y algunas distribuciones marginales y las combinamos de modo correcto, obtendremos una función de distribución multivariada. Esto se debe al siguiente teorema [4] Teorema de Sklar Sea F una función de distribución conjunta con marginales cópula C tal que para todo x 1,..., x d R F,..., F 1 d. Entonces existe una F x,..., x ) = C( F ( x ),..., F ( 1 d 1 1 d ( xd )) Si los Fi son continuas, entonces C es única; de otro modo, C está determinada por RanF 1... RanF d. Recíprocamente, si F 1,..., Fd son funciones de distribución, entonces la función definida por F x,..., x ) = C( F ( x ),..., F ( x )) es una función de distribución ( 1 d 1 1 d d conjunta con marginales F,..., F 1 d. [23] Este teorema es decisivo en este campo, puesto que primero afirma que cualquier distribución multivariante admite una representación mediante una función cópula. Además si las distribuciones marginales son continuas la función cópula es única. Recíprocamente afirma que dada una función cópula y distribuciones marginales cualesquiera, la cópula define una distribución multivariante. A partir de estos resultados se han construido diferentes modelos que tratan de dar solución al difícil problema de la dependencia entre eventos [5].

30 Tipos de Funciones Cópulas tienen: La función cópula puede asumir diferentes formas, entre las más importantes se Cópulas Fréchet-Hoeffding Cópula Máxima Llamada así porque corresponde al caso en el que ocurre la máxima relación negativa. Está cópula tiene la siguiente forma: W ( u1, u2,..., un ) = max( u1 + u un n + 1,0) (2.2) Cópula Mínima Llamada así porque corresponde al caso en el que ocurre la máxima relación positiva [15]. Está cópula tiene la siguiente forma: M u, u..., u ) = min( u, u..., u ) (2.3) ( 1 2, n 1 2, n Las ecuaciones (2.2) y (2.3) forman parte de la conocida cota de Fréchet que tiene la forma de la ecuación (2.4) W u, u..., u ) C ( u u..., u ) M u, u..., u (2.4) ( 1 2, n 1, 2, n ( 1 2, n) Cópula Independiente como: Se utiliza en los casos en donde no existe dependencia entre las variables y se define C ( u ) = n 1,..., u n u i (2.5) i= 1

31 Cópulas Elípticas Cómo lo indica su nombre estas cópulas provienen de distribuciones elípticas. La ventaja que tienen estás cópulas es que se puede especificar diferentes niveles de correlación entre las distribuciones marginales y las desventajas son que las cópulas elípticas tienen expresiones complicadas y están restringidas a una simetría radial [23]. Las dos cópulas más importantes en esta familia son la cópula normal (o Gaussiana) y la cópula t de student (o t-cópula), las cuales se derivan de las funciones de distribución multivariada que poseen estos mismos nombres [30] Cópula Gaussiana: La cópula correspondiente a la distribución normal correlación lineal Σ es: n variada con matriz de C Ga Σ n 1 1 ( u) = Φ ( Φ ( u ),..., Φ ( u )) (2.6) Σ 1 n donde n Φ Σ denota la función de distribución conjunta de la distribución normal estándar n variada con matriz de correlación lineal Σ y 1 Φ la función de distribución inversa de la distribución normal univariada. [23]. Por ejemplo, para el caso bivariado la ecuación (2.6) es reescrita como: C Ga Σ ( u, u 1 2 ) = 1 1 Φ ( u1 ) Φ ( u2 ) 2π 1 s 2Σst + t ( 1 Σ ) 1 2( 1 Σ ) 2 2 ds dt (2.7) En la figura 2.1 se muestra la estructura de dependencia impuesta por la cópula Gaussiana sobre dos distribuciones marginales normales simuladas, que poseen cada una un total de 2000 datos (ver apéndice), dichas distribuciones se han denominado

32 12 sencillamente X 1 y X 2. Cada ventana en la figura representa a la cópula para distintos valores de correlación entre las marginales. Estas correlaciones son -0.8, 0.0, 0.5 y 0.8 respectivamente. Es claro en la figura 2.1 que las la mayoría de las observaciones se concentran en el centro de la distribución. En la figura se observa la clara simetría elíptica que posee la cópula Normal. Figura 2.1. Ejemplo de cópula Gaussiana. Caso Bivariado t-cópula student La cópula correspondiente a la distribución-t matriz de correlación lineal Σ es: n variada con ν grados de libertad y C t n 1 1 v, Σ ( u) = Φ v, Σ 1 ν n ( tν ( u ),..., t ( u )) (2.8)

33 13 donde Φ, denota la función de distribución conjunta t-student n variada con matriz de n v Σ correlación lineal Σ, ν grados de libertad y 1 tν la función de distribución inversa de la t- student univariada [23]. Para el caso bivariado la cópula puede ser escrita según la ecuación (2.8) como: t Cv, Σ ( u1, u2 ) = 1 1 t ( u ) t ( u ) 2 2 ( v+ 2) / 2 ν 1 ν 2 2π 1 s 1+ 2Σst + t ( ) Σ 1 v( 1 Σ ) ds dt (2.9) En las figuras 2.2 y 2.3 se muestran los resultados de aplicar la t-cópula a dos variables aleatorias de datos cada una con diferentes coeficientes de correlación, donde es claro que la relación de dependencia es más fuerte en los extremos. Figura 2.2. Ejemplo de cópula t. Caso Bivariado, para diferentes valores de correlación y 2 grados de libertad. En la figura 2.2 se muestra la forma que posee la función t-cópula o cópula t- student manteniendo fijo los grados de libertad ν y variando los coeficientes de

34 14 correlación. Por el contrario en la figura 2.3 se mantiene fijo el coeficiente de correlación mientras se varía los grados de libertad ν. La figura 2.2 muestra como las observaciones se concentran en el centro de la distribución que parece hacerse más dispersa para valores de correlación menores a 0.5 ( y valores mayores a -0.5) y menos dispersa para valores más cercanos a 1 (o -1), sin perder la simetría radial que caracteriza este tipo de distribuciones. En la figura 2.3 se observa que grandes valores de ν (por ejemplo ν =1000) hacen que la cópula se aproxime a la distribución Gaussiana, por el contrario pequeños valores de ν (por ejemplo ν =1 y ν =2), incrementan la dependencia en los extremos de la distribución. Observe que para el caso de ν =1 se produce unas especies de alas en la distribución, efecto que puede no ser deseado a la hora de crear relaciones de dependencia entre los datos, este efecto puede ser observado con más claridad en la figura 2.4. Figura 2.3. Ejemplo de cópula t. Caso Bivariado, para diferentes valores de grados de libertad y 1000 grados de libertad.

35 15 La relación de dependencia en los extremos existe y esta tiende a cero a medida que los grados de libertad tienden al infinito, esto significa que a medida que los grados de libertad aumentan la t-cópula se aproxima a una cópula Gaussiana. u3[,2] u3[,1] Figura 2.4. Efecto no deseado para la función t-cópula. A pesar de sus expresiones complicadas las cópulas elípticas son de fácil implementación, pero como ya se vio tienen algunas limitaciones como que la estructura de dependencia es simétrica. Dependiendo de la aplicación y de los datos con los que se quiere trabajar esta particularidad puede no ser conveniente. No obstante, otra ventaja que poseen las cópulas Gaussiana y t de Student con respecto a las funciones de distribución de las cuales se derivan, es que a partir de las cópulas es posible utilizar variables aleatorias que sigan distribuciones marginales que no sean Gaussianas o t de student [23] Cópulas Arquimedianas Existen situaciones en donde para captar de manera razonable una dependencia entre variables es necesaria alguna forma de asimetría. Este tipo de casos caen en la categoría de cópulas Arquimedianas [4].

36 16 Las cópulas Arquimedianas son la familia de funciones más numerosa. La mayoría de las cópulas que pertenecen a esta familia son funciones de uno o dos parámetros, lo que si bien permite representar fácilmente diferentes tipos de dependencia, también implica una de sus mayores limitaciones, ya que resulta complicado describir relaciones de dependencia complejas con un numero reducido de parámetros, especialmente en dimensiones altas [41]. A continuación, se mencionan tres de las cópulas Arquimedianas más relevantes. Al contrario de las cópulas elípticas, las cópulas Arquimedianas no son obtenidas directamente a través de distribuciones multivariadas y del Teorema de Sklar. Debido a esto, es necesaria mucha atención sobre como las cópulas de esta clase pueden ser construidas [41]. Estás cópulas tienen la forma ( Φ( u ) + Φ( u ) Φ( u )) 1 C( u, u2,..., un ) = Φ n (2.10) donde Φ es una función decreciente que mapea [ 0,1] en [ 0, ) [23].} Dentro de la clases de cópulas Arquimedianas, se pueden destacar tres familias comúnmente utilizadas: Gumbel, Clayton, y Frank. Estás tres familias solo utilizan un parámetro para su construcción, el cual es denominado parámetro de asociación [44] Cópula de Gumbel Es una cópula asimétrica que presenta dependencia solamente en el extremo o cola superior de la distribución [23]. Esta cópula está dada por la siguiente expresión: C exp 1 θ θ θ ( ln u ) + ( ln u ) ( ln u ) Gu = θ θ ( u1, u2,..., un ) 1 2 n ) (2.11)

37 17 donde θ Φ Gu ( u) = ( ln u) con u { u, 1 u2,..., u n } con [ 1, ) θ. Para θ = 1 = (ver ecuación (2.10)) obtenemos la cópula de independencia. Para θ + la expresión se reduce a tener M u, u..., u ) = min( u, u..., u ). ( 1 2, n 1 2, n La cópula de Gumbel es un ejemplo de una cópula asimétrica que posee gran dependencia en el extremo superior, como puede apreciarse en la figura 2.5, considerándose diferentes valores para el parámetro de asociación [45] Cópula de Clayton También es conocida como cópula Cook-Johnson, presenta dependencia solamente en el extremo inferior. Fue propuesta inicialmente por Clayton (1978) y estudiada posteriormente por Oakes (1982) y Cook & Johnson (1981 y 1986) [23]. Figura 2.5. Ejemplo de cópula de Gumbel. Caso Bivariado, para diferentes valores de asociación.

38 18 La cópula Clayton puede ser formulada de la siguiente manera: 1 θ θ θ ( ) u1 + u u 1 θ n,0 Cl C (,,..., ) = max θ u1 u2 un (2.12) con 1 Φ ( u θ ) = ( 1) θ u Cl (ver ecuación (2.10)) donde u = { u u,..., }, en el intervalo θ [ 1, ) \ {0} 1, 2 u n Además se tiene que: Para θ 0 la expresión se reduce a la cópula de independencia: C ( u1,..., ) = n u n u i i= 1 Para θ = 1 la expresión se reduce a W u, u..., u ) max( u + u u 1,0), ( 1 2, n = 1 2 n que como se indico anteriormente representa la máxima dependencia negativa. Para θ + la expresión se reduce a M u, u..., u ) = min( u, u..., u ), correspondiente a la máxima dependencia positiva. ( 1 2, n 1 2, n La cópula de Clayton es una cópula Arquimediana asimétrica que exhibe una gran dependencia en el extremo inferior o cola inferior [23], como puede apreciarse en la figura 2.6, conforme el parámetro de asociación aumenta está dependencia es más clara.

39 19 Figura 2.6. Ejemplo de cópula de Clayton. Caso Bivariado, para diferentes valores de asociación Cópula de Frank Al contrario de las dos últimas cópulas descritas, la cópula de Frank no presenta dependencia en ninguno de los extremos. Fue propuesta inicialmente por Frank (1979) y estudiada posteriormente por Genest (1987) [41]. Está cópula es simétrica y su expresión es la siguiente: C Fr θ ( u 1 ln 1+ θ 1, u2,..., un ) = θ θu1 θu2 θu ( e 1)( e 1 )... ( e n 1) e 1 (2.13) donde Φ e ( u) = ln e θu θ 1 1 Fr con R /{ 0} θ (ver ecuación (2.10))

40 20 Además se cumple que: Para 0 θ la expresión se reduce a C( u1,..., ) = n u n u i Para θ + la expresión se reduce a M u, u..., u ) = min( u, u..., u ) (máxima asociación positiva). i= 1 ( 1 2, n 1 2, n Para θ la expresión se reduce a W u1, u2,..., u ) max( u1 + u u 1,0), esto es máxima asociación negativa. ( n = 2 n Figura 2.7. Ejemplo de cópula de Frank. Caso Bivariado, para diferentes valores de asociación Simulación con cópulas: Entre los principales usos de la cópula se destaca la simulación de variables aleatorias con diferentes estructuras de dependencia [23]. En general los pasos para la simulación son los siguientes: 1. Estimar las distribuciones marginales F 1,..., Fn 2. Estimar una matriz de rango de correlación por pares. 3. Escoger una n-cópula C.

41 21 4. Simular los vectores aleatorios ( U 1,...,U n ). 5. Aplicar las transformaciones u F 1 ( U ) para i = 1,..., n para el i-ésimo componente. i i i

42 22 CAPITULO III TÉCNICAS ESTADISTICAS, NO ESTADISTICAS Y DE VALIDACIÓN Para evaluar el riesgo crediticio o la conveniencia de otorgar un crédito, hay una gran variedad de metodologías disponibles: análisis discriminante de Bayes y Fisher, regresión lineal, regresión logística, modelos probit, modelos tobit, métodos de programación matemática, árboles de decisión, algoritmos genéticos, redes neuronales, entre otros. Estás técnicas no sustituyen el juicio humano, por el contrario, son sólo una parte del proceso de la toma de decisiones, la cual está influenciada por las características del mercado y de lo que la entidad financiera quiera arriesgar. Dichos métodos permiten evaluar las capacidades de endeudamiento de los solicitantes de financiamiento, mitigando las pérdidas acarreadas por morosidad al clasificar a los cliente en grupos de buenos o malos, lo cual permite obtener estimaciones concretas del riesgo mediante el cálculo de la probabilidad de incumplimiento del individuo en estudio, de acuerdo a una serie de características o atributos obtenidos mediante formularios o bases de datos disponibles en la entidad crediticia. Para aplicar estás técnicas se debe disponer de un conjunto de datos que incluya la información del grupo al que pertenece cada caso, la cual servirá para construir los criterios de clasificación en cada uno de los métodos que se describen a continuación. El conjunto de datos a utilizar para la implantación de los métodos que se presentan a continuación se denominan conjunto o muestra de entrenamiento.

43 Técnicas Estadísticas Enfoque Bayesiano Está basado en el teorema de Bayes y es un método que facilita resolver la tarea de clasificación mediante el cálculo directo de las probabilidades asociadas a cada una de las hipótesis posibles. Posee una alta complejidad computacional, debido a que es necesario trabajar con distribuciones de probabilidad, las cuales a veces involucran muchos parámetros, que pueden hacer a este método poco práctico e inmanejable [42]. Es a partir del conocimiento de una probabilidad a priori y una probabilidad condicional que se determinarán las reglas de asignación que discriminaran entre los individuos, estás probabilidades se hayan mediante una población inicial para la cual ya se conozcan las clases o agrupaciones desde un principio. Para el presente caso de estudio se considerarán dos agrupaciones o clases, para el caso general de más de dos clases es amplia la bibliografía y puede referirse a [27], si así lo requiere. Estás dos agrupaciones conocidas son las representaciones de aquellos individuos con alta probabilidad de cumplimiento, a los cuales se ha definido como buenos, y de aquellos individuos cuya probabilidad indica una gran posibilidad de morosidad o incumplimiento, definidos como malos. Es así como definimos pg como la proporción o probabilidad a priori de solicitantes buenos y pb la proporción o probabilidad a priori de los solicitantes malos, siendo A el conjunto definido en el capítulo 1, la población finita inicial, para la cual se conoce las agrupaciones o subpoblaciones AG y A B, correspondientes al grupo de los buenos y malos a partir de las cuales se obtiene las probabilidades a priori y las probabilidades condicionales, p( x G) y p ( x B), que corresponden a la probabilidad de

44 24 que un solicitante bueno y malo tengan los atributos x, respectivamente. Con estás probabilidades se obtiene el resultado del Teorema de Bayes: p( x G) pg q( G x) = ( 3.1) p( x) donde q( G x) se lee como la probabilidad condicional de que un solicitante con atributos x sea bueno y p ( x) = p( x G) p + p( x B) p es la probabilidad de que el individuo G b dentro de la población tenga atributos x. De igual forma q ( B x), es la probabilidad de que alguno de los solicitantes sea malo teniendo el vector de atributos x : p( x B) pb q( B x) = (3.2) p( x) Los atributos x no siempre van a permitir separar las clases entre sí, de hecho lo normal es que existan zonas de solapamiento entre las clases. Esto significa que al efectuar una asignación podemos equivocarnos. Un criterio natural para efectuar la asignación es el de minimizar la probabilidad de mala clasificación o maximizar la de acierto [42]. Los errores obtenidos durante la clasificación involucran costos, los cuales dependen de la agrupación (buenos o malos) a la cual se esté interesado. Si por ejemplo la categoría seleccionada es A G, entonces hay solo un costo el cual sucede cuando se aprueba a un solicitante malo, de manera que el costo esperado es x es clasificado en p G AB Dp ( x B) p. Si por el contrario hay un costo si el solicitante es bueno, siendo el costo esperado Lp ( x G) [42]. Siendo D y L valores positivos que corresponden a los costos asociados a los dos tipos de error existentes. B

45 25 Ahora, a partir de todo lo anterior, hay que crear una regla de asignación que maximice la probabilidad a posteriori, para ello note que de (3.1) y (3.2) la razón de verosimilitud está dada por B G p B x p p G x p x B q x G q ) ( ) ( ) ( ) ( = (3.3) y así considere que se clasifica x en G A si G B p G x Lp p B x Dp ) ( ) (. Así la regla de decisión que minimiza el costo esperado está dada por: = = = ) ( ) ( ) ( ) ( } ) ( ) ( { x B q x G q L D x p B x p p G x p L D x p G x Lp p B x Dp x A B G G B G (3.4) dado que no siempre se poseen los costos durante la fase de entrenamiento, la regla (3.4) puede ser reescrita de la forma siguiente: { } ) ( ) ( } ) ( ) ( { x G q x B q x p G x p p B x p x A G B G = = (3.5) note que está regla de clasificación considera iguales costos para los distintos tipos de errores, esto es 1 = L D. La regla de decisión (3.5) puede ser reescrita considerando la función discriminante ) ( ) ( ) ( x B q x G q x g =, siendo la regla de decisión { } 0 ) ( = x g x A G [39]. Todo el análisis anterior es válido tanto para variables discretas como variables continuas. En el caso de atributos continuos, se supone que dichas variables siguen una distribución normal, por lo que se requiere del cálculo adicional de la media y la varianza de los datos. Se tiene el caso normal univariado, caso normal multivariado con covarianza

46 26 común y el caso normal multivariado con matrices de covarianzas diferentes que son descritos a continuación. En cuanto al caso de atributos discretos es común usar la distribución binomial para los cálculos, esto se discute con detalle en la sección Caso Normal Univariado Es el caso más sencillo posible, en el cual sólo hay un atributo que es continuo, con una distribución para los buenos igual a f ( x G) que es normal con media µ G y varianza 2 σ, mientras que la distribución para los malos es normal con media µ B y varianza Entonces 2 σ. ( x µ ) = G f ( x G) (2πσ ) exp 2 (3.6) 2σ usando (3.6) en la regla de decisión (3.4) tenemos f ( x G) f ( x B) ( x µ ) 2 G exp( ) 2 2 x G + = 2σ ( µ ) = exp 2 x 2 ( µ B ) 2σ exp( ) 2 x( µ 2σ G 2 2 µ G µ B µ B ) 2 2 Dp + σ log Lp ( x µ ) B G B 2 Dp Lp B G (3.7) está regla se transforma en aceptar si el valor de x es lo suficientemente grande [42]. La regla de decisión (3.7) puede ser reescrita de manera más sencilla considerando la función discriminante { x g( ) 0} A G = x [39]. 2 2 µ G µ B 2 DpB g( x) = x( µ G µ B ) σ log, de manera que 2 LpG

47 Caso Normal Multivariado Con Covarianza Común Se trata del caso cuando hay p características o variables en la solicitud de crédito y los resultados obtenidos para diferenciar entre los clientes buenos y malos forman ambos una distribución normal multivariante. Asuma que las medias son µ G para los buenos y µ B para los malos con matriz de covarianza común Σ. Esto significa que E ( X i G) µ G, i =, E ( X i G) = µ B, i y E( X X G) = E( X X j B) = Σ ij con i, j = 1,..., p. i j i La correspondiente función de densidad para este caso es: 1 ( x µ ) Σ ( x µ ) 1 1 T 2 2 = Σ G G f ( x G) (2π ) (det ) exp (3.8) 2 donde ( x µ G ) es un vector con una fila y p columnas y ( x µ ) T G es su transpuesta. Utilizando la regla de decisión (3.4) y la función de densidad (3.8) se tiene: x Σ µ 1 T 1 T µ Σ µ µ Σ Dp (3.9) T G G B B B ( ) + G µ B log 2 LpG 1 µ El lado izquierdo de (3.9) es una suma de la forma x1 ω 1 + x 2ω ω, donde x p p ωison los pesos correspondientes a cada uno de los atributos presentes en la muestra, mientras que el lado derecho es una constante [42]. Así de la fórmula (3.9) se obtiene la regla lineal g(x) la cual es conocida como función lineal discriminante. En este caso se asume medias y matriz de covarianza conocidas, lo cual no es común, es más normal remplazar estas por sus estimados, los cuales son, la media muestral

48 28 m G, mb entonces y la matriz de covarianza muestral S. Por la regla de decisión (3.5) se tiene g( x) = x Σ 1 1 T 1 T µ Σ µ µ Σ µ Dp µ G B 2 (3.10) LpG T G G B B B ( µ ) log Caso Normal Multivariado con Diferentes Matrices de Covarianzas Ahora suponga que la matriz de covarianza de la población de los buenos es ΣG y para los malos es Σ B. En este caso (3.4) se transforma en 1 exp 2 1 T 1 T ( x µ ) Σ ( x µ ) ( x µ ) Σ ( x µ ) ) G G G B B B Dp Lp 1 1 T 1 T 1 T 1 T 1 T DpB ( x( Σ Σ ) + ( Σ Σ ) ( Σ Σ ) + G B x 2x G µ G B µ B µ G G µ G µ B B µ B 2log LpG B G (3.11) El lado izquierdo es cuadrático en los valores x x xp. Está parece ser una regla de decisión más general y mucho mejor que la lineal. En la práctica, sin embargo, se estiman el doble de parámetros ΣG y Σ B. La incertidumbre extra en estas estimaciones hace que la regla de decisión cuadrática sea menos robusta que la lineal y en la mayoría de los casos no merece la pena [42], cabe destacar que la regla de decisión puede ser reescrita al igual que en los casos anteriores Bayes para Características Discretas Considere el problema en el cual se poseen p atributos que son binarios e independientes condicionalmente. La correspondiente función de probabilidad para este caso es:

49 29 p p xi 1 xi ( x G) p ( i) ( 1 p ( i) ) = G G, i = 1,..., p (3.12) i= 1 donde ( x G) p corresponde a la probabilidad condicional de los buenos, la probabilidad condicional para los morosos se define de forma similar. Así la razón de verosimilitud dada en (3.3) se traduce en q( G x) = q( B x) p( x G) p p( x B) p G B = x x p i 1 i G G i= 1 B B ) p p ( i) ( i) 1 p 1 p ( i) ( i p p G B (3.13) con p el número de atributos, p G (i) se define como la probabilidad de que el individuo i sea bueno, p B (i) es la probabilidad de que el individuo i sea malo, pg y pb son las probabilidades a priori de los buenos y los malos respectivamente y los valores correspondientes a los atributos solo toman los valores 0 y 1. xi Usando la regla de decisión (3.4) y la función logaritmo, se obtiene la función de discriminación lineal mostrada en la ecuación (3.14): d p g( x) = xi ln i 1 p G ( i) + ( i) 1 p ( i) Dp G B ( 1 x ) + i ln ln 1 pb ( i) Lp = B G, i = 1,..., p (3.14) de manera que la regla de clasificación puede ser escrita como = { x g( x) 0} A G [39] Discriminador Lineal de Fisher El análisis discriminante (Fisher, 1936) es una técnica estadística multivariada que permite estudiar de forma simultánea el comportamiento de un conjunto de variables independientes, con el objetivo de clasificar a un colectivo en una serie de grupos

50 30 previamente determinados y excluyentes [29]. En el contexto de crédito, los dos grupos a considerar por el prestamista son buenos o malos, a partir de los detalles o la información que se tiene del solicitante. El método consiste en encontrar una función lineal g ( x) = ω 1 x1+ ω2 x ω p xp, la cual es una combinación lineal de las características x = ( x + x ) 1 2 x p, que mejor discrimine los grupos establecidos, de manera que el error cometido sea mínimo. Para ello será necesario maximizar la diferencia entre los grupos (variabilidad entre grupos) y minimizar la diferencia en los grupos (variabilidad intragrupos), obteniendo así unos coeficientes de ponderación i ω i = 1 [42]. ωi que haga la máxima discriminación y cumplan con Dicha función g tendrá la capacidad de predecir la pertenencia o no de un individuo en algunos de los dos grupos establecidos a priori. Con el objetivo de asegurar la potencia discriminadora del modelo es necesario establecer fuertes hipótesis de partida que van a suponer una limitación para el análisis de cualquier problema de clasificación que se presente [10]. Estás son: 1. Las p variables o atributos independientes deben tener una distribución normal multivariada. 2. Igualdad de la matriz de varianzas-covarianzas de las variables independientes en cada uno de los grupos. 3. El vector de medias, las matrices de covarianzas, las probabilidades a priori y el coste de error son magnitudes conocidas. 4. La muestra extraída de la población es una muestra aleatoria. Tan sólo bajo estás hipótesis la función discriminante obtenida será optima. Las dos primeras hipótesis (la normalidad y la igualdad de la matriz de varianzas y covarianzas) difícilmente se verifican en muestras de carácter financiero, cuestión que no impide al

51 31 análisis de discriminante obtener buenas estimaciones, aunque realmente éstas no puedan ser consideradas óptimas [10]. A pesar de esto, está técnica conduce a una buena regla de clasificación, ya que según Fisher, maximiza la separación entre los grupos, sea cual sea la distribución de los datos [42]. Suponga que se tienen las medias muestrales de los buenos y malos, mg y mb respectivamente y sea S la matriz de varianza muestral común. Si Y = ω... + clases es 1x1+ ω2 x 2+ ω p x p entonces la correspondiente distancia de separación de las M T mg mb = w (3.15) 1 T ( w S w) 2 E Y G m G T T esto proviene de ( ) =, E( Y B) = w w T y Var( Y ) = w S w. m B Diferenciando esto con respecto a w y haciendo la derivada igual a 0, este valor M es maximizado cuando m G m T ( w S w ) T T ( w ( m m ) )( S ) B G B W = T ( w S w ) T T T ( m m )( w S w ) = ( S w )( w ( m m ) ) G B G B 0 (3.16) puesto que w S w ( w ( m m ) ) T G T B es un escalar λ, rescribiendo el resultado (3.16) se obtiene w T ( S ( m m ) ) T 1 (3.17) G B

52 32 Así (3.17) muestra el mejor separador de clientes bueno y malos, sin importar cual es la distribución original de los datos. Este resultado se mantiene para todas las distribuciones porque la medida de distancia M involucra sólo la media y varianza de las distribuciones y así da los mismos resultados que para todas las distribuciones con la misma media y varianza [42]. g La regla de decisión a utilizar en este método es = { x g( x) u} A G, donde T ( x) = w x y u es un umbral o punto de corte que puede ser obtenido como el punto medio de la distancia entre las medias de los grupos estandarizados [42] Regresión Logística La regresión logística es uno de los modelos lineales más utilizados por las entidades bancarias en la clasificación crediticia por su fácil aplicación. El modelo logístico es otra técnica que se basa en el cálculo de probabilidades de que un individuo pertenezca o no a uno de los grupos establecidos a priori. La clasificación se realizará en función del comportamiento de una serie de variables independientes que constituyen las características de un individuo. En este caso la variable de respuesta tiene dos o más posibilidades, cada una con su probabilidad, siendo la suma de estas probabilidades igual a uno. Para este trabajo se utilizará la situación más habitual la cual es tener dos posibilidades, valores o clases, para el caso más general puede leerse [29]. Para abordar el problema defina una variable y, que tome el valor cero cuando el elemento pertenezca a la agrupación de individuos con alta probabilidad de morosidad y uno cuando pertenezca a la otra población, que consta de aquellos individuos con baja probabilidad de morosidad. Entonces la muestra de n elementos del tipo ( x, ) j y j, donde

53 33 x j es un vector o matriz de variables explicativas y y j es la variable de respuesta binaria que sigue una distribución binomial con parámetro p j. y j 1 = 0 q( G x) = p q( B x) = 1 p j j j = 1,...,n donde p j es la probabilidad de que el individuo en cuestión sea bueno, estos valores pueden ser diferentes para cada individuo. Se ve que el valor esperado es precisamente p j E [ y x] = 1 p + 0 (1 p ) = p (3.18) j j j j considere la formulación del modelo de regresión lineal multivariado y = ω + ω x + ω x ω x = w x T p p (3.19) y tomando esperanzas sobre (3.19) se tiene E T ( y x) = ω + ω x + ω x ω x = w x p p (3.20) usando el resultado de (3.18), la ecuación (3.20) es equivalente a p j = ω + ω x + ω x ω x = w x T 0 1 j1 2 j2 p jp, j 1,..., n = (3.21) Para obtener directamente la función g que discrimina entre los grupos, se debe transformar la variable de respuesta mediante una función de transformación F, puesto que el lado izquierdo de la ecuación (3.21) toma valores entre cero y uno, y el lado derecho de dicha ecuación toma valores entre y, es así como (3.21) se transforma en

54 34 p j T = F( w x ) (3.22) generalmente se toma F en (3.22) como la función de distribución logística, denominada función logit, la cual está dada por: p j 1 = 1 + e T w x (3.23) utilizando (3.21) en (3.23) se obtiene la ecuación (3.24) g j p j = log = ω + ω + ω + + ω p j T 0 1x j1 2 x j p x jp w x, j 1,..., n = = (3.24) la función g j representa en una escala logarítmica, la diferencia entre las probabilidades de pertenecer a ambas poblaciones, y al ser una función lineal de las variables explicativas nos facilita la estimación y la interpretación del modelo. El valor wo representa los desplazamientos laterales de la función logística y los valores wi representan los coeficientes que ponderan las variables independientes. Los coeficientes w, w 1,..., wp son obtenidos mediante máxima verosimilitud. Note además que ambos lados de la ecuación (3.24) toman valores entre e [29]. o Frente al análisis discriminante de Fisher este método presenta la gran ventaja de que no requiere ninguna hipótesis de partida, puesto que no plantea restricciones ni con respecto a la normalidad de la distribución de variables, ni a la igualdad de matrices de varianzas y covarianzas [10]. Cabe destacar que la mayoría de los problemas financieros con los cuales es frecuente enfrentarse utilizan alguna variable cualitativa, imposibilitando de este modo el

55 35 cumplimiento de la hipótesis de normalidad, siendo el modelo logístico con los estimadores de máxima verosimilitud claramente preferible [10] Función Probit La función Probit fue usada por primera vez en discriminación crediticia por Grablowsky y Talley (1981). Se diferencia de la regresión logística en que la función de transformación F es igual a la distribución normal estándar p j T w x t T F w x = ( ) = e 2π dt (3.25) F entonces el objetivo es estimar 1 ( ) p j como una función lineal de las características del solicitante, mediante la ecuación (3.26). Está ecuación resulta de utilizar la ecuación (3.25) sobre la ecuación (3.21) de la sección anterior F p = w x = ω + x + x T ( j ) o ω1 j1 ω2 j2 ω p jp, j 1,..., n x = (3.26) donde p toma sólo valores entre 0 y 1, F 1 ( ) toma los valores entre y + y j p j así permite que la función lineal varíe por encima de todo su rango. Dado que la transformación normal y logística están muy próximas entre sí, excepto en los extremos, no es probable obtener resultados muy diferentes si se aplica cualquiera de las dos transformaciones F, a menos que las muestras sean muy grandes. Desde la perspectiva teórica, la diferencia entre ambos modelos, es como se muestra en la figura 3.1, en donde se muestra la gráfica g j versus p j. Es claro que la principal diferencia está en que el modelo logístico tiene colas ligeramente más planas, mientras que la curva normal o probit se acerca a los ejes más rápidamente que la curva logística. Por consiguiente, la selección de uno de los dos es de conveniencia matemática [18, 34].

56 36 Figura 3.1. Diferencias entre el modelo logístico y el modelo probit Función Tobit Otra técnica usada para la calificación crediticia que es muy común en los modelos económicos es el análisis Tobit. La transformación Tobit asume que uno puede estimar p j por medio de la expresión p j T { w x,0} = max{ ω + ω x + ω x + + ω x,0} = max o 1 j1 2 j2 p jp, j = 1,..., n (3.27) En este caso, se trata la igualdad limitando los valores entre los dos lados de la regresión aproximándose al análisis del discriminante expresada por la ecuación (3.21), obligando al lado derecho para que sea positivo [43] Árboles De Clasificación Un árbol de decisión o de clasificación es un conjunto de condiciones organizadas en una estructura jerárquica, de tal manera que la decisión final a tomar se puede determinar siguiendo las condiciones que se cumplen desde la raíz del árbol hasta alguna de sus hojas.

57 37 Figura 3.2. Árbol de Clasificación Binario. La idea de está técnica es particionar de manera sucesiva el conjunto de atributos x, para luego identificar cada uno de los subconjuntos obtenidos como buenos o malos, de acuerdo a un conjunto de respuestas que se poseen a priori. Este método fue desarrollado por Breiman y Friedman en 1973 para problemas generales de clasificación [42]. Son muchas las ventajas que posee éste método puesto que a contrario de los métodos anteriormente descritos los árboles de decisión no hacen suposiciones sobre la distribución ya sea de las variables predictoras como de la variable de respuesta, además las variables pueden ser de diferentes tipos como continuas, discretas, categóricas o nominales. Tampoco se ven afectados por valores extremos, colinealidad o heterocedasticidad que afecten los resultados, en caso de poseer valores atípicos estos pueden ser aislados en un nodo y no tienen ningún efecto en la clasificación. Además son invariantes con relación a la transformación de las variables independientes, es decir, las transformaciones no afectan el árbol producido [10]. Entre su principal desventaja está que al ser un algoritmo de división binaria, tiende a generar árboles de muchos niveles. Por ello, el árbol resultante puede que no presente los resultados de manera eficiente, sobre todo si la misma variable ha sido utilizada para la división de varios niveles consecutivos [36].

58 38 El método consiste en tomar el conjunto de datos A original y dividirlo en dos subconjuntos, los cuales son más homogéneos en cuanto al riesgo que el conjunto original. Cada uno de estos conjuntos se divide entonces de nuevo en dos para producir subconjuntos más homogéneos y el proceso se repite, se trata de una división o partición recursiva. El proceso se detiene cuando los subconjuntos reúnen los requisitos necesarios para ser nodos terminales del árbol. Cada nodo terminal es entonces clasificado como un miembro de árbol [36]. AG o AB y el procedimiento entero puede presentarse gráficamente como un Son tres las decisiones que deben ser tomadas para llevar a cabo el procedimiento de árbol de clasificación, en primer lugar es necesario tener una regla de partición, que determine como debe ser la división de los datos de entrada que contienen a las variables predictoras, también es necesario una regla de parada, la cual determinará, cuando un subconjunto resultante de alguna partición es un nodo terminal, por último es necesario tener otra regla que determine cómo asignar los nodos terminales en las categorías de buenos y malos. La decisión de cómo asignar un conjunto como bueno o malo es sencilla, normalmente se asigna un nodo como bueno si la mayoría de los datos en ese nodo corresponden a casos buenos. La regla de división más simple es aquella en que se consideran varias divisiones y se decide cual es la mejor para cada característica o atributo por medio de alguna medida de cuan buena es dicha división. Para ver esto hay varias medidas de pureza, las cuales miden que tan homogénea es la partición obtenida, dichas medidas son el estadístico Kolmogorov-Smirnov, índice de impureza básico, el índice de Gini, el índice de entropía, la suma de cuadrados medios y método de desviación mínima cuadrática. De todos ellos, el más usado es el índice de Gini [36].

59 39 El índice de Gini permite determinar cual es la mejor división de los datos. Para el cálculo de este valor considere la partición l y r en el nodo v, entonces el valor del índice de Gini ( I ) se obtiene de la siguiente manera: I = p( G v) p( B v) p( l) p( G l) p( B l) p( r) p( G r) p( B r) = i( v) p( l) i( l) p( r) i( r) (3.28) donde i ( v) = p( G v) p( B v) p ( G ) : probabilidad de tener clientes buenos en un nodo o partición. p ( B ) : probabilidad de tener clientes malos en un nodo o partición p (l) : es la proporción de casos en el nodo v que pertenecen a la partición l. p (r) : es la proporción de casos en el nodo v que pertenecen a la partición r. De todas las posibles particiones de datos posibles para la división del nodo se escoge aquella con mayor índice de Gini. En cuanto a la regla de parada, un proceso de partición se detiene cuando ocurre algunos de los siguientes eventos: el nodo se vuelve puro, esto es, todos sus elementos tienen el mismo valor en la variable de respuesta, es decir, todos son buenos o todos son malos. Otro criterio es cuando la profundidad del árbol (cantidad de niveles) ha alcanzado el valor máximo preestablecido, o cuando el número de elementos que constituyen el nodo es menor que el tamaño mínimo preestablecido para un nodo parental, la división del nodo tiene como resultado un nodo filial cuyo número de casos es menor que el tamaño mínimo preestablecido para un nodo filial. En general se espera que el árbol generado sea demasiado grande, esto sucede porque el método se ajusta demasiado a los datos utilizados para su construcción, produciéndose un modelo muy especifico que se comportara mal para nuevos datos (problema de sobreajuste), esto es especialmente grave cuando los datos contienen ruido

60 40 (errores en los atributos o incluso en la variable de respuesta), ya que el modelo intentará ajustarse a los errores y esto perjudicará el comportamiento global del modelo obtenido. Por estás razones se necesitará reducir (podar) el árbol para conseguir un modelo de clasificación robusto [36]. La poda del árbol consiste en eliminar las condiciones representadas por las ramas del árbol, tal como se ilustra en la figura 3.3. Para esto se utiliza el método de poda por mínimo coste-complejidad que se describe a continuación. Considere T como el árbol de clasificación y defina TG y T B nodos clasificados como buenos y malos respectivamente. Sea r ( t, B) como el conjunto de la proporción de la muestra utilizada para la validación que está en el nodo t y es clasificada como mala cuando en realidad es buena y sea r ( t, G) la proporción de la muestra que es clasificada como buena a pesar que originalmente es mala. Entonces la pérdida esperada es igual a r ( T ) = D r( t, B) + L r( t, G). Si n(t) es el número de nodos terminales en el árbol t T G t T B T, defina c( T ) = r( T ) + d n( T ) y pode el árbol T * dividiendo todos los subárboles de T * y escogiendo aquél árbol T que minimice c (T ). Si d = 0 se mantiene el árbol original sin podar, si d es muy grande ( d = ) el árbol se reducirá a un nodo, esto es, d indica que tan grande es el árbol requerido. Figura 3.3. Poda de un árbol de Clasificación.

61 K-Vecinos Más Cercanos El método del vecino más cercano es una aproximación no paramétrica utilizada en problemas de clasificación y sugerido por Fix y Hodges (1952). Fue primero aplicado en el contexto de discriminación crediticia por Chatterjee y Barcun (1970) y después por Henley y Hand (1996). La idea es escoger una métrica para medir que tan separados están dos solicitantes cualesquiera, de manera que un nuevo solicitante es clasificado en alguna de las categorías dependiendo de la proporción de buenos y malos presentes en los k solicitantes más cercanos de la muestra original [43]. Los tres parámetros necesarios para ejecutar este método son la métrica, el número de solicitantes k que constituyen el conjunto de vecinos más cercanos y la proporción de éstos k solicitantes que deben ser buenos para que un solicitante sea clasificado como bueno. Normalmente, la respuesta a esta última pregunta es que si una mayoría de los vecinos son buenos, el solicitante es clasificado como bueno; de lo contrario, el solicitante es clasificado como malo [39]. La escogencia de la métrica es claramente crucial. Fukanaga y Flick (1984) introdujeron una métrica general de la forma: d( x x 1 T ( x x ) A( x )( x x ) 2 = (3.29) 1, 2 ) ) donde A(x) es una matriz p p, definida positiva simétrica. Henley y Hand (1996) estudiaron con más detalle la aproximación (3.29), concentrándose en métricas que fueran mezclas entre la distancia Euclidea y la distancia en la dirección en que mejor separa los buenos de los malos. Se obtiene está dirección mediante el discriminador lineal de Fisher mostrado anteriormente. Así si w es el vector p-dimensional que define esa dirección, el cual es dado por (3.17). Henley y Hand sugirieron una métrica de la forma:

62 42 1 T T {( x x ) ( I + Dw w )( x } 2 d( x x = x (3.30) 1, 2 ) ) donde I es la matriz identidad. Estos autores realizaron un gran número de experimentos para identificar lo que podría ser una opción conveniente de D. De igual forma, ellos escogieron k, el número ideal de vecinos más cercanos, después de experimentar con varios valores de k. Aunque no hay variaciones grandes en los resultados, la opción mejor para D está en el rango l.4 a 1.8. El valor de k depende claramente del tamaño de la muestra de entrenamiento, sin embargo, no hay mucha diferencia en los errores de clasificación para un k que varía sobre un rango de 100 a 1000 (considerando una muestra de entrenamiento de 3000 datos). 3.2 Técnicas no estadísticas Programación Lineal Mangasarian en 1965 fue el primero en reconocer que la programación lineal podía ser usada en problemas de clasificación donde hay dos grupo los cuales están separados por un hiperplano, i.e., una función lineal discriminante, la cual puede separar a las dos clases de manera exacta. Freed, Volver y Hand en 1981 reconocieron que la programación lineal podía ser usada para discriminar entre dos grupos a pesar de que los mismos no fueran linealmente separables, usando como función objetivo la minimización de los errores [43]. Los alcances más utilizados son el modelo MSD, minimización de la suma de los valores absolutos de las desviaciones, cuya formulación es mostrada en (3.31) y el modelo MMD, minimización de la máxima desviación que se muestra en (3.32). Para la formulación de los dos modelos anteriores debe considerarse que la muestra de tamaño n está ordenada, de manera que los primeros 1,...,n G elementos de la muestra

63 43 correspondan a los individuos no morosos (buenos) y los restantes aquellos individuos considerados en la muestra como morosos (malos) [42]. n + 1,..., n + n son G G B (MSD) Min a1 + a a ng + n B s.a w x + w x w x c a 1 j n 1 j1 2 j2 p jp j, G w x + w x w x c + a n +1 j n + n (3.31) 1 j1 2 j2 p jp j, G G B a j 0, 1 j n G + nb (MMD) Min s.a a w x w + w x w x c a 1 j n 1 j1 2 j2 p jp, G 1 x j 1 + w2x j w p x jp c + a, n G j ng + nb a 0, 1 j n G + nb +1 (3.32) en las dos formulaciones la variable c es considerado el umbral o punto de corte que separa a la muestra en dos clases, la clase de los bueno y la clase de los malos, de la misma forma las variables a y a j corresponden al error de clasificación, el cual es minimizado. Para que ambas formulaciones den una solución factible diferente a la solución trivial es necesario agregarles una restricción extra, la cual es p i= 1 w = 1 (3.33) i Los valores a obtener mediante los modelos señalados en (3.31) y (3.32) son el vector de los pesos w, el valor a o vector de errores a j y el valor c. Las formulaciones planteadas suponen que los buenos toman valores mucho más altos que los malos, de

64 44 manera que bajo está suposición se obtendrá un vector de pesos positivos y un umbral o punto de corte c positivo, en caso de no ser así estos valores serán negativos [42]. Una de las ventajas de este método es que pueden agregarse restricciones sobre las variables o atributos del estudio, por ejemplo establecer restricciones sobre la edad de los individuos, sobre sus ingresos, entre otros. Una alternativa que mejora el modelo es el uso de la técnica Bootstrap (ver sección 3.3) repetidas veces para estimar los parámetros del modelo, luego se calcula la media de los resultados obtenidos junto con su desviación estándar. Con esto se obtienen mejores resultados para la clasificación además de permitir el cálculo de los estadísticos necesarios para evaluar si los parámetros estimados son estadísticamente significativos [49]. La técnica de bootstrap se discutirá con más detalle en la sección Redes Neuronales Los modelos de redes neuronales se conocen por su asombrosa capacidad para aprender, generalizar y retener conocimiento de los datos, por está razón su uso como modelos de clasificación y reconocimiento de patrones ha aumentado considerablemente en los últimos años [1]. Las redes neuronales consisten en neuronas o nodos interconectados que se organizan en capas. Por lo regular, los modelos neuronales constan de tres capas: entrada, oculta y salida, como se observa en la figura 3.4.

65 45 Figura 3.4. Red Neuronal. Las redes neuronales aprenden en forma supervisada o no supervisada. En la modalidad supervisada, la red neuronal intenta predecir los resultados mediante variables o atributos conocidos, compara sus predicciones con la variable de respuesta y aprende de sus errores. Las redes neuronales supervisadas se emplean para predicción, clasificación y modelaje de series históricas. El aprendizaje no supervisado es eficaz para la descripción de datos, pero no para la predicción de resultados. Las redes supervisadas crean sus propias descripciones y validaciones, y trabajan exclusivamente a partir de los patrones de datos. Entre más grande sea una red, es decir, más capas ocultas posea, la complejidad de la ecuaciones matemáticas que se deben resolver al interior del nodo de salida aumenta excesivamente, lo que hace prácticamente imposible entender su funcionamiento o explicar el resultado [27]. Para lograr un buen funcionamiento de las redes es importante realizar un buen entrenamiento, el cual consiste, de manera general, en la asignación de los pesos que debe tener cada variable de entrada con el fin de lograr la mejor aproximación [39]. Entre los modelos más utilizados en redes neuronales se encuentra el Perceptrón Multicapa (MLP), el cual es el modelo más estudiado y usado en la industria. Se trata de una red conformada por una capa de entrada, una o varias capas ocultas, una salida y una función de activación en cada nivel. Se caracterizan por tener una conexión completa entre

66 46 capas sucesivas, es decir, cada nodo en una capa está totalmente conectado sólo a todos los nodos en las capas adyacentes [31]. Una red neural simple, como la de la figura 3.5, se puede representar algebraicamente como u k = w ko x o p + wk1 x wkp x p = wkq x (3.34) q= 0 q donde los valores x,..., x entradas de la neurona, los valores 1 p corresponden a las variables o atributos, las cuales ocupan las w 1 p,, wkp corresponden a los pesos, los cuales ponderan el rendimiento de la sinapsis, si estos valores son positivos estimulan la neurona, puesto que hay un incremento en la variable correspondiente y si estos valores son negativos, son llamados inhibidores debido a que reducen el valor de uk como se observa en la ecuación (3.34), donde el índice k indica la neurona sobre la cual se hacen los cálculos. Note que la figura 3.5 también incluye una neurona cuyo peso es conocida como sesgo o bias, donde xo es igual a uno [27]. w x ko o y es Figura 3.5. Componentes de una Red Neuronal.

67 47 El valor uk la ecuación (3.35) y (3.36) es transformado usando una función de activación como se observa en y = F u ) (3.35) k ( k donde 1 si uk 0 F ( uk ) = 0 si uk < 0 (3.36) la función umbral mostrada en (3.36) es bastante sencilla e indica que si es cero o mayor la salida es 1, en otro caso la salida es 0. uk Otro ejemplo de función de activación se observa en la ecuación (3.37), ésta función es conocida como función logística o sigmoide y su comportamiento es mostrado en la figura 3.6 junto con la función umbral binaria definida en (3.36) 1 F( uk ) = 1 au + e k (3.37) El valor de a en la función logística de (3.37) determina la inclinación de la curva, es claro que para ambas funciones la salida (ecuaciones 3.36 y 3.37) están en el rango [ 0,1]. Se pueden usar otras funciones si se desea que la salida de la función sea diferente, por ejemplo si desea que la salida este en el rango de [ 1, + 1] tangente hiperbólico mostrada en (3.38) y en la figura 3.7., puede utilizarse la función F u k ) = tanh( u ) (3.38) ( k

68 48 Figura 3.6. Función de activación Umbral y Logística. Figura 3.7. Función de activación Tangente Hiperbólico. Dados los valores de los pesos y la función de activación, se puede predecir si un aplicante es morosos o no sustituyendo los valores de los atributos en (3.34) y calculando el valor yk a partir de (3.35).

69 49 Un modelo de red neuronal que consiste en una neurona y cuya función de activación es función umbral mostrada en (3.36) es llamada perceptrón y este modelo solo puede ser usado en el caso que los datos sean linealmente separables. Las redes neuronales que no necesitan que los casos sean linealmente separables son las redes de tipo Perceptrón Multicapa, las cuales son redes en forma de cascada que tienen una o más capas ocultas como las vistas en la figura 3.4, los parámetros de la ecuación (3.35) son obtenidos mediante el algoritmo de back-propagation. Se puede representar al Perceptron Multicapa de la figura 3.4 de forma algebraica como en (3.39), mediante las ecuaciones vistas en (3.35) y (3.36) y k p = F 1 wkq xq (3.39) q= 0 con k = 1,..., r las salidas de las primera capa oculta y F1 la función de activación de la primera capa después de la capa de entrada. escribir Como la salida de una capa es la entrada de la siguiente capa, entonces se puede z v r r = = p F2 K vk yk F2 K vk F1 wkq xq (3.40) k= 1 k= 1 q= 0 con v = 1,..., s, F2 es la función de activación de la capa de salida, zv la salida de la neurona v en la capa de salida, y neurona k con la capa escondida y neurona v. Kvk son los pesos aplicados a yk capa que une la

70 50 El cálculo de los pesos se realiza durante la fase de entrenamiento. Hay muchos métodos, pero el más frecuentemente usado es el de algoritmo de backpropagation o retropropagación. El método de back-propagation estándar es un algoritmo de gradiente descendente que consiste en minimizar el error cuadrático, por lo que la parte esencial del algoritmo es el cálculo de las derivadas parciales de dicho error con respecto a los parámetros de la red neuronal. Este proceso puede usarse con varias estrategias de optimización diferentes. Existe un cierto número de variaciones en el algoritmo básico, las cuales están basadas en otras técnicas de optimización, tales como el gradiente conjugado y los métodos de Newton [27]. Las redes backpropagation entrenadas de manera apropiada, se orientan a dar respuestas razonables cuando se les presentan entradas que aún no han sido consideradas Algoritmos Genéticos Los Algoritmos Genéticos (AG) descubiertos por Holland en 1975, son algoritmos de optimización que tratan de encontrar la mejor solución a un problema dado entre un conjunto de soluciones posibles, están relacionados con los procesos de evolución biológica y el principio de la selección natural de las especies propuesta por Darwin en Este algoritmo consiste básicamente en selección natural, cruzamiento y mutación de la población [42]. Los AG son una técnica robusta, que pueden tratar con éxito una gran variedad de problemas provenientes de diferentes áreas, incluyendo aquellos problemas en los que otros métodos encuentran dificultades. Si bien no se garantiza que el AG encuentre la solución optima al problema, existe evidencia empírica de que se encuentran soluciones a un nivel aceptable, en un tiempo competitivo con el resto de los algoritmos de optimización [16]. Cabe destacar que al igual que la técnica de Programación lineal es

71 51 posible establecer restricciones entre las variables o atributos presentes en el modelo a implantar. Es claro que un algoritmo genético no modela toda la complejidad que posee la naturaleza, puesto que para optimizar la supervivencia es necesario maximizar y minimizar una gran cantidad de factores, que por el contrario un algoritmo genético no modela, puesto que normalmente no optimiza varias funciones relacionadas entre sí simultáneamente, aunque existen modelos genéticos más especializados que tratan de acercarse a está idea. Para precisar un GA es un algoritmo que busca maximizar o minimizar una función objetivo a partir de un conjunto de datos codificados en la forma de un cromosoma y que tienen toda la información necesaria para resolver el problema a tratar. Toda está información pasa por un proceso de competición y adaptación sistemática que intenta encontrar la mejor solución a dicho problema, asemejándose al proceso de evolución de las especies, en donde los organismos mejor adaptados sobreviven. Así las soluciones que resuelvan mejor el problema se mantendrán o llevarán su material genético a futuras generaciones, aportando aquellas características ventajosas que los hacen mejores. Esta diversidad genética, se produce mediante operadores de mutación y cruzamiento. Para el problema que nos concierne, considere que se desea calcular los parámetros a a a b b,..., 1, 2,..., p, 1, 2 b p y c en la siguiente ecuación crediticia, utilizada normalmente para clasificar a los solicitantes a un crédito: b p b1 b2 g( x) = a1 x1 + a2x a p x p + c (3.41) siendo x,..., x 1 p los atributos para el solicitante i [42].

72 52 Una vez que los parámetros de la ecuación anterior son estimados, un solicitante puede ser clasificado como bueno o como malo de acuerdo a si g(x) es mayor o menor a un valor igual a cero. Al igual que en programación lineal los parámetros de la ecuación ( a, a2,..., a p, b1, b2,..., bp 1 y c ) pueden ser acotados, agregándole restricciones al algoritmo. Es preciso fijar un punto de partida para desarrollar el algoritmo genético, para ello se debe definir como entrada una población inicial o espacio de búsqueda, a partir de la cual se generaran nuevas poblaciones. El algoritmo discernirá que poblaciones, por ser mejores, permanecen, mientras que el resto, las menos satisfactorias, desaparecen. Este proceso se repite hasta que se encuentre una solución óptima o hasta que se llegue a una condición de término predefinida, como un límite razonable de generaciones o iteraciones. En general las etapas de un algoritmo genético son enumeradas a continuación: 1. Se decide cómo codificar las variables o atributos del problema. 2. Se genera un conjunto aleatorio o población inicial de N posibles soluciones al problema. A éste conjunto se le llama la población actual. Los algoritmos genéticos requieren que este conjunto de soluciones, se codifique en un cromosoma o cadenas de símbolos (números enteros o letras), generalmente se usa números binarios (0s y 1s) pero otras codificaciones también son posibles [16]. 3. Se califica cada posible solución o individuo de la población actual, mediante una función de adaptación, también llamada función fitness. 4. Se seleccionan dos individuos de la población actual en base a la calificación obtenida mediante la función de adaptación del paso Se genera un número discreto al azar igual a 0 ó 1. Si el valor resultante es 1 se mezclan los códigos de los dos individuos (padres) seleccionados para obtener dos híbridos (hijos), a los que se llama nuevos individuos. A este paso se le denomina cruzamiento. Si por el contrario resulta 0 se llama a los individuos seleccionados nuevos individuos. 6. Por cada nuevo individuo se genera un número discreto al azar igual a 0 ó 1.

73 53 Si resulta 1 se modifican algunos elementos del cromosoma (mutación). Si por el contrario resulta 0 el punto permanece inalterado. 7. Se incluyen a los nuevos individuos en una nueva población. 8. Si la nueva población tiene ya N individuos, se le llama población actual y se regresa al paso 3, a menos que se cumpla alguna condición de terminación. Si no, se regresa al paso 4. En cuanto a la condición o criterio de parada, generalmente está determinado por criterios sencillos, como un número máximo de generaciones, un tiempo máximo de resolución o indicadores de estado de la evolución de la población, como la pérdida de diversidad por no haber mejora en un cierto número de iteraciones. [16]. Es así como para el problema que se trata el algoritmo genético empezará buscando los valores posibles para los parámetros a a a b b,..., b 1, 2,..., p, 1, 2 p y c de la ecuación definida en (3.41), una solución a este problema es un conjunto completo de valores entre cero y uno. Para esto es calculado el rendimiento de cada solución inicial en la población actual mediante la función de adaptación, que para este problema se puede definir como el porcentaje de casos incorrectamente clasificados (minimización de la función de adaptación). Sea j una solución particular, se desea comparar la función de adaptación de cada solución g j, pero dicho valor depende de la función de adaptación usada. Para evitar esto, se calcula la función normalizada p j para cada solución candidata como p j = g j n pop j = 1 g j (3.42) donde n pop es el número de soluciones en la población [43].

74 54 A partir del valor obtenido pj se selecciona de manera aleatoria la población progenitora, donde p j es la probabilidad de que un cromosoma sea seleccionado de manera aleatoria de la población actual. Esto puede hacerse mediante el método de la n pop ruleta o selección proporcional, en donde se considera = j 1 p j como el 100% de la circunferencia de la ruleta y a cada individuo le corresponderá un trozo de manera proporcional a su aportación p j en la suma de dichas calificaciones, siendo girada la ruleta un total de n pop veces. Ya se ha seleccionado la población intermedia o progenitora proveniente de la población original, pero aún no se poseen nuevos cromosomas. Para esto se toma la población intermedia por pares y se les aplica un operador genético, el cual consiste en cambiar algunos elementos (alelos) en uno o ambos cromosomas. Se utilizan principalmente los operadores de cruzamiento y mutación, en donde cada cromosoma tiene la misma probabilidad pc de ser seleccionado para cruzamiento y pm para mutación, estos valores son escogidos por preferencia. de ser seleccionado El operador de cruzamiento consiste en tomar los primeros o últimos k elementos (alelos) de un cromosoma e intercambiarlos con los primeros o últimos k alelos del otro cromosoma. El valor de k es escogido aleatoriamente, es así como los dos cromosomas originales se convierten en los padres y el cromosoma resultante en la progenie o hijos. En este caso los hijos reemplazan a los padres en la población. Este operador permite realizar una exploración de toda la información almacenada hasta el momento en la población y combinarla para crear mejores individuos. La mutación por otro lado, consiste en tomar un elemento dentro de un cromosoma de manera aleatoria para luego intercambiarlo, esto es cambiar 1 por 0 o viceversa. El analista selecciona con probabilidad pm el cromosoma a ser mutado. El cromosoma seleccionado incluyendo al hijo resultante del cruzamiento y luego de la mutación, forma

75 55 la nueva población. Luego se repiten las fases nuevamente varias veces. El objetivo del operador mutación es la de fomentar la variabilidad dentro de la población. Entonces los parámetros escogidos por el analista son el número de candidatos a soluciones en la población, las probabilidades de cruzamiento y mutación (y así el número esperado de cruzamientos y mutaciones), junto el número de generaciones o iteraciones o cualquier otro criterio de parada. Para resolver problemas de calificación crediticia con este algoritmo muchos autores han sugerido tomar una población inicial entre 50 y 100 cromosomas, con un valor de pc entre 0.65 y 1, y finalmente un valor pm entre y 0.01 [42] Máquinas de Soporte Vectorial Los fundamentos teóricos de las máquinas de soporte vectorial se encuentran en la categoría de teoría del aprendizaje estadístico y fueron desarrollados a finales de los años 70 y durante los años 80, su primera aplicación práctica fue en el área de reconocimiento de patrones [39]. Las máquinas de soporte vectorial pertenecen a la familia de los clasificadores lineales puesto que utiliza separadores lineales o hiperplanos en espacios de características de muy alta dimensión. A nivel algorítmico, el aprendizaje de las SVM representa un problema de optimización con restricciones que se puede resolver usando técnicas de programación cuadrática (QP). La convexidad garantiza una solución única y las implementaciones actuales permiten una eficiencia razonable para problemas reales con miles de elementos y atributos [97]. Para explicar en que consiste este método considere en principio un conjunto de datos dicotómico y linealmente separable, en el cual existe al menos un hiperplano

76 56 separador π : w x + b = 0, que separa la muestra en dos subconjuntos, donde w se suele denominar vector de pesos, puesto que contiene el peso de cada atributo indicando su importancia o contribución a la regla de clasificación, b suele denominarse sesgo o bias y define el umbral de clasificación o decisión [27]. Figura 3.8. Conjunto linealmente separable La máquina de vectores soporte separa un conjunto binario, por un hiperplano tal que la distancia o margen entre el hiperplano y las clases sea maximizado (figura 3.9). La distancia entre el margen y el hiperplano es conocida como margen geométrico y es denotado por la letra griega γ, al maximizar el margen se reduce la complejidad del modelo, reduciendo consecuentemente el error esperado. Este modelo corresponde a MSV de margen máximo, el cual es el modelo más sencillo de MSV, que como ya se vio tiene condiciones de aplicabilidad más restringidas, puesto que parte de la hipótesis de que el conjunto de datos es linealmente separable. Figura 3.9. Separación lineal perfecta por método MSV de margen máximo.

77 57 Muchas veces los datos de aprendizaje o entrenamiento no son linealmente separables, o no es deseable conseguir un separador perfecto del conjunto de aprendizaje, puesto que los datos de aprendizaje no están libres de errores (datos mal etiquetados, valores de atributos mal calculados, inconsistencias, valores extremos, entre otros), en estos casos es preferible ser más conservador y admitir algunos errores en la clasificación a cambio de tener discriminadores más generales y prometedores, para esto se introduce el modelo de máquina de soporte vectorial con margen blando [27]. En este modelo la función objetivo a minimizar está compuesta por la suma de dos términos: el margen geométrico ( γ ) y un término de regularización que tiene en cuenta los casos mal clasificados y es denotada por ξ, también utiliza un parámetro C que regula la importancia relativa de los dos términos. El modelo de máquina de soporte vectorial con margen blando, aparecido en 1995, es el que realmente abrió las puertas a un uso real y práctico de las máquinas de soporte vectorial, aportando robustez frente al ruido [8]. Para fijar la notación, considere el problema de clasificación binaria dado por un conjunto de n datos S {( x y ), ( x, y ),..., (, )} de entrada y cada x j, j = 1,..., n. = x n y n, donde cada x j pertenece al conjunto j 1, y pertenece a { 1, + 1} e indica la clase a la cual pertenece La formulación del modelo de máquina de soporte vectorial con margen blando y norma 2 de las variables de holgura es: Minimizar 1 2 ω, ω + C n j= 1 ξ 2 j sujeto a: (3.43) y j ( ω x j + b) 1 ξ j, 1 j n

78 58 donde C es una constante estrictamente positiva. Aplicando la teoría de optimización a este problema, se puede obtener la versión dual: max α n j= 1 α j 1 2 n k k, j= 1 y y α α K j k j ( x, x ) sujeto a: (3.44) n j= 1 y α = 0 0 α C 1 j j j j n k j donde α = α,..., α ) ( 1 n es un vector de multiplicadores de Lagrange para cada elemento del conjunto de entrenamiento j y la función K es llamada kernel o núcleo. Los elementos xj de la muestra de entrenamiento son llamados vectores soporte (VS) si están sobre el margen o están en el lado incorrecto del margen, esto es así porque soportan la separación óptima del hiperplano, puesto que solo los VSs son tales que α > 0. La regla de decisión puede ser expresada simplemente en términos de las VSs [7]. j Como ya se indico existen dos tipos de vectores de soporte, si α j < C el vector de soporte está localizado en el margen, si α j = C el vector de soporte está dentro del margen y es denominado patrón crítico. Cuando los elementos xj de la muestran toman un valor α j = 0, significa que dichos elementos no tienen influencia en la representación funcional de las máquinas de soporte vectorial, estos vectores son separados sin ningún error por la MSV y son llamados patrones típicos. Debido a que no hay error en la región de patrones típicos, los falsos patrones pueden aparecer en la región de patrones críticos [37]. Uno de los parámetros en las formulaciones (3.43) y (3.44) es la función kernel K ( x k, x j ). A continuación se enumeran las más utilizadas.

79 59 Lineal: K ( xk, x j ) = xk x j Polinómica: ( ) ( ) d Gaussiana: K x, x = x x + c c R, d Ν K k j k j 2 x x j γ, x = tanh s x x r s,r R k j ( x, x ) = exp γ > 0 Sigmoidal: K( x ) ( ( ) ) Multicuadrática inversa: donde ( ) K se refiere a producto interno. k k j k j + 1 ( x, x ) = c 0 k j x k x j 2 + c 2 El aprendizaje de las MSV se consigue mediante una trasformación no lineal del espacio de atributos de entrada en un espacio de características de dimensionalidad mucho mayor y donde si es posible separar linealmente los elementos del conjunto de datos. El uso de las denominadas funciones núcleos que calculan el producto escalar de dos vectores en el espacio de las características, permite trabajar de manera eficiente sobre el espacio de las características sin necesidad de calcular explícitamente las transformaciones de los elementos en el conjunto de aprendizaje [27]. Es claro que la principal ventaja de las MSV es que funciona correctamente con datos altamente dimensionales y evita el problema de la dimensionalidad. 3.3 Técnicas De Validación La etapa de validación de los modelos es crucial para la aplicación real de las técnicas anteriormente discutidas. Sin embargo, establecer medidas justas y exactas no es tarea sencilla. Una primera aproximación llevaría a utilizar el propio conjunto de entrenamiento como referencia para evaluar la calidad de un modelo. Sin embargo, esta aproximación está del todo equivocada, ya que premia los modelos que se ajustan más al conjunto de entrenamiento, es decir, favorece a los modelos que sobreajustan el conjunto de entrenamiento y no generalizan para otros datos [27].

80 60 Figura Proceso de validación de las técnicas de discriminación. Consecuentemente, una mejor opción es evaluar modelos sobre un conjunto de datos diferente al conjunto de entrenamiento. Esto es separar el conjunto de datos en dos subconjuntos disjuntos, donde el primer subconjunto, denominado de entrenamiento, se utiliza para el aprendizaje del método y el segundo conjunto, denominado conjunto de prueba, se utiliza para calcular el error de mala clasificación. Habitualmente la partición se realiza de manera aleatoria, donde la proporción de datos para cada conjunto suele variar, hay quienes toman el 50% de los datos para el entrenamiento y el 50% restante para validación o se establecen otras proporciones como 80 por ciento 20 por ciento, 75 por ciento 25 por ciento, entre otros [9]. Figura Comparación: modelo con sobreajuste (izquierda), modelo bien ajustado (derecha)

81 61 El hecho de utilizar dos conjuntos de datos independientes, uno para aprender y otro para evaluarla, permite resolver el problema del sobreajuste, el cual se define como la situación en la que el modelo da mejores resultados para el conjunto de entrenamiento que para el conjunto de prueba o validación (ver figura 3.11) [10]. Sin embargo, existen todavía importantes problemas, ya que el resultado es demasiado dependiente del modo en el cual se ha realizado la partición. Dado que normalmente, esta partición se realiza de manera aleatoria, puede ocurrir que dos experimentos realizados sobre la misma evidencia y con el mismo método de aprendizaje, obtengan resultados muy dispares, sobre todo si hay más proporción de elementos de una clase que de otra, esta situación puede causar que la clase escasa se vea como ruido y sea ignorada por la teoría. Otro problema es que muchas veces se tienen pocos datos y reservar parte de ellos para la validación puede hacer que todavía hallan menos datos para el entrenamiento, obteniéndose peores modelos [27]. Para lo anterior hay soluciones sencillas como realizar muestreo aleatorio estratificado para el primer problema y sobremuestreo y submuestreo para el segundo problema. El sobremuestreo consiste en duplicar elementos (tuplas) de las clases con menor proporción, manteniendo las tuplas de las clases con mayor proporción. Esto, evidentemente, cambia la proporción de las clases, pero permite aprovechar a fondo los ejemplos de las clases más raras. Debemos utilizar sobremuestreo cuando una clase es muy extraña (poco frecuente), o cuando todas las clases (especialmente las escasas) deben ser validadas. Por otra parte, el submuestreo consigue efectos similares, pero en este caso filtrando los elementos (tuplas) de las clases con mayor proporción y manteniendo las tuplas de las clases con menor proporción [42]. Para validar los resultados obtenidos mediante las técnicas antes descritas, se usaran algunas medidas de desempeño como los son ROC, validación cruzada, boostrap, distancia

82 62 de Mahalanobis, estadístico Kolmogorov Smirnov y coeficientes de Gini que se describirán a continuación Matriz de confusión El desempeño de las técnicas de clasificación antes discutidos es comúnmente evaluado mediante una matriz que se ilustra en la tabla 3.1 mostrada a continuación. Una matriz de confusión contiene información acerca de la clasificación original y predicha por un método de discriminación, usando la muestra de validación. Tabla 3.1 Matriz de Confusión Clasificación Original G B Clasificación G g G g B Predicha B bg bb Total n ng B Total g b n Las entradas de la matriz de confusión de la tabla 3.1 tienen el siguiente significado en el contexto de este estudio: Número de individuos en el grupo de los buenos (G) que fueron g G : clasificados de manera correcta como buenos. Número de individuos en el grupo (B) de los malos (morosos) que fueron g B : clasificados de manera incorrecta como buenos. Número de individuos en el grupo de los buenos (G) que fueron b G : clasificados incorrectamente como malos (morosos). Número de individuos en el grupo (B) de los malos (morosos) que fueron b B : clasificados como morosos. n G : total de individuos en el grupo de los buenos (G) n B : total de individuos en el grupo de los malos (B) n : total de datos g : número de individuos clasificados por la metodología como buenos b : número de individuos clasificados por la metodología como malos

83 63 A partir de esa matriz se obtienen varias razones que indican que tan bien discrimina la técnica utilizada, estás son presentadas a continuación: Tasa de exactitud ( E ): es la proporción de predicciones que fueron etiquetadas de manera correcta, se calcula mediante la ecuación (3.45). E G B = (3.45) g G g + b B + b + g B + b G Tasa de positivos correctos (TP): es la proporción de casos positivos (buenos) que fueron clasificados de manera correcta y que son calculados mediante la ecuación (3.46). TP G = (3.46) g G g + b G Tasa de negativos incorrectos o falsos positivos (FP): es la proporción de casos negativos (individuos morosos) que fueron clasificados incorrectamente como positivos (individuos no morosos), se calcula usando la ecuación (3.47). FP g g + b B = (3.47) B B Tasa de negativos correctos (TN): es la proporción de casos negativos que fueron clasificados correctamente y se calcula como en (3.48). TN b b + g B = (3.48) B B Tasa de falsos negativos (FN): es la proporción de casos positivos que fueron clasificados incorrectamente como negativos. FN G = (3.49) b G b + g G

84 64 Precisión (P): es la proporción de casos positivos predichos que fueron etiquetadas correctamente, calculadas usando la ecuación: P G = (3.50) g B g + g G En la figura 3.12 se muestra la distribución de probabilidad de los dos grupos junto con las tasas de error antes mencionadas, note la línea vertical denominada umbral o punto de corte, la cual puede ser movida de derecha a izquierda aumentado o disminuyendo cualquiera de los valores FP, TP, TN, FN. Figura Distribución de los buenos (derecha) y los malos (izquierda), con algunas tasas de error Evaluación de hipótesis basada en coste En el punto anterior se ha presentado una forma de evaluar hipótesis basadas en el porcentaje de error que se comete, sin distinguir entre el grado o la importancia de los errores cometidos. En muchos casos reales ocurre, sin embargo, que diferentes errores tienen costes muy diferentes. Obviamente, los costes de cada error dependen del problema, pero, en cualquier caso, es bastante excepcional que todos los costes sean uniformes para un determinado

85 65 problema. Por lo tanto, la precisión no es, generalmente, la mejor medida para evaluar la calidad de un determinado modelo, o un determinado algoritmo de aprendizaje. El aprendizaje sensible al coste puede considerarse como una generalización más realista del aprendizaje predictivo. En este contexto, la calidad de un determinado modelo se mide en términos de minimización de costes, en vez de en minimización de errores. Considérese que se conocen, aproximadamente, los costes de cada clasificación errónea. La manera más habitual de expresar estos costes en problemas de clasificación es mediante la denominada matriz de costes. En esta matriz se expresan los costes de todas las posibles combinaciones que se pueden dar entre la clase predicha y la real. Es bastante sencillo estimar el coste de un clasificador para un determinado conjunto de ejemplos si se dispone de la matriz de costes del problema. Para ello se utiliza la matriz de confusión del clasificador para ese conjunto de datos. La matriz de confusión informa de manera detallada como se distribuyen los errores para un determinado clasificador. El problema real es que no siempre se poseen los costes asociados a los errores, sobre todo a los errores bg y g B. Por desgracia, no siempre se dispone de una matriz de coste que permita adaptar el aprendizaje a ese determinado contexto de coste. Muchas veces, la matriz de coste sólo se conoce durante el tiempo de aplicación y no durante el aprendizaje, generalmente porque los costes varían frecuentemente o son dependientes del contexto Evaluación mediante validación cruzada La validación cruzada es una herramienta que resulta muy útil a la hora de desarrollar y ajustar los modelos de discriminación, está se utiliza antes de crear el modelo para establecer los parámetros del modelo (en caso de poseerlos) y después de crear el modelo de clasificación para determinar la validez del modelo. Es claro que esta

86 66 técnica de validación usa en lugar del conjunto de validación, el conjunto de entrenamiento. Está técnica consiste en dividir el conjunto de datos de entrenamiento en k subconjuntos disjuntos de similar tamaño. Entonces, se realiza el entrenamiento utilizando el conjunto formado por la unión de k 1 subconjuntos y el subconjunto restante se emplea para calcular el error en la clasificación, esto es, se utiliza como muestra de validación. Este procedimiento se repite k veces, utilizando siempre un subconjunto diferente para estimar el error de la clasificación. El error se calcula como la media aritmética de los k errores obtenidos mediante la muestra de validación. De esta manera, el resultado final indica el error medio de clasificación del método de discriminación [27]. Otra ventaja de la validación cruzada es que la varianza de los k errores de las muestras parciales, permite estimar la variabilidad del método de aprendizaje con respecto a la evidencia. Comúnmente, se suelen utilizar un valor de k igual a 10 particiones. Es claro que los k subconjuntos de prueba o validación son independientes. No obstante, esto no sucede con los conjuntos de entrenamiento, para el caso de una validación cruzada con k = 10, cada par de subconjuntos de entretenimiento comparten el 80 por ciento de los datos. Algunos autores como Dietterich en 1998 defienden que este solapamiento entre los subconjuntos de entrenamiento podría afectar la calidad de la estimación y proponen una modificación en la técnica que permita utilizar subconjuntos de entrenamiento independientes [27]. Concretamente, se trata de la validación cruzada 5 2, la cual será descrita en la sección en La validación cruzada estándar separa el conjunto de entrenamiento en un número determinado de divisiones que conserve la misma proporción de fallidos y no fallidos existente en el conjunto total y posteriormente va combinando las diferentes divisiones para tener diferentes pruebas de entrenamiento y validación.

87 67 Este método se utiliza especialmente en los casos en que se tienen pocos datos, en los cuales dividir la muestra en dos subconjuntos no resulta viable, puesto que reduce aún más el número de datos para el entrenamiento Validación Cruzada 5 2 Esta técnica consiste en aplicar cinco repeticiones de una validación cruzada con k=2. En cada una de las cinco iteraciones el conjunto de datos se divide en dos subconjuntos disjuntos (entrenamiento y prueba) de idéntico tamaño. El error final se calcula como la media de los cinco errores de muestra parciales. El trabajo de Dietterich compara varios métodos de evaluación mediante varios experimentos con datos reales y simulados. La recomendación final de este trabajo es utilizar la validación cruzada 5 2 cuando las técnicas de aprendizaje son lo suficientemente eficientes para ejecutarse diez veces, o utilizar la clásica partición de los datos en entrenamiento/validación en el otro caso [27] Bootstrap La idea es en cierto modo similar a la validación cruzada, aunque la forma de proceder es diferente. Suponga que se tiene una muestra de tamaño n. A partir de este conjunto se realiza un muestreo aleatorio con reposición de tamaño n. Esta muestra, que será el conjunto de entrenamiento, al ser con reemplazamiento, puede contener elementos repetidos. Lógicamente, esto significa que no contendrá algunos ejemplos del conjunto original. Precisamente, los ejemplos no elegidos por la muestra se reservan para el conjunto de validación. Esto resulta en un conjunto de entrenamiento de n ejemplos y un conjunto de validación de aproximadamente conjuntos se entrena y evalúa un modelo [42] n elementos. Con estos El proceso anterior se repite un número prefijado k de veces (normalmente

88 68 k = 10 ) y después se actúa como en el caso de la validación cruzada, promediando los errores. Quizá lo interesante de este proceso es que las k repeticiones del proceso son independientes y esto es más robusto estadísticamente. Respecto al valor , este se obtiene simplemente calculando la probabilidad de que un ejemplo no salga en una extracción, el cual es 1 1 y multiplicando este n número las veces que se realiza la extracción, es decir n, así tenemos de manera más formal que 1 lim 1 n n n 1 = e (3.51) La evaluación por bootstrap está especialmente indicada para los casos en los que se tienen pocos elementos Distancia de Mahalanobis La distancia de Mahalanobis es una medida que indica que tan diferentes son las distribuciones de los buenos y de malos obtenidas mediante alguna de las técnicas de discriminación antes discutidas. Considere la figura 3.13, donde s es un punto en el eje de las abcisas, con n G (s) y (s) n B el número de buenos y malos que existen en ese punto s, considere la muestra original de tamaño n, donde hay ng buenos y n B malos, entonces p n ( s) G G ( s) = (3.52) ng

89 69 p n ( s) B B ( s) = (3.53) nb (3.52) y (3.53) son las probabilidades de los buenos y los malos respectivamente que están ubicados en el punto o intervalo s. Las medias de los buenos y malos son obtenidas mediante las ecuaciones anteriores y mostradas en (3.54) y (3.55) mg ( s) = s pg ( s) (3.54) mb ( s) = s pb ( s) (3.55) y sea σ G y σ B las desviaciones estándar de los puntajes de los buenos y de lo malos, las cuales son calculadas de la siguiente manera σ G = s pg ( s) mg (3.56) s σ B = s pb ( s) mb (3.57) s Sea σ la desviación estándar de los buenos y de los malos de sus respectivas medias, es calculada mediante la ecuación (3.58) n Gσ G + nbσ B σ = (3.58) n La distancia de Mahalanobis puntajes de los dos grupos d' es entonces la diferencia entre la media de los

90 70 m G m B d' = (3.59) σ Se asume que mientras más grande sea distancia de Mahalanobis entonces mejor será el clasificador [42]. Figura Densidad de Probabilidad de los buenos y malos Estadístico Kolmogorov Smirnov El estadístico Kolmogorov-Smirnov se basa en la distancia entre las funciones de distribución acumuladas. Este estadístico es la diferencia vertical máxima entre las distribuciones acumuladas. Si el estadístico K-S es igual a 0, las distribuciones son idénticas en todos lados. Si el estadístico K-S es mayor que 0, existen valores de probabilidad posterior en los que las distribuciones difieren. El valor máximo del estadístico K-S, 1, ocurre cuando las distribuciones están perfectamente separadas. Para su formulación, considere el caso discreto donde se tiene P G ( s) = x s pg ( x) (3.60) P B ( s) = x s pb ( x) (3.61)

91 71 entonces el estadístico de Kolmogorov- Smirnov es KS = max P ( s) P ( s) (3.62) s G B En la figura 3.14 presentada a continuación se muestran la distribución acumulada de los buenos y los malos. Observe que la línea vertical de color rojo indica el punto donde ocurre la máxima distancia entre las dos distribuciones. Figura Distribución acumulada de los buenos y los malos Curva ROC La técnica denominada análisis ROC ( Receiver Operating Characteristic ) provee una herramienta que permite seleccionar el subconjunto de clasificadores que tienen un comportamiento óptimo en general. Asimismo, el análisis ROC permite evaluar clasificadores de manera más independiente y completa [42]. El análisis ROC se utiliza normalmente para problemas de dos clases (se suelen denominar clase positiva y clase negativa) y para este tipo de problemas se utiliza la tasa de positivos correctos y tasa de negativos correctos (ecuaciones 3.46 y 3.48) o los valores

92 72 PG o P B (ecuaciones 3.60 y 3.61). acumuladas En la figura 3.15 se muestra la gráfica ROC obtenida mediante las distribuciones PB y P G. La mejor técnica de aprendizaje será aquella con mayor área bajo la curva ROC, o aquella cuya curva ROC este más hacia arriba y a la izquierda. CURVA ROC pb(s) pg(s) Figura Curva ROC Indice de Gini El Coeficiente de Gini es una medida de desigualdad ideada por el estadístico italiano Corrado Gini. Se utiliza para medir cualquier forma de distribución desigual. El coeficiente de Gini es un número entre 0 y 1 y se calcula como dos veces el área entre la curva ROC y la diagonal que se observan en la figura Cuando G = 1 clasificador perfecto que separa las dos distribuciones de los datos. se tienen un Curva de estrategia Es el resultado de graficar P G (s) vs. 1 ( s), es usada para determinar la tasa de morosidad de una muestra de solicitantes para una tasa de aceptación dada. P B

93 73 CAPITULO IV METODOLOGÍA Para evaluar el riesgo crediticio o la conveniencia de otorgar un crédito, hay una gran variedad de metodologías disponibles, de las cuales se utilizarán para este trabajo: análisis discriminante de Bayes y Fisher, regresión logística, modelos probit, modelos tobit, métodos de programación lineal, métodos de k vecinos más cercanos, árboles de decisión, algoritmos genéticos, redes neuronales y máquinas de soporte vectorial. Antes de implementar cualquiera de dichos métodos, se requiere de una muestra de clientes que hayan solicitado un crédito en el pasado, junto con su historial y su comportamiento de pagos. Al seleccionar la muestra, esta debe ser representativa de aquellas personas que aplican para un crédito en el futuro y debe incorporar diferentes tipos de conductas de pago, para hacer posible la identificación y diferenciación de los individuos en grupos de buenos y malos dadas unas series de características que reflejen esas conductas en general [2]. Por cuestiones de confidencialidad es difícil conseguir datos de esta naturaleza para este tipo de estudio en Venezuela, por lo que es necesario simular datos, para esto se utiliza información del censo del 2001, facilitada por el Instituto Nacional de Estadística (INE) e información bancaria a través de la Superintendencia de Bancos (SUDEBAN), junto con las técnicas de simulación de Monte Carlo y Cópulas, esta última con el objetivo de crear dependencias entre las variables conductuales de la población venezolana mayor de 20 años y una variable de respuesta, la cual es aleatoria y binaria, e indica si un individuo tendrá un buen comportamiento de pagos o por el contrario caerá en morosidad [20].

94 74 Para la implantación de las técnicas mencionadas se simularan tres conjuntos de datos, cuyos detalles serán descritos en el capítulo 5, esto con el objetivo de comparar los resultados obtenidos con tres conjuntos simulados de manera distinta, manteniendo los mismos atributos y variando su relación con la variable de respuesta binaria. Las muestras de clientes obtenidas se dividirán en dos conjuntos, los cuales se denominarán conjunto de entrenamiento y conjunto de validación. El primero será utilizada con las técnicas descritas en el capítulo 3 y poseerá la misma proporción de clientes buenos y malos, el otro conjunto de datos denominado conjunto de validación, será utilizado para validar los resultados obtenidos con el conjunto de entrenamiento, este conjunto no necesariamente contendrá la misma proporción de casos buenos y malos. Muchos de los métodos descritos en el capítulo 3 calculan un puntaje para cada uno de los individuos considerados en la muestra, entre estos métodos están el discriminador lineal de Fisher, discriminador de Bayes, regresión logística, probit, tobit, programación lineal, algoritmos genéticos y máquinas de soporte vectorial. Para estos métodos se puede determinar los denominados puntos de corte o umbrales, los cuales pueden ser utilizados para obtener una mejor discriminación a la obtenida mediante las reglas de decisión particulares de cada método, la cual incremente la tasa de buenos aceptados, manteniendo baja la tasa de malos aceptados como buenos. Esto se hace determinando si el puntaje del individuo o solicitante es mayor o menor al punto de corte establecido. Una forma de determinar que tan bueno es un punto de corte es mediante la matriz de confusión. Este umbral es obtenido mediante el conjunto de entrenamiento por algunos de los siguientes criterios: 1.- Minimización de los dos tipos de error de clasificación, esto es, buscar el umbral o punto de corte que disminuya la tasa de falsos positivos y la tasa de falsos negativos. 2.- Minimización de los falsos positivos, buscar el umbral que sólo minimice el error de otorgar un crédito a una persona morosa sin importar el otro tipo de error y la pérdida acarreada por no considerarla.

95 Minimización de la pérdida o costos de cometer cualquiera de los dos errores ya mencionados, este valor puede ser obtenido mediante los valores bg y g B confusión descrita en el capítulo anterior, utilizando la siguiente ecuación de la matriz de l( Actual) = L b + D (4.1) G g B donde L es la ganancia pérdida por clasificar a un bueno como malo y D es la pérdida por clasificar a un malo como bueno. Dado que muchas veces sólo se conoce los costos durante el tiempo de aplicación y no durante el aprendizaje, la discriminación mediante el cálculo del umbral o punto de corte que minimice el costo resulta muchas veces conveniente. Luego de la implantación de las técnicas descritas, se procede a la validación, la cual es, en pocas palabras, un proceso en el cual se evalúan diversos aspectos del modelo, como su eficacia y poder discriminativo, la precisión en sus estimaciones, entre otros [19]. Por esta razón luego de la implementación es necesario medir la calidad de la técnica discriminante utilizada, para ello existen algunas medidas de desempeño como los son validación cruzada y bootstrap, los cuales utilizan el conjunto de entrenamiento, distancia de Mahalanobis, estadístico Kolmogorov Smirnov, ROC e índice de Gini, los cuales utilizan el conjunto de validación. Vale la pena resaltar que los últimos cuatro métodos de validación son independientes del umbral o punto de corte escogido. Además se crea una curva de estrategia la cual es usada para determinar la tasa de morosidad para una tasa de aceptación dada. Finalmente se considerará un conjunto de datos adicional con casos particulares a los cuales se les aplicará los resultados obtenidos con los métodos con la finalidad de verificar como cada unos de los métodos clasifica cada unos de los casos creados.

96 76 CAPÍTULO V SIMULACIÓN Es claro que la utilización de los modelos señalados en el Capítulo 3, surgen ante la necesidad de evaluar de forma ágil y rápida las capacidades de endeudamiento de los solicitantes de un crédito. Aunque existen diversos tipos de entidades financieras y distintos tipos de créditos, la idea general es, seleccionar aquellos individuos que poseen mejores características para retornar a la entidad el valor total del préstamo solicitado, reduciendo la pérdida en que se incurriría si se aprueba un crédito a un individuo que no posee la habilidad de cumplir con sus obligaciones financieras. Estas características o atributos de los individuos es obtenida mediante bases de datos de la entidad financiera, formularios e información crediticia proveniente de agencias denominadas Bureaus que se encargan de proveer informes acerca de los créditos y comportamientos de pagos de los solicitantes de cualquier entidad bancaria. En general los atributos o características utilizadas por las entidades bancarias son de tipo demográficos: género, edad, estado civil, número de miembros del hogar, zona donde habita, nacionalidad, profesión, grado de instrucción, entre otros. También son de tipo financieras: ingresos, tipo de empleo, gastos, tipo de vivienda, número de bienes o inmuebles, número de tarjetas de crédito, números de créditos actuales o pasados con el banco, cuentas bancarias, entre otros. Finalmente la información proveniente de las agencias denominadas Bureaus involucran características como: número de créditos y tipos de créditos que posee el individuo con distintos bancos, créditos en mora, entre otros. Normalmente se recomienda que el número de atributos utilizados para el estudio no sea mayor de 20 atributos [42].

97 77 Para implementar la metodología se requiere de una muestra de clientes que ya hayan aplicado para la solicitud de un crédito, que posean las características y atributos antes señalados. Esta muestra debe ser representativa, es decir, debe incluir a todas aquellas personas que pudieran aplicar para un crédito en el futuro y debe incorporar diferentes tipos de conductas de pago, esto con el objetivo de identificar y diferenciar a los individuos en grupos de buenos y malos clientes para la aprobación de un crédito [24]. Conviene mencionar en este punto el problema de la no aleatoriedad de las muestras en este tipo de problemas. La gran mayoría de las entidades bancarias que han desarrollado tratamientos para este problema han utilizado muestras truncadas, es decir, formadas únicamente por créditos concedidos, ello debido, principalmente, a la imposibilidad de obtener información sobre los no concedidos, para resolver este problema se han desarrollado varias metodologías, para más detalles ver [48]. Para acercarnos al comportamiento de la población es necesario que la muestra sea lo más reciente posible, está debe representar la historia financiera de un individuo en un tiempo finito razonable, puede ser suficiente un historial de 12 meses, aunque pudiera tomarse uno mayor a éste, todo depende del producto o tipo de crédito, las características del mercado, y del riesgo que el mismo signifique para la entidad [42]. Esto es importante ya que las distribuciones de los datos cambian con el tiempo. Otra cuestión de importancia es el tamaño de la muestra y su distribución en cuanto a la cantidad de buenos y malos. En [42] se recomienda que la muestra tenga casi la misma proporción de buenos y malos con el objetivo de obtener información suficiente para reconocer cualquiera de los dos tipos de clientes, en cuanto al tamaño, en la práctica se usan muestras normalmente mayores a 3000, esto con el objetivo de obtener mayor diversidad de conductas que se asemejen a la población y al hecho de que para utilizar los métodos descritos en el capítulo anterior será necesario dividir la muestra en dos conjuntos, uno de entrenamiento y uno de validación.

98 78 Por cuestiones de confidencialidad es difícil conseguir datos de esta naturaleza para este tipo de estudio en Venezuela, por lo que es necesario simular los datos, es por esto que se utiliza información del censo del 2001, facilitada por el Instituto Nacional de Estadística (INE) e información de la banca a través de la Superintendencia de Bancos (SUDEVAN), junto con las técnicas de simulación de Monte Carlo y Cópulas, está última técnica es utilizada con el objetivo de crear dependencias entre las variables conductuales de la población venezolana mayor de 20 años y una variable de respuesta, la cual es aleatoria y binaria, e indica si un individuo tendrá un buen comportamiento de pagos o por el contrario caerá en morosidad. Las características o atributos utilizados en la simulación realizada mediante método de Monte Carlo, son mostradas en la tabla 5.1 que se presenta a continuación: Tabla 5.1. Atributos a considerar para la implementación de la metodología. # Variable Tipo de Variable Descripción 1 Género Binaria 0: Hombres 1: Mujeres 2 Edad Categórica 1: edad entre años 2: edad entre años 3: edad entre años 4: edad entre años 5: edad entre años 6: edad 65 años 3 Estado Civil Categórica 1: Unido- Casado 2: Divorciado - Separado 3: Viudo 4: Soltero 4 Grado de Instrucción Categórica 1: Sin Nivel 2: Básica 3: Media 4: Educación Especial 5: Técnico Medio 6: Técnico Superior 7: Universitario

99 79 5 Categoría Ocupacional Categórica 1: trabajador por cuenta propia 2: empleado u obrero fijo 3: empleado u obrero contratado 4:empleado u obrero ocasional 5: miembro de cooperativa 6: servicio domestico 6 Profesiones Categórica 0: No posee profesión. 1: Profesiones de bajo Riesgo 2: Profesiones de alto Riesgo 7 Ingresos Mensuales Categórica 1: hasta : 1.050, : 1.400, : 2.450, : 3.500, : 4.550, : 5.600, : > Tenencia de la vivienda Categórica 1: Propia pagada totalmente 2: Propia pagándose 3: Alquilada 4: Prestada 5: Otra forma 9 Tipo de vivienda Categórica 1: Quinta 2: Casa 3: Apartamento en edificio 4: Apartamento en quinta 5: Rancho 6: Viviendas colectivas 10 Carga Familiar Categórica 0: 0 personas a cargo 1: 1 personas a cargo 2: 2 personas a cargo 3: 3 personas a cargo 4: 4 personas a cargo 5: 5 personas a cargo 6: 6 personas a cargo 7: 7 personas a cargo

100 80 11 Tiempo en trabajo actual Categórica 1: Menos de un año 2: Entre 1-5 años 3: Entre 5-15 años 4: Entre años 5: Entre >25 años 12 Número de Créditos pasados. Categórica 0: 0 créditos 1: 1 créditos 2: 2 créditos 3: 3 créditos 4: 4 créditos 5: 5 créditos 6: 6 créditos 13 Número de créditos pasados no pagados Categórica 0: 0 créditos vencidos 1: 1 créditos vencidos 2: 2 créditos vencidos 3: 3 créditos vencidos 4: 4 créditos vencidos 5: 5 créditos vencidos 6: 6 créditos vencidos 14 Número de Créditos presentes Categórica 0: 0 créditos 1: 1 créditos 2: 2 créditos 3: 3 créditos 4: 4 créditos 5: 5 créditos 6: 6 créditos Fueron simulados tres conjuntos de datos utilizando los atributos descritos en la tabla 5.1, a dos de estos conjuntos se les aplicó la técnica de cópulas descrita en el capítulo 2, para la creación de una dependencia entre los atributos demográficos y financieros de los solicitantes y una variable de respuesta binaria, la cual indica si el cliente es bueno (no moroso) mediante el valor (1) o malo (moroso) mediante el valor (0). A uno de los conjuntos de datos se aplico cópulas Gaussianas para la creación de dependencias, el otro conjunto restante utilizó una combinación de varias de las cópulas

101 81 especificadas en la sección 2.2. Las cópulas usadas para este último conjunto son mostradas en la tabla 5.2 que se presenta a continuación. Tabla 5.2 Cópulas utilizadas para la simulación del segundo conjunto de datos. # Característica o atributo Cópula usada 1 Género Cópula Gaussiana con θ = Edad Cópula de Gumbel θ = 4 3 Estado Civil Cópula Frank θ = 5 4 Grado de Instrucción Cópula Gumbel θ = 3 5 Categoría Ocupacional Cópula Frank θ = 2 6 Profesiones Cópula Frank θ = 2 7 Ingresos Mensuales Cópula Gumbel θ = 3 8 Tenencia de la vivienda Cópula Frank θ = 5 9 Tipo de vivienda Cópula t-student con coef -0.8 y 2 grados de libertad 10 Carga Familiar t-student con coef -0.8 y 2 grados de libertad 11 Tiempo en trabajo actual Cópula Gumbel θ = 3 12 Número de Créditos pasados. Cópula Gumbel θ = 3 13 Número de créditos pasados no pagados Se obtiene a partir de Número de Créditos pasados. 14 Número de Créditos presentes Cópula de Clayton θ = 0. 8 En la sección 2.3 se especifican los pasos para la simulación mediante funciones cópulas, donde se señala que es necesario poseer las distribuciones marginales F,..., F 1 n, las cuales para este caso son empíricas, el último paso en la simulación es aplicar las transformaciones u F 1 ( U ), las cuales se obtienen mediante el método de la transformada inversa [12]. i i i Para simular el conjunto de datos restante se estableció la dependencia entre los atributos y la variable de respuesta, a partir de información recopilada por diferentes entidades bancarias, las cuales no serán citadas por razones de confidencialidad. Estás

102 82 relaciones entre los atributos independientes y la variable de respuesta son numeradas a continuación: 1. Género: el conocimiento acumulado sugiere que las mujeres cumplen mejor sus obligaciones financieras que los hombres. 2. La edad: en general se sabe que las personas de mediana edad gozan de mayor estabilidad económica. La edad para que un cliente sea considerado para la obtención de un crédito ronda entre los 20 y 75 años. 3. En cuanto al estado civil, ser soltero, muchas veces representa ventajas sobre un cliente casado o con varios hijos, ya que la proporción de gastos será menor en el primero de los casos. 4. Grado de instrucción: El nivel educativo del solicitante es otro punto relevante. Cuanto mayor sea el nivel de instrucción, mayor será la posibilidad de acceder a un crédito. 5. Categoría ocupacional: personas con trabajos temporales, que no tienen un trabajo fijo son más riesgosas, por otro lado las personas con un trabajo fijo o que trabajan por cuenta propia son consideradas con mucha frecuencia para la obtención de créditos. 6. Existen profesiones que son consideradas más riesgosas que otras a la hora de otorgar un crédito. 7. Ingresos Mensuales: los clientes morosos tienen menores ingresos y deudas mayores, en promedio, que los clientes no morosos. Es recomendable, por lo tanto, que se tomen muy en cuenta el flujo de ingresos que los solicitantes perciben. 8. Tenencia de vivienda y tipo de vivienda: Son consideradas menos riesgosas aquellas personas con vivienda propia, de fácil acceso y en buenas condiciones.

103 83 9. Las personas con mayor carga familiar tienden a incumplir más que una persona con menor carga familiar. 10. Personas con poco tiempo en el trabajo actual, son, en efecto, los más riesgosos. Es un hecho que mientras mayor sea la duración de un trabajador en su empleo, menor es la probabilidad de que este lo abandone. 11. El número de créditos concedidos en el pasado es también una información importante, puesto que los clientes en su primer crédito son más riesgosos que los clientes en su segundo crédito, por tanto mientras mayor sea la cantidad de créditos obtenidos y pagados que posea un cliente menor será el riesgo de que éste caiga en morosidad. Para simular está variables se utilizó el hecho de que para septiembre del 2008, SUDEBAN señalo que el total de créditos en el país es de , la cual se encuentra repartida entre aproximadamente personas [40]. 12. El número de créditos no pagados en el pasado, sugiere en la mayoría de los casos, un riesgo mayor de futuros impagos o retrasos. Según cifras de SUDEBAN para septiembre del 2008, la morosidad promedio del venezolano era de aproximadamente 2.30% [40]. 13. Número de créditos actuales: mientras mayor sea la cantidad de créditos presentes, mayor es la probabilidad de que el solicitante no pueda cumplir con nuevas obligaciones crediticias. Existen otras características que también se consideran en este tipo de estudio como lo son domicilio, nivel de gastos, excesos en tarjetas de créditos, entre otros. Basados en las relaciones antes numeradas se estableció un sistema de puntajes, el cual se utilizará para establecer correspondencias entre los atributos y la variable de respuesta binaria. La tabla 5.3 mostrada a continuación muestra dichos puntajes. Así todos los solicitantes tendrán un puntaje final de acuerdo a sus características particulares, si este puntaje es mayor a la mediana de los puntajes de todos los solicitantes, entonces el

104 84 individuo es bueno, de lo contrario se considera malo. Mediante este procedimiento se obtendrá el primer conjunto de datos a utilizar con las técnicas descritas en el capítulo 3. Tabla 5.3. Puntajes para los atributos. Variable Categoría Puntaje Hombres Género Mujeres Edad 3. Estado Civil 4. Instrucción 5. Categoría ocupacional años años años años años años 40 Unido- Casado 25 Divorciado Separado 25 Viudo 25 Soltero 50 Sin Nivel 0 Básica 20 Media 20 Educación Especial 20 Técnico Medio 30 Técnico Superior 30 Universitario 50 Trabajador por cuenta propia 70 Empleado u obrero fijo 50 Empleado u obrero contratado Empleado u obrero ocasional Miembro de cooperativa 15 Servicio domestico 15

105 85 6. Profesión 7. Ingresos Mensuales 8. Tenencia de la vivienda 9. Tipo de vivienda 10. Personas a cargo No posee profesión 0 Profesiones de bajo riesgo 20 Profesiones de alto riesgo -100 Hasta , , , , , , > Propia pagada totalmente 50 Propia pagándose 20 Alquilada 10 Prestada 0 Otra forma 0 Quinta 50 Casa 25 Apartamento en edificio 40 Apartamento en quinta 40 Rancho 0 Viviendas colectivas 0 0 personas a cargo 60 1 personas a cargo 60 2 personas a cargo 40 3 personas a cargo 40 4 personas a cargo 5 5 personas a cargo 5 6 personas a cargo 0 Más de 7 personas a cargo 0

106 86 Menos de un año Número de años en el empleo actual Entre 1-5 años 20 Entre 5-15 años 60 Entre años 100 Entre >25 años Número de créditos obtenidos en el pasado 13. Número de créditos del pasado no pagados 14. Número de créditos que posee el cliente en el presente 0 créditos créditos 50 2 créditos 50 3 créditos 50 4 créditos 80 5 créditos 80 6 créditos 80 0 créditos créditos créditos créditos créditos créditos créditos créditos 80 1 créditos 60 2 créditos 60 3 créditos 40 4 créditos 40 5 créditos 20 6 créditos 20 Vale la pena aclarar que los datos de tipo crediticio no son fácilmente separables por ninguna regla de decisión. Esto es natural puesto que los datos no pueden capturar todas las complejidades de la vida del solicitante que permitan especificar de manera

107 87 perfecta a cual de los dos grupos considerados pertenece el individuo. Como consecuencia las tasas de clasificaciones incorrectas están alrededor de 20% y 30%.[7] Figura 5.1. Ejemplo de la poca separabilidad que tiene el conjunto crediticia Se pudiera pensar en este momento en aplicar las metodologías descritas en el capítulo anterior con las muestras ya obtenidas mediante simulación, sin embargo es necesario agrupar cada uno de los atributos con todas sus categorías posibles en un número reducido de categorías, esto es necesario debido a que para ciertos atributos hay muchas respuestas o categorías diferentes, que posiblemente no se encuentren en la muestra obtenida, trayendo como consecuencia que el análisis resultante no sea robusto. Para escoger como combinar dichas respuestas se pueden usar algunos estadísticos como guía, el más común es el estadístico 2 χ. 1. Estadístico Sea 2 χ g i y buenos y malos. Entonces b i el número de buenos y malos con atributo i, y sea g y b el total de de ( g i + bi ) g gˆ i = (5.1) g + b

108 88 ( gi + bi ) b bˆ i = (5.2) g + b son el número esperado de buenos y malos con atributo i, si la tasa de este atributo es la misma que para el resto de la población. Entonces 2 ( g + gˆ ) ( b + bˆ ) 2 i i i i χ = + (5.3) i gˆ bˆ i i 2 esto se puede usar como una medida de cuan diferentes son las categorías, grandes valores reflejan grandes diferencias. 2. Estadístico de información El estadístico de información está relacionado con medidas de entropía que aparecen en la teoría de información y está definida como F g i bi g ib = log (5.4) i g b bi g cuando hay g observaciones y distribución ocurra es g i de ellas son del tipo i. El número de formas de que está g! N g = si hay p categorías en total. g! g!... g! 1 2 p La información es tomada como el log del número de diferentes formas de obtener el mensaje que ha sido enviado. Así log( g i!) g log( g) I = log N = log( g)! g log( g ) (5.5) g g i i i i

109 89 El promedio de información es entonces I g g i g i g g i g i ( log ( g i ) log( g) ) = log (5.6) i g g Grandes valores de F surgen de grandes diferencias entre y corresponden a las características que son más útiles para diferenciar los buenos y malos clientes. 3. Estadístico de concordancia de Somer Este estadístico supone que las categorías ha considerar fueron ordenadas de forma creciente de acuerdo a la tasa de buenos siguiente manera g g i i + b i. Este estadístico se calcula de la ( b j ) g i ( g j ) b j< i j< i i D = (5.7) b g i Los atributos reducidos fueron carga familiar, número de créditos en el pasado, número de créditos no pagados en el pasado y número de créditos que posee el cliente en el presente. Está reducción contribuyó a disminuir de manera importante el número de variables binarias obtenidas después de la transformación de los atributos considerados.

110 90 CAPITULO VI RESULTADOS NÚMERICOS A continuación se presentan los resultados de aplicar las técnicas estadísticas y no estadísticas discutidas en el capítulo 3, a tres conjuntos de datos simulados, cuyas características y diferencias fueron descritas en el capítulo 5. Estos conjuntos poseen casi la misma proporción de clientes morosos (malos) y no morosos (buenos), además de 14 atributos que describen los aspectos conductuales y financieros de cada individuo, junto con una variable de respuesta que indica si el individuo es bueno, mediante un valor de uno o malo mediante un valor de cero. Para la aplicación de la metodología señalada fue necesario dividir los tres conjuntos originales, que consiste de 3400 solicitantes cada uno, en dos subconjuntos, uno de entrenamiento, con un total de 2720 datos, de los cuales 1360 son buenos y 1360 son malos, y otro de validación con los 630 elementos restantes, donde 426 individuos son buenos y 254 son malos. Además se considera el conjunto de datos mostrado en la tabla 6.1, que corresponden a 9 casos particulares, cuyas características o atributos son claramente mostrados a continuación, y pueden ser descifrados mediante la tabla presentada 5.1 mostrada en el capitulo 5. Se puede observar en la tabla 6.1 que los solicitante S 1, S 2 y S3 tienen una edad comprendida entre 25 y 34 años, son solteros, universitarios, con poco tiempo en el trabajo actual, con poca o ninguna carga familiar y sin deudas, se diferencian en su categoría ocupacional, en sus ingresos mensuales y número de créditos en el presente. El solicitante S3 tiene mayor salario, mayor estabilidad laboral y varios créditos en su haber en la

111 91 actualidad, en cambio S1 tiene menor salario y menor estabilidad laboral por ser un empleado ocasional, además nunca ha poseído créditos. El solicitante S2 es un empleado contratado con un salario mayor al del cliente S1 presente. y con dos créditos en su haber en el El solicitante S4 es un trabajador por cuenta propia con altos ingresos, con sólo un crédito en el presente y un crédito ya pagado en el pasado. Los solicitante S5 y S 8 son los llamados casos extremos, que deberían ser clasificados como morosos sin ninguna duda. El solicitante S6 es el mismo solicitante S4 pero con créditos vencidos, que no fueron pagados en el pasado. El solicitante S7 tiene casi las misma características del solicitante 1 pero con un crédito no pagado en el pasado y 6 créditos en el presente. Finalmente el solicitante S9 es un caso dudoso. Tabla 6.1. Datos alternativos para la verificación de los métodos de clasificación. ATRIBUTOS # S S S S S S S S S Todas las técnicas, con excepción del Algoritmo Genético, fueron implementadas mediante el programa estadístico R. El cálculo de los coeficientes de la ecuación 3.41, correspondiente al algoritmo genético, fueron obtenidos mediante la herramienta Genetic Algorithm Solver de MATLAB [25].

112 92

113 Conjunto de Datos 1 Este conjunto de datos se simulo mediante un sistema de puntajes, el cual permitió establecer correspondencias entre los 14 atributos considerados para el estudio y una variable de respuesta que indica si un individuo es moroso o no. Los puntajes y atributos utilizados pueden ser observados en la tabla 5.3 del capitulo anterior. La distribución de los datos para cada una de las variables o atributos puede ser vista en la figura Enfoque Bayesiano Como se poseen variables categóricas el primer paso para poder aplicar este método es transformar los atributos en variables de tipo binario. Esta transformación se aplica tanto a los datos de entrenamiento como a los datos de validación. En esta transformación cada una de las variables de k categorías se transforma en k variables binarias, siendo k un valor que oscila entre 2 y 8, aumentando así para ambos conjuntos de datos el número de 14 atributos originales de tipo categórico a 67 atributos de tipo binario, sin incluir la variable de respuesta la cual de antemano es binaria. Luego de obtener el vector de puntajes g j (ver sección ), se clasifican a los individuos como buenos cuando g j sea mayor que cero y como malos cuando suceda lo contrario, esta regla de decisión puede ser escrita como en (6.1) no moroso si g j > 0 clase = (6.1) moroso si g j 0 siendo g como en (3.14), el puntaje correspondiente al solicitante j = 1,..., n, y n el j número de solicitantes para un crédito.

114 94 En la figura 6.2 (a y b) se muestra la distribución de frecuencias predicha de los buenos y los malos, después de aplicar el método de discriminación de Bayes con los datos de entrenamiento. En la figura 6.2(a) se observa la distribución de frecuencias de los buenos (abajo) y malos (arriba) por separado, y en la figura 6.2 (b) se observan ambas distribuciones en la misma gráfica, siendo los buenos aquellos que toman los valores más positivos (línea azul) y los malos aquellos que toman los valores más pequeños o más negativos (línea de color negro). Se observa además una zona de solapamiento entre ambas distribuciones que parece ocurrir alrededor de cero. DISTRIBUCIÓN PREDICHA DE LOS BUENOS Y MALOS frecuencias (a) g (b) Figura 6.2. Distribución de frecuencias predicha para los buenos y malos. A continuación se muestra la matriz de confusión (tabla 6.2) de la clasificación resultante con la muestra de validación para la regla de decisión (6.1), en donde se observa que el número de buenos predichos que fueron clasificados de forma correcta es igual a 404 mientras que el número original de buenos en la muestra es de 426, así el porcentaje o tasa de verdaderos positivos TP es de 95%, como se observa en la parte inferior de la matriz de confusión. Por el contrario el número de malos clasificados correctamente es de 207 cuando originalmente es de 254, de manera que la tasa de verdaderos negativos o porcentaje de morosos correctamente clasificados es de 81%, por otro lado el valor E que

115 95 corresponde a la exactitud o porcentaje de casos correctamente clasificados, la cual se observa en la parte inferior de la tabla 6.2, presenta un valor de 90%, con este valor se calcula la tasa de error del método de clasificación el cual es de 10% aproximadamente. En la tabla 6.2 también se puede observar la tasa de falsos positivos (FP), la cual se define como la tasa de elementos clasificados como buenos y que en realidad son malos, este valor ronda el 18%, también está la tasa de los falsos negativos (FN) cuyo valor es de 5% y corresponde a aquellos casos en los cuales se clasifico como malos a clientes buenos. La precisión (P) es de casi 90% y esta indica cual es la proporción de casos positivos (buenos) clasificados de manera correcta. Tabla 6.2. Matriz de confusión del conjunto de validación. En la tabla 6.3 también se observan los errores de clasificación del método, solo que estos son obtenidos mediante validación cruzada para k = 10, validación cruzada 5 2, y el método de bootstrap con k = 10, ocurriendo un error promedio de 11% con una variación muy pequeña en prácticamente todos los métodos.

116 96 Tabla 6.3. Resultados de las técnicas validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap para el conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap A continuación se presenta un gráfico (figura 6.3) en el cual se muestra la densidad de probabilidad de los buenos y malos obtenida mediante los resultados del método de clasificación Bayesiana al usar el conjunto de validación, en la cual es mucho más clara la separación de ambas distribuciones. La distancia de Mahalanobis es igual a Figura 6.3. Densidad de probabilidad predicha para los buenos y los malos. En la figura 6.4(a) se muestran las distribuciones acumuladas predichas de los buenos y malos. Está gráfica es cortada por una línea vertical de color rojo, que indica donde ocurre la mayor distancia entre las distribuciones, y por ende da un valor aproximado de donde ocurre el umbral que minimiza el error de clasificación. La mayor distancia parece ocurrir alrededor de 0.24, siendo igual a Cabe destacar que mientras más cercano sea este valor a 1, mejor es el método de clasificación, puesto que la distancia KS al igual que la distancia de Mahalanobis es una medida de separación entre dos distribuciones de datos.

117 97 (a) (b) Figura 6.4. Distancia Kolmogorov- Smirnov y Curva ROC En la figura 6.4 (b) se muestra la curva ROC. Se sabe que mientras más cerca este esta curva de los ejes vertical y horizontal mejor es la separación entre las distribuciones de los buenos y malos. Mediante la curva ROC se puede obtener el índice o coeficiente de Gini cuyo valor se calcula como dos veces el área entre la curva ROC y la diagonal. En la tabla 6.4 se observa que el valor del coeficiente de Gini es de 0.925, el cual es muy cercano a 1, lo que indica que el método separa bastante bien a los buenos y malos presentes en la muestra de validación, confirmando los resultados obtenidos mediante la distancia de Mahalanobis, Kolmogorov-Smirnov y la curva ROC Tabla 6.4. Valores de distancia Mahalanobis, estadístico KS y coeficiente de Gini. MAHALANOBIS 3.80 KS 0.79 GINI

118 98 Se pude hallar un umbral cualquiera mediante la muestra de entrenamiento dependiendo del error o costos que se deseen minimizar, aquí se presentan tres opciones, que ya fueron mencionadas en el capítulo 4: 1.- Minimización de los dos tipos de error de clasificación, esto es, buscar el umbral o punto de corte que disminuya la tasa de falsos positivos y los falsos negativos. 2.- Minimización de los falsos positivos, esto es, buscar el umbral que sólo minimice el error de otorgar un crédito a una persona morosa sin importar el otro tipo de error y la pérdida acarreada por no considerarla. 3.- Minimización de la pérdida o costos de cometer cualquiera de los dos errores ya mencionados. La regla de decisión presentada en (6.1) cambia para considerar cualquiera de los umbrales anteriormente descritos, tal como se muestra en (6.2) no moroso si clase = moroso si g g j j > umbral umbral con j = 1,..., n, (6.2) siendo g los puntajes obtenidos mediante una función de discriminación lineal g (x), j mostrada en (3.14). Empecemos por obtener el umbral o punto de corte que minimice los errores de clasificación, este valor se obtiene mediante la muestra de entrenamiento, fijando varios umbrales y escogiendo aquel que tome el menor error. Esta minimización se logra con un umbral igual a A continuación se presenta la matriz de confusión (tabla 6.5) y los errores obtenidos mediante las técnicas de validación cruzada y boostrap (tabla 6.6), observe que el error de clasificación ronda entre el 9 y 11%.

119 99 Tabla 6.5. Matriz de confusión para el conjunto de validación. En la tabla 6.5, que corresponde a la matriz de confusión, hay un aumento en la precisión (P) en comparación con la vista en la tabla 6.2, también se observa un aumento en la tasa de verdaderos negativos (TN), esto es, la proporción de malos clasificados de manera correcta. También se observa una pequeña disminución en la tasa TP, la cual indica la proporción de buenos clasificados de manera correcta. Tabla 6.6. Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap para el conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap Ahora considere el caso en el cual se quiere minimizar la tasa de falsos positivos FP, esto es disminuir la probabilidad de otorgar a un individuo moroso un crédito, o lo que es lo mismo, disminuir el error de clasificar a un malo como bueno, con esto se garantizaría otorgar créditos solo a aquellas personas con alta probabilidad de devolverlo. Para que esto ocurra se debe fijar un umbral igual a , este valor también se obtiene mediante la muestra de entrenamiento. A continuación, la tabla 6.7 muestra la matriz de confusión para la clasificación obtenida con la muestra de validación.

120 100 Se observa en principio que el valor de g B, esto es, el número de valores predichos como buenos que en la muestra original son malos, es igual a cero, esto ocurre puesto que escogimos un umbral que minimizara la tasa de falsos positivos (FP), y esto sucede cuando g B es igual a cero. Tabla 6.7. Matriz de confusión para el conjunto de validación. Note que el valor de la exactitud (E) en la parte inferior de la tabla 6.7 es de 63.8%, o lo que es lo mismo, el error de clasificación con este umbral es de 36%. Esto ocurre porque disminuir un tipo de error provoca que el otro aumente, esto es claro porque de los 426 buenos que existen en el conjunto de validación sólo 180 fueron clasificados correctamente, teniendo una tasa de verdaderos positivos (TP) de sólo 42% y una tasa de falsos negativos (FN) de 58%. Si el objetivo es sólo determinar los individuos más capaces de pagar un crédito, evitando aquellos que muy seguramente no pagaran, éste es un umbral que puede ser de interés, pero se paga el precio de no considerar un porcentaje importante de individuos capaces de cumplir con el crédito. Observe también en la tabla 6.7 que el valor de precisión es de un 100% como es de esperarse. En la tabla 6.8 se muestran los resultados de aplicar validación cruzada y bootstrap a la muestra de entrenamiento con el umbral ya indicado pero en este caso considerando solamente el valor de la precisión (P), observe que los valores resultantes son bastante buenos, indicando que al parecer no hay problemas de sobreajuste con el umbral utilizado.

121 101 Tabla 6.8. Precisión de los errores obtenidos mediante diversos tipos de remuestreo. Método Precisión promedio Validación cruzada k = Bootstrap En la figura 6.5 se observa la curva de estrategia, la cual indica el porcentaje de falsos positivos a obtener de acuerdo al porcentaje de población de buenos que se pretende considerar para el crédito, es claro que se tendrá una tasa de falsos negativos igual a cero para una tasa de aceptación menor o igual a 42%, la línea de color rojo en la figura 6.5 indica este resultado, el cual es consistente con lo observado en la tabla 6.7. Es claro que mientras mayor sea la tasa de aceptación mayor será el porcentaje de morosos aceptados, note que si desea tener una tasa de aceptación mayor al 93% la tasa de morosos será mayor a 15%, lo cual es consistente con los mostrados en la tabla 6.5. Figura 6.5. Curva de Estrategia Para determinar el umbral que minimice los costos, considere el caso hipotético en el que se quiere otorgar un crédito de Bs. a una tasa de interés del 30% anual por 12 años, entonces la ganancia perdida por clasificar a un bueno como malo, esto es negar el crédito a una persona que pudiera pagarlo serían los intereses no percibidos en el periodo

122 102 del préstamo L = y la pérdida por clasificar a un malo como bueno, es decir dar un crédito a una persona con alta probabilidad de morosidad sería de D = , note que el valor L solo es una ganancia que dejo de percibir la entidad mientras que D se traduce en pérdida de capital, tal vez debido al tamaño del crédito, la entidad quiera tomar el riesgo con el objetivo de captar más clientes, pero este no siempre es el caso, todas estas decisiones dependen del mercado y de lo que la entidad financiera está dispuesta a arriesgar. Hay muchos casos posibles pero se considerará éste para mostrar como se comporta el clasificador para este caso en particular. Se utilizará la ecuación (4.1) para el cálculo del costo esperado. El umbral o punto de corte que minimiza la pérdida descrita es igual a En la tabla 6.9 presentada a continuación se muestran los resultados obtenidos con el enfoque bayesiano cuando se utiliza el umbral ya indicado. Tabla 6.9. Matriz de confusión para el conjunto de validación Observe en la matriz de decisión que el número de buenos o casos positivos correctamente clasificados es 421, solo 5 casos positivos fueron clasificados como malos y 66 casos negativos fueron clasificados como positivos, de manera que el método clasifica como buenos a un total de 487 individuos, es claro que se obtiene una buena clasificación para los buenos, esto ocurre debido a que la pérdida de clasificar incorrectamente a un

123 103 bueno es mucho mayor que la pérdida de clasificar incorrectamente a un malo, según lo explicado anteriormente. Note también que el valor de la tasa de exactitud es de 89.5 %, siendo el error de clasificación igual a 10.5%, un error bastante similar al obtenido con el umbral que minimiza ambos tipo de error de clasificación y que es mostrado en la tabla 6.5. De está manera el costo para la entidad según los resultados obtenidos en la tabla 6.9 es calculada mediante la ecuación 4.1, siendo igual a Bs. Finalmente se muestra la figura 6.6, que presenta nuevamente la distribución predicha de los buenos y los malos, pero esta vez se muestra el umbral donde se produce el menor error de clasificación (en color verde, recta vertical central) y los umbrales que minimizan la tasa de FN (recta vertical de color rojo en el lado izquierdo) y FP (recta vertical de color rojo en el lado derecho). El valor numérico de estos umbrales es presentado en la tabla Tabla Umbrales obtenidos por minimización de algún tipo de error Min. Umbral o punto de corte FP FN Error de clasificación Observe en la figura 6.6 que la zona acotada por las rectas de color rojo es la zona en la cual se produce solapamiento entre las dos distribuciones y es en donde ocurren los dos tipos de error definidos en el capitulo 3.

124 104 Figura 6.6 Umbrales para la clasificación de clientes en buenos y malos Ahora se utiliza el conjunto de datos mostrado al inicio del capítulo en la tabla 6.1, considerando el umbral que minimiza los dos tipos de errores conocidos y los umbrales de mínimo FP y FN mostrados en la tabla Aquellos valores de g j que se encuentren entre esos umbrales son considerados dudosos por entrar en la zona de solapamiento. Los resultados obtenidos son mostrados en la tabla Tabla Clasificación obtenida con la muestra de la tabla 6.1 Solicitantes Umbral S1 S2 S3 S4 S5 S6 S7 S8 S9 Min. FP y FN Min. errores de clasificación Observe en la tabla anterior que los solicitantes S3 y S 4 son clasificados como buenos, encontrándose fuera de la zona donde se producen los dos tipos de error ya conocidos. Los solicitantes S5 y S7 que se habían considerado como casos extremos fueron clasificados correctamente como morosos quedando fuera de la zona de solapamiento. El caso dudoso S9 fue clasificado como moroso dentro de la región donde se producen los errores, al igual que el resto de los solicitantes considerados ( S 1, S 2 ).

125 Discriminador Lineal de Fisher Los coeficientes obtenidos mediante la aplicación del método de discriminación lineal de Fisher discutido en la sección para cada uno de los 14 atributos descritos en el capítulo 5 son mostrados en la tabla 6.12 que se presenta a continuación. Tabla Coeficientes del modelo obtenido por discriminación Lineal de Fisher. Discriminador: g( x) = ω 1 ω1 + ω2x ω14 x14 Coeficiente del Atributo i Atributo x i ( ) 1 Género Edad Estado Civil Instrucción Categoría Ocupacional Profesión Ingresos Mensuales Tenencia de la vivienda Tipo de vivienda Cargo familiar Número de años en el empleo actual 12 Número de créditos obtenidos en el pasado 13 Número de créditos del pasado no pagados 14 Número de créditos que posee en el presente w i Note en la tabla 6.12 que la valoración de cada atributo es positiva o negativa, siendo el atributo con coeficiente más negativo el correspondiente a número de créditos no pagados en el pasado, esto indica que si un individuo tiene más de un crédito vencido en su historial su puntuación final se verá reducida en un factor de 1.5 por cada crédito vencido.

126 106 Por otro lado la valoración más positiva corresponde al número de créditos obtenidos en el pasado y al número de años en el trabajo actual, mientras mayor sea la respuesta del individuo con respecto a estos atributos, mayor será su puntaje final, siempre y cuando no posean créditos vencidos, o cualquier otro atributo con coeficiente negativo. Cabe destacar que el método de discriminación de Fisher es de fácil y rápida aplicación, al contrario del discriminador de Bayes después de ser validado no requiere de volver a implantarlo, sencillamente se utilizan los valores de la tabla 6.12 para la discriminación con otros conjuntos de datos. En las gráficas mostradas en la figura 6.7 se observa la distribución de los buenos y los malos predicha, la cual fue obtenida mediante el conjunto de datos de entrenamiento, es clara la separación de ambas poblaciones, las cuales parecen estar alrededor de uno donde se produce una zona de solapamiento. DISTRIBUCIÓN PREDICHA DE LOS BUENOS Y MALOS frecuencias (a) g (b) Figura 6.7 Distribución de los grupos de buenos y malos obtenidos por discriminador de Fisher Al final de la sección 3.1.2, donde se describe el método de análisis discriminante de Fisher se indica como obtener un umbral para la regla de decisión 6.2, el cual se calcula

127 107 como el punto medio de la distancia entre las medias de los grupos estandarizados, dicho umbral toma un valor de Los errores de clasificación son presentados en la tabla 6.13, en la cual se observa que los errores están entre 13 y 18% con una varianza bastante pequeña. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap También se presenta la matriz de confusión (tabla 6.14) correspondiente al umbral obtenido, usando el conjunto de datos de validación, donde es claro que el error de clasificación obtenido es de Tabla Matriz de confusión para el conjunto de validación En la figura 6.8 se muestra la densidad de probabilidad de las dos distribuciones de buenos y malos predicha, donde se observa lo amplias de estas distribuciones en comparación con el método de Bayes. La distancia de Mahalanobis que indica que tan separadas están estas dos distribuciones es de como se muestra en la tabla 6.15.

128 108 DISTRIBUCIÓN ENTRE BUENOS Y MALOS densidad de probabilidad Buenos Malos valores proyectados Figura 6.8. Densidad de probabilidad predicha entre los buenos y los malos obtenidos por discriminador lineal de Fisher En la figura 6.9 se muestra la distancia de Kolmogorov y la curva ROC de las distribuciones acumuladas para la clasificación predicha de los buenos y de los malos. La figura 6.9(a) muestra la máxima distancia entre las distribuciones acumuladas para obtener el valor del estadístico KS, que como muestra la tabla 6.15 es igual a 0.75, este valor ocurre aproximadamente para un valor umbral de 1.1, que es cercano al umbral determinado anteriormente. DISTANCIA KOLMOGOROV-SMIRNOV CURVA ROC Distribución de probabilidad pb(s) pg(s) Buenos Malos Umbral pb(s) Valores proyectados pg(s) (a) (b) Figura 6.9. Distancia Kolmogorov- Smirnov y Curva ROC

129 109 La curva ROC es mostrada en la figura 6.9 (b) y en la figura 6.10 es mostrada esta misma curva junto con la curva ROC obtenida con el método de Bayes (en color azul) es claro que la mejor curva ROC la tiene el método de Bayes. El coeficiente de Gini, mostrado en la tabla 6.15 muestra un valor de 0.89, el cual es muy cercano a 1, lo que indica que se trata de un buen modelo de discriminación. Tabla Valores de distancia Mahalanobis, KS y coeficiente de Gini. MAHALANOBIS KS 0.75 GINI Figura Comparación de las curvas ROC de Bayes (azul) y Fisher (negro). El umbral que minimiza el número de individuos mal clasificados en la muestra de entrenamiento es igual a , por tanto aquellos valores a la izquierda del mismo son morosos y aquellos a su derecha son no morosos, sencillamente se está hablando de la regla de decisión mostrada en (6.2) con u = A continuación se procede a validar el modelo obtenido para determinar que tan bueno es clasificando el conjunto de datos construido, para ello se utiliza la muestra de

130 110 entrenamiento y se obtienen los errores de discriminación mediante las técnicas de validación cruzada y Bootstrap. Estos errores son presentado en la tabla 6.16 en la cual se observa que los errores están entre 12 y 14% con una varianza entre los errores bastante pequeña. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap Ahora se procede a verificar el modelo obtenido mediante el conjunto de datos de validación, para ello se obtiene la matriz de confusión junto con algunas tasas, que determinan que tan buena es la clasificación obtenida, los resultados son mostrados en la tabla Tabla Matriz de confusión para el conjunto de validación El error obtenido (1 - la tasa de aceptación E) es de 12%, error que es bastante cercano al obtenido en la tabla 6.14, observe además que la tasa de falsos negativos (FN) es de 10%, un poco mayor a la observada en el método anterior (ver tabla 6.5) mientras

131 111 que la tasa de falsos positivos (FP) es de 15% la cual es bastante cercana a la observada en la tabla 6.5, la precisión muestra un valor de 90%. En la tabla 6.18 se muestran los resultados obtenidos al utilizar los datos de validación sobre el modelo resultante, usando un umbral igual a , el cual fue obtenido mediante la minimización de FP, y que además es la recta vertical más a la derecha que se puede apreciar en la figura Note que en la matriz de confusión de la tabla 6.18 sólo se clasifican 69 casos positivos de forma correcta, de manera que la tasa de verdaderos positivos TP es bastante baja puesto que toma un valor de 16%, cuando para el método Bayesiano era de 42%. Tabla Matriz de confusión para el conjunto de validación En la tabla 6.19 se presentan los valores obtenidos para la precisión mediante los métodos de validación cruzada y Bootstrap, observándose buenos resultados. Tabla Precisión obtenida mediante diversos tipos de remuestreo utilizando el conjunto de entrenamiento. Método Precisión promedio Validación cruzada k = 10 1 Bootstrap

132 112 En la figura 6.11 se presenta la curva de estrategia donde se muestra que para una tasa de aceptación menor a 42% la tasa de morosos o falsos positivos es bastante cercana a cero, cabe aclarar que la tasa de falsos positivos es cero sólo cuando la tasa de aceptación es menor a 16%, tal como se mostró en la tabla 6.18, luego toma valores cercanos a cero, hasta llegar a una tasa de aceptación superior a la de 40% donde la tasa de morosos parece incrementarse de manera importante, esta conducta puede observarse también en la figura Figura 6.11 Curva de estrategia A continuación se presentan los resultados obtenidos para la minimización de costos siguiendo el ejemplo utilizado en la sección El umbral que minimiza los costos para el ejemplo dado es igual a Se observa en la matriz de confusión dada en la tabla 6.20, que el error de clasificación es de 12%, con una tasa TP de 95% lo cual es bastante buena, pero el método Bayesiano lo supera, ya que posee para este caso una tasa TP de 98%, esto es porque clasifica 421 casos positivos de los 426 totales, mientras que Fisher estima solo 403. A pesar de esto el método de discriminación lineal de Fisher da muy buenos resultados. Así el costo asociado con está clasificación es igual a , el cual es mayor al obtenido por el método de Bayes.

133 113 Tabla Matriz de confusión para el conjunto de validación. Tabla Umbrales obtenidos por minimización de algún tipo de error. Min. Umbral o punto de corte FP FN Error de clasificación Figura 6.12 Umbrales para la clasificación de clientes en buenos y malos

134 114 Aplicando el modelo obtenido a lo datos de la tabla 6.1 se obtienen los siguientes resultados (tabla 6.22), considerando los umbrales de la figura 6.12 y la tabla Resultados obtenidos con la muestra de la tabla 6.1 Solicitantes Umbral S1 S 2 S3 S 4 S5 S6 S7 S8 S9 Min. FP y FN Min. errores de clasificación Observe en la tabla anterior que los solicitantes S3 y S4 son clasificados como buenos encontrándose, a diferencia del método Bayesiano, dentro de la zona donde se producen los dos tipos de error ya conocidos. Los solicitantes S5 y S7 que se habían considerado como casos extremos fueron clasificados correctamente como morosos quedando fuera de la zona de solapamiento. El solicitante S 6, el cual tiene las mismas características que el solicitante S 4, con la diferencia de que S6 posee deuda, fue clasificado como bueno dentro de la zona donde se producen ambos tipos de error. El caso dudoso S 9 fue clasificado como moroso dentro de la región donde se producen los errores, al igual que el solicitante S 1. A diferencia del método anterior S2 buen cliente. es clasificado como Regresión Logística La tabla 6.23 muestra los resultados de aplicar regresión logística a la muestra de entrenamiento, donde además del coeficiente o peso que tiene cada variable en el modelo también se muestra un valor constante llamado intercepto denotado por ω o.

135 115 Tabla Coeficientes del método de regresión Logística. Discriminador: g( x) = ω o + ω1 ω1 + ω2x ω14 x14 i Coeficiente del Atributo Atributo x i ( w i ) 0 Intercepto Género Edad Estado Civil Instrucción Categoría Ocupacional Profesión Ingresos Mensuales Tenencia de la vivienda Tipo de vivienda Carga familiar Número de años en el empleo actual 12 Número de créditos obtenidos en el pasado 13 Número de créditos del pasado no pagados 14 Número de créditos que posee en el presente Al observar los valores de la tabla 6.23 se observa que el atributo 13 correspondiente al número de créditos no pagados en el pasado presenta un valor bastante negativo en comparación con el resto de las variables del estudio y bastante mayor al coeficiente obtenido para este atributo en el método de discriminación lineal de Fisher. Al ver en detalle esta variable se observa que dicha variable no es significativa. Por tanto, es importante aclarar que el hecho de que una variable sea no significativa, no significa que esa variable no sea un atributo importante para la

136 116 discriminación, esto solo significa que no es un predictor importante con respecto a las otras variables en el modelo. En las figuras 6.13 se observa la distribución de los buenos y malos a partir de los resultados obtenidos, luego de aplicar el método de regresión logística sobre el conjunto de entrenamiento. DISTRIBUCIÓN PREDICHA DE LOS BUENOS Y MALOS frecuencias MALOS BUENOS (a) (b) g Figura 6.13 Distribución de los grupos de buenos y malos obtenidos por Regresión Logística En la tabla 6.24 se muestran los errores clasificación obtenidos mediante la aplicación de los métodos de validación cruzada y Bootstrap sobre la muestra de entrenamiento, en donde es claro que los errores están en su mayoría en un 13%. La regla de decisión usada para la clasificación es la presentada en (6.1). Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap

137 117 En la tabla 6.25 se muestra la matriz de confusión de la clasificación predicha mediante los datos de validación con los coeficientes del modelo presentado en la tabla 6.23, mediante la regla de decisión (6.1). En dicha tabla se observa que el número de clientes clasificados de forma correcta fue de 365 de un total de 426, dando una tasa de verdaderos positivos TP de 85%, siendo menor a la presentada en el método Bayesiano (95%) para la misma regla de decisión (6.1), aunque la precisión para este caso se muestra mucho mejor en comparación con Bayes al tomar un valor de 92%, esto ocurre por el número de malos clasificados como buenos, el cual es menor para la regresión logística. El error de clasificación obtenido al utilizar el conjunto de validación para la clasificación es de 13%, lo cual es consistente con los resultados obtenidos en la tabla Tabla Matriz de confusión para el conjunto de validación En la figura 6.14 se muestra la distribución de probabilidades de los buenos y malos predichos obtenidos mediante el conjunto de validación, esta figura muestra de manera más clara la separación entre la distribución de los buenos y los malos, que fue obtenida para el calculo de la distancia de Mahalanobis, la cual toma un valor de como es indicado en la tabla 6.26.

138 118 DISTRIBUCIÓN ENTRE BUENOS Y MALOS densidad de probabilidad valores proyectados Figura Densidad de probabilidad predicha entre los buenos y los malos obtenida por Regresión Logística Tabla Valores de distancia Mahalanobis, KS y coeficiente de Gini MAHALANOBIS KS 0.76 GINI De igual forma en la tabla 6.26 se muestran los valores del coeficiente de Gini y la máxima distancia o estadístico KS, el cual parece ocurrir para un valor umbral cercano a Además en la figura 6.15 se muestra la curva ROC y la distribución acumulada de las distribuciones predichas de los buenos y lo malos a partir de la cual se obtiene el valor KS. CURVA ROC pb(s) pg(s) (a) (b) Figura Distancia Kolmogorov- Smirnov y Curva ROC.

139 119 En la figura 6.16, que se muestra a continuación, se observa en (a) la curva ROC de la regresión logística (en negro) con la curva ROC del método de Bayes (azul) y en (b) se observa la curva ROC de la regresión logística (negro) junto con la curva ROC del método de Fisher (azul). (a) Figura Comparaciones con la curva ROC (b) Se observa en dichas figuras que el ROC correspondiente a el método de discriminación lineal de Fisher y regresión logística son bastante parecidas, esto es claro mediante el índice de Gini obtenido para ambos métodos el cual es de 89%, mientras que el método de Bayes posee un índice de Gini un poco mayor e igual a Ahora se considera la regla de decisión mostrada en (6.2), para ello es necesario un valor umbral que será determinado usando los criterios descritos en el capítulo 4. Se comenzará utilizando el umbral o punto de corte que minimice los dos tipos de errores conocidos, este valor es igual a En las tablas 6.27 y 6.28 se muestran los errores obtenidos en la clasificación mediante las muestras de entrenamiento y validación con el umbral anteriormente definido.

140 120 Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap Los errores obtenidos al utilizar la regla de decisión (6.2) junto con el umbral de menor error de clasificación, son cercanos a los obtenidos mediante la regla de decisión de (6.1) presentada en la tabla La matriz de decisión (tabla 6.28) muestra un total de 79 clientes mal clasificados, presentadose un error de 11.6%, el cual es menor al calculado mediante la tabla Tabla Matriz de confusión para el conjunto de validación Ahora se considera el umbral que minimiza la tasa de Falsos Positivos (FP), el cual toma un valor de La matriz de confusión correspondiente a estos resultados se muestra en la tabla 6.29.

141 121 Tabla Matriz de confusión para el conjunto de validación Los valores de precisión obtenidos mediante las técnicas de validación cruzada y Bootstrap son mostradas a continuación en la tabla Los resultados indican que existen submuestras en el conjunto de entrenamiento para las cuales no se obtiene una tasa de FP igual a cero, con el umbral escogido. Tabla Precisión obtenida mediante diversos tipos de remuestreo Método Precisión promedio Validación cruzada k = Bootstrap A partir de lo observado en la tabla 6.29, es claro que para tener una tasa de morosidad igual a cero, la tasa de aceptación debe ser menor a 13%, a pesar de esto la curva de estrategia (figura 6.17) parece mostrar lo contrario, esto es porque la tasa de morosos es pequeña después de este porcentaje, note que cerca de una tasa de aceptación de 40% la tasa de morosidad parece alejarse más del eje horizontal.

142 122 Figura Curva de estrategia Ahora se utiliza para la discriminación el umbral que minimice los costos según lo explicado al inicio de la sección 6.1. El valor del umbral que cumple con esta condición es igual a La matriz de confusión resultante se muestra en la tabla 6.31, donde se observa que el número de buenos clasificados de manera correcta es igual a 411, un valor que es algo mayor al obtenido con el método de discriminación lineal de Fisher, pero menor al obtenido con el método de Bayes con características discretas. El error de clasificación que muestra la tabla, correspondiente a los tipos de error conocidos, es de 12%. La tasa de exactitud es comparable con la obtenida en el método de discriminación de Bayes. Así el costo asociado a esta clasificación es Bs., pérdida que es menor a la obtenida mediante el método de Fisher, pero mayor a la de Bayes.

143 123 Tabla Matriz de confusión para el conjunto de validación En la tabla 6.32 se muestra algunos de los umbrales o puntos de corte considerados en el presente trabajo, los umbrales considerados son el umbral que minimiza el número de falsos positivos (FP), el umbral que minimiza los falsos negativos (FN) y el umbral que minimiza la suma de los dos tipos de error (FN +FP). Tabla Umbrales obtenidos por minimización de algún tipo de error Min. Umbral o punto de corte FP FN Error de clasificación Los umbrales mostrados en la tabla 6.32 se dibujan en la figura 6.18,las líneas de color rojo corresponden al umbral que minimiza FP (a la derecha) y al umbral que minimiza los FN (a la izquierda), la línea verde es el umbral que minimiza el error de la clasificación.

144 124 Figura Umbrales para la clasificación de clientes en buenos y malos Los resultados de aplicar este método a los datos mostrados en la tabla 6.1 son tabulados en la tabla siguiente: Tabla Resultados obtenidos con la muestra de la tabla 6.1. Umbral Solicitantes S1 S 2 S3 S 4 S5 S6 S7 S8 S9 Min. FP y FN Min. errores de clasificación Observe en la tabla anterior que los solicitantes S 2, S3 y S 4 son clasificados como buenos, encontrándose dentro de la zona donde se producen los dos tipos de error ya conocidos. Los solicitantes S 5, S6 y S7 fueron clasificados correctamente como morosos quedando fuera de la zona de solapamiento, esto es, en la zona más a la izquierda del umbral que minimiza FN. El caso dudoso S9 región donde se producen los errores, al igual que el solicitante S 1. fue clasificado como moroso dentro de la

145 125 El valor del coeficiente correspondiente al atributo número 12, denominado número de créditos obtenidos en el pasado, cuyo coeficiente fue mostrado en la tabla 6.23, resulto ser no significativo, lo que indica, como ya se señalo desde el inicio, que hay evidencia para pensar que el atributo no tiene importancia y puede ser desechado. Así que se eliminó dicho atributo del conjunto de datos de entrenamiento y se procedió a aplicar nuevamente el método, de manera de determinar si se produce alguna mejora en la discriminación. Los resultados fueron tan buenos como los observados anteriormente, con la diferencia de que el discriminador obtenido no poseía la capacidad de penalizar al individuo en caso de poseer créditos vencidos. Lo anterior confirma el hecho de que aún cuando la variable sea no significativa, no significa que dicha variable no sea un atributo importante para la discriminación. Es importante destacar que los resultados obtenidos mediante esta técnica y las técnicas Probit y Tobit se ven influenciadas por valores extremos, colinealidad o heterocedasticidad. Es claro que el problema que se presenta en este caso es de colinealidad puesto que una variable (número de créditos no pagados en el pasado), fue obtenida a partir de otra variable (número de créditos en el pasado) dentro del conjunto de atributos. A pesar de esto los resultados con y sin la variable no significativa no variaron de forma importante Probit En la tabla 6.34 que se presenta a continuación se muestran los coeficientes o pesos que tienen cada una de las variables dentro del modelo de discriminación, se observa que el coeficiente más negativo, al igual que en otros métodos, lo posee el atributo número de créditos no pagados en el pasado.

146 126 Tabla Coeficientes del Método Probit Discriminador: g = w1 x1 + w2x w14 x14 Coeficiente del Atributo i Atributo x i ( ) 0 Intercepto Género Edad Estado Civil Instrucción Categoría Ocupacional Profesión Ingresos Mensuales Tenencia de la vivienda Tipo de vivienda Carga familiar Número de años en el empleo actual 12 Número de créditos obtenidos en el pasado 13 Número de créditos del pasado no pagados 14 Número de créditos que posee en el presente w i En las figuras que se presentan a continuación se muestra la distribución de lo buenos y los malos obtenida mediante la muestra de entrenamiento, es claro que la zona donde ambas distribuciones se solapan ocurre alrededor de cero.

147 127 DISTRIBUCIÓN PREDICHA DE LOS BUENOS Y MALOS frecuencias MALOS g (a) (b) Figura 6.19 Distribución de los grupos de buenos y malos obtenidos con Probit La tabla 6.35 muestra los errores de clasificación por medio de los métodos de validación cruzada y Bootstrap considerando la regla de decisión (6.1), en donde se observa un error medio de 13%, con una varianza entre los errores muy pequeña. Tabla Resultados de aplicar validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap La matriz de confusión de la clasificación obtenida mediante los datos de validación es mostrada en la tabla 6.36, donde se observa que el número de individuos correctamente clasificados como buenos es de 364, teniendo una tasa de precisión de 92%, la cual es bastante buena debido a que el número de individuos malos clasificados positivamente es de 29. La tasa de error en este caso es de aproximadamente 13%.

148 128 Tabla Matriz de confusión para el conjunto de validación DISTRIBUCIÓN ENTRE BUENOS Y MALOS densidad de probabilidad valores proyectados Figura Densidad de probabilidad predicha entre los buenos y los malos obtenidos con Probit En las figuras 6.20 y 6.21 se muestran la distribuciones de probabilidad, las distribuciones acumuladas y la curva ROC de los grupos de buenos y malos. En la tabla 6.37 se muestran los valores numéricos que describen de manera más exacta que tan separadas están ambas distribuciones de datos. La distancia de Mahalanobis es 2.68, el estadístico KS, valor que indica máxima distancia entre las distribuciones acumuladas de los grupos de datos es de 0.75 y ocurre alrededor de un umbral de Finalmente el índice de Gini es de 0.89.

149 129 CURVA ROC pb(s) pg(s) (a) (b) Figura Distancia Kolmogorov- Smirnov y Curva ROC Es importante destacar que los valores presentados en la tabla 6.37 y en las figuras 6.20 y 6.21 son obtenidos mediante la muestra de validación, además de que dichos resultados son independientes del umbral o punto de corte utilizado para la discriminación. Tabla Valores de distancia Mahalanobis, KS y coeficiente de Gini MAHALANOBIS KS 0.75 GINI Al comparar este resultado con el obtenido para la regresión logística dada en la tabla 6.26, se observa que sólo la distancia de Mahalanobis es diferente. Inclusive comparando los resultados con la matriz de confusión de la regresión logística mostrada en 6.25 se observa que la diferencia es sencillamente de un dato. Ahora se verá que ocurre cuando se utiliza la regla de decisión (6.2), con un valor umbral escogido de acuerdo a lo que se desea minimizar.

150 130 Considérese en principio el umbral que minimiza los dos tipos de error conocidos, para este caso ese umbral es igual a Los errores de clasificación son obtenidos mediante las técnicas de validación cruzada y boostrap discutidas en el capitulo 3, y son mostrados en la tabla Note que estos errores están entre 12 y 13%. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap para el conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap El error obtenido con el conjunto de validación puede ser calculado mediante la matriz de confusión, la cual es mostrada en la tabla 6.39, observándose que dicho error es aproximadamente igual a 12%. Note que los resultados mostrados en 6.39 son iguales a los mostrados en 6.28 correspondientes a la regresión logística. Tabla Matriz de confusión para el conjunto de validación

151 131 A continuación se presentan los resultados de utilizar la regla de decisión (6.2) con el umbral que minimiza la tasa de falsos positivos FP. Dicho umbral toma un valor igual a Los resultados de la clasificación son mostrados en la matriz de confusión de la tabla Tabla Matriz de confusión para el conjunto de validación Observe en la tabla 6.40 que el valor de precisión es de 100% como es de esperarse. En la tabla 6.41 se muestran los resultados de aplicar validación cruzada y bootstrap a la muestra de entrenamiento con el umbral ya indicado pero en este caso considerando solamente el valor de la precisión (P), observe que los valores resultantes, indican que existen submuestras en el conjunto de entrenamiento para las cuales no se obtiene una tasa de FP igual a cero con el umbral escogido. Tabla Precisión obtenida mediante diversos tipos de remuestreo. Método Presición promedio Validación cruzada k = Bootstrap En la figura 6.22 se observa la curva de estrategia, la cual indica el porcentaje de falsos positivos a obtener de acuerdo al porcentaje de población de buenos que se pretende considerar para el crédito, es claro que se tendrá una tasa de falsos negativos igual a cero

152 132 para una tasa de aceptación de 14% o menor, la línea de color rojo en la figura 6.22 indica este resultado. Es claro que mientras mayor sea la tasa de aceptación mayor será el porcentaje de morosos aceptados. A pesar que la mínima tasa de falsos positivos ocurre para un punto de corte igual a , note que después de una tasa de aceptación de 14%, la tasa de morosidad o FP se mantiene pegada al eje horizontal. Esto sucede porque para una tasa de aceptación más alta (menor a 40%), la tasa de morosidad es bastante pequeña, esto es, muy cercana a cero. Figura Curva de estrategia Luego se determina el umbral que minimiza los costos como se indico a principio de la sección 6.1. El umbral o punto de coste escogido es igual a Para ver que tan buena es la clasificación usando este umbral se presenta la matriz de confusión resultante (tabla 42) usando la muestra de validación. Note que el error es aproximadamente igual a 12% y posee una precisión igual a 86%. El costo asociado a esta clasificación es igual a Bs., el cual es un poco menor a la obtenida con regresión logística.

153 133 Tabla Matriz de confusión para el conjunto de validación Tabla Umbrales obtenidos por minimización de algún tipo de error. Min. Umbral o punto de corte FP FN Error de clasificación Observe en la figura 6.23, que la zona acotada por las rectas de color rojo es la zona en la cual se produce solapamiento entre las dos distribuciones y es la zona en donde ocurren los dos tipos de error definidos en el capitulo 3. El valor de los umbrales utilizados para la creación de la figura 6.23 son presentados en la tabla 6.43, y corresponden al umbral donde se minimiza la tasa de falsos positivos, falsos negativos y el error de clasificación.

154 134 Figura Umbrales para la clasificación de clientes en buenos y malos Ahora utilicemos el conjunto de datos mostrados al inicio del capítulo en la tabla 6.1, considerando el umbral que minimiza los dos tipo de error y los umbrales de mínimo FP y FN. Los resultados son mostrados a continuación en la tabla Tabla Resultados obtenidos con la muestra de la tabla 6.1 Solicitantes Umbral S1 S2 S3 S4 S5 S6 S7 S8 S9 Min. FP y FN Min. errores de clasificación Los resultados presentados en la tabla 6.44 son muy parecidos a los obtenidos con el método de regresión logística en la tabla 6.33, con la excepción de que el solicitante S6 queda en la zona donde ocurren ambos tipos de error Tobit A continuación se presentan los coeficientes o pesos obtenidos mediante el método de tobit descrito en la sección 3.1.5, en donde es claro que el coeficiente más negativo lo posee el atributo número de créditos no pagados en el pasado, lo cual es consistente con los

155 135 resultados observados con los métodos anteriormente discutidos, de igual forma los coeficientes más positivos son el número de créditos obtenidos en el pasado y número de años en el trabajo actual. Tabla Coeficientes del método Tobit. Discriminador: g = w1 x1 + w2x w14 x14 Coeficiente del Atributo i Atributo x i ( ) 0 Intercepto Género Edad Estado Civil Instrucción Categoría Ocupacional Profesión Ingresos Mensuales Tenencia de la vivienda 9 Tipo de vivienda Carga familiar Número de años en el empleo actual 12 Número de créditos obtenidos en el pasado 13 Número de créditos del pasado no pagados 14 Número de créditos que posee en el presente w i En las gráficas mostradas en la figura 6.24 se observa la distribución de los buenos y los malos predicha por el método de discriminación, obtenida mediante el conjunto de datos de entrenamiento, no es muy clara la separación de ambas poblaciones, pero parecen estar alrededor de cero.

156 136 (a) (b) Figura Distribución predicha de los grupos de buenos y malos obtenidos por Regresión Tobit para el conjunto de datos de entrenamiento Utilizando la regla de decisión mostrada en (6.1), junto con los métodos de validación cruzada, bootstrap y matriz de confusión se obtiene que el error de clasificación está alrededor de 14%, los resultados detallados son mostrados en las tablas 6.46 y Error que es superior al obtenido mediante los métodos anteriormente señalados. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap A continuación (tabla 6.47) se muestran los resultados de la predicción mediante la muestra de validación, en donde se observa que el método predice un total de 462 buenos, de los cuales 63 son originalmente malos, así la tasa de falsos positivos es de 24%, además un total de 27 buenos son incorrectamente clasificados como malos, así la tasa de falsos

157 137 negativos es de 6.3%. El error de clasificación, el cual considera ambos tipos de error es de y se obtiene como el complemento de la tasa de exactitud. Tabla Matriz de confusión para el conjunto de validación En la figura 6.25 se muestra la densidad de probabilidad de las dos distribuciones de buenos y malos. Figura Densidad de probabilidad predicha entre los buenos y los malos obtenidos por Regresión Tobit En la figura 6.26 y en la tabla 6.48 se muestra la distancia de Kolmogorov y la curva ROC, las cuales fueron obtenidas mediante las distribuciones acumuladas de los

158 138 buenos y los malos predichos por el método. La figura 6.26(a) muestra la máxima distancia entre las distribuciones acumuladas para obtener el valor del estadístico KS que como muestra la tabla 6.48 es igual a 0.73, este valor ocurre aproximadamente para un umbral igual a 0.1, la cual es cercano al umbral donde ocurre la minimización de los dos tipos de error. Tabla Valores de distancia Mahalanobis, KS y coeficiente de Gini. MAHALANOBIS KS 0.73 GINI (a) (b) Figura Distancia Kolmogorov- Smirnov y Curva ROC A continuación se muestra el resultado de minimizar ambos tipos de error, para esto se utiliza la regla de decisión 2 con un umbral igual a Los errores obtenidos mediante validación cruzada y boostrap están alrededor de 14%, como se aprecia en la tabla 6.49.

159 139 Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap La matriz de confusión obtenida al clasificar los datos utilizando el umbral y la muestra de validación se presenta en la tabla Observándose que el método en cuestión clasifica la muestra con una tasa de exactitud igual a 86%, esto es, se equivoca en un 14% de los casos. Tabla Matriz de confusión para el conjunto de validación Para la minimización de los falsos positivos (FP) se utiliza un umbral igual a En la tabla 6.51 se muestra la matriz de confusión de la clasificación obtenida, en donde se observa que sólo 20% de los individuos son clasificados como buenos.

160 140 Tabla Matriz de confusión para el conjunto de validación En la tabla 6.52 que se presenta a continuación se muestra los resultados de precisión obtenida con el umbral antes señalado, utilizando validación cruzada y Bootstrap. Estos resultados son bastante cercanos a 1, pero no iguales, indicando que existen submuestras en el conjunto de entrenamiento para las cuales no se obtiene una tasa de FP igual a cero con el umbral escogido. Tabla Precisión obtenida mediante diversos tipos de remuestreo. Método Precisión promedio Validación cruzada k = Bootstrap En la figura 6.27 se presenta la curva de estrategia donde se muestra que para una tasa de aceptación menor o igual a 20% la tasa de morosos o falsos positivos es cero, tal como se observa en la matriz de confusión mostrada en la tabla anterior.

161 141 Figura Curva de estrategia Nuevamente se utiliza la regla de decisión (6.2), pero está vez utilizando el umbral donde se produce el mínimo costo, el cual ocurre para un umbral de valor igual a El resultado de esta clasificación es mostrado mediante la matriz de confusión presentada en la tabla Para este caso se observa que el número de casos buenos predichos es mayor al obtenido en la matriz de confusión de la tabla 6.50 anterior, de los 465 casos buenos predichos, 65 son clasificados incorrectamente, indicando una tasa de falsos positivos de 25%, la cual es mayor a la de la tabla 6.50 que es de sólo 15%. La tasa de falsos negativos es de 6.10% la cual es menor a la de la tabla 6.50 que es de 13%. El costo asociado a los dos tipos de error es igual a Bs., es la mayor perdida obtenida hasta el momento. Tabla Matriz de confusión para el conjunto de validación

162 142 A continuación se muestra la figura 6.28 correspondiente a la distribución predicha de los buenos y los malos, considerando el umbral donde se produce el menor error de clasificación (en color verde, recta vertical central) y los umbrales que minimizan la tasa de FN (recta vertical de color rojo en el lado izquierdo) y FP (recta vertical de color rojo en el lado derecho). El valor numérico de estos umbrales es presentado en la tabla Tabla Algunos umbrales obtenidos por la minimización de algún tipo de error. Min. Umbral o punto de corte FP FN Error de clasificación Figura Umbrales para la clasificación de clientes en buenos y malos Aplicando los resultados obtenidos a lo datos de la tabla 6.1, se obtienen los siguientes resultados (tabla 6.55), considerando los umbrales de la figura 6.28 y la tabla 6.54.

163 Resultados obtenidos con la muestra de la tabla 6.1. Solicitantes Umbral S1 S 2 S3 S 4 S5 S6 S7 S8 S9 Min. FP y FN Min. errores de clasificación Note que los resultados obtenidos en la tabla 6.55 son iguales a los obtenidos con la técnica de regresión logística, resultados que fueron tabulados en la tabla ÁRBOLES DE DECISIÓN A continuación se muestra el árbol obtenido luego de aplicar al conjunto de datos de entrenamiento el método de árboles de clasificación de partición recursiva, en donde se utilizó como medida de partición el índice de Gini. El árbol obtenido después de la poda por el método de mínimo coste-complejidad consta de 31 nodos terminales como se aprecia en la figura Observe que a diferencia de los métodos discutidos hasta ahora, la técnica de árboles decisión devuelve de forma instantánea a que grupo pertenece cada individuo de la muestra de solicitantes utilizada para la clasificación. Dado que el presente método no devuelve los puntajes asociados a cada individuo no se puede utilizar los métodos de validación distancia de Mahalanobis, estadístico KS, índice de Gini, ni ninguna regla de decisión que involucre umbrales y mucho menos es posible la creación de una curva de estrategia. Esto a veces resulta un inconveniente puesto que es poco lo que puede hacerse con está metodología. Note en la figura 6.29 que el atributo número de créditos en el pasado es la raíz del árbol, así que si un solicitante nunca a tenido un crédito en el pasado, el método de árboles de clasificación lo clasifica instantáneamente como moroso, la razón de esto puede verse claramente en los histogramas de la figura 6.1 mostrado al inicio de esta sección, donde se observa que la cantidad de buenos con cero créditos es muy poca, mientras que para los malos el número de personas con cero créditos en el pasado es mayor. Note además que el atributo correspondiente al tiempo del individuo en el trabajo actual es también una variable de peso para la discriminación.

164 144

165 145 En la tabla 6.56 se muestran los resultados de aplicar validación cruzada y boostrap, donde es claro que los errores de clasificación para este caso están alrededor de 7%. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap Utilizamos el conjunto de validación para construir la matriz de confusión correspondiente a este método, la cual es mostrada en la tabla 6.57, en donde se observa que el total de buenos predichos es de 389, de los cuales 0 fueron incorrectamente clasificados, esto es la tasa de falsos negativos para este caso es igual a 0% y la tasa de verdaderos negativos junto con la tasa de precisión son de 100%, finalmente la tasa de exactitud es de 94%, indicando que el error de clasificación es aproximadamente igual a 6%. Se puede calcular el costo asociado a esta clasificación, en donde es claro que sólo se considera la ganancia pérdida al no considerar los 37 solicitantes buenos que erróneamente fueron clasificados como malos. De está manera el costo o pérdida es igual a Bs., valor que es menor al obtenido mediante el método de Fisher y mayor al obtenido mediante Bayes y regresión logística. Tabla Matriz de confusión para el conjunto de validación

166 146 Aplicando los resultados obtenidos a lo datos de la tabla 6.1, se obtienen los siguientes resultados (tabla 6.58). Observe que para este caso solo los solicitantes S3 y S4 fueron clasificados como buenos Resultados obtenidos con la muestra de la tabla 6.1 Solicitantes S1 S S 2 3 S S 4 5 S6 S7 S8 S K-Vecinos Más Cercanos Antes de empezar a ver que tan bueno es el modelo de k-vecinos más cercanos es necesario saber cuales son los mejores parámetros D y k, esto dependerá de lo que se quiera minimizar. Es importante destacar que este método al igual que el método de árboles de decisión sólo devuelve valores iguales a uno o cero para identificar a que grupo pertenece cada individuo en la muestra, por tanto no se puede utilizar las técnicas de validación distancia de Mahalanobis, estadístico Kolmogorov- Smirnov, índice de Gini y tampoco es posible utilizar alguna regla de decisión que involucre umbrales. En principio se empezará por buscar aquellos parámetros que minimicen la suma de los dos tipos de error de clasificación, para esto se utilizó validación cruzada. En la figura que se muestra a continuación, se muestran los errores obtenidos para distintos valores de k y un valor D = 1. 5.

167 147 Figura Errores obtenidos usando el parámetro D = 1. 5 y diferentes valores de k En la tabla 6.59 se observa que el menor error para el caso de D = 1. 5 ocurre para k = 37. La tabla muestra también el menor error obtenido para diferentes valores de D entre 1.4 y 1.8 (ver capítulo 3), es claro que el menor error ocurre con D = 1. 8 k igual a 12. y un valor Tabla Errores obtenidos para diferentes valores de k y D D k Errores promedios En la tabla 6.60 que se presenta a continuación se muestran los resultados de aplicar validación cruzada y bootstrap al método de k-vecinos, es claro que los errores se muestran por encima de 17%.

168 148 Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap La matriz de confusión mostrada en la tabla 6.61 muestra un error de 14.8%, donde 401 casos positivos fueron identificados de manera correcta. Tabla Matriz de confusión para el conjunto de validación Ahora se buscan los parámetros que minimizan la tasa de falsos positivos FP, los cuales son D = 1. 8 para un k igual a 41, los resultados obtenidos mediante el conjunto de validación son resumidos en la tabla 6.62, en donde se observa que en comparación con el resultado observado en la tabla anterior sólo se reduce en cuatro el número de casos clasificados de forma incorrecta como buenos, lo cual no parece ser muy bueno en comparación con los resultados que se habían obtenido hasta ahora. Note que el error de clasificación aumenta a 16%, puesto que el número de falsos negativos FN aumenta.

169 149 Tabla Matriz de confusión para el conjunto de validación Mediante los métodos de bootstrap y validación cruzada se calculo los valores de precisión obteniendo para ambas técnicas valores alrededor de 84%. Para obtener la clasificación que minimice los costos correspondientes a los dos tipos de error existentes se consideró los parámetros D = 1. 8 para un k = 2. En la tabla 6.63 se muestra la matriz de decisión correspondiente a este caso, en donde se observa que el número de casos positivos correctamente clasificados es de 412, valor que es notablemente mayor al obtenido en los casos anteriores, al igual que el número de casos mal clasificados como buenos, el cual es 106. El costo para esta clasificación es de Bs., valor que no es mejor a los obtenidos hasta ahora. Tabla Matriz de confusión para el conjunto de validación

170 150 Ahora se aplicará los resultados obtenidos a los datos de la tabla 6.1. Específicamente se utilizarán los parámetros obtenidos para la minimización del error de clasificación, los cuales fueron D = 1. 8 y k = 12. Observe en la tabla 6.64 que los solicitantes S 2, S 3, S 4, S6 y el caso dudoso S9 fueron clasificados como buenos Resultados obtenidos con la muestra de la tabla 6.1 Solicitantes S1 S 2 S3 S 4 S5 S6 S7 8 S S Programación Lineal Otro método discutido en el capítulo 3 es el de Programación Lineal. La formulación utilizada para el entrenamiento de los datos es la vista en (3.32), la cual es denominada MMD. Los coeficientes obtenidos mediante el conjunto de entrenamiento al igual que la distribución de buenos y malos obtenida es mostrada a continuación en la tabla 6.65 y en la figura Es importante destacar que el método sólo estima coeficientes solo positivos o solo negativos para cada uno de los atributos considerados, el signo de los coeficientes dependerá del conjunto de datos, para más detalles ver la sección Note que todos los coeficientes mostrados en la tabla 6.65 son positivos, observándose que los atributos con mayores coeficientes son el número de créditos no pagados en el pasado, profesión y género.

171 151 Tabla Coeficientes del modelo obtenido mediante Programación Lineal. i Coeficiente del Atributo Atributo x i ( w i ) 1 Género Edad Estado Civil Instrucción Categoría Ocupacional Profesión Ingresos Mensuales Tenencia de la vivienda Tipo de vivienda Cargo familiar Número de años 11 en el empleo actual 12 Número de créditos obtenidos en el pasado 13 Número de créditos del pasado no pagados 14 Número de créditos que posee en el presente Error Umbral o punto de corte En la figura 6.31 se observa que la división obtenida entre los buenos y malos con el conjunto de entrenamiento no es muy buena, esto ya es claro luego de ver los resultados de la tabla anterior, puesto que este método no descifra las relaciones negativas que pueda haber en los datos.

172 152 (a) (b) Figura Distribución de frecuencias predicha para los buenos y malos. Utilizando la regla de decisión vista en (6.2) junto con el umbral mostrado en la tabla 6.65 anterior, el cual es igual a , se obtiene la matriz de confusión de la tabla En la matriz de confusión se observa que la exactitud del método es igual a 53.5%, lo que indica que el error de clasificación es de aproximadamente 47%, note además que la tasa de falsos negativos FP es superior a 61%. Tabla Matriz de confusión para el conjunto de validación

173 153 En la tabla 6.67 que se presenta a continuación se muestran los resultados de aplicar validación cruzada y bootstrap. Los errores se muestran tan malos como los obtenidos mediante la matriz de confusión. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap para el conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap En la figura 6.32 se observa la distribución de probabilidad de los buenos (en azul) y de los malos (en negro), usando el conjunto de datos de validación. Es clara la poca separabilidad que se logra con el presente método. DISTRIBUCIÓN ENTRE BUENOS Y MALOS densidad de probabilidad valores proyectados Figura Densidad de probabilidad predicha entre los buenos y los malos obtenidos por PL Es posible mejorar los resultados obtenidos mediante la técnica de remuestreo de boostrap (ver sección 3.3). En la tabla 6.68 se muestran los coeficientes obtenidos para cada uno de los atributos obtenidos mediante remuestreo, es claro que los mayores

174 154 coeficientes siguen siendo para los atributos número de créditos no pagados en el pasado, profesión y género. Tabla Coeficientes del modelo obtenido mediante Programación Lineal. Coeficiente del Varianza del Atributo i Atributo Atributo x i ( ) w i ( ) 1 Género Edad Estado Civil Instrucción Categoría Ocupacional Profesión Ingresos Mensuales Tenencia de la vivienda Tipo de vivienda Carga familiar Número de años en el empleo actual 12 Número de créditos obtenidos en el pasado 13 Número de créditos del pasado no pagados 14 Número de créditos que posee en el presente Error Umbral o punto de corte w i Utilizando el umbral obtenido mediante el método de discriminación junto con la regla de decisión (6.2) se obtiene la matriz de confusión mostrada en la tabla 6.69, en donde se observa que el error de clasificación se ve reducido a 44% en comparación con los resultados obtenidos anteriormente.

175 155 Tabla Matriz de confusión para el conjunto de validación En la tabla 6.70 Se muestran los errores obtenidos mediante las técnicas de validación cruzada y bootstrap, donde es claro que los resultados obtenidos se mantienen alrededor de 42%. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap En la figura 6.33 que se muestra a continuación se sigue observando la poca separabilidad que poseen la dos distribuciones de los datos, es claro que a pesar de la mejora obtenida en el método, la discriminación sigue siendo mala en comparación con los métodos hasta ahora descritos.

176 156 Figura Densidad de probabilidad predicha entre los buenos y los malos obtenidos por PL A continuación se muestra en la figura 6.34 la curva ROC y las distribuciones acumuladas de los buenos y malos que se utilizaron para el calculo de la distancia de Kolmogorov-Smirnov. Los resultados numéricos asociados con estás gráficas es mostrados en la tabla DISTANCIA KOLMOGOROV-SMIRNOV CURVA ROC Distribución de probabilidad pb(s) Valores proyectados pg(s) (a) (b) Figura Distancia Kolmogorov- Smirnov y Curva ROC

177 157 Tabla Valores de distancia Mahalanobis, KS y coeficiente de Gini MAHALANOBIS KS 0.38 GINI El valor del estadístico KS es igual a 0.38 y ocurre, como puede observarse en la figura 6.34(a), cerca de 0.9, lo que indica que el umbral que minimiza los errores de clasificación está alrededor de este valor. El índice de Gini presenta un valor muy bajo e igual a Es claro que todos los valores mostrados en la tabla 6.71 indican que el método no separa de manera apropiada los dos grupos existentes en el conjunto de datos. La minimización de los errores de clasificación ocurre cuando se toma la regla de decisión (6.2) junto con un umbral igual a , los resultados obtenidos son resumidos en la matriz de confusión que se muestre en la tabla 6.72, donde se observa que el error de clasificación es igual a Tabla Matriz de confusión para el conjunto de validación Los errores obtenidos mediante validación cruzada y Bootstrap son presentados en la tabla 6.73, mostrándose errores similares al obtenido mediante la matriz de confusión.

178 158 Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap para el conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap Para minimizar la tasa de falsos positivos se utiliza un umbral igual a Así, la clasificación obtenida mediante la muestra de validación es mostrada en la matriz de confusión de la tabla 6.74, donde es claro que para obtener un número de falsos positivos igual a cero la tasa de aceptación debe ser de 0.2%. Tabla Matriz de confusión para el conjunto de validación La curva de estrategia se muestra como una recta en la figura 6.35, indicando que no importa que tasa de aceptación se utilice siempre se obtendrán tasas de morosidad muy altas en comparación con las obtenidas mediante otros métodos.

179 159 CURVA DE ESTRATEGIA Tasa de Morosos Tasa de Aceptación Figura Curva de estrategia La minimización de los costos se obtiene mediante el umbral La matriz de confusión correspondiente es mostrada en la tabla 6.75, en donde se observa que la tasa de verdaderos positivos se muestra mucho mayor a la obtenida con otros umbrales, mostrando una valor de 93%, a pesar de esto la precisión es mucho menor a la vista en la tabla anterior, debido a que el porcentaje de fasos positivos es de 72%. Entonces el costo asociado con está clasificación es igual a Bs., el cual es bastante malo. Tabla Matriz de confusión para el conjunto de validación.

180 160 Tabla Algunos umbrales obtenidos por la minimización de algún tipo de error. Min. Umbral o punto de corte FP FN Error de clasificación Aplicando los resultados obtenidos a lo datos de la tabla 6.1, se obtienen los siguientes resultados (tabla 6.77), considerando los umbrales de la tabla Resultados obtenidos con la muestra de la tabla 6.1 Solicitantes Umbral S1 S2 S3 S4 S5 S6 S7 S8 S9 Min. FP y FN Min. errores de clasificación Redes Neuronales Para la aplicación de está técnica se utilizo una función de activación logística con un parámetro igual a 100, obteniéndose para el conjunto de entrenamiento los resultados mostrados en la figura Es claro en las figuras que se muestran a continuación, que las distribuciones de lo buenos y malos parecen solaparse alrededor de 0.5. (a) (b) Figura Distribución de frecuencias predicha para los buenos y malos.

181 161 El método de redes neuronales fue aplicado para diferentes números de capas ocultas, obteniéndose que para un total de 5 capas se minimiza el error de clasificación. Los resultados obtenidos con la red neuronal de 5 capas ocultas con función de activación logística son presentados en las tablas 6.78 y 6.79, está red calcula un total de 81 pesos o coeficientes. Las técnicas de validación cruzada y de bootstrap para el conjunto de entrenamiento muestran que los errores de clasificación están alrededor del 8%. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada e-5 Bootstrap La regla de decisión utilizada para la creación de la matriz de confusión de la tabla 6.79 es la regla mostrada en (6.2) con un valor de umbral igual a 0.5, cabe destacar que en este umbral se produce la minimización de los errores de clasificación. Se observa en la tabla 6.79 que la exactitud del método es de 92.6%, indicando que el error de clasificación obtenido es de 7.4%, también se observa que la precisión del método es bastante buena, siendo igual a 96%.

182 162 Tabla Matriz de confusión para el conjunto de validación A continuación se muestra en la figura 6.37, el gráfico correspondiente al estadístico Kolmogorov-Smirnov y la curva ROC, junto con la tabla 6.80, donde se muestran los valores numéricos del estadístico KS y el índice de Gini, los cuales reflejan que se trata de un buen discriminador, puesto que dichos valores son cercanos a uno. (a) (b) Figura Distancia Kolmogorov- Smirnov y Curva ROC

183 163 Tabla Valores de distancia Mahalanobis, KS y coeficiente de Gini MAHALANOBIS KS 0.86 GINI El umbral utilizado para la minimización de los falsos positivos FP es igual a La matriz de confusión correspondiente a la regla de decisión (6.2) con el umbral ya indicado se presenta en la tabla Tabla Matriz de confusión para el conjunto de validación. La matriz de confusión muestra que para una tasa de falsos positivos igual a cero, el número de individuos aceptados que son realmente buenos es igual a 117, esto es, para una tasa de aceptación de 27% el porcentaje de casos morosos debería ser igual a cero. En la tabla 6.82 que se presenta a continuación se muestra los resultados de precisión obtenidos con el umbral antes señalado, utilizando validación cruzada y Bootstrap. Tabla Precisión obtenida mediante diversos tipos de remuestreo. Método Precisión promedio Validación cruzada k = Bootstrap

184 164 La curva de estrategia es presentada a continuación en la figura 6.38, donde se observa que para una tasa de aceptación superior a 90% la tasa de morosidad se muestra mayor a 6%. Figura Curva de estrategia El umbral donde se minimizan los costos es igual a La matriz de confusión asociada a este umbral se muestra en la tabla 6.83, siendo el costo de está clasificación igual Bs., valor que sigue siendo mayor al obtenido mediante el método de Bayes, a pesar de mostrar mejores resultados que este. Tabla Matriz de confusión para el conjunto de validación

185 165 Los umbrales que minimizan la tasa de falsos positivos, la tasa de falsos negativos y la tasa de clasificados incorrectamente se muestran en la tabla 6.84 que se presenta a continuación. Tabla Algunos umbrales obtenidos por minimización de algún tipo de error. Min. Umbral o punto de corte FP FN Error de clasificación 0.5 Lo resultados de aplicar este método a los datos mostrados en la tabla 6.1 es el siguiente: Tabla Resultados obtenidos con la muestra de la tabla 6.1. Umbral Solicitantes S1 S2 S3 S4 S5 S6 S7 S8 S9 Min. FP y FN Min. errores de clasificación Algoritmos Genéticos La función discriminante ajustada para está técnica es la siguiente g( x) = a1 x1 + a2x a p x p + c (6.3) donde a,..., 1, a2 a p y c pertenecen al intervalo 1,1 ] [. Los parámetros considerados en el algoritmo son: una población actual igual a 50, una probabilidad de cruzamiento pc igual a 1, una probabilidad de mutación pm igual a 0.13 y como criterio de parada se utilizó una tolerancia de 8 10, así cuando el cambio en el valor de la función de adaptación sea menor a la tolerancia antes señalada el algoritmo se detiene, luego de 52 iteraciones se obtienen los coeficientes de la ecuación (6.3).

186 166 A continuación se presentan los coeficientes o pesos obtenidos mediante Algoritmos Genéticos, técnica que fue descrita en la sección 3.2, en donde es claro que el coeficiente más negativo lo posee el atributo carga familiar, resultado que es diferente al encontrado con los métodos utilizados hasta ahora, por otro lado los coeficientes más positivos son el número de créditos obtenidos en el pasado y número de años en el trabajo actual, lo cual es consistente con los resultados obtenidos a partir de otras técnicas de discriminación. Tabla Coeficientes del modelo obtenido mediante Algoritmos Genéticos. Discriminador: g( x) = ω o + ω1 ω1 + ω2x ω14 x14 i Coeficiente del Atributo Atributo x i ( w i ) 0 Intercepto Género Edad Estado Civil Instrucción Categoría Ocupacional 6 Profesión Ingresos Mensuales Tenencia de la vivienda Tipo de vivienda Carga familiar Número de años 11 en el empleo actual 12 Número de créditos obtenidos en el pasado 13 Número de créditos del pasado no pagados 14 Número de créditos que posee en el presente

187 167 A continuación se presenta en la figura 6.39 los gráficos correspondientes a la distribución predicha de los buenos y malos obtenida mediante el conjunto de entrenamiento, en donde es claro que ambas distribuciones de datos se solapan alrededor de cero. (a) (b) Figura Distribución de frecuencias predicha para los buenos y malos. Utilizando la regla de decisión (6.1) se obtienen los errores de clasificación por los métodos de validación cruzada y boostrap, dichas tablas indican que el error de clasificación obtenido es aproximadamente de 14%. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap Los resultados mostrados en la tabla 6.88, correspondiente a la matriz de confusión, no parecen ser mejores a los obtenidos a partir de los métodos antes señalados, con la excepción del método de programación lineal.

188 168 Tabla Matriz de confusión para el conjunto de validación En la figura 6.40 se presenta la distribución de probabilidad obtenida mediante el conjunto de datos de validación, donde se observa como el algoritmo genético separa los dos grupos de datos presentes en la muestra. Figura Densidad de probabilidad predicha entre los buenos y los malos. Los valores correspondientes a la distancia de Mahalanobis, estadístico KS e índice de Gini son presentados en la tabla 6.89, junto con la figura 6.41 donde se muestra la curva ROC. Los resultados no parecen ser mejores a los obtenidos mediante otros métodos.

189 169 CURVA ROC pb(s) (a) (b) Figura Distancia Kolmogorov- Smirnov y Curva ROC pg(s) Tabla Valores de distancia Mahalanobis, KS y coeficiente de Gini MAHALANOBIS KS 0.71 GINI La matriz de confusión obtenida al utilizar el umbral que minimiza la tasa FP, la cual es igual a , es presentada a continuación en la tabla 6.90 donde es claro que para una tasa de falsos positivos FP igual a cero se acepta un total de 60 solicitantes buenos, esto es, se aceptan 14% de los casos positivos. Esto se observa claramente en la figura 6.42 correspondiente a la curva de estrategia. Tabla Matriz de confusión para el conjunto de validación

190 170 En la tabla que se presenta a continuación se muestra los resultados de precisión obtenidos con el umbral antes señalado, utilizando validación cruzada y Bootstrap. Tabla Precisión obtenida mediante diversos tipos de remuestreo Método Precisión promedio Validación cruzada k = Bootstrap Figura Curva de estrategia La matriz de confusión correspondiente al umbral el cual minimiza los costos o pérdidas asociados a una incorrecta clasificación es presentada a continuación en la tabla En está tabla es claro el aumento de casos positivos correctamente clasificados al igual que es claro el aumento de falsos positivos en la clasificación, así el costo o pérdida asociada a esta clasificación es igual a Bs., valor que no es mejor a los obtenidos hasta el momento mediante otros métodos.

191 171 Tabla Matriz de confusión para el conjunto de validación A continuación se muestra la grafica (figura 6.43) correspondiente a la distribución de los buenos y malos juntos con los umbrales que minimizan las tasas de FP, FN y error, que son mostrados en la tabla Figura Distribución de frecuencias predicha para los buenos y malos junto con algunos umbrales. Tabla Algunos umbrales obtenidos por minimización de algún tipo de error. Min. Umbral o punto de corte FP FN Error de clasificación

192 172 Al aplicar los resultados obtenidos a los datos mostrados en la tabla 6.1 se obtiene lo siguiente: Tabla Resultados obtenidos con la muestra de la tabla 6.1 Solicitantes Umbral S1 S S 2 3 S S 4 5 S6 S7 S8 S9 Min. FP y FN Min. errores de clasificación Maquina De Soporte Vectorial Finalmente se implanta la técnica de Máquina de Soporte Vectorial (MSV), utilizando la formulación dual del MSV de norma 2, para esto se usó un valor C = 1000 un kernel Gaussiano con parámetro igual a 0.001, la escogencia de este kernel es debida a los buenos resultados que se han obtenido con el mismo en la literatura. El número de vectores soporte obtenido fue de 635. y A continuación se muestran las gráficas correspondientes a la distribución de frecuencia de los buenos y los malos obtenida mediante el conjunto de entrenamiento (figura 6.44). (a) (b) Figura Distribución de frecuencias predicha para los buenos y malos.

193 173 Utilizando la regla de decisión (6.1) se obtienen los resultados mostrados en las tablas 6.95 y Es claro que las técnicas de validación cruzada y de bootstrap para el conjunto de entrenamiento muestran errores de clasificación están alrededor del 6%. El error obtenido mediante el conjunto de validación, el cual puede ser obtenido mediante la matriz de confusión es de 6.32%. Note que esté método ha mostrado errores de clasificación menores a los métodos de red neuronal y árboles de decisión que habían mostrado ser los mejores hasta el momento al poseer un error superior al 7%. Alejándose de manera importante al método de regresión logística ampliamente utilizado en la banca, el cual mostró un error de 13%. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap Tabla Matriz de confusión para el conjunto de validación En las figuras 6.45 y 6.46 se muestra la distribución de probabilidad, la distribución acumulada y la curva ROC obtenidos mediante el método MSV, en donde es claro lo bien que este método separa los datos. Se puede observar de manera más clara los valores

194 174 numéricos asociados con estás gráficas, los cuales son presentado en la tabla Cabe destacar que la mayor distancia KS que se observa en la figura 6.46 (a) ocurre cerca de cero, lo que indica que ese es el valor del umbral donde ocurre la minimización del error de clasificación. Figura Densidad de probabilidad predicha para los buenos y los malos. Tabla Valores de distancia Mahalanobis, KS y coeficiente de Gini MAHALANOBIS KS 0.88 GINI (a) (b) Figura Distancia Kolmogorov- Smirnov y Curva ROC

195 175 El umbral que minimiza la tasa de falsos positivos FP es igual a y la matriz de confusión asociada a la regla de decisión (6.2) con el umbral señalado se muestra a continuación en la tabla Tabla Matriz de confusión para el conjunto de validación Se observa en la matriz de decisión de la tabla 6.98 que cuando la tasa de falsos positivos es igual a cero el porcentaje de buenos clasificados de manera correcta es igual a 58%, lo cual es bastante bueno considerando que para el método de discriminación de Bayes el resultado fue 42%. La curva de estrategia correspondiente a este método es mostrada en la figura En la tabla que se presenta a continuación se muestran los resultados de precisión obtenidos con el umbral antes señalado, utilizando validación cruzada y Bootstrap. Tabla Precisión obtenida mediante diversos tipos de remuestreo. Método Precisión promedio Validación cruzada k = Bootstrap

196 176 Figura Curva de estrategia El umbral en donde se minimiza el costo o pérdida asociada a una mala clasificación es igual a La matriz de confusión obtenida en este caso se muestra en la tabla 6.100, a partir de la misma se obtiene que el costo o pérdida es igual a Bs. A pesar de que este método a mostrado un menor error en comparación con el resto de los métodos, el método de Bayes es el que muestra un menor costo al ser igual a Bs. Tabla Matriz de confusión para el conjunto de validación

197 177 Los umbrales que minimizan las tasas FP, FN y la tasa de error son mostradas en la tabla y dibujadas en la figura 6.48, la cual corresponde a la distribución de los buenos y malos obtenida mediante el conjunto de validación. Figura Densidad de probabilidad predicha entre los buenos y los malos junto con algunos umbrales Tabla Algunos umbrales obtenidos por minimización Min. Umbral o punto de corte FP FN Error de clasificación Al aplicar los resultados obtenidos a los datos mostrados en la tabla 6.1 se obtiene lo siguiente: Tabla Resultados obtenidos con la muestra de la tabla 6.1. Umbral Solicitantes S1 S 2 S3 S 4 S5 S6 S7 S8 S9 Min. FP y FN Min. errores de clasificación

198 Conjunto de Datos 2 El conjunto de datos que se utilizará para entrenar cada uno de los métodos discutidos en el capítulo 3, fue construido utilizando una cópula Gaussiana, con el objetivo de establecer una relación de dependencia entre los atributos y la variable de respuesta, la cual para el caso anterior fue establecida utilizando un sistema de puntajes. Para hacer esto fue necesario construir una matriz de correlaciones, la cual debía ser simétrica y definida positiva, con valores de correlación entre atributos lo más cercanos a cero y valores de correlación significativos entre los atributos y la variable de respuesta. Así la matriz de correlación utilizada para la simulación mediante la cópula Gaussiana es mostrada en la tabla Es importante aclarar que el signo establecido entre las correlaciones de los atributos y la variable de respuesta fueron escogidos de acuerdo a los resultados obtenidos con el conjunto de datos 1. En la figura 6.49 se muestran los histogramas de cada uno de los atributos considerados para este estudio, luego de aplicada la cópula Gaussiana Enfoque Bayesiano. Al igual que el conjunto de datos 1, el primer paso para poder aplicar este método es transformar los atributos en variables de tipo binario. Esta transformación se aplica tanto a los datos de entrenamiento como a los datos de validación. En la figura 6.50 (a y b) se muestra la distribución de frecuencias predicha utilizando el conjunto de entrenamiento. En la figura 6.50(a) se observa la distribución de frecuencias de los buenos (abajo) y malos (arriba) por separado y en la figura 6.50(b) se observan ambas distribuciones en la misma gráfica, siendo los buenos aquellos que toman los valores más positivos (línea azul) y los malos aquellos que toman los valores más pequeños o más negativos (línea de color negro). Se observa además una zona de solapamiento entre ambas distribuciones que parece ocurrir alrededor de 0.

199 179

200 180

201 181 (a) (b) Figura Distribución de frecuencias predicha para los buenos y malos. A continuación se muestra la matriz de confusión (tabla 6.104) de la clasificación resultante con la muestra de validación, luego de usar la regla de decisión (6.1), en donde se observa que el número de buenos predichos que fueron clasificados de forma correcta es igual a 382 mientras que el número original de buenos en la muestra es de 426, así el porcentaje o tasa de verdaderos positivos TP es de 89%, como se observa en la parte inferior de la matriz de confusión, este resultado es inferior al obtenido mediante el conjunto de datos 1 de la sección anterior. Es claro que el error de clasificación obtenido mediante el método considerado para el conjunto de datos actual es igual a 11%, valor que se obtiene al calcular el complemento de la tasa de exactitud E. Tabla Matriz de confusión para el conjunto de validación

202 182 En la tabla se observan los errores de clasificación obtenidos mediante validación cruzada para k = 10, validación cruzada 5 2, y el método de bootstrap con k = 10, observándose un error promedio de 10% con una variación muy pequeña. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap A continuación se presenta un gráfico (figura 6.51) en el cual se muestra la densidad de probabilidad de los buenos y malos obtenida al usar el conjunto de validación, en dicha figura se observa como el método de clasificación Bayesiana separa ambas distribuciones de datos. La distancia de Mahalanobis para este caso es igual es igual a Figura Densidad de probabilidad predicha de los buenos y los malos En la figura 6.52 y en la tabla se muestran los resultados del estadístico KS, la curva ROC y el índice de Gini, en donde se observa que para el estadístico KS (figura 6.52(a)) la mayor distancia parece ocurrir para un valor umbral cercano a -1.27, siendo está distancia igual a El índice de Gini toma un valor más cercano a uno como puede observarse en la tabla

203 183 (a) (b) Figura Distancia Kolmogorov- Smirnov y Curva ROC Tabla Valores de distancia Mahalanobis, KS y coeficiente de Gini MAHALANOBIS KS 0.78 GINI El umbral o punto de corte que minimiza los errores de clasificación toma un valor igual a , en las tablas que se presentan a continuación se muestra la matriz de confusión (tabla 6.107) y los errores obtenidos mediante las técnicas de validación cruzada y boostrap, en donde todos los errores de clasificación calculados rondan entre el 9 y 10% (tabla 6.108). Tabla Matriz de confusión para el conjunto de validación

204 184 Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap Ahora se considera el caso en el cual se quiere minimizar la tasa de falsos positivos FP, para ello se utiliza la regla de decisión (6.2) junto con un umbral igual a Es claro en la matriz de decisión presentada en la tabla 6.109, que cuando el error de clasificar a un malo como bueno es reducido a cero el porcentaje de casos correctamente clasificados como positivos disminuye tomando un valor igual a 39.7%. Tabla Matriz de confusión para el conjunto de validación En la tabla se muestran los resultados de aplicar validación cruzada y bootstrap a la muestra de entrenamiento con el umbral ya indicado pero en este caso considerando solamente el valor de la precisión (P), observe que los valores resultantes son bastante buenos, es decir, bastante cercanos a uno, indicando que al parecer no hay problemas de sobreajuste con el umbral utilizado.

205 185 Tabla Precisión de los errores obtenidos mediante diversos tipos de remuestreo. Método Precisión promedio Validación cruzada k = Bootstrap En la figura 6.53 se observa la curva de estrategia, la cual indica el porcentaje de falsos positivos o posibles morosos a obtener de acuerdo al porcentaje de población de buenos que se pretende considerar para el crédito, es claro que se tendrá una tasa de falsos negativos igual a cero para una tasa de aceptación de aproximadamente 40% o menos. Es claro que mientras mayor sea la tasa de aceptación mayor será el porcentaje de morosos aceptados, note que si desea tener una tasa de aceptación mayor al 93% la tasa de morosos será mayor a 16%, lo cual es consistente con los mostrados en la tabla Figura Curva de estrategia El umbral o punto de corte que minimiza el costo o pérdida de una mala clasificación es igual a En la tabla presentada a continuación se muestran los resultados obtenidos con el enfoque bayesiano cuando se utiliza el umbral ya indicado. Observe que un total de 74 casos fueron clasificados incorrectamente, de los cuales 14 eran buenos y fueron clasificados como malos y 60 eran malos pero fueron clasificados como buenos, así la pérdida o costo asociado con la clasificación obtenida es igual a Bs.

206 186 Tabla Matriz de confusión para el conjunto de validación En la figura 6.51, se muestra la distribución predicha de los buenos y los malos, junto con los umbrales donde se produce el menor error de clasificación (en color verde, recta vertical central) y los valores mínimos de las tasas FN (recta vertical de color rojo en el lado izquierdo) y FP (recta vertical de color rojo en el lado derecho). El valor numérico de estos umbrales es presentado en la tabla Observe en la figura 6.51 que la zona acotada por las rectas de color rojo es la zona en la cual se produce solapamiento entre las dos distribuciones y donde ocurren los dos tipos de error definidos en el capitulo 3. Tabla Umbrales obtenidos por minimización de algún tipo de error Min. Umbral o punto de corte FP FN Error de clasificación Ahora se utiliza el conjunto de datos tabulado en la tabla 6.1, considerando el umbral que minimiza los dos tipos de error conocidos y los umbrales de mínimo FP y FN mostrados en la tabla 6.112, aquellos valores que se encuentren entre esos umbrales son

207 187 considerados dudosos y codificados con un 2 por entrar en la zona de solapamiento. Los resultados obtenidos son mostrados en la tabla Tabla Resultados obtenidos con la muestra de la tabla 6.1 Solicitantes Umbral S1 S 2 S3 S 4 S5 S6 S7 S8 S9 Min. FP y FN Min. errores de clasificación Note en la tabla que fueron aceptados para un crédito los clientes S 2, S3 S 4, los cuales no poseen ninguna deuda. De la misma manera el solicitante S6 y que posee un crédito vencido fue aceptado como bueno, cabe destacar que este cliente tiene las mismas características que S4 con la diferencia de que, como ya se menciono, S6 posee un crédito vencido. El caso extremo S8 fue incorrectamente clasificado como bueno, finalmente el caso dudoso S 9 fue también considerado como bueno. Observe que todos los solicitante cayeron dentro de la zona donde se produce el solapamiento entre las dos distribuciones y por tanto la zona donde ocurre los dos tipos de error posibles Discriminador Lineal de Fisher Los coeficientes obtenidos mediante la aplicación del método de discriminación lineal de Fisher para cada uno de los 14 atributos, son mostrados en la tabla que se presenta a continuación. Observe en dicha tabla que el coeficiente más negativo corresponde a profesión, luego número de créditos en el pasado y luego carga familiar, los coeficientes con mayor valor corresponden a género y número de créditos en el pasado. El coeficiente correspondiente a número de créditos no pagados en el pasado presenta un valor pequeño y positivo.

208 188 Tabla Coeficientes del modelo obtenido por discriminación Lineal de Fisher. Discriminador: g( x) = ω 1 x1 + ω2x ω14 x14 Coeficiente del Atributo i Atributo x i ( ) 1 Género Edad Estado Civil Instrucción Categoría Ocupacional Profesión Ingresos Mensuales Tenencia de la vivienda Tipo de vivienda Carga familiar Número de años en el empleo actual 12 Número de créditos obtenidos en el pasado 13 Número de créditos del pasado no pagados 14 Número de créditos que posee en el presente w i En las gráficas mostradas en la figura 6.54 se observa la distribución de los buenos y los malos predicha, la cual fue obtenida mediante el conjunto de datos de entrenamiento, es clara la separación de ambas poblaciones, las cuales parecen estar alrededor de cero donde se produce una zona de solapamiento.

209 189 (a) (b) Figura 6.54 Distribución de los grupos de buenos y malos obtenidos por discriminador de Fisher El umbral o punto de corte utilizado en la literatura para este método se calcula como el punto medio de la distancia entre las medias de los grupos estandarizados. Dicho umbral toma un valor de , por otra parte el umbral que minimiza los errores de clasificación es igual a , para ambos umbrales se obtienen los mismos resultados, los cuales son mostrados a continuación. En la tabla se muestran los errores obtenidos mediante validación cruzada, y bootstrap donde se observa porcentajes entre 9 y 11%. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap

210 190 Se presenta a continuación la matriz de confusión (tabla 6.116) obtenida mediante el umbral anteriormente señalado y el conjunto de datos de validación, donde es claro que el error de clasificación obtenido es de Tabla Matriz de confusión para el conjunto de validación En la figura 6.55 se muestra la densidad de probabilidad de las dos distribuciones de buenos y malos predicha por el método de discriminación. Figura Densidad de probabilidad predicha entre los buenos y los malos obtenidos por el discriminador lineal de Fisher

211 191 En la figura 6.56 se muestra la distancia de Kolmogorov y la curva ROC de las distribuciones acumuladas para la clasificación predicha de los buenos y de los malos. La figura 6.56(a) muestra la máxima distancia entre las distribuciones acumuladas para obtener el valor del estadístico KS que como muestra la tabla es igual a 0.75, este valor ocurre aproximadamente para un valor umbral de 0.01, que es cercano al umbral que minimiza el error de clasificación que fue mostrado anteriormente. (a) (b) Figura Distancia Kolmogorov- Smirnov y Curva ROC Tabla Valores de distancia Mahalanobis, KS y coeficiente de Gini MAHALANOBIS KS 0.77 GINI En la tabla se muestran los resultados obtenidos al utilizar los datos de validación sobre el modelo resultante, usando un umbral igual a , el cual fue obtenido mediante la minimización de FP. Note que en la matriz de confusión de la tabla sólo se clasifican 137 casos positivos de forma correcta, de manera que la tasa de verdaderos positivos TP es menor a la obtenida con el método de Bayes, puesto que toma un valor de 32%, cuando para el método Bayesiano era de 39%.

212 192 Tabla Matriz de confusión para el conjunto de validación En la tabla se presentan los valores obtenidos para la precisión mediante los métodos de validación cruzada y Bootstrap, observándose buenos resultados. Tabla Precisión obtenida mediante diversos tipos de remuestreo utilizando el conjunto de entrenamiento. Método Precisión promedio Validación cruzada k = 10 1 Bootstrap En la figura 6.57 se presenta la curva de estrategia donde se muestra que para una tasa de aceptación cercana a 40% la tasa de morosos o falsos positivos es bastante cercana a cero, cabe aclarar que la tasa de falsos positivos es cero sólo cuando la tasa de aceptación es menor a 32% tal como se mostró en la tabla 6.118, luego toma valores cercanos a cero, hasta llegar a una tasa de aceptación superior a la de 40% donde la tasa de morosos parece incrementarse de manera importante, esta conducta puede observarse también en la figura 6.55.

213 193 Figura Curva de estrategia A continuación se presentan los resultados obtenidos para la minimización de los costos de clasificación siguiendo el ejemplo utilizado a principios de la sección 6.1. El umbral que minimiza los costos es igual a Así el costo asociado a esta clasificación es igual a Bs. Note que para este caso el costo es menor al obtenido con Bayes. Tabla Matriz de confusión para el conjunto de validación

214 194 Tabla Umbrales obtenidos por minimización de algún tipo de error. Min. Umbral o punto de corte FP FN Error de clasificación Aplicando el modelo obtenido a lo datos de la tabla 6.1 se obtienen los siguientes resultados (tabla 6.122), considerando los umbrales de la figura 6.55 y la tabla Tabla Resultados obtenidos con la muestra de la tabla 6.1 Solicitantes Umbral S1 S 2 S3 S 4 S5 S6 S7 S8 S9 Min. FP y FN Min. errores de clasificación Observe en la tabla que el cliente S3 que en la mayoría de los casos ya tratados fue considerado para un crédito, fue rechazado mediante el método de Fisher, este cliente al igual que el resto está dentro de la zona en la cual las dos distribuciones se solapan. Por el contrario, los solicitantes S 1, S 2, S 4, S6 y el caso dudoso S 9 fueron clasificados como buenos, cabe destacar que el cliente S6 posee un crédito no pagado. El resto de los solicitantes fueron clasificados como morosos Regresión logística La tabla muestra los resultados de aplicar regresión logística a la muestra de entrenamiento. Se observa que los coeficientes obtenidos son en su mayoría positivos, siendo los atributos con valores más negativos el tipo de vivienda, el número de créditos en el presente y la carga familiar. Note que el número de créditos no pagados en el pasado toma un valor positivo bastante grande en comparación con el resto de los coeficientes. Al ver en detalle está variable se observa que dicha variable no es significativa, de igual forma profesión se muestra no significativa.

215 195 Tabla Coeficientes del método de regresión Logística. Discriminador: g( x) = ω o + ω1 ω1 + ω2x ω14 x14 i Coeficiente del Atributo Atributo x i ( w i ) 0 Intercepto Género Edad Estado Civil Instrucción Categoría Ocupacional Profesión Ingresos Mensuales Tenencia de la vivienda Tipo de vivienda Carga familiar Número de años 11 en el empleo actual 12 Número de créditos obtenidos en el pasado 13 Número de créditos del pasado no pagados 14 Número de créditos que posee en el presente En la figura 6.58 se observa la distribución de los buenos y malos a partir de los resultados obtenidos, luego de aplicar el método de regresión logística sobre el conjunto de entrenamiento.

216 196 (a) (b) Figura 6.58 Distribución de los grupos de buenos y malos obtenidos por Regresión Logística En la tabla se muestran los errores clasificación obtenidos mediante la aplicación de los métodos de validación cruzada y Bootstrap sobre la muestra de entrenamiento, en donde es claro que los errores están en su mayoría en un 9%. La regla de decisión usada para la clasificación es la presentada en (6.1). Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap Ahora se procede a verificar el modelo obtenido mediante el conjunto de datos de validación, para ello se obtiene la matriz de confusión junto algunas tasas que determinan que tan buena es la clasificación obtenida, los resultados son mostrados en la tabla Mediante está matriz se obtiene que el error de clasificación para el conjunto de validación es igual a 11%

217 197 Tabla Matriz de confusión para el conjunto de validación En la figura 6.59 se muestra la distribución de probabilidades de los buenos y malos predichos obtenidos mediante el conjunto de validación, está figura muestra de manera más clara la separación entre la distribución de los buenos y los malos, y fue obtenida para el calculo de la distancia de Mahalanobis, la cual toma un valor de como es indicado en la tabla Figura Densidad de probabilidad predicha entre los buenos y los malos obtenida por Regresión Logística

218 198 De igual forma en la tabla se muestran los valores del coeficiente de Gini y la máxima distancia o estadístico KS. Además en la figura 6.60 se muestra la curva ROC y la distribución acumulada de las distribuciones predichas de los buenos y lo malos a partir de la cual se obtiene el valor KS. Tabla Valores de distancia Mahalanobis, KS y coeficiente de Gini MAHALANOBIS KS 0.77 GINI (a) (b) Figura Distancia Kolmogorov- Smirnov y Curva ROC Los valores de índice de Gini para los métodos ya discutidos son bastante parecidos, siendo el índice de Gini correspondiente al método de Bayes igual a 0.914, el método de Fisher toma un valor igual a y el método de Regresión logística un valor igual a Ahora se considera la regla de decisión mostrada en (6.2), para ello es necesario un valor umbral que será determinado usando los criterios descritos en el capítulo 4. Se comenzará utilizando el umbral o punto de corte que minimice los dos tipos de errores conocidos, este valor es igual a En las tablas y se muestran los

219 199 errores obtenidos en la clasificación mediante las muestras de entrenamiento y validación con el umbral anteriormente definido. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap La matriz de decisión (tabla 6.128) muestra un total de 79 clientes mal clasificados, presentándose un error de 11.6%. Note que los errores para los tres métodos son bastante parecidos, pues varían entre 9 y 11% Tabla Matriz de confusión para el conjunto de validación Ahora se considera el umbral que minimiza la tasa de Falso Positivos (FP) el cual toma un valor de La matriz de confusión correspondiente a estos resultados se muestra en la tabla

220 200 Tabla Matriz de confusión para el conjunto de validación Los valores de precisión obtenidos mediante las técnicas de validación cruzada y Bootstrap son mostradas a continuación en la tabla 6.130, los cuales son cercanos a 1, estos resultados indican que existen submuestras en el conjunto de entrenamiento para las cuales no se obtiene una tasa de FP igual a cero, con el umbral escogido. Tabla Precisión obtenida mediante diversos tipos de remuestreo Método Precisión promedio Validación cruzada k = Bootstrap A partir de lo observado en la tabla 6.129, es claro que para tener una tasa de morosidad igual a cero, la tasa de aceptación debe ser menor a 39%, esto es claro en la curva de estrategia mostrada en la figura 6.61 que se muestra a continuación.

221 201 Figura Curva de estrategia Ahora se utiliza para la discriminación el umbral que minimice los costos según lo explicado al inicio de la sección 6.1. El valor del umbral que cumple con esta condición es igual a La matriz de confusión resultante se muestra en la tabla 6.131, donde se observa que el número de buenos clasificados de manera correcta es igual a 419, un valor que es algo mayor al obtenido con este mismo método y el conjunto de datos 1. El costo asociado a esta clasificación es igual a Bs. La pérdida obtenida por la regresión logística es menor a la obtenida con los métodos vistos hasta ahora. Tabla Matriz de confusión para el conjunto de validación

222 202 En la tabla se muestra algunos de los umbrales o puntos de corte considerados en el presente trabajo, los umbrales considerados son el umbral que minimiza el número de falsos positivos (FP), el umbral que minimiza los falsos negativos (FN) y el umbral que minimiza la suma de los dos tipos de error (FN +FP). Tabla Umbrales obtenidos por minimización de algún tipo de error Min. Umbral o punto de corte FP FN Error de clasificación Los umbrales mostrados en la tabla se dibujaron en la figura 6.59, las líneas de color rojo corresponden al umbral que minimiza FP (a la derecha) y al umbral que minimiza los FN (a la izquierda), la línea verde es el umbral que minimiza el error de la clasificación. Los resultados de aplicar este método a los datos mostrados en la tabla 6.1 son tabulados en la tabla siguiente: Tabla Resultados obtenidos con la muestra de la tabla 6.1. Solicitantes Umbral S1 S2 S3 S4 S5 S6 S7 S8 S9 Min. FP y FN Min. errores de clasificación Observe en la tabla que los solicitantes S 2, S 3, S 4, S6 y S 9 son clasificados como buenos prospectos para un crédito, al contrario de los solicitantes S 1, S 5, S7 y S 8. Recuerde que el solicitante S6 posee un crédito no pagado, además de tener buenos ingresos, ser trabajador por cuenta propia y poseer poca carga familiar. Note que este cliente ha sido clasificado como bueno para todos los métodos anteriores. También observe que a pesar que el solicitante S7 tiene créditos no pagados en el pasado, el mismo no fue

223 203 clasificado como bueno, es claro entonces que el resto de los atributos influyen en el resultado de la morosidad Probit En la tabla que se presenta a continuación se muestran los coeficientes o pesos que tienen cada una de las variables dentro del modelo de discriminación. Las variables profesión y créditos no pagados en el pasado resultaron ser no significativas al igual que para la regresión logística. Tabla Coeficientes del Método Probit Discriminador: g = w1 x1 + w2x w14 x14 i Coeficiente del Atributo Atributo x i ( w i ) 0 Intercepto Género Edad Estado Civil Instrucción Categoría Ocupacional Profesión Ingresos Mensuales Tenencia de la vivienda Tipo de vivienda Carga familiar Número de años en el empleo actual 12 Número de créditos obtenidos en el pasado 13 Número de créditos del pasado no pagados 14 Número de créditos que posee en el presente

224 204 En las figuras que se presentan a continuación se muestra la distribución de lo buenos y los malos obtenida mediante la muestra de entrenamiento, es claro que la zona donde ambas distribuciones se solapan ocurre alrededor de cero. Figura 6.62 Distribución de los grupos de buenos y malos obtenidos con Probit La tabla muestra los errores de clasificación por medio de los métodos de validación cruzada y Bootstrap considerando la regla de decisión (6.1), en donde se observa un error medio de aproximadamente 10%, con una varianza entre los errores muy pequeña. Tabla Resultados de aplicar validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap

225 205 La matriz de confusión de la clasificación obtenida mediante los datos de validación es mostrada en la tabla 6.136, donde se observa que el número de individuos correctamente clasificados como buenos es igual 379, teniendo una tasa de precisión de 92.6%. La tasa de error en este caso es de aproximadamente 11%. Tabla Matriz de confusión para el conjunto de validación Figura Densidad de probabilidad predicha entre los buenos y los malos obtenidos con Probit

226 206 En las figuras 6.63 y 6.64 se muestran las distribuciones de probabilidad, las distribuciones acumuladas y la curva ROC de los grupos de buenos y malos. En la tabla se muestran los valores numéricos que describen de manera más exacta que tan separadas están ambas distribuciones de datos. La distancia de Mahalanobis es , el estadístico KS, valor que indica la máxima distancia entre las distribuciones acumuladas de los grupos de datos es de 0.79 y ocurre alrededor de un umbral de 0. Finalmente el índice de Gini es de 0.926, recuerde que el índice de Gini correspondiente a la regresión logística era igual a Observe en la figura 6.63, que la zona acotada por las rectas de color rojo es la zona en la cual se produce solapamiento entre las dos distribuciones y es la zona en donde ocurren los dos tipos de error definidos en el capitulo 3. (a) (b) Figura Distancia Kolmogorov- Smirnov y Curva ROC

227 207 Tabla Valores de distancia Mahalanobis, KS y coeficiente de Gini MAHALANOBIS KS 0.79 GINI Ahora se verá que ocurre cuando se utiliza la regla de decisión (6.2), con un valor umbral escogido de acuerdo a lo que se desea minimizar. Considérese en principio el umbral que minimiza los dos tipos de error conocidos, para este caso ese umbral es igual a Los errores de clasificación son obtenidos mediante las técnicas de validación cruzada y boostrap discutidas en el capítulo 3, y son mostrados en la tabla Note que estos errores están cerca de 10%. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap para el conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap El error obtenido con el conjunto de validación puede ser calculado mediante la matriz de confusión, la cual es mostrada en la tabla 6.139, observándose que dicho error es aproximadamente igual a 11%.

228 208 Tabla Matriz de confusión para el conjunto de validación A continuación se presentan los resultados de utilizar la regla de decisión (6.2) con el umbral que minimiza la tasa de falsos positivos FP. Dicho umbral toma un valor igual a Los resultados de la clasificación son mostrados en la matriz de confusión de la tabla Tabla Matriz de confusión para el conjunto de validación Observe en la tabla que el valor de precisión es de 100% como es de esperarse. En la tabla se muestran los resultados de aplicar validación cruzada y bootstrap a la muestra de entrenamiento con el umbral ya indicado pero en este caso considerando solamente el valor de la precisión (P), observe que los valores resultantes,

229 209 indican que existen submuestras en el conjunto de entrenamiento para las cuales no se obtiene una tasa de FP igual a cero con el umbral escogido. Tabla Precisión obtenida mediante diversos tipos de remuestreo. Método Presición promedio Validación cruzada k = Bootstrap En la figura 6.65 se observa la curva de estrategia, la cual indica el porcentaje de falsos positivos a obtener de acuerdo al porcentaje de población de buenos que se pretende considerar para el crédito, es claro que se tendrá una tasa de falsos negativos igual a cero para una tasa de aceptación de 39% o menor. Es claro que mientras mayor sea la tasa de aceptación mayor será el porcentaje de morosos aceptados. Figura Curva de estrategia Luego se determina el umbral que minimiza los costos como se indico a principio de la sección 6.1. El umbral o punto de coste escogido es igual a Para ver que tan buena es la clasificación usando este umbral se presenta la matriz de confusión resultante (tabla 6.142) usando la muestra de validación. Note que se posee una precisión

230 210 igual a 88%. El costo asociado a esta clasificación es igual a Bs, el cual es menor al obtenido mediante el método de regresión logística. Tabla Matriz de confusión para el conjunto de validación Tabla Umbrales obtenidos por minimización de algún tipo de error. Min. Umbral o punto de corte FP FN Error de clasificación Ahora utilicemos el conjunto de datos mostrados al inicio del capítulo en la tabla 6.1, considerando el umbral que minimiza los dos tipo de error y los umbrales de mínimo FP y FN, los cuales son mostrados en la tabla Los resultados son mostrados a continuación en la tabla Tabla Resultados obtenidos con la muestra de la tabla 6.1 Solicitantes Umbral S1 S2 S3 S4 S5 S6 S7 S8 S9 Min. FP y FN Min. errores de clasificación Los resultados obtenidos son iguales a los presentados en la tabla que corresponde al método de regresión logística.

231 Tobit A continuación se presentan los coeficientes o pesos obtenidos mediante el método de tobit descrito en la sección Para este método el único coeficiente no significativo corresponde a número de créditos en el pasado. Tabla Coeficientes del método Tobit. Discriminador: g = w1 x1 + w2x w14 x14 i Coeficiente del Atributo Atributo x i ( w i ) 0 Intercepto Género Edad Estado Civil Instrucción Categoría Ocupacional Profesión Ingresos Mensuales Tenencia de la vivienda Tipo de vivienda Carga familiar Número de años en el empleo actual Número de créditos obtenidos en el pasado Número de créditos del pasado no pagados Número de créditos que posee en el presente

232 212 En las gráficas mostradas en la figura 6.66 se observa la distribución de los buenos y los malos predicha por el método de discriminación, obtenida mediante el conjunto de datos de entrenamiento, la zona de solapamiento que existe entre ambas poblaciones parece estar alrededor de cero. Figura Distribución predicha de los grupos de buenos y malos obtenidos por Regresión Tobit para el conjunto de datos de entrenamiento Utilizando la regla de decisión mostrada en (6.1), junto con los métodos de validación cruzada, bootstrap y matriz de confusión se obtiene que el error de clasificación está alrededor de 12%, los resultados detallados son mostrados en las tablas y Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap

233 213 A continuación (tabla 6.147) se muestran los resultados de la predicción mediante la muestra de validación, en donde se observa que el método predice un total de 486 buenos, de los cuales 71 son originalmente malos, así la tasa de falsos positivos es de 28%, además un total de 11 buenos son incorrectamente clasificados como malos, así la tasa de falsos negativos es de 2.6%. El error de clasificación, el cual considera ambos tipos de error es de y se obtiene como el complemento de la tasa de exactitud. Tabla Matriz de confusión para el conjunto de validación En la figura 6.67 se muestra la densidad de probabilidad de las dos distribuciones de buenos y malos. Figura Densidad de probabilidad predicha entre los buenos y los malos obtenidos por Regresión Tobit

234 214 En la figura 6.68 y en la tabla se muestra la distancia de Kolmogorov y la curva ROC, las cuales fueron obtenidas mediante las distribuciones acumuladas de los buenos y los malos predichos por el método. La figura 6.68(a) muestra la máxima distancia entre las distribuciones acumuladas para obtener el valor del estadístico KS que como muestra la tabla es igual a 0.75, este valor ocurre aproximadamente para un umbral igual a 0.32, la cual es cercano al umbral donde ocurre la minimización de los dos tipos de error. Tabla Valores de distancia Mahalanobis, KS y coeficiente de Gini. MAHALANOBIS KS 0.75 GINI (a) (b) Figura Distancia Kolmogorov- Smirnov y Curva ROC A continuación se muestra el resultado de utilizar la regla 6.2 junto con el umbral que minimiza ambos tipos de error, para esto se utiliza un umbral igual a Los

235 215 errores obtenidos mediante validación cruzada y boostrap están alrededor de 13%, como se aprecia en la tabla Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap La matriz de decisión obtenida al clasificar los datos utilizando el umbral antes mencionado y la muestra de validación se presenta en la tabla Observándose que el método en cuestión clasifica la muestra con una tasa de exactitud igual a 87%, esto es, se equivoca en un 13% de los casos. Tabla Matriz de confusión para el conjunto de validación Para la minimización de los falsos positivos (FP) se utiliza un umbral igual a En la tabla se muestra la matriz de confusión de la clasificación obtenida, en donde se observa que 37% de los individuos son clasificados como buenos.

236 216 Tabla Matriz de confusión para el conjunto de validación En la tabla que se presenta a continuación se muestra los resultados de la tasa precisión obtenida con el umbral antes señalado, utilizando validación cruzada y Bootstrap. Estos resultados son bastante cercanos a 1, pero no iguales, indicando que existen submuestras en el conjunto de entrenamiento para las cuales no se obtiene una tasa de FP igual a cero con el umbral escogido. Tabla Precisión obtenida mediante diversos tipos de remuestreo. Método Precisión promedio Validación cruzada k = Bootstrap En la figura 6.27 se presenta la curva de estrategia donde se muestra que para una tasa de aceptación menor o igual a 37% la tasa de morosos o falsos positivos es cero, tal como se observa en la matriz de confusión mostrada en la tabla anterior.

237 217 Figura Curva de estrategia Nuevamente se utiliza la regla de decisión (6.2), pero está vez utilizando el umbral donde se produce el menor costo, el cual ocurre para un umbral igual a El resultado de esta clasificación es mostrado mediante la matriz de confusión presentada en la tabla Para este caso se observa que de los 484 casos buenos predichos, 70 son clasificados incorrectamente, indicando una tasa de falsos positivos de 27.5%. La tasa de falsos negativos es de 6.10% la cual es menor a la de la tabla 6.50 que es de 3%. Finalmente el costo asociado a los dos tipos de error es igual a Bs, el cual es el mayor valor obtenido hasta el momento con el segundo conjunto de datos. Tabla Matriz de confusión para el conjunto de validación

238 218 Tabla Algunos umbrales obtenidos por la minimización de algún tipo de error. Min. Umbral o punto de corte FP FN Error de clasificación Los umbrales mostrados en la tabla pueden verse en la figura 6.67 en la cual se presenta la distribución de probabilidad de los dos grupos existentes en el conjunto de datos. Aplicando los resultados obtenidos a lo datos de la tabla 6.1, se obtienen los siguientes resultados (tabla 6.155), considerando los umbrales de la figura 6.67 y la tabla Tabla Resultados obtenidos con la muestra de la tabla 6.1. Solicitantes Umbral S1 S 2 S3 S 4 S5 S6 S7 S8 S9 Min. FP y FN Min. errores de clasificación Observe en la tabla que sólo los solicitantes S 6, S 4 y S9 fueron clasificados como buenos, recuerde que los solicitante S4 y S6 son los mismos, la única diferencia radica en tiene un crédito no pagado S 6.

239 219

240 Árboles de clasificación La figura anterior muestra el árbol obtenido luego de aplicar al conjunto de datos de entrenamiento el método de árboles de clasificación de partición recursiva, en donde se utilizó como medida de partición el índice de Gini. El árbol obtenido después de la poda por el método de mínimo coste-complejidad consta de 30 nodos terminales como se aprecia en la figura Note en la figura 6.70 que el atributo número de créditos en el pasado es la raíz del árbol, para luego utilizar el atributo categoría profesional y nivel de ingreso como criterios en la primera subdivisión del árbol. En la tabla se muestran los resultados de aplicar validación cruzada y boostrap, donde es claro que los errores de clasificación para este caso están alrededor de 6%. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada e-5 Bootstrap Utilizamos el conjunto de validación para construir la matriz de confusión correspondiente a este método, está matriz es mostrada en la tabla 6.157, en donde se observa que el total de buenos predichos es de 386, de los cuales 0 fueron incorrectamente clasificados, esto es, la tasa de falsos negativos para este caso es igual a 0% y la tasa de verdaderos negativos junto con la tasa de precisión son de 100%, finalmente la tasa de exactitud es de 94%, indicando que el error de clasificación es aproximadamente igual a 6%. Se puede calcular el costo asociado a esta clasificación, en donde es claro que sólo se considera la ganancia pérdida al no considerar los 40 solicitantes buenos que

241 221 erróneamente fueron clasificados como malos. De está manera el costo o pérdida es igual a Bs, valor mayor en comparación con los obtenidos mediante el método de Bayes, Fisher y regresión logística. Tabla Matriz de confusión para el conjunto de validación Aplicando los resultados obtenidos a lo datos de la tabla 6.1, se obtienen los siguientes resultados (tabla 6.158). Observe que para este caso solo los solicitantes S 2, S 3, S 4 y S 6 fueron clasificados como buenos. Tabla Resultados obtenidos con la muestra de la tabla 6.1 Solicitantes S1 S 2 S3 S 4 S5 S6 S7 8 S S K- vecinos más cercanos. Antes de empezar a ver que tan bueno es el modelo de k-vecinos más cercanos es necesario saber cuales son los mejores parámetros D y k, esto dependerá de lo que se quiera minimizar. En principio se empezará por buscar aquellos parámetros que minimicen la suma de los dos tipos de error de clasificación, para esto se utiliza validación cruzada. En la tabla

242 se observa que el menor error corresponde para los valores de D = 1.4, 1.5 y 1.8 para k =5. Tabla Errores obtenidos para diferentes valores de k y D D k Errores promedios En la tabla que se presenta a continuación se muestran los resultados de aplicar validación cruzada y bootstrap al método de k-vecinos con parámetros D = 1.8 y k =5, es claro que los errores se muestran por encima de 11%. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap La matriz de confusión mostrada en la tabla muestra un error de 11.3%, donde 401 casos positivos fueron identificados de manera correcta. Tabla Matriz de confusión para el conjunto de validación

243 223 Ahora se buscan los parámetros que minimizan la tasa de falsos positivos FP, los cuales son D = 1. 6 para un k igual a 31, los resultados obtenidos mediante el conjunto de validación son resumidos en la tabla 6.162, en donde se observa que en comparación con el resultado observado en la tabla anterior sólo se reduce en tres el número de casos clasificados de forma incorrecta como buenos, lo cual no parece ser muy bueno en comparación con los resultados que se habían obtenido con otros métodos hasta ahora. Note que el error de clasificación aumenta a 11.7%, puesto que el número de falsos negativos FN aumenta. Tabla Matriz de confusión para el conjunto de validación Mediante los métodos de bootstrap y validación cruzada se calculo los valores de precisión obteniendo para ambas técnicas valores alrededor de 88%. Para obtener la clasificación que minimice los costos correspondientes a los dos tipos de error existentes se consideró los parámetros D = 1. 5 para un k = 2. En la tabla se muestra la matriz de decisión correspondiente a este caso, en donde se observa que el número de casos positivos correctamente clasificados es de 416, valor que es notablemente mayor al obtenido en los casos anteriores, al igual que el número de casos mal clasificados como buenos, el cual es 82. El costo para esta clasificación es de Bs., el cual no es mejor a los obtenidos hasta ahora.

244 224 Tabla Matriz de confusión para el conjunto de validación Ahora se aplicará los resultados obtenidos a los datos de la tabla 6.1. Específicamente se utilizarán los parámetros obtenidos para la minimización del error de clasificación, los cuales fueron D = 1. 8 y k = 5. Observe en la tabla que los solicitantes S 2, S 3, S 4, S6 y el caso dudoso S9 fueron clasificados como buenos. Tabla Resultados obtenidos con la muestra de la tabla 6.1 Solicitantes S1 S 2 S3 S 4 S5 S6 S7 S8 S Programación Lineal La formulación utilizada para la aplicación del método de Programación Lineal fue la vista en (3.32), y es denominada MMD. Los coeficientes fueron obtenidos mediante remuestreo a partir de la técnica de Boostrap con el objetivo de mejorar los resultados. Los coeficientes son mostrados en la tabla

245 225 Tabla Coeficientes del modelo obtenido mediante Programación Lineal. i Atributo x i Coeficiente del Atributo ( ) w i Varianza del Atributo ( ) w i 1 Género Edad Estado Civil Instrucción Categoría Ocupacional Profesión Ingresos Mensuales Tenencia de la vivienda Tipo de vivienda Cargo familiar Número de años en el empleo actual Número de créditos obtenidos en el pasado Número de créditos del pasado no pagados Número de créditos que posee en el presente Error Umbral o punto de corte Utilizando el umbral obtenido mediante el método de discriminación junto con la regla de decisión (6.2) se obtiene la matriz de confusión mostrada en la tabla 6.166, en donde se observa que el error de clasificación es de 26%.

246 226 Tabla Matriz de confusión para el conjunto de validación En la tabla se muestran los errores obtenidos mediante las técnicas de validación cruzada y bootstrap, donde es claro que los errores obtenidos se mantienen alrededor de 26%. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap A continuación se muestra en la figura 6.71 la curva ROC y las distribuciones acumuladas de los buenos y malos que se utilizaron para el calculo de la distancia de Kolmogorov-Smirnov. Los resultados numéricos asociados con estás gráficas son mostrados en la tabla 6.71.

247 227 (a) (b) Figura Distancia Kolmogorov- Smirnov y Curva ROC Tabla Valores de distancia Mahalanobis, KS y coeficiente de Gini MAHALANOBIS KS 0.53 GINI El valor del estadístico KS es igual a 0.53 y ocurre, como puede observarse en la figura 6.34(a), cerca de 0.1, lo que indica que el umbral que minimiza los errores de clasificación está alrededor de este valor. El índice de Gini presenta un valor muy bajo e igual a Es claro que todos los valores mostrados en la tabla indican que el método no separa de manera apropiada los dos grupos existentes en el conjunto de datos. La minimización de los errores de clasificación ocurre cuando se toma la regla de decisión (6.2) junto con un umbral igual a , los resultados obtenidos son resumidos en la matriz de confusión que se muestra en la tabla 6.169, donde se observa que el error de clasificación es igual a

248 228 Tabla Matriz de confusión para el conjunto de validación Los errores obtenidos mediante validación cruzada y Bootstrap son presentados en la tabla 6.170, mostrándose errores similares al obtenido mediante la matriz de confusión. Note que los resultados obtenidos, en cuanto a error de clasificación, resultan ser mejores a los obtenidos con el primer conjunto de datos. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap para el conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap Para minimizar la tasa de falsos positivos se utiliza un umbral igual a Así, la clasificación obtenida mediante la muestra de validación es mostrada en la matriz de confusión de la tabla 6.171, donde es claro que para obtener un número de falsos positivos igual a cero la tasa de aceptación debe ser de 9%.

249 229 Tabla Matriz de confusión para el conjunto de validación La curva de estrategia se muestra en la figura 6.72, mostrando que para una tasa de aceptación de 70% la tasa de morosidad será mayor a 15%. Figura Curva de estrategia La minimización de los costos se obtiene mediante el umbral La matriz de confusión correspondiente es mostrada en la tabla 6.172, en donde se observa que la tasa de verdaderos positivos se muestra mucho mayor a la obtenida con otros umbrales, mostrando una valor de 99%, a pesar de esto la precisión es mucho menor a la vista en la tabla anterior, debido a que el porcentaje de fasos positivos es de 80%. Entonces el costo asociado con está clasificación es igual a Bs. y el error cometido con está clasificación es de

250 230 Tabla Matriz de confusión para el conjunto de validación. Tabla Algunos umbrales obtenidos por la minimización de algún tipo de error. Min. Umbral o punto de corte FP FN Error de clasificación Aplicando los resultados obtenidos a lo datos de la tabla 6.1, se obtienen los siguientes resultados (tabla 6.174), considerando los umbrales de la tabla Tabla Resultados obtenidos con la muestra de la tabla 6.1 Solicitantes Umbral S1 S 2 S3 S 4 S5 S6 S7 S8 S9 Min. FP y FN Min. errores de clasificación Redes Neuronales Para la aplicación de está técnica se utilizo una función de activación logística con un parámetro igual a 100, obteniéndose para el conjunto de entrenamiento los resultados mostrados en la figura Es claro en las figuras que se muestran a continuación, que las distribuciones de los buenos y malos parecen solaparse alrededor de 0.5.

251 231 (a) (b) Figura Distribución de frecuencias predicha para los buenos y malos. La red utilizada consta de 18 capas ocultas, lo que da un total de 289 pesos o coeficientes. Los resultados de utilizar la regla de decisión (6.2) y un umbral igual a 0.5 son mostrados en las tablas y que se presentan a continuación. Tabla Matriz de confusión para el conjunto de validación Se observa en la tabla que la exactitud del método es de 88.6%, indicando que el error de clasificación obtenido es de 11.4%. Las técnicas de validación cruzada y de bootstrap para el conjunto de entrenamiento muestran también errores de clasificación alrededor del 11%.

252 232 Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap A continuación se muestra en la figura 6.74, el gráfico correspondiente al estadístico Kolmogorov-Smirnov y la curva ROC, junto con la tabla 6.177, donde se muestran los valores numéricos del estadístico KS y el índice de Gini, los cuales reflejan que se trata de un buen discriminador, puesto que dichos valores son cercanos a uno. (a) (b) Figura Distancia Kolmogorov- Smirnov y Curva ROC Tabla Valores de distancia Mahalanobis, KS y coeficiente de Gini MAHALANOBIS KS GINI

253 233 El umbral utilizado para la minimización de los falsos positivos FP es igual a La matriz de confusión correspondiente a la regla de decisión (6.2) con el umbral ya indicado se presenta en la tabla La matriz de confusión muestra que para una tasa de falsos positivos igual a cero, el número de individuos aceptados que son realmente buenos es igual a 157, esto es, para una tasa de aceptación de 37% el porcentaje de casos morosos es igual a cero. Tabla Matriz de confusión para el conjunto de validación. En la tabla que se presenta a continuación se muestra los resultados de precisión obtenidos con el umbral antes señalado, utilizando validación cruzada y Bootstrap. Tabla Precisión obtenida mediante diversos tipos de remuestreo. Método Precisión promedio Validación cruzada k = Bootstrap La curva de estrategia es presentada a continuación en la figura 6.75, donde se observa que para una tasa de aceptación igual a 88% la tasa de morosidad se muestra igual a 11%, lo cual es consistente con lo visto en la tabla

254 234 Figura Curva de estrategia El umbral donde se minimizan los costos es igual a La matriz de confusión asociada a este umbral se muestra en la tabla 6.180, siendo el costo de está clasificación igual Bs, valor que no se muestra mejor al obtenido mediante el método Probit. Tabla Matriz de confusión para el conjunto de validación Los umbrales que minimizan la tasa de falsos positivos, la tasa de falsos negativos y la tasa de clasificados incorrectamente se muestran en la tabla que se presenta a continuación.

255 235 Tabla Algunos umbrales obtenidos por minimización de algún tipo de error. Min. Umbral o punto de corte FP FN Error de clasificación Lo resultados de aplicar este método a los datos mostrados en la tabla 6.1 se presentan en la tabla 6.182, siendo parecidos a los obtenidos con otros métodos. Tabla Resultados obtenidos con la muestra de la tabla 6.1. Umbral Solicitantes S1 S 2 S3 S 4 S5 S6 S7 S8 S9 Min. FP y FN Min. errores de clasificación Algoritmos Genéticos La función discriminante a ajustar por medio de está técnica fue mostrada en la ecuación (6.3), donde los parámetros considerados en el algoritmo son: una población actual igual a 50, una probabilidad de cruzamiento mutación pm igual a 0.13 y como criterio de parada una tolerancia igual pc igual a 1, una probabilidad de Luego de 57 iteraciones se obtienen los coeficientes de la ecuación (6.3), los cuales son mostrados en la ecuación

256 236 Tabla Coeficientes del modelo obtenido mediante Algoritmos Genéticos. Discriminador: g( x) = ω o + ω1 ω1 + ω2 x ω14 x14 i Coeficiente del Atributo Atributo x i ( w i ) 0 Intercepto Género Edad Estado Civil Instrucción Categoría Ocupacional Profesión Ingresos Mensuales Tenencia de la vivienda 9 Tipo de vivienda Carga familiar Número de años en el empleo actual 12 Número de créditos obtenidos en el pasado Número de 13 créditos del pasado no pagados Número de 14 créditos que posee en el presente A continuación se presenta en la figura 6.76 los gráficos correspondientes a la distribución predicha de los buenos y malos obtenida mediante el conjunto de entrenamiento, en donde es claro que ambas distribuciones de datos se solapan alrededor de cero.

257 237 (a) (b) Figura Distribución de frecuencias predicha para los buenos y malos. Utilizando la regla de decisión (6.1) se obtienen los errores de clasificación por los métodos de validación cruzada y boostrap, dichas tablas indican que el error de clasificación obtenido es aproximadamente de 11%. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap Los resultados mostrados en la tabla 6.185, muestran una exactitud de 89% lo que indica que el error de clasificación toma un valor de 11%.

258 238 Tabla Matriz de confusión para el conjunto de validación En la figura 6.77 se presenta la distribución de probabilidad obtenida mediante el conjunto de datos de validación, donde se observa como el algoritmo genético separa bastante bien los dos grupos de datos presentes en la muestra. Figura Densidad de probabilidad predicha entre los buenos y los malos.

259 239 En la grafica (figura 6.77) se muestran los umbrales que minimizan las tasas de FP, FN y error de clasificación (FP + FN), cuyos valores numéricos son mostrados en la tabla Los valores correspondientes a la distancia de Mahalanobis, estadístico KS e índice de Gini son presentados en la tabla 6.186, junto con la figura 6.78 donde se muestra la curva ROC. (a) (b) Figura Distancia Kolmogorov- Smirnov y Curva ROC Tabla Valores de distancia Mahalanobis, KS y coeficiente de Gini MAHALANOBIS KS 0.79 GINI Los resultados obtenidos con el umbral que minimiza los errores de clasificación son iguales a los presentados en la tabla La matriz de confusión obtenida al utilizar el umbral que minimiza la tasa FP, la cual es igual a , es presentada a continuación en la tabla donde es claro que para una tasa de falsos positivos FP igual a cero se acepta un total de 163 solicitantes

260 240 buenos, esto es, se aceptan 38% de los casos positivos. Esto se observa claramente en la figura 6.81 correspondiente a la curva de estrategia. Tabla Matriz de confusión para el conjunto de validación En la tabla que se presenta a continuación se muestra los resultados de precisión obtenidos con el umbral antes señalado, utilizando validación cruzada y Bootstrap. Tabla Precisión obtenida mediante diversos tipos de remuestreo Método Precisión promedio Validación cruzada k = Bootstrap Figura Curva de estrategia.

261 241 La matriz de confusión correspondiente al umbral el cual minimiza los costos o pérdidas asociados a una incorrecta clasificación es presentada a continuación en la tabla En está tabla es claro el aumento de casos positivos correctamente clasificados al igual que es claro el aumento de falsos positivos en la clasificación en comparación con la tabla 6.185, así el costo o pérdida asociada a esta clasificación es igual a Bs, el cual no es la pérdida más pequeña obtenida hasta ahora. Tabla Matriz de confusión para el conjunto de validación Tabla Algunos umbrales obtenidos por minimización de algún tipo de error. Min. Umbral o punto de corte FP FN Error de clasificación 0 Al aplicar los resultados obtenidos a los datos mostrados en la tabla 6.1 se presentan en la tabla 6.191, los cuales no son muy diferentes de los obtenidos mediante otros métodos.

262 242 Tabla Resultados obtenidos con la muestra de la tabla 6.1 Umbral Solicitantes S1 S2 S3 S4 S5 S6 S7 S8 S9 Min. FP y FN Min. errores de clasificación Maquinas De Soporte Vectorial Finalmente se implanta la técnica de Máquina de Soporte Vectorial (MSV), utilizando la formulación dual del MSV de norma 2, para esto se usó un valor C = 1000 un kernel Gaussiano con parámetro igual a 0.001, la escogencia de este kernel es debida a los buenos resultados que se han obtenido con el mismo en la literatura. El número de vectores soporte obtenido fue de 608. y A continuación se muestran las gráficas correspondientes a la distribución de frecuencia de los buenos y los malos obtenida mediante el conjunto de entrenamiento (figura 6.80). (a) (b) Figura Distribución de frecuencias predicha para los buenos y malos.

263 243 Utilizando la regla de decisión (6.1) se obtienen los resultados mostrados en las tablas y Es claro que las técnicas de validación cruzada y de bootstrap para el conjunto de entrenamiento muestran errores de clasificación alrededor del 10%. La matriz de confusión de la tabla muestra un error de 11%. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap Tabla Matriz de confusión para el conjunto de validación En las figuras 6.81 y 6.82 se muestra la distribución de probabilidad, la distribución acumulada y la curva ROC obtenidos mediante el método MSV, en donde es claro lo bien que este método separa los datos. Se puede observar de manera más clara los valores numéricos asociados con estás gráficas, los cuales son presentado en la tabla Cabe destacar que la mayor distancia KS que se observa en la figura 6.82(a) ocurre cerca de cero, lo que indica que ese es el valor del umbral donde ocurre la minimización del error de clasificación.

264 244 Figura Densidad de probabilidad predicha para los buenos y los malos. (a) (b) Figura Distancia Kolmogorov- Smirnov y Curva ROC Tabla Valores de distancia Mahalanobis, KS y coeficiente de Gini MAHALANOBIS KS 0.79 GINI

265 245 El umbral que minimiza el error de clasificación es igual a y la matriz de confusión asociada a la regla de decisión (6.2) con el umbral señalado se muestra a continuación en la tabla 6.195, de la misma manera el error obtenido mediante validación cruzada y bootstrap es mostrado en la tabla Se observa que el error de clasificación en ambas tablas ronda cerca del 10%. Tabla Matriz de confusión para el conjunto de validación Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap El umbral que minimiza la tasa de falsos positivos FP es igual a y la matriz de confusión asociada a la regla de decisión (6.2) junto con el umbral antes señalado se muestra a continuación en la tabla Observe que cuando la tasa de falsos positivos es igual a 0 la tasa de aceptación es igual a 38%.

266 246 Tabla Matriz de confusión para el conjunto de validación En la tabla que se presenta a continuación se muestran los resultados de precisión obtenidos con el umbral antes señalado, utilizando validación cruzada y Bootstrap. Tabla Precisión obtenida mediante diversos tipos de remuestreo. Método Precisión promedio Validación cruzada k = Bootstrap A continuación se presenta la curva de estrategia correspondiente a este método, la cual es mostrada en la figura Figura Curva de estrategia

267 247 El umbral en donde se minimiza el costo o pérdida asociada a una mala clasificación es igual a La matriz de confusión obtenida en este caso se muestra en la tabla 6.199, a partir de la misma se obtiene que el costo o pérdida es igual a Bs., valor bastante cercano al obtenido mediante el método de Probit. Tabla Matriz de confusión para el conjunto de validación Los umbrales que minimizan las tasas FP, FN y la tasa de error son mostrados en la tabla y fueron dibujadas en la figura 6.83, la cual corresponde a la distribución de los buenos y malos obtenida mediante el conjunto de validación. Tabla Algunos umbrales obtenidos por minimización Min. Umbral o punto de corte FP FN Error de clasificación

268 248

269 249 Al aplicar los resultados obtenidos a los datos mostrados en la tabla 6.1 se obtiene lo siguiente: Tabla Resultados obtenidos con la muestra de la tabla 6.1. Umbral Solicitantes S1 S2 S3 S4 S5 S6 S7 S8 S9 Min. FP y FN Min. errores de clasificación Conjunto de Datos 3 A continuación se presentan los resultados obtenidos mediante la simulación con distintos tipos de cópulas las cuales fueron descritas en el capítulo 2. La tabla 5.2 muestra las cópulas utilizadas para cada uno de los atributos considerados para este trabajo. Para este conjunto de datos sólo se mostrarán los resultados de 5 de los 11 métodos. Los métodos considerados son enfoque Bayesiano, regresión logística, árboles de decisión, redes neuronales, algoritmos genéticos y máquina de soporte vectorial. En la figura 6.84 se muestran los histograma de cada uno de los atributos considerados para este estudio, luego de aplicada las cópulas de la tabla Enfoque Bayesiano Para aplicar este método es necesario transformar los atributos en variables de tipo binario. Esta transformación se aplica tanto a los datos de entrenamiento como a los datos de validación, así para ambos conjuntos de datos, el número de atributos aumenta a 67 atributos, sin incluir la variable de respuesta la cual de antemano es binaria.

270 250 (a) (b) Figura 6.85 Distribución de los grupos de buenos y malos. En la figura 6.85 (a y b) se muestra la distribución de frecuencias predicha utilizando el conjunto de entrenamiento. En la figura 6.85(a) se observa la distribución de frecuencias de los buenos (grupo 1) y malos (grupo 0) por separado y en la figura 6.85(b) se observan ambas distribuciones en la misma gráfica, siendo los buenos aquellos que toman los valores más positivos (línea azul) y los malos aquellos que toman los valores más pequeños o más negativos (línea de color negro). Se observa además una zona de solapamiento entre ambas distribuciones que parece ocurrir después de 0. A continuación se muestra la matriz de confusión (tabla 6.202) de la clasificación resultante con la muestra de validación, luego de usar la regla de decisión (6.1), en donde se observa que el número de buenos predichos que fueron clasificados de forma correcta es igual a 344 mientras que el número original de buenos en la muestra es de 426, así el porcentaje o tasa de verdaderos positivos TP es de 80%. Es claro que el error de clasificación obtenido mediante el método considerado para el conjunto de datos actual es igual a 18%, valor que se obtiene al calcular el complemento de la tasa de exactitud E, el cual es un error bastante superior en comparación con el obtenido con este mismo método y los otros dos conjuntos de datos.

271 251 Tabla Matriz de confusión para el conjunto de validación En la tabla se observan los errores de clasificación obtenidos mediante validación cruzada para k = 10, validación cruzada 5 2, y el método de bootstrap con k = 10, observándose un error alrededor de 19% con una variación muy pequeña. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap A continuación se presenta la figura 6.86, la cual se muestra la densidad de probabilidad de los buenos y malos obtenida al usar el conjunto de validación, en dicha figura se observa como el método de clasificación Bayesiana separa ambas distribuciones de datos. La distancia de Mahalanobis para este caso es igual es igual a

272 252 Figura Densidad de probabilidad predicha entre los buenos y los malos. En la figura 6.87 y en la tabla se muestran los resultados del estadístico KS, la curva ROC y el índice de Gini, en donde se observa que el estadístico KS toma un valor igual a El índice de Gini toma un valor igual a Los cuales son inferiores a los obtenidos mediante el conjunto de datos 1 y 2. (a) (b) Figura Distancia Kolmogorov- Smirnov y Curva ROC

273 253 Tabla Valores de distancia Mahalanobis, KS y coeficiente de Gini. MAHALANOBIS KS 0.65 GINI El umbral o punto de corte que minimiza los errores de clasificación toma un valor igual a , en las tablas que se presentan a continuación se muestra la matriz de confusión (tabla 6.205) y los errores obtenidos mediante las técnicas de validación cruzada y boostrap (tabla 6.206), en donde todos los errores de clasificación calculados rondan entre 18 y 19%. Tabla Matriz de confusión para el conjunto de validación. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap Para minimizar la tasa de falsos positivos FP se utiliza la regla de decisión (6.2) junto con un umbral igual a Es claro en la matriz de decisión presentada en la tabla 6.207, que cuando el error de clasificar a un malo como bueno es reducido a cero el

274 254 porcentaje de casos correctamente clasificados como positivos disminuye tomando un valor igual a 16%. Tabla Matriz de confusión para el conjunto de validación En la tabla se muestran los resultados de aplicar validación cruzada y bootstrap a la muestra de entrenamiento con el umbral ya indicado pero en este caso considerando solamente el valor de la precisión (P), observe que los valores resultantes son bastante buenos, es decir, indica que al parecer no hay problemas de sobreajuste con el umbral utilizado. Tabla Precisión de los errores obtenidos mediante diversos tipos de remuestreo. Método Precisión promedio Validación cruzada k = 10 1 Bootstrap En la figura 6.88 se observa la curva de estrategia, la cual indica el porcentaje de falsos positivos o posibles morosos a obtener de acuerdo al porcentaje de población de buenos que se pretende considerar para el crédito, es claro que se tendrá una tasa de falsos negativos igual a cero para una tasa de aceptación de aproximadamente 16% o menos. Es claro que mientras mayor sea la tasa de aceptación mayor será el porcentaje de morosos aceptados, note que si desea tener una tasa de aceptación mayor al 80% la tasa de morosos será mayor a 15%, lo cual es consistente con lo mostrado en la tabla

275 255 Figura Curva de estrategia El umbral o punto de corte que minimiza el costo o pérdida debida a una mala clasificación es igual a En la tabla presentada a continuación, se muestran los resultados obtenidos con el enfoque bayesiano cuando se utiliza el umbral ya indicado. Observe que un total de 126 casos fueron clasificados incorrectamente, de los cuales 26 eran buenos y fueron clasificados como malos y los otros 100 eran malos pero fueron clasificados como buenos, así la pérdida o costo asociado con la clasificación obtenida es igual a Bs. Tabla Matriz de confusión para el conjunto de validación

276 256 En la figura 6.86, se mostró la distribución predicha de los buenos y los malos, junto con los umbrales donde se produce el menor error de clasificación (en color verde, recta vertical central) y los valores mínimos de las tasas FN (recta vertical de color rojo en el lado izquierdo) y FP (recta vertical de color rojo en el lado derecho). El valor numérico de estos umbrales es presentado en la tabla Tabla Umbrales obtenidos por minimización de algún tipo de error Min. Umbral o punto de corte FP FN Error de clasificación Ahora se utiliza el conjunto de datos tabulado en la tabla 6.1, considerando el umbral que minimiza los dos tipos de error conocidos y los umbrales de mínimo FP y FN mostrados en la tabla 6.210, aquellos valores que se encuentren entre esos umbrales son considerados dudosos y son codificados con un 2 por estar en la zona de solapamiento. Los resultados obtenidos son mostrados en la tabla Tabla Resultados obtenidos con la muestra de la tabla 6.1 Solicitantes Umbral S1 S2 S3 S4 S5 S6 S7 S8 S9 Min. FP y FN Min. errores de clasificación Regresión logística La tabla muestra los resultados de aplicar regresión logística a la muestra de entrenamiento. Las variables profesión y créditos no pagados en el pasado resultan ser no significativas.

277 257 Tabla Coeficientes del método de regresión Logística. Discriminador: g( x) = ω o + ω1 ω1 + ω2x ω14 x14 i Coeficiente del Atributo Atributo x i ( w i ) 0 Intercepto Género Edad Estado Civil Instrucción Categoría Ocupacional Profesión Ingresos Mensuales Tenencia de la vivienda Tipo de vivienda Cargo familiar Número de años en el empleo actual 12 Número de créditos obtenidos en el pasado 13 Número de créditos del pasado no pagados 14 Número de créditos que posee en el presente En la figura 6.89 se observa la distribución de los buenos y malos a partir de los resultados obtenidos, luego de aplicar el método de regresión logística sobre el conjunto de entrenamiento. Se observa que la zona de solapamiento parece estar alrededor de 0.

278 258 (a) (b) Figura 6.89 Distribución de los grupos de buenos y malos obtenidos por Regresión Logística En la tabla se muestran los errores clasificación obtenidos mediante la aplicación de los métodos de validación cruzada y Bootstrap sobre la muestra de entrenamiento, en donde es claro que los errores están en su mayoría alrededor de un 20%. La regla de decisión usada para la clasificación es la presentada en (6.1). Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap Ahora se procede a verificar el modelo obtenido mediante el conjunto de datos de validación, para ello se obtiene la matriz de confusión junto algunas tasas que determinan que tan buena es la clasificación obtenida, los resultados son mostrados en la tabla Mediante está matriz se obtiene que el error de clasificación para el conjunto de validación es igual a 19%

279 259 Tabla Matriz de confusión para el conjunto de validación En la figura 6.90 se muestra la distribución de probabilidades de los buenos y malos predichos obtenidos mediante el conjunto de validación, está figura muestra de manera más clara la separación entre la distribución de los buenos y los malos, y fue obtenida para el calculo de la distancia de Mahalanobis, la cual toma un valor de , como es indicado en la tabla Figura Densidad de probabilidad predicha entre los buenos y los malos obtenida por Regresión Logística

280 260 En la tabla también se muestran los valores del coeficiente de Gini y la máxima distancia o estadístico KS. Además en la figura 6.1 se muestra la curva ROC y la distribución acumulada de las distribuciones predichas de los buenos y lo malos a partir de la cual se obtiene el valor KS. Tabla Valores de distancia Mahalanobis, KS y coeficiente de Gini. MAHALANOBIS KS 0.62 GINI (a) (a) (b) Figura Distancia Kolmogorov- Smirnov y Curva ROC Ahora se considera la regla de decisión mostrada en (6.2), para ello es necesario un valor umbral que será determinado usando los criterios descritos en el capítulo 4. Se comenzará utilizando el umbral o punto de corte que minimice los dos tipos de errores conocidos, este valor es igual a En las tablas y se muestran los errores obtenidos en la clasificación mediante las muestras de entrenamiento y validación con el umbral anteriormente definido.

281 261 Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap La matriz de decisión (tabla 6.217) muestra un total de 131 clientes mal clasificados, lo cual da un error de clasificación aproximadamente igual a 20%. Note que los errores presentados en la tabla obtenidos mediante validación cruzada y bootstrap están alrededor de ese mismo valor. Tabla Matriz de confusión para el conjunto de validación Ahora se considera el umbral que minimiza la tasa de Falso Positivos (FP) el cual toma un valor de La matriz de confusión correspondiente a estos resultados se muestra en la tabla

282 262 Tabla Matriz de confusión para el conjunto de validación Los valores de precisión obtenidos mediante las técnicas de validación cruzada y Bootstrap son mostradas a continuación en la tabla 6.219, estos resultados indican que existen submuestras en el conjunto de entrenamiento para las cuales no se obtiene una tasa de FP igual a cero, con el umbral escogido. Tabla Precisión obtenida mediante diversos tipos de remuestreo Método Precisión promedio Validación cruzada k = Bootstrap Tabla Precisión obtenida mediante diversos tipos de remuestreo A partir de lo observado en la tabla 6.129, es claro que para tener una tasa de morosidad igual a cero, la tasa de aceptación debe ser menor a 22%, esto es claro en la curva de estrategia mostrada en la figura 6.92.

283 263 Figura Curva de estrategia Ahora se utiliza para la discriminación el umbral que minimice los costos según lo explicado al inicio de la sección 6.1. El valor del umbral que cumple con esta condición es igual a La matriz de confusión resultante se muestra en la tabla 6.220, donde se observa que el número de buenos clasificados de manera correcta es igual a 402. El costo asociado a esta clasificación es igual a Bs., valor que es menor al obtenido mediante el método de Bayes. Tabla Matriz de confusión para el conjunto de validación

284 264 En la tabla se muestra algunos de los umbrales o puntos de corte considerados en el presente trabajo, los umbrales considerados son el umbral que minimiza el número de falsos positivos (FP), el umbral que minimiza los falsos negativos (FN) y el umbral que minimiza la suma de los dos tipos de error (FN +FP). Tabla Umbrales obtenidos por minimización de algún tipo de error Min. Umbral o punto de corte FP FN Error de clasificación Los resultados de aplicar este método a los datos mostrados en la tabla 6.1 son tabulados en la tabla siguiente: Tabla Resultados obtenidos con la muestra de la tabla 6.1. Solicitantes Umbral S1 S 2 S3 S 4 S5 S6 S7 S8 S9 Min. FP y FN Min. errores de clasificación Árboles de decisión A continuación se muestra el árbol obtenido luego de aplicar al conjunto de datos de entrenamiento el método de árboles de clasificación de partición recursiva, en donde se utilizó como medida de partición el índice de Gini. El árbol obtenido después de la poda por el método de mínimo coste-complejidad consta de 48 nodos terminales como se aprecia en la figura 6.93.

285 265

286 266 En la tabla se muestran los resultados de aplicar validación cruzada y bootstrap, donde es claro que los errores de clasificación para este caso están alrededor de 11%. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap Utilizamos el conjunto de validación para construir la matriz de confusión correspondiente a está técnica, dicha matriz es mostrada en la tabla 6.224, en donde se observa que el total de buenos predichos es de 357, de los cuales 0 fueron incorrectamente clasificados, esto es, la tasa de falsos negativos para este caso es igual a 0% y la tasa de verdaderos negativos junto con la tasa de precisión son de 100%, finalmente la tasa de exactitud es de 90%, indicando que el error de clasificación es igual a 10% aproximadamente. Tabla Matriz de confusión para el conjunto de validación

287 267 Se puede calcular el costo asociado a esta clasificación, en donde es claro que sólo se considera la ganancia pérdida al no considerar los 69 solicitantes buenos que erróneamente fueron clasificados como malos. De está manera el costo o pérdida es igual a Bs. Aplicando los resultados obtenidos a lo datos de la tabla 6.1, se obtienen los siguientes resultados (tabla 6.225). Tabla Resultados obtenidos con la muestra de la tabla 6.1 Solicitantes S1 S S 2 3 S S 4 5 S6 S7 8 S S Redes neuronales. Para la aplicación de está técnica se utilizo una función de activación logística con un parámetro igual a 100 y una red de 11 capas ocultas, obteniéndose para el conjunto de entrenamiento los resultados mostrados en la figura Es claro en las figuras que se muestran a continuación, que las distribuciones de lo buenos y malos parecen solaparse alrededor de 0.5. (a) (b) Figura Distribución de frecuencias predicha para los buenos y malos.

288 268 La red utilizada consta de 11 capas ocultas, lo que da un total de 177 pesos o coeficientes. Los resultados de utilizar la regla de decisión (6.2) y un umbral igual a 0.5 son mostrados en las tablas y que se presentan a continuación. Tabla Matriz de confusión para el conjunto de validación Se observa en la tabla que la exactitud del método es de 83%, indicando que el error de clasificación obtenido es de 17%. Las técnicas de validación cruzada y de bootstrap para el conjunto de entrenamiento muestran también errores de clasificación alrededor del 17%. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada e 10 Bootstrap A continuación se muestra en la figura 6.95, el gráfico correspondiente al estadístico Kolmogorov-Smirnov y la curva ROC, junto con la tabla 6.228, donde se muestran los valores numéricos del estadístico KS y el índice de Gini.

289 269 (a) (b) Figura Distancia Kolmogorov- Smirnov y Curva ROC Tabla Valores de distancia Mahalanobis, KS y coeficiente de Gini MAHALANOBIS KS 0.70 GINI El umbral utilizado para la minimización de los falsos positivos FP es igual a La matriz de confusión correspondiente a la regla de decisión (6.2) con el umbral ya indicado se presenta en la tabla La matriz de confusión muestra que para una tasa de falsos positivos igual a cero, el número de individuos aceptados que son realmente buenos es igual a 107, esto es, para una tasa de aceptación de 25% el porcentaje de casos morosos es igual a cero. En la curva de estrategia de la figura 6.96 es claro este resultado.

290 270 Tabla Matriz de confusión para el conjunto de validación. En la tabla que se presenta a continuación se muestra los resultados de precisión obtenidos con el umbral antes señalado, utilizando validación cruzada y Bootstrap. Tabla Precisión obtenida mediante diversos tipos de remuestreo. Método Precisión promedio Validación cruzada k = Bootstrap 1 Figura Curva de estrategia

291 271 El umbral donde se minimizan los costos es igual a La matriz de confusión asociada a este umbral se muestra en la tabla 6.231, siendo el costo de está clasificación igual Tabla Matriz de confusión para el conjunto de validación Los umbrales que minimizan la tasa de falsos positivos, la tasa de falsos negativos y la tasa de clasificados incorrectamente se muestran en la tabla que se presenta a continuación. Tabla Algunos umbrales obtenidos por minimización de algún tipo de error. Min. Umbral o punto de corte FP FN Error de clasificación Lo resultados de aplicar este método a los datos mostrados en la tabla 6.1 es el siguiente: Tabla Resultados obtenidos con la muestra de la tabla 6.1. Solicitantes Umbral S1 S 2 S3 S 4 S5 S6 S7 S8 S9 Min. FP y FN Min. errores de clasificación

292 Algoritmos Genéticos La función discriminante a ajustar por medio de está técnica fue mostrada en la ecuación (6.3), donde los parámetros considerados en el algoritmo son: una población actual igual a 50, una probabilidad de cruzamiento mutación pm igual a 0.13 y como criterio de parada una tolerancia igual 72 iteraciones se obtienen los coeficientes mostrados en la ecuación pc igual a 1, una probabilidad de Luego de Tabla Coeficientes del modelo obtenido mediante Algoritmos Genéticos. Discriminador: g( x) = ω o + ω1 ω1 + ω2 x ω14 x14 i Coeficiente del Atributo Atributo x i ( w i ) 0 Intercepto Género Edad Estado Civil Instrucción Categoría Ocupacional Profesión Ingresos Mensuales Tenencia de la vivienda Tipo de vivienda Carga familiar Número de años en el empleo actual 12 Número de créditos obtenidos en el pasado 13 Número de créditos del pasado no pagados 14 Número de créditos que posee en el presente

293 273 A continuación se presenta en la figura 6.97 los gráficos correspondientes a la distribución predicha de los buenos y malos obtenida mediante el conjunto de entrenamiento, en donde es claro que ambas distribuciones de datos se solapan alrededor de cero. (a) (b) Figura Distribución de frecuencias predicha para los buenos y malos. Utilizando la regla de decisión (6.1) se obtienen los errores de clasificación por los métodos de validación cruzada y boostrap, dichas tablas indican que el error de clasificación obtenido es aproximadamente de 26%. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap

294 274 Los resultados mostrados en la tabla 6.236, muestran una exactitud de 73.5% lo que indica que el error de clasificación toma un valor de 26.5%. Tabla Matriz de confusión para el conjunto de validación En la figura 6.98 se presenta la distribución de probabilidad obtenida mediante el conjunto de datos de validación. La línea vertical de color verde es el umbral donde ocurre el menor error de clasificación (FP + FN), y las líneas verticales corresponde a las tasa FP y FN cuyos valores numéricos son mostrados en la tabla Note que el umbral que minimiza el error de clasificación es igual a cero, los resultados correspondientes a este umbral ya fueron expuestos en las tablas y Tabla Algunos umbrales obtenidos por minimización de algún tipo de error. Min. Umbral o punto de corte FP FN Error de clasificación 0

295 275 Figura Densidad de probabilidad predicha entre los buenos y los malos. Los valores correspondientes a la distancia de Mahalanobis, estadistico KS e índice de Gini son presentados en la tabla 6.238, junto con la figura 6.99 donde se muestra la curva ROC. DISTANCIA KOLMOGOROV-SMIRNOV Distribución de probabilidad pg(s) Valores proyectados (a) (b) Figura Distancia Kolmogorov- Smirnov y Curva ROC

296 276 Tabla Valores de distancia Mahalanobis, KS y coeficiente de Gini MAHALANOBIS KS 0.43 GINI La matriz de confusión obtenida al utilizar el umbral que minimiza la tasa FP, la cual es igual a , es presentada a continuación en la tabla donde es claro que para una tasa de falsos positivos FP igual a cero se acepta solo 9 solicitantes buenos, esto es, se aceptan 2% de los casos positivos. Tabla Matriz de confusión para el conjunto de validación En la tabla que se presenta a continuación se muestra los resultados de precisión obtenidos con el umbral antes señalado, utilizando validación cruzada y Bootstrap. Tabla Precisión obtenida mediante diversos tipos de remuestreo Método Precisión promedio Validación cruzada k = Bootstrap La matriz de confusión correspondiente al umbral el cual minimiza los costos o pérdidas asociados a una incorrecta clasificación es presentada a continuación en la tabla En está tabla es claro el aumento de casos positivos correctamente clasificados al igual que es claro el aumento de falsos positivos en la clasificación en

297 277 comparación con la tabla 6.236, así el costo o pérdida asociada a esta clasificación es igual a Bs. Tabla Matriz de confusión para el conjunto de validación lo siguiente: Al aplicar los resultados obtenidos a los datos mostrados en la tabla 6.1 se obtiene Tabla Resultados obtenidos con la muestra de la tabla 6.1 Solicitantes Umbral S1 S 2 S3 S 4 S5 S6 S7 S8 S9 Min. FP y FN Min. errores de clasificación Maquinas De Soporte Vectorial Finalmente se implanta la técnica de Máquina de Soporte Vectorial (MSV), utilizando la formulación dual del MSV de norma 2, para esto se usó un valor C = 1000 un kernel Gaussiano con parámetro igual a 0.001, la escogencia de este kernel es debida a los buenos resultados que se han obtenido con el mismo en la literatura. El número de vectores soporte obtenido fue de y

298 278 A continuación se muestran las gráficas correspondientes a la distribución de frecuencia de los buenos y los malos obtenida mediante el conjunto de entrenamiento (figura 6.100). (a) (b) Figura Distribución de frecuencias predicha para los buenos y malos. Utilizando la regla de decisión (6.1) se obtienen los resultados mostrados en las tablas y Es claro que las técnicas de validación cruzada y de bootstrap para el conjunto de entrenamiento muestran errores de clasificación están alrededor del 16%. La matriz de confusión de la tabla muestra un error de 15%. Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap

299 279 Tabla Matriz de confusión para el conjunto de validación. En las figuras y se muestra la distribución de probabilidad, la distribución acumulada y la curva ROC obtenidos mediante el método MSV, en donde es claro lo bien que este método separa los datos. Se puede observar de manera más clara los valores numéricos asociados con estás gráficas, los cuales son presentado en la tabla Cabe destacar que la mayor distancia KS que se observa en la figura 6.102(a) ocurre cerca de cero, lo que indica que ese es el valor del umbral donde ocurre la minimización del error de clasificación. Figura Densidad de probabilidad predicha para los buenos y los malos.

300 280 Tabla Valores de distancia Mahalanobis, KS y coeficiente de Gini MAHALANOBIS KS 0.69 GINI (a) (b) Figura Distancia Kolmogorov- Smirnov y Curva ROC El umbral que minimiza el error de clasificación es igual a y la matriz de confusión asociada a la regla de decisión (6.2) con el umbral señalado se muestra a continuación en la tabla 6.246, de la misma manera el error obtenido mediante validación cruzada y bootstrap es mostrado en la tabla Se observa que el error de clasificación en ambas tablas ronda cerca del 14%. Tabla Matriz de confusión para el conjunto de validación

301 281 Tabla Resultados de aplicar Validación cruzada k = 10, validación cruzada 5 2 y validación por Bootstrap al conjunto de entrenamiento. Método Error medio Varianza de los errores Validación cruzada k = Validación cruzada Bootstrap El umbral que minimiza la tasa de falsos positivos FP es igual a y la matriz de confusión asociada a la regla de decisión (6.2) junto con el umbral antes señalado se muestra a continuación en la tabla Observe que cuando la tasa de falsos positivos es igual a 0 la tasa de aceptación es igual a 42%. Tabla Matriz de confusión para el conjunto de validación En la tabla que se presenta a continuación se muestran los resultados de precisión obtenidos con el umbral antes señalado, utilizando validación cruzada y Bootstrap. Tabla Precisión obtenida mediante diversos tipos de remuestreo. Método Precisión promedio Validación cruzada k = Bootstrap

302 282 A continuación se presenta la curva de estrategia correspondiente a este método, la cual es mostrada en la figura Figura Curva de estrategia El umbral en donde se minimiza el costo o pérdida asociada a una mala clasificación es igual a La matriz de confusión obtenida en este caso se muestra en la tabla 6.250, a partir de la misma se obtiene que el costo o pérdida es igual a Bs., valor que resulta el menor de todos los vistos hasta ahora. Tabla Matriz de confusión para el conjunto de validación

INDICE. Prólogo a la Segunda Edición

INDICE. Prólogo a la Segunda Edición INDICE Prólogo a la Segunda Edición XV Prefacio XVI Capitulo 1. Análisis de datos de Negocios 1 1.1. Definición de estadística de negocios 1 1.2. Estadística descriptiva r inferencia estadística 1 1.3.

Más detalles

crédito. Por ejemplo si la institución ha fijado que los clientes buenos son aquellos que tienen 500 puntos o más, este cliente sería rechazado.

crédito. Por ejemplo si la institución ha fijado que los clientes buenos son aquellos que tienen 500 puntos o más, este cliente sería rechazado. crédito. Por ejemplo si la institución ha fijado que los clientes buenos son aquellos que tienen 500 puntos o más, este cliente sería rechazado. 6.- Validación del modelo 6.1.- Análisis de percentiles

Más detalles

Asignaturas antecedentes y subsecuentes

Asignaturas antecedentes y subsecuentes PROGRAMA DE ESTUDIOS PROBABILIDAD Área a la que pertenece: Área Sustantiva Profesional Horas teóricas: 3 Horas prácticas: 2 Créditos: 8 Clave: F0056 Asignaturas antecedentes y subsecuentes PRESENTACIÓN

Más detalles

Aprendizaje Automatizado

Aprendizaje Automatizado Aprendizaje Automatizado Aprendizaje Automatizado Programas que mejoran su comportamiento con la experiencia. Dos formas de adquirir experiencia: A partir de ejemplos suministrados por un usuario (un conjunto

Más detalles

Facultad de Ciencias Sociales - Universidad de la República

Facultad de Ciencias Sociales - Universidad de la República Facultad de Ciencias Sociales - Universidad de la República Estadística y sus aplicaciones en Ciencias Sociales Edición 2016 Ciclo Avanzado 3er. Semestre (Licenciatura en Ciencia Política/ Licenciatura

Más detalles

CÁLCULO DE PROBABILIDADES

CÁLCULO DE PROBABILIDADES CÁLCULO DE PROBABILIDADES Tipo de asignatura: Troncal Anual. Créditos ECTS: 15 I.- INTRODUCCIÓN AL CÁLCULO DE PROBABILIDADES. (16 horas presenciales) Tema 1.- La naturaleza del cálculo de probabilidades.

Más detalles

DEPARTAMENTO DE MATEMÁTICAS. IES GALLICUM

DEPARTAMENTO DE MATEMÁTICAS. IES GALLICUM UNIDAD I: NÚMEROS (6 Horas) 1.- Repasar el cálculo con números racionales y potencias de exponente entero. 2.- Resolver problemas de la vida cotidiana en los que intervengan los números racionales. 1.-

Más detalles

matemáticas como herramientas para solución de problemas en ingeniería. PS Probabilidad y Estadística Clave de la materia: Cuatrimestre: 4

matemáticas como herramientas para solución de problemas en ingeniería. PS Probabilidad y Estadística Clave de la materia: Cuatrimestre: 4 PS0401 - Probabilidad y Estadística DES: Ingeniería Programa(s) Educativo(s): Ingeniería de Software Tipo de materia: Obligatoria Clave de la materia: PS0401 Cuatrimestre: 4 UNIVERSIDAD AUTÓNOMA DE Área

Más detalles

Capítulo 8. Análisis Discriminante

Capítulo 8. Análisis Discriminante Capítulo 8 Análisis Discriminante Técnica de clasificación donde el objetivo es obtener una función capaz de clasificar a un nuevo individuo a partir del conocimiento de los valores de ciertas variables

Más detalles

CM0244. Suficientable

CM0244. Suficientable IDENTIFICACIÓN NOMBRE ESCUELA ESCUELA DE CIENCIAS NOMBRE DEPARTAMENTO Ciencias Matemáticas ÁREA DE CONOCIMIENTO MATEMATICAS, ESTADISTICA Y AFINES NOMBRE ASIGNATURA EN ESPAÑOL ESTADÍSTICA GENERAL NOMBRE

Más detalles

Tema Contenido Contenidos Mínimos

Tema Contenido Contenidos Mínimos 1 Estadística unidimensional - Variable estadística. - Tipos de variables estadísticas: cualitativas, cuantitativas discretas y cuantitativas continuas. - Variable cualitativa. Distribución de frecuencias.

Más detalles

Bloque 1. Contenidos comunes. (Total: 3 sesiones)

Bloque 1. Contenidos comunes. (Total: 3 sesiones) 4º E.S.O. OPCIÓN A 1.1.1 Contenidos 1.1.1.1 Bloque 1. Contenidos comunes. (Total: 3 sesiones) Planificación y utilización de procesos de razonamiento y estrategias de resolución de problemas, tales como

Más detalles

SUPERINTENDENCIA DE BANCOS Y SEGUROS REPÚBLICA DEL ECUADOR

SUPERINTENDENCIA DE BANCOS Y SEGUROS REPÚBLICA DEL ECUADOR SUPERINTENDENCIA DE BANCOS Y SEGUROS REPÚBLICA DEL ECUADOR NOTA TÉCNICA DE CONSTRUCCIÓN DE LOS UMBRALES ESTADÍSTICOS DE INDICADORES FINANCIEROS INIF Quito - enero 2012 Metodología para la construcción

Más detalles

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos

Agro 6998 Conferencia 2. Introducción a los modelos estadísticos mixtos Agro 6998 Conferencia Introducción a los modelos estadísticos mixtos Los modelos estadísticos permiten modelar la respuesta de un estudio experimental u observacional en función de factores (tratamientos,

Más detalles

CURSO: TOMA DE DECISIONES BAJO RIESGO

CURSO: TOMA DE DECISIONES BAJO RIESGO MANAGEMENT CONSULTORES CURSO: TOMA DE DECISIONES BAJO RIESGO Cnel. R.L. Falcón 1435 C1406GNC 35 Buenos Aires, Argentina Tel.: 054-11-15-5468-3369 Fax: 054-11-4433-4202 Mail: mgm_consultas@mgmconsultores.com.ar

Más detalles

Teoría de la decisión

Teoría de la decisión 1.- Un problema estadístico típico es reflejar la relación entre dos variables, a partir de una serie de Observaciones: Por ejemplo: * peso adulto altura / peso adulto k*altura * relación de la circunferencia

Más detalles

CRITERIOS DE SELECCIÓN DE MODELOS

CRITERIOS DE SELECCIÓN DE MODELOS Inteligencia artificial y reconocimiento de patrones CRITERIOS DE SELECCIÓN DE MODELOS 1 Criterios para elegir un modelo Dos decisiones fundamentales: El tipo de modelo (árboles de decisión, redes neuronales,

Más detalles

UNIVERSIDAD AUTÓNOMA DE QUERÉTARO FACULTAD DE INGENIERÍA. práctica, Total: 85 Horas a la semana: 5 teoría: 4 prácticas: 1 Créditos:

UNIVERSIDAD AUTÓNOMA DE QUERÉTARO FACULTAD DE INGENIERÍA. práctica, Total: 85 Horas a la semana: 5 teoría: 4 prácticas: 1 Créditos: UNIVERSIDAD AUTÓNOMA DE QUERÉTARO FACULTAD DE INGENIERÍA Probabilidad y Estadística 18/01/10 Clave: 214 Semestre: 1 Duración del curso: semanas: 17 horas: 68 de teoría y 17 de práctica, Total: 85 Horas

Más detalles

INDICE 1. Introducción 2. Recopilación de Datos Caso de estudia A 3. Descripción y Resumen de Datos 4. Presentación de Datos

INDICE 1. Introducción 2. Recopilación de Datos Caso de estudia A 3. Descripción y Resumen de Datos 4. Presentación de Datos INDICE Prefacio VII 1. Introducción 1 1.1. Qué es la estadística moderna? 1 1.2. El crecimiento y desarrollo de la estadística moderna 1 1.3. Estudios enumerativos en comparación con estudios analíticos

Más detalles

Santiago de Cali, 10 de Noviembre de 2010

Santiago de Cali, 10 de Noviembre de 2010 Santiago de Cali, 10 de Noviembre de 2010 HISTORIA DE LA COOPERATIVA. RIESGO CREDITICIO EVALUACIÓN DEL RIESGO CREDITICIO: Modelo de Riesgo crediticio: trabajo conjunto SOLIDARIOS - U. ICESI Análisis Seguimiento

Más detalles

Método de cuadrados mínimos

Método de cuadrados mínimos REGRESIÓN LINEAL Gran parte del pronóstico estadístico del tiempo está basado en el procedimiento conocido como regresión lineal. Regresión lineal simple (RLS) Describe la relación lineal entre dos variables,

Más detalles

UNIVERSIDAD ABIERTA PARA ADULTOS UAPA CARRERA LICENCIATURA EN ADMINISTRACIÓN DE EMPRESAS PROGRAMA DE LA ASIGNATURA MICROECONOMIA

UNIVERSIDAD ABIERTA PARA ADULTOS UAPA CARRERA LICENCIATURA EN ADMINISTRACIÓN DE EMPRESAS PROGRAMA DE LA ASIGNATURA MICROECONOMIA UNIVERSIDAD ABIERTA PARA ADULTOS UAPA CARRERA LICENCIATURA EN ADMINISTRACIÓN DE EMPRESAS PROGRAMA DE LA ASIGNATURA MICROECONOMIA CLAVE: ECO 222 ; PRE REQ.: ECO 121 ; No. CRED.: 4 I. PRESENTACIÓN: Esta

Más detalles

Formulación del problema de la ruta más corta en programación lineal

Formulación del problema de la ruta más corta en programación lineal Formulación del problema de la ruta más corta en programación lineal En esta sección se describen dos formulaciones de programación lineal para el problema de la ruta más corta. Las formulaciones son generales,

Más detalles

Tema 2. Regresión Lineal

Tema 2. Regresión Lineal Tema 2. Regresión Lineal 3.2.1. Definición Mientras que en el apartado anterior se desarrolló una forma de medir la relación existente entre dos variables; en éste, se trata de esta técnica que permite

Más detalles

Números reales. Valor absoluto. Desigualdades. Distancias entre la recta real. Intervalos y entornos.

Números reales. Valor absoluto. Desigualdades. Distancias entre la recta real. Intervalos y entornos. MATEMÁTICAS I Contenidos. Aritmética y álgebra: Números reales. Valor absoluto. Desigualdades. Distancias entre la recta real. Intervalos y entornos. Resolución e interpretación gráfica de ecuaciones e

Más detalles

Simulación I. Investigación Operativa, Grado en Estadística y Empresa, 2011/12

Simulación I. Investigación Operativa, Grado en Estadística y Empresa, 2011/12 Simulación I Prof. José Niño Mora Investigación Operativa, Grado en Estadística y Empresa, 2011/12 Esquema Modelos de simulación y el método de Montecarlo Ejemplo: estimación de un área Ejemplo: estimación

Más detalles

3. ANÁLISIS DE DATOS DE PRECIPITACIÓN.

3. ANÁLISIS DE DATOS DE PRECIPITACIÓN. 3. ANÁLISIS DE DATOS DE PRECIPITACIÓN. Teniendo en cuenta que la mayoría de procesos estadísticos se comportan de forma totalmente aleatoria, es decir, un evento dado no está influenciado por los demás,

Más detalles

donde: es el proceso vectorial del modelo de Vasicek multifactor dado por

donde: es el proceso vectorial del modelo de Vasicek multifactor dado por ANEXO 6.3.3. MODELO Y BASES TÉCNICAS PARA LA DETERMINACIÓN DE LA VARIABLE DE PÉRDIDAS DE LOS ACTIVOS SUJETOS A RIESGO DE MERCADO, PARA EFECTOS DEL CÁLCULO DEL RCS CONFORME A LA FÓRMULA GENERAL. Para efectos

Más detalles

La asignatura proporciona al alumno los conceptos básicos de estadística. Se organiza el temario en cinco unidades.

La asignatura proporciona al alumno los conceptos básicos de estadística. Se organiza el temario en cinco unidades. 1.- DATOS DE LA ASIGNATURA. Nombre de la asignatura: Carrera: Clave de la asignatura: Muestreo y Regresión. Ingeniería Forestal. FOC-1027 SATCA: 2 2 4 2.- PRESENTACIÓN. Caracterización de la asignatura.

Más detalles

INSTITUTO POLITÉCNICO NACIONAL SECRETARIA ACADEMICA DIRECCIÓN DE ESTUDIOS PROFESIONALES EN INGENIERÍA Y CIENCIAS FÍSICO MATEMÁTICAS

INSTITUTO POLITÉCNICO NACIONAL SECRETARIA ACADEMICA DIRECCIÓN DE ESTUDIOS PROFESIONALES EN INGENIERÍA Y CIENCIAS FÍSICO MATEMÁTICAS ESCUELA: UPIICSA CARRERA: INGENIERÍA EN TRANSPORTE ESPECIALIDAD: COORDINACIÓN: ACADEMIAS DE MATEMÁTICAS DEPARTAMENTO: CIENCIAS BÁSICAS PROGRAMA DE ESTUDIO ASIGNATURA: ESTADÍSTICA APLICADA CLAVE: TMPE SEMESTRE:

Más detalles

ESTADISTICA. Tradicionalmente la aplicación del término estadística se ha utilizado en tres ámbitos:

ESTADISTICA. Tradicionalmente la aplicación del término estadística se ha utilizado en tres ámbitos: ESTADISTICA Tradicionalmente la aplicación del término estadística se ha utilizado en tres ámbitos: a) Estadística como enumeración de datos. b) Estadística como descripción, es decir, a través de un análisis

Más detalles

EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD)

EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD) EL PRINCIPIO DE MÁXIMA VEROSIMILITUD (LIKELIHOOD) Fortino Vela Peón fvela@correo.xoc.uam.mx FVela-0 Objetivo Introducir las ideas básicas del principio de máxima verosimilitud. Problema Considere el experimento

Más detalles

Unidad 1: Espacio de Probabilidad

Unidad 1: Espacio de Probabilidad Unidad 1: Espacio de Probabilidad 1.1 Espacios de Probabilidad. (1) Breve introducción histórica de las probabilidades (2) Diferencial entre modelos matemáticos deterministicos y probabilísticos (3) Identificar

Más detalles

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada.

ANEXO 1. CONCEPTOS BÁSICOS. Este anexo contiene información que complementa el entendimiento de la tesis presentada. ANEXO 1. CONCEPTOS BÁSICOS Este anexo contiene información que complementa el entendimiento de la tesis presentada. Aquí se exponen técnicas de cálculo que son utilizados en los procedimientos de los modelos

Más detalles

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC) GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC) Curso Académico: 2015-2016 Programa: Centro: Universidad: Máster Universitario en Ingeniería Informática Escuela Politécnica Superior

Más detalles

4. NÚMEROS PSEUDOALEATORIOS.

4. NÚMEROS PSEUDOALEATORIOS. 4. NÚMEROS PSEUDOALEATORIOS. En los experimentos de simulación es necesario generar valores para las variables aleatorias representadas estas por medio de distribuciones de probabilidad. Para poder generar

Más detalles

UNIVERSIDAD AUTÓNOMA DE CHIAPAS FACULTAD DE INGENIERÍA CAMPUS I PROBABILIDAD Y ESTADISTICA

UNIVERSIDAD AUTÓNOMA DE CHIAPAS FACULTAD DE INGENIERÍA CAMPUS I PROBABILIDAD Y ESTADISTICA UNIVERSIDAD AUTÓNOMA DE CHIAPAS FACULTAD DE INGENIERÍA CAMPUS I PROBABILIDAD Y ESTADISTICA NIVEL : LICENCIATURA CRÉDITOS : 7 CLAVE : ICAE13001731 HORAS TEORÍA : 3 SEMESTRE : QUINTO HORAS PRÁCTICA : 1 REQUISITOS

Más detalles

CAPITULO 1: GENERALIDADES SOBRE LOS ESTADOS FINANCIEROS.

CAPITULO 1: GENERALIDADES SOBRE LOS ESTADOS FINANCIEROS. CAPITULO 1: GENERALIDADES SOBRE LOS ESTADOS FINANCIEROS. TEMA 1: ESTADOS FINANCIEROS CONTENIDO: Objetivos, clasificación. Estados financieros básicos y secundarios; normales y especiales, estáticos y dinámicos,

Más detalles

UNIVERSIDAD DE CIENCIAS EMPRESARIALES Y SOCIALES FACULTAD DE CIENCIAS DE LA COMUNICACIÓN

UNIVERSIDAD DE CIENCIAS EMPRESARIALES Y SOCIALES FACULTAD DE CIENCIAS DE LA COMUNICACIÓN UNIVERSIDAD DE CIENCIAS EMPRESARIALES Y SOCIALES FACULTAD DE CIENCIAS DE LA COMUNICACIÓN Carrera: Licenciatura en Periodismo Asignatura: Estadística Social Curso: 2 año Año lectivo: 2016 Carga horaria

Más detalles

ÍNDICE CAPÍTULO 0 CANCEPTOS ALGEBRAICOS 1 CAPÍTUO 1 ECUACIONES Y FUNCIONES LINEALES 56 CAPÍTULO 2 FUNCIONES ESPECIALES 133. Prefacio...

ÍNDICE CAPÍTULO 0 CANCEPTOS ALGEBRAICOS 1 CAPÍTUO 1 ECUACIONES Y FUNCIONES LINEALES 56 CAPÍTULO 2 FUNCIONES ESPECIALES 133. Prefacio... ÍNDICE Prefacio... XV CAPÍTULO 0 CANCEPTOS ALGEBRAICOS 1 0.1 Conjuntos... 2 0.2 Los números reales... 10 0.3 Exponentes de las integrales... 16 0.4 Radicales y exponentes racionales... 21 0.5 Operaciones

Más detalles

OPTIMIZACIÓN Y SIMULACIÓN PARA LA EMPRESA. Tema 4 Optimización no Lineal

OPTIMIZACIÓN Y SIMULACIÓN PARA LA EMPRESA. Tema 4 Optimización no Lineal OPTIMIZACIÓN Y SIMULACIÓN PARA LA EMPRESA Tema 4 Optimización no Lineal ORGANIZACIÓN DEL TEMA Sesiones: El caso sin restricciones: formulación, ejemplos Condiciones de optimalidad, métodos Caso con restricciones:

Más detalles

Introducción a la unidad 4:

Introducción a la unidad 4: Introducción a la unidad 4: Valor actual neto, tasa interna de retorno INACAP Virtual Introducción a la Unidad 4 Matemática financiera 2 ÍNDICE DE CONTENIDOS ÍNDICE DE CONTENIDOS... 3 INTRODUCCIÓN... 4

Más detalles

Metodología para la generación y evaluación de políticas de operación en sistemas de recursos hídricos. Aplicación a un sistema de México

Metodología para la generación y evaluación de políticas de operación en sistemas de recursos hídricos. Aplicación a un sistema de México Metodología para la generación y evaluación de políticas de operación en sistemas de recursos hídricos. Aplicación a un sistema de México Índice general Resumen...vii Resum... ix Summary... xi Índice de

Más detalles

CUENTAS POR COBRAR - EVALUACIÓN OBJETIVA

CUENTAS POR COBRAR - EVALUACIÓN OBJETIVA 1 CUENTAS POR COBRAR - EVALUACIÓN OBJETIVA Qué elementos debe contener una evaluación objetiva del crédito que se otorga los clientes de las empresas? Al hacer un eficiente trabajo en la evaluación del

Más detalles

PLANES CURRICULARES GRADO9º/ 01 PERIODO

PLANES CURRICULARES GRADO9º/ 01 PERIODO PLANES CURRICULARES GRADO9º/ 01 PERIODO Grado: 9º Periodo: 01 PRIMERO Aprobado por: G. Watson - Jefe Sección Asignatura: MATEMATICAS Profesor: Gloria rueda y Jesús Vargas ESTANDARES P.A.I. I.B. A. Conocimiento

Más detalles

METODOLOGÍA DE MUESTREO PARA REPORTE DE TENDENCIAS 4o BÁSICO Y 2o MEDIO SIMCE 2010

METODOLOGÍA DE MUESTREO PARA REPORTE DE TENDENCIAS 4o BÁSICO Y 2o MEDIO SIMCE 2010 METODOLOGÍA DE MUESTREO PARA REPORTE DE TENDENCIAS 4o BÁSICO Y 2o MEDIO SIMCE 2010 SIMCE Unidad de Currículum y Evaluación Ministerio de Educación 2011 Índice 1. Antecedentes Generales 1 2. Metodología

Más detalles

EVALUACIÓN EXTRAORDINARIA DE SEPTIEMBRE CURSO Contenidos para la Prueba de Septiembre MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I.

EVALUACIÓN EXTRAORDINARIA DE SEPTIEMBRE CURSO Contenidos para la Prueba de Septiembre MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I. EVALUACIÓN EXTRAORDINARIA DE SEPTIEMBRE CURSO 2013-2014. Contenidos para la Prueba de Septiembre MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I. UNIDAD 3: POLINOMIOS Y FRACCIONES ALGEBRAICAS Operaciones

Más detalles

de Operaciones Área Académica: Sistemas Computacionales Tema: Tipos de Modelos en Investigación Profesor: I.S.C. Guadalupe Hernández Coca

de Operaciones Área Académica: Sistemas Computacionales Tema: Tipos de Modelos en Investigación Profesor: I.S.C. Guadalupe Hernández Coca Área Académica: Sistemas Computacionales Tema: Tipos de Modelos en Investigación de Operaciones Profesor: I.S.C. Guadalupe Hernández Coca Periodo: Julio Diciembre 2011 Keywords: investigation of operations,

Más detalles

Unidad Temática 3: Probabilidad y Variables Aleatorias

Unidad Temática 3: Probabilidad y Variables Aleatorias Unidad Temática 3: Probabilidad y Variables Aleatorias 1) Qué entiende por probabilidad? Cómo lo relaciona con los Sistemas de Comunicaciones? Probabilidad - Definiciones Experimento aleatorio: Un experimento

Más detalles

UNIVERSIDAD CENTROCCIDENTAL LISANDRO ALVARADO DECANATO DE INGENIERIA CIVIL ESTADISTICA. CARÁCTER: Obligatoria DENSIDAD HORARIA HT HP HS UCS THS/SEM

UNIVERSIDAD CENTROCCIDENTAL LISANDRO ALVARADO DECANATO DE INGENIERIA CIVIL ESTADISTICA. CARÁCTER: Obligatoria DENSIDAD HORARIA HT HP HS UCS THS/SEM UNIVERSIDAD CENTROCCIDENTAL LISANDRO ALVARADO DECANATO DE INGENIERIA CIVIL ESTADISTICA CARÁCTER: Obligatoria PROGRAMA: Ingeniería Civil DEPARTAMENTO: Ciencias Básicas CODIGO SEMESTRE DENSIDAD HORARIA HT

Más detalles

MATERIA: MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES II INSTRUCCIONES Y CRITERIOS GENERALES DE CALIFICACIÓN

MATERIA: MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES II INSTRUCCIONES Y CRITERIOS GENERALES DE CALIFICACIÓN UNIVERSIDADES PÚBLICAS DE LA COMUNIDAD DE MADRID PRUEBA DE ACCESO A LAS ENSEÑANZAS UNIVERSITARIAS OFICIALES DE GRADO MODELO DE EXAMEN CURSO 2014-2015 MATERIA: MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES

Más detalles

SECCIÓN 3 PRESENTACION DE ESTADOS FINANCIEROS

SECCIÓN 3 PRESENTACION DE ESTADOS FINANCIEROS SECCIÓN 3 PRESENTACION DE ESTADOS FINANCIEROS PRESENTACIÓN DE ESTADOS FINANCIEROS Los estados financieros son representaciones estructuradas basados en la situación financiera de la entidad el rendimiento

Más detalles

DIPLOMADO EN ESTADÍSTICA APLICADA

DIPLOMADO EN ESTADÍSTICA APLICADA DIPLOMADO EN ESTADÍSTICA APLICADA DIPLOMADO EN ESTADÍSTICA APLICADA FUNDAMENTACIÓN El Diplomado en Estadística Aplicada posibilitará la actualización profesional y el desarrollo de competencias específicas

Más detalles

CAPÍTULO 4 RECOPILACIÓN DE DATOS Y CÁLCULO DEL VPN. En el presente capítulo se presenta lo que es la recopilación de los datos que se tomarán

CAPÍTULO 4 RECOPILACIÓN DE DATOS Y CÁLCULO DEL VPN. En el presente capítulo se presenta lo que es la recopilación de los datos que se tomarán CAPÍTULO 4 RECOPILACIÓN DE DATOS Y CÁLCULO DEL VPN En el presente capítulo se presenta lo que es la recopilación de los datos que se tomarán para realizar un análisis, la obtención del rendimiento esperado

Más detalles

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 7)

INTRODUCCIÓN AL ANÁLISIS DE DATOS ORIENTACIONES (TEMA Nº 7) TEMA Nº 7 DISTRIBUCIONES CONTINUAS DE PROBABILIDAD OBJETIVOS DE APRENDIZAJE: Conocer las características de la distribución normal como distribución de probabilidad de una variable y la aproximación de

Más detalles

FINANZAS. introducción a los derivados crediticios y, por último, un caso de cobertura de un porfolio de préstamos utilizando Credit Default Swaps.

FINANZAS. introducción a los derivados crediticios y, por último, un caso de cobertura de un porfolio de préstamos utilizando Credit Default Swaps. Colaboración: Gabriel Gambetta, CIIA 2007, Controller Financiero SAP Global Delivery. Profesor Especialización Administración Financiera (UBA) Profesor de Microeconomía (UBA) Este trabajo pretende encontrar

Más detalles

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016 ANEXO ESTADÍSTICO 1 : COEFICIENTES DE VARIACIÓN Y ERROR ASOCIADO AL ESTIMADOR ENCUESTA NACIONAL DE EMPLEO (ENE) INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 9 de Abril de 016 1 Este anexo estadístico es una

Más detalles

CRITERIOS DE EVALUACIÓN DEPARTAMENTO DE MATEMÁTICAS

CRITERIOS DE EVALUACIÓN DEPARTAMENTO DE MATEMÁTICAS 1º ESO CRITERIOS DE EVALUACIÓN DEPARTAMENTO DE MATEMÁTICAS 1. Utilizar numeros naturales, enteros, fracciones y decimales sencillos, sus operaciones y propiedades, para recoger, transformar e intercambiar

Más detalles

Aplicación del modelo de frontera estocástica de producción para analizar la eficiencia técnica de la industria eléctrica en México

Aplicación del modelo de frontera estocástica de producción para analizar la eficiencia técnica de la industria eléctrica en México SECCIÓN DE ESTUDIOS DE POSGRADO E INVESTIGACIÓN Aplicación del modelo de frontera estocástica de producción para analizar la eficiencia técnica de la industria eléctrica en México Presentan: Dr. Miguel

Más detalles

Contenidos mínimos Criterios de evaluación Ejemplos de preguntas

Contenidos mínimos Criterios de evaluación Ejemplos de preguntas Contenidos mínimos Criterios de evaluación Ejemplos de preguntas 1º ESO Números naturales, enteros y decimales: operaciones elementales. Fracciones: operaciones elementales. Potencias de exponente natural.

Más detalles

Repaso de conceptos de álgebra lineal

Repaso de conceptos de álgebra lineal MÉTODOS AVANZADOS EN APRENDIZAJE ARTIFICIAL: TEORÍA Y APLICACIONES A PROBLEMAS DE PREDICCIÓN Manuel Sánchez-Montañés Luis Lago Ana González Escuela Politécnica Superior Universidad Autónoma de Madrid Repaso

Más detalles

Carrera: Ingeniería Civil CIM 0531

Carrera: Ingeniería Civil CIM 0531 1.- DATOS DE LA ASIGNATURA Nombre de la asignatura: Carrera: Clave de la asignatura: Horas teoría-horas práctica-créditos: Probabilidad y Estadística Ingeniería Civil CIM 0531 3 2 8 2.- HISTORIA DEL PROGRAMA

Más detalles

PROBABILIDAD Y ESTADÍSTICA

PROBABILIDAD Y ESTADÍSTICA PROBABILIDAD Y ESTADÍSTICA 4 horas a la semana 8 créditos Semestre variable según la carrera Objetivo del curso: Analizar y resolver problemas de naturaleza aleatoria en la ingeniería, aplicando conceptos

Más detalles

Análisis de datos Categóricos

Análisis de datos Categóricos Introducción a los Modelos Lineales Generalizados Universidad Nacional Agraria La Molina 2016-1 Introducción Modelos Lineales Generalizados Introducción Componentes Estimación En los capítulos anteriores

Más detalles

MÓDULO 1: GESTIÓN DE CARTERAS

MÓDULO 1: GESTIÓN DE CARTERAS MÓDULO 1: GESTIÓN DE CARTERAS TEST DE EVALUACIÓN 1 Una vez realizado el test de evaluación, cumplimenta la plantilla y envíala, por favor, antes del plazo fijado. En todas las preguntas sólo hay una respuesta

Más detalles

UNIVERSIDADES PÚBLICAS DE LA COMUNIDAD DE MADRID

UNIVERSIDADES PÚBLICAS DE LA COMUNIDAD DE MADRID UNIVERSIDADES PÚBLICAS DE LA COMUNIDAD DE MADRID PRUEBA DE ACCESO A LAS ENSEÑANZAS UNIVERSITARIAS OFICIALES DE GRADO Curso 2014-2015 MATERIA: MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES II INSTRUCCIONES

Más detalles

Teorema Central del Límite (1)

Teorema Central del Límite (1) Teorema Central del Límite (1) Definición. Cualquier cantidad calculada a partir de las observaciones de una muestra se llama estadístico. La distribución de los valores que puede tomar un estadístico

Más detalles

Tema 15: Combinación de clasificadores

Tema 15: Combinación de clasificadores Tema 15: Combinación de clasificadores p. 1/21 Tema 15: Combinación de clasificadores Abdelmalik Moujahid, Iñaki Inza, Pedro Larrañaga Departamento de Ciencias de la Computación e Inteligencia Artificial

Más detalles

FONDO MUTUO SURA RENTA LOCAL UF SERIE A Folleto Informativo al cierre de septiembre 2016

FONDO MUTUO SURA RENTA LOCAL UF SERIE A Folleto Informativo al cierre de septiembre 2016 FONDO MUTUO SURA RENTA LOCAL UF SERIE A Administradora RUN Patrimonio Serie Monto Mínimo Clasificación de Riesgo 9084 CLP $8.855.526.229 $5.000 Rentabilidad en Pesos desde 23/10/2014 a 7,2% 1 Mes 0,49%

Más detalles

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE ESTUDIOS SUPERIORES CUAUTITLÁN PLAN DE ESTUDIOS DE LA LICENCIATURA EN QUÍMICA INDUSTRIAL

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE ESTUDIOS SUPERIORES CUAUTITLÁN PLAN DE ESTUDIOS DE LA LICENCIATURA EN QUÍMICA INDUSTRIAL UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE ESTUDIOS SUPERIORES CUAUTITLÁN PLAN DE ESTUDIOS DE LA LICENCIATURA EN QUÍMICA INDUSTRIAL PROGRAMA DE LA ASIGNATURA DE: IDENTIFICACIÓN DE LA ASIGNATURA

Más detalles

Carrera: Ingeniería Civil Participantes Comité de Evaluación Curricular de Institutos Tecnológicos

Carrera: Ingeniería Civil Participantes Comité de Evaluación Curricular de Institutos Tecnológicos 1.- DATOS DE LA ASIGNATURA Nombre de la asignatura: Carrera: Probabilidad y Estadística Ingeniería Civil Clave de la asignatura: Horas teoría-horas práctica-créditos 3-2-8 2.- HISTORIA DEL PROGRAMA Lugar

Más detalles

TEMA 6. SVM Support Vector Machines (Máquinas de Vectores Soporte)

TEMA 6. SVM Support Vector Machines (Máquinas de Vectores Soporte) TEMA 6. SVM Support Vector Machines (Máquinas de Vectores Soporte) Francisco José Ribadas Pena Modelos de Razonamiento y Aprendizaje 5 Informática ribadas@uvigo.es 17 de abril de 2012 FJRP ccia [Modelos

Más detalles

1. La Distribución Normal

1. La Distribución Normal 1. La Distribución Normal Los espacios muestrales continuos y las variables aleatorias continuas se presentan siempre que se manejan cantidades que se miden en una escala continua; por ejemplo, cuando

Más detalles

Probabilidad y Estadística

Probabilidad y Estadística Probabilidad y Estadística Tema 9 Experimentación y presentación de datos Objetivo de aprendizaje del tema Al finalizar el tema serás capaz de: Describir los conceptos de experimentación y determinación

Más detalles

Desempeño de Medidas de Riesgo sobre Distribuciones de Valores Extremos

Desempeño de Medidas de Riesgo sobre Distribuciones de Valores Extremos Desempeño de Medidas de Riesgo sobre Distribuciones de Valores Extremos Resumen Ejecutivo Antecedentes El riesgo es un concepto ampliamente estudiado, con diversas definiciones que dependen del contexto

Más detalles

Ing. Eduardo Cruz Romero w w w. tics-tlapa. c o m

Ing. Eduardo Cruz Romero w w w. tics-tlapa. c o m Ing. Eduardo Cruz Romero eduar14_cr@hotmail.com w w w. tics-tlapa. c o m La estadística es tan vieja como la historia registrada. En la antigüedad los egipcios hacían censos de las personas y de los bienes

Más detalles

Tema 5. Muestreo y distribuciones muestrales

Tema 5. Muestreo y distribuciones muestrales 1 Tema 5. Muestreo y distribuciones muestrales En este tema: Muestreo y muestras aleatorias simples. Distribución de la media muestral: Esperanza y varianza. Distribución exacta en el caso normal. Distribución

Más detalles

Algunas Distribuciones Continuas de Probabilidad. UCR ECCI CI-1352 Probabilidad y Estadística Prof. M.Sc. Kryscia Daviana Ramírez Benavides

Algunas Distribuciones Continuas de Probabilidad. UCR ECCI CI-1352 Probabilidad y Estadística Prof. M.Sc. Kryscia Daviana Ramírez Benavides Algunas Distribuciones Continuas de Probabilidad UCR ECCI CI-1352 Probabilidad y Estadística Prof. M.Sc. Kryscia Daviana Ramírez Benavides Introducción El comportamiento de una variable aleatoria queda

Más detalles

CRITERIOS DE EVALUACIÓN Y CALIFICACIÓN EN BACHILLERATO

CRITERIOS DE EVALUACIÓN Y CALIFICACIÓN EN BACHILLERATO CRITERIOS DE EVALUACIÓN Y CALIFICACIÓN EN BACHILLERATO CRITERIOS DE EVALUACIÓN DE MATEMÁTICAS APLICADAS A LAS C SOCIALES I 1 Utilizar los números reales para presentar e intercambiar información, controlando

Más detalles

ANX-PR/CL/ GUÍA DE APRENDIZAJE. ASIGNATURA Estadistica. CURSO ACADÉMICO - SEMESTRE Primer semestre

ANX-PR/CL/ GUÍA DE APRENDIZAJE. ASIGNATURA Estadistica. CURSO ACADÉMICO - SEMESTRE Primer semestre ANX-PR/CL/001-01 GUÍA DE APRENDIZAJE ASIGNATURA Estadistica CURSO ACADÉMICO - SEMESTRE 2016-17 - Primer semestre GA_05IQ_55001012_1S_2016-17 Datos Descriptivos Nombre de la Asignatura Titulación Centro

Más detalles

JUEGO DE BASKETBALL. Repaso de Distribuciones de Probabilidad Discretas y Continuas

JUEGO DE BASKETBALL. Repaso de Distribuciones de Probabilidad Discretas y Continuas JUEGO DE BASKETBALL Repaso de Distribuciones de Probabilidad Discretas y Continuas PREGUNTA #1 Qué es una variable aleatoria uniforme discreta? Cómo es su distribución? Qué es una variable aleatoria uniforme

Más detalles

GUÍA DOCENTE. Matemáticas II

GUÍA DOCENTE. Matemáticas II GUÍA DOCENTE Matemáticas II 34787 I.- DATOS INICIALES DE IDENTIFICACIÓN Nombre de la asignatura: Matemáticas II Número de créditos ECTS: 6 Unidad temporal: Segundo cuatrimestre, primer curso Materia: Matemáticas

Más detalles

Aprendizaje basado en ejemplos.

Aprendizaje basado en ejemplos. Aprendizaje basado en ejemplos. In whitch we describe agents that can improve their behavior through diligent study of their own experiences. Porqué queremos que un agente aprenda? Si es posible un mejor

Más detalles

DIRECCIÓN ACADÉMICA PLANEACIÓN DIDÁCTICA

DIRECCIÓN ACADÉMICA PLANEACIÓN DIDÁCTICA DEPARTAMENTO ACADÉMICO LICENCIATURA EN ACADEMIA ASIGNATURA SERIACIÓN CUATRIMESTRE EN QUE SE IMPARTE DIRECCIÓN de LICENCIATURAS EJECUTIVAS INGENIERÍA INDUSTRIAL y de SISTEMAS MATEMÁTICAS PROBABILIDAD y

Más detalles

Alba Lucia Londoño Raul martinez. A. Conocimiento y comprensión

Alba Lucia Londoño Raul martinez. A. Conocimiento y comprensión Grado: 8º Periodo: 04 CUARTO Aprobado por: G. Watson - Jefe Sección Asignatura: MATEMATICAS Profesor: Alba Lucia Londoño Raul martinez A. Conocimiento y comprensión ESTANDARES P.A.I. I.B. ESTANDARES M.E.N.

Más detalles

Tema 9: Contraste de hipótesis.

Tema 9: Contraste de hipótesis. Estadística 84 Tema 9: Contraste de hipótesis. 9.1 Introducción. El objetivo de este tema es proporcionar métodos que permiten decidir si una hipótesis estadística debe o no ser rechazada, en base a los

Más detalles

Los Métodos de Valoración Indirecta (Costo De Viaje)

Los Métodos de Valoración Indirecta (Costo De Viaje) Los Métodos de Valoración Indirecta (Costo De Viaje) Método de Valoración de Bienes que no tienen un mercado definido. No existe información sobre precios ni demanda. La valoración se realiza por método

Más detalles

Construcción de Gráficas en forma manual y con programados

Construcción de Gráficas en forma manual y con programados Universidad de Puerto Rico en Aguadilla División de Educación Continua y Estudios Profesionales Proyecto CeCiMaT Segunda Generación Tercer Año Título II-B, Mathematics and Science Partnerships Construcción

Más detalles

MODULO VIII. Semana 1 ASPECTOS DE EVALUACIÓN FINANCIERA, ECONÓMICA, SOCIAL Y AMBIENTAL.

MODULO VIII. Semana 1 ASPECTOS DE EVALUACIÓN FINANCIERA, ECONÓMICA, SOCIAL Y AMBIENTAL. MODULO VIII Semana 1 ASPECTOS DE EVALUACIÓN FINANCIERA, ECONÓMICA, SOCIAL Y AMBIENTAL Esquema de Proyecto SNIP INDICE INTRODUCCION I. ASPECTOS GENERALES II. IDENTIFICACION III. FORMULACION IV. EVALUACION

Más detalles

2 = 1 0,5 + = 0,5 c) 3 + = = 2

2 = 1 0,5 + = 0,5 c) 3 + = = 2 Trabajo Práctico N : SISTEMAS DE ECUACIONES LINEALES Ejercicio : Resuelva los siguientes sistemas de ecuaciones lineales empleando cuando sea posible: i) Método matricial. ii) Regla de Cramer. Interprete

Más detalles

Medición y gestión del riesgo de cambio

Medición y gestión del riesgo de cambio Medición y gestión del riesgo de cambio Israel Pérez Corrales Madrid, 16 de diciembre de 2004 Gestión Global del Riesgo, BBVA Definición del Riesgo de Cambio Metodología de medición Modelos para la gestión

Más detalles

Operaciones algebraicas elementales (Unidad I del curso Matemáticas Básicas).

Operaciones algebraicas elementales (Unidad I del curso Matemáticas Básicas). I. Identificadores de la asignatura Clave: UMA1007 95 Créditos: 8 Materia: Programación Lineal Departamento: Ciencias Sociales Instituto: Ciencias Sociales y Administración Programa: Licenciatura en Economía

Más detalles

UNIVERSIDAD DEL NORTE

UNIVERSIDAD DEL NORTE UNIVERSIDAD DEL NORTE 1. IDENTIFICACIÓN DIVISIÓN ACADÉMICA DIVISIÓN DE CIENCIAS BÁSICAS DEPARTAMENTO MATEMÁTICAS Y ESATADÍSTICA. PROGRAMA ACADÉMICO ESTADÍSTICA I-AD CÓDIGO DE LA ASIGNATURA EST 1022 PRE-REQUISITO

Más detalles

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows. TEMA 13 REGRESIÓN LOGÍSTICA Es un tipo de análisis de regresión en el que la variable dependiente no es continua, sino dicotómica, mientras que las variables independientes pueden ser cuantitativas o cualitativas.

Más detalles

FICHA TÉCNICA DE ESTIMACIÓN FBKF TRIMESTRAL POR SECTORES INSTITUCIONALES Año base de referencia 1997

FICHA TÉCNICA DE ESTIMACIÓN FBKF TRIMESTRAL POR SECTORES INSTITUCIONALES Año base de referencia 1997 1 de 7 I.- Presentación: El Banco Central de Venezuela (BCV), en la búsqueda de fortalecer y ampliar la disponibilidad del conjunto de indicadores del país, ofrece al público para su análisis y seguimiento,

Más detalles

Sílabo del curso Investigación Operativa II

Sílabo del curso Investigación Operativa II Sílabo del curso Investigación Operativa II Marzo julio 2013 VI Ciclo Profesor Luis Miguel Sierra 1 I. Datos generales del curso Asignatura : Investigación Operativa II Código : 03145 Requisito : Investigación

Más detalles

Nombre de la asignatura: Simulación. Créditos: Aportación al perfil

Nombre de la asignatura: Simulación. Créditos: Aportación al perfil Nombre de la asignatura: Simulación Créditos: 2-4-6 Aportación al perfil Analizar, diseñar y gestionar sistemas productivos desde la provisión de insumos hasta la entrega de bienes y servicios, integrándolos

Más detalles

Percepción de los Precios por Parte de los Hogares: El caso de la Electricidad en el Perú

Percepción de los Precios por Parte de los Hogares: El caso de la Electricidad en el Perú Percepción de los Precios por Parte de los Hogares: El caso de la Electricidad en el Perú Luis Bendezú Medina Universidad de Chile Diciembre 2007 Contenido Introducción Modelo Teórico Implementación Empírica

Más detalles

CAPITULO III METODOLOGÍA

CAPITULO III METODOLOGÍA CAPITULO III METODOLOGÍA 3.1 Tipo de investigación El tipo de investigación a utilizar es la investigativa experimental ya que se realizará una intervención en el campo mismo donde se presenta el problema,

Más detalles