ANÁLISIS DISCRIMINANTE APLICADO AL PROBLEMA DE CREDIT SCORING



Documentos relacionados
1.1. Introducción y conceptos básicos

CAPÍTULO IV METODOLOGÍA PARA EL CONTROL DE INVENTARIOS. En este capítulo se presenta los pasos que se siguieron para la elaboración de un sistema de

ANEXOS. 1) Modelo Probit.

Aplicación de los modelos de credit scoring para instituciones microfinacieras.

TransUnion República Dominicana. Preguntas frecuentes sobre los modelos de score de TransUnion

Medidas de tendencia central o de posición: situación de los valores alrededor

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones

Tutorial - Parte 2: Scoring

Análisis de Regresión Múltiple con Información Cualitativa: Variables Binarias o Ficticias

ESTIMACIÓN. puntual y por intervalo

Análisis y cuantificación del Riesgo

BANCO NACIONAL DE PANAMÁ, BANCO DE DESARROLLO AGROPECUARIO Y BANCO HIPOTECARIO NACIONAL

En la presente investigación, se contrastará el modelo propuesto en la. investigación de Marisa Bucheli y Carlos Casacubierta, Asistencia escolar y

Metodología. del ajuste estacional. Tablero de Indicadores Económicos

Ejercicio de estadística para 3º de la ESO

TEMA 4: Variables binarias

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

El modelo Ordinal y el modelo Multinomial

ANÁLISIS DE DATOS NO NUMERICOS

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN EN SALUD Construcción de una Base de Datos

Unidad 3. Interés compuesto. Objetivos. Al finalizar la unidad, el alumno:

Modelos de Puntuación Puntaje de Originación

PRINCIPIOS FINAN IEROS FUNDAMENTALE DEL FED

Análisis de componentes principales

ESTADÍSTICA SEMANA 4

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007

Muestreo estadístico. Relación 2 Curso

ANÁLISIS DE VARIANZA EMPLEANDO EXCEL y WINSTATS

Matrices Invertibles y Elementos de Álgebra Matricial

ENCUESTA CÁMARAS SOBRE EL ACCESO DE LAS PYMES A LA FINANCIACIÓN AJENA

Propuesta Progresista de Reforma al Sistema de Créditos en Chile

Covarianza y coeficiente de correlación

Espacios generados, dependencia lineal y bases

Como se mencionó en la parte de la teoría, no existe consenso en cuanto a la

Tema 8: Análisis Discriminante. Clasificación. Aurea Grané Departamento de Estadística Universidad Carlos III de Madrid. Análisis discriminante

Tema 10. Estimación Puntual.

de la empresa Al finalizar la unidad, el alumno:

Tema 3. Medidas de tendencia central Introducción. Contenido

CAPITULO 4 JUSTIFICACION DEL ESTUDIO. En este capítulo se presenta la justificación del estudio, supuestos y limitaciones de

FUNCIÓN FINANCIERA DE LA EMPRESA

Universidad Diego Portales Facultad de Economía y Empresa

1. MEDIDAS DE TENDENCIA CENTRAL

8.1. Introducción Dependencia/independencia estadística Representación gráfica: diagrama de dispersión Regresión...

Escuela Politécnica Superior. El Riesgo. Capítulo 9. Dr. Daniel Tapias Curso 2014 / 15 PROYECTOS

Unidad 2. Interés simple. Objetivos. Al finalizar la unidad, el alumno:

1.4.- D E S I G U A L D A D E S

Sistemas de numeración

Gráficas de caja. El borde derecho de la caja es el tercer cuartil, Q 3, que es la mediana de los valores que están por encima de la mediana.

MEDIDAS DE DISPERSIÓN EMPLEANDO EXCEL

ERRORES CONCEPTUALES DE ESTADÍSTICA EN ESTUDIANTES

Credit scoring. por Dr. Marcelo Dabós, Ph.D.

La metodologia Cuantitativa. Encuestas y muestras

La práctica del análisis de correspondencias

DISCOS RAID. Se considera que todos los discos físicos tienen la misma capacidad, y de no ser así, en el que sea mayor se desperdicia la diferencia.

Redes de Kohonen y la Determinación Genética de las Clases

Caso práctico 1: Determinación del coste de capital de REGRESENGER.

MÁQUINA DE VECTORES DE SOPORTE

CONTABILIDAD ANALISIS VERTICAL Y HORIZONTAL DE ESTADOS CONTABLES

QUÉ ES LA RENTABILIDAD Y CÓMO MEDIRLA. La rentabilidad mide la eficiencia con la cual una empresa utiliza sus recursos financieros.

MEDICION DEL TRABAJO

Matrices equivalentes. El método de Gauss

ANEXO A de la. propuesta de REGLAMENTO UE Nº / DEL PARLAMENTO EUROPEO Y DEL CONSEJO

A estas alturas de nuestros conocimientos vamos a establecer dos reglas muy prácticas de cómo sumar dos números reales:

T.1 CONVERGENCIA Y TEOREMAS LÍMITE

Observatorio Bancario

MERCADOS FINANCIEROS: LOS FONDOS DE INVERSIÓN II

RELACIONES DE RECURRENCIA

FINANCIAMIENTO COMERCIAL PARA SU NEGOCIO

Fórmulas y enfoques utilizados para calcular el Tasa Efectiva de Interés (TEI) o Costo Anual Total (CAT)

ESTIMACION DE INTERVALOS DE CONFIANZA

Comente: Los bancos siempre deberían dar crédito a los proyectos rentables. Falso, hay que evaluar la capacidad de pago.

TEMA 4: Introducción al Control Estadístico de Procesos

MODELO PREDICTIVO DE RIESGO DE MOROSIDAD PARA CRÉDITOS BANCARIOS USANDO DATOS SIMULADOS

Acceso a financiamiento de los emprendedores en Chile

Programa para el Mejoramiento de la Enseñanza de la Matemática en ANEP Proyecto: Análisis, Reflexión y Producción. Fracciones

Lección 1-Introducción a los Polinomios y Suma y Resta de Polinomios. Dra. Noemí L. Ruiz Limardo 2009

CONTABILIDAD NIF A-1

ARTÍCULOS NIIF 5 ACTIVOS NO CORRIENTES MANTENIDOS PARA LA VENTA Y OPERACIONES DISCONTINUAS. Por C.P.C. GERARDO QUEZADA* gerardoquezada@bdomexico.

H E R R A M I E N T A S D E A N Á L I S I S D E D A T O S HERRAMIENTAS DE ANÁLISIS DE DATOS

Unidad 13. Amortización y Fondos de Amortización

Técnicas de valor presente para calcular el valor en uso

Capítulo 5: METODOLOGÍA APLICABLE A LAS NORMAS NE AI

Interés Simple y Compuesto

POR QUÉ EL VALOR PRESENTE NETO CONDUCE A MEJORES DECISIONES DE INVERSIÓN QUE OTROS CRITERIOS? ( Brealey & Myers )

LA BALANZA DE PAGOS. Profesor: Ainhoa Herrarte Sánchez. Febrero de 2004

CLASIFICACIÓN NO SUPERVISADA

VII. Estructuras Algebraicas

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

Préstamo Tipo Costo Financiero Total (CFT). Préstamos Generales Tasas, Montos y Condiciones de otorgamiento.

ANÁLISIS DINÁMICO DEL RIESGO DE UN PROYECTO

CAPITULO III MARCO METODOLÓGICO. Desde la perspectiva de Hurtado de Barrera (2008), el tipo de

Apuntes de Matemática Discreta 9. Funciones

Ejemplo: Ing. Raúl Canelos. Solución CONFIABILIDAD SEP 1

TÉRMINOS Y CONDICIONES

Tema 5. Análisis de regresión (segunda parte) Estadística II, 2010/11

Programa de Evaluación del estado de Nueva York Contenidos Básicos Comunes de 3.º a 8.º Evaluación de Artes del idioma inglés

ANALISIS MULTIVARIANTE

ENCUESTA CÁMARAS SOBRE EL ACCESO DE LAS PYMES A LA FINANCIACIÓN AJENA

ENCUESTA SOBRE EL ACCESO DE LAS PYMES A LA FINANCIACIÓN AJENA

Transcripción:

ANÁLISIS DISCRIMINANTE APLICADO AL PROBLEMA DE CREDIT SCORING RESUMEN JUAN MANUEL RIVAS CASTILLO En este documento se emplea el análisis discriminante, que es una técnica del análisis multivariado utilizada de manera estándar por bancos e instituciones financieras con el objeto de predecir el riesgo que un cliente pague o re-pague un préstamo (Credit Scoring). Los desarrollos que se presentan hacen hincapié en el problema de la métrica en las variables que dificultan el uso de la discriminación lineal, por lo que el enfoque se centra en la técnica sustituta de la discriminación logística. Adicionalmente, se ilustra el empleo del estadístico Kolmogorov-Smirnov como un procedimiento alternativo para el cálculo del punto de corte y de la matriz de confusión. Los resultados que se obtienen permiten dar luces acerca de la importancia del desarrollo de una técnica objetiva que permita clasificar a los clientes en buenos o malos pagadores. Palabras Clave: análisis multivariado, análisis discriminante, credit scoring, normalidad conjunta, Matriz de confusión. Introducción En busca de una especialización muchos estudiantes de economía se deciden por los temas financieros y específicamente en el desarrollo de la profesión en el campo de otorgar y evaluar créditos, es en ese contexto que el Análisis Multivariado permite, a partir de la técnica del Análisis Discriminante, el desarrollo de los métodos de Credit Scoring, que son una herramienta estándar en bancos y otras instituciones financieras, para estimar si un individuo que aplica para obtener un crédito pagará o no su deuda 2. Para estimar este tipo de modelos los bancos recogen datos de fuentes internas (la historia de los aplicantes en créditos anteriores), de fuentes externas (encuestas, entrevistas con los aplicantes). De la historia de los aplicantes se puede obtener las características específicas de los potenciales clientes. A partir Estos modelos también reciben el nombre de score-cards o classifiers, generalmente se asocian a la data mining (minería de datos), que son aquellos procedimientos que permiten extraer información útil y encontrar patrones de comportamiento en los datos. Es decir, son algoritmos que de manera automática evalúan el riesgo de crédito de un solicitante de financiamiento o de alguien que ya es cliente de una entidad. 2 Las primas por riesgo de crédito de una entidad financiera se calculan haciendo uso de las probabilidades de insolvencia de los riesgos a partir de un modelo de Credit Scoring.

de las fuentes externas se pueden realizar las siguientes preguntas: Tuvo algún crédito antes?, Cuánto pidió?, Se atrasó alguna vez en sus pagos?. Del mismo modo, existe la posibilidad de adquirir información de empresas que cuentan con bases de datos de potenciales clientes. En el presente documento, para la estimación del Credit Scoring se hace un resumen teórico de la técnica del análisis discriminante en su versión lineal y logística. Y para la aplicación empírica, se emplea una base de datos de mil clientes de un banco europeo 3. Con el objeto de probar la robustez de los resultados se divide de manera aleatoria la base de datos en grupos de 600 y 400 clientes, respectivamente 4. De esta manera, el análisis se realiza sobre la muestra de 600 individuos mientras que la performance del sistema desarrollado se prueba sobre los 400 clientes restantes. 2. Análisis discriminante y su aplicación a información de clientes de bancos y financieras Sean P y P 2 dos poblaciones donde se tiene definida una variable aleatoria x la cual es p-variante. Inicialmente se supondrá que x es absolutamente continua 5 y que las funciones de densidad de ambas poblaciones, f y f 2, son conocidas. La finalidad es clasificar un nuevo elemento en alguna de estas dos poblaciones. Si se conoce las probabilidades a priori 6 de que este nuevo elemento provenga de cada una de las poblaciones, su distribución de probabilidad será una distribución mezclada: f( x) = p f ( x) + p f ( x) 2 2 Supongamos que el elemento que se observa es, entonces es posible aplicar el teorema de Bayes para calcular las probabilidades a posteriori de que la información haya sido generada por cada una de las dos poblaciones. () 3 Para extraer bases de datos de clientes de algunos bancos europeos y de otros temas relacionados se puede recurrir a la siguiente página: http://archive.ics.uci.edu/ml/datasets.html 4 La separación de la base de datos en dos sub-muestras de 600 y 400 clientes se realizó en base a un generador de números aleatorios, a partir de la distribución uniforme re-escalada de a 000, ello permite identificar a cada uno de los clientes de la base. Para que los resultados no cambien cada vez que se realicen las estimaciones lo que se hizo fue plantear una semilla generadora de números aleatorios inicial (33948773). Todos estos desarrollos se realizaron empleando el software STATA. 5 El supuesto de continuidad luego es dejado de lado para permitir el uso de variables categóricas binarias, ya que la base de datos que se emplea tiene características mixtas (variables continuas y binarias). 6 Estas probabilidades deben de cumplir la condición de cierre, es decir, la suma de ambas probabilidades debe de ser la unidad. 56

La probabilidad de que se haya generado en la primera población es: P 0 ( x ) = 0 f ( x ) p f ( x ) p + f ( x ) p (2) 0 2 0 2 Y en la segunda población: f2( x0) p 2 P( 2 x0 ) = f( x0) p+ f2( x0) p (3) 2 Ya que los denominadores son iguales, se clasificará a en la población 2 si: p f ( x ) > p f ( x ) 2 2 0 0 (4) Si se da el caso que las probabilidades a priori son iguales, la clasificación anterior se reduce a: f ( x ) > f ( x ) 2 0 0 (5) Es decir, se clasifica a en la población más probable, o donde su verosimilitud es más alta. No obstante, pueden existir costos de clasificación que deben de ser incluidos en la regla de decisión anterior, por lo que el objetivo del decisor es maximizar su función de utilidad, lo que equivale a minimizar el costo esperado. Los resultados de cada una de las decisiones se presentan en la figura N o : Figura N o P(/x) = 0 d P(2/x) P(/x) =C(/2) =C(2/) d 2 P(2/x) = 0 57

El costo de clasificar correctamente al individuo x en la población es cero, mientras que el costo de clasificarlo incorrectamente es c (/2) (costo de clasificar un individuo en la población cuando en realidad pertenece a la población 2). El costo esperado de clasificar en el grupo será: ( ) 0 ( ) ( 2) ( 2 ) ( 2) ( 2 ) E d = P x.0 + c P x0 = c P x0 (6) Y el costo esperado de clasificar en la población 2 será: ( ) 0 ( 2 ) ( 2) ( ) ( 2) ( ) E d = P x + c P x = c P x (7) 2.0 0 0 Con f y f 2 esta información se asignará al grupo 2 si el costo esperado es menor, es decir: ( ) ( ) ( ) ( ) f2 x0 p2 f x0 p > c 2 c 2 Luego, y se consideran distribuciones normales con distintos vectores de medias pero idéntica matriz de varianza covarianza, de forma que: 58 (8) f ( X) = exp 2 ( x u ) ( ) p 2 i V x ui (2 p ) V 2 (9) Reemplazando este resultado en la expresión (8) y tomando logaritmos a ambos lados, se clasificará en la población 2 si se cumple que: p 2 ( x u2) V ( x u2) + log 2 c 2 ( ) (0) p 2 > ( x u) V ( x u) + log 2 c( 2) En relación a los elementos de la expresión anterior: u representa el promedio de las variables condicionada a que el cliente hizo default (no pago su deuda) y u 2 es el promedio de las variables condicionada a que el cliente no hizo default (pago su deuda), V - es la inversa de la matriz de varianza covarianza, p y p 2 representan las probabilidades a priori de hacer default y de no hacer default, respectivamente, c(2/) es el costo de clasificar en la población 2 cuando en realidad pertenecía a la población y c(/2) es el costo de clasificar en la población cuando en realidad el individuo pertenece a la población 2. Asimismo, (x - u 2 )V - (x - u 2 ) se conoce como la distancia de Mahalanobis. Si se consideran costos y probabilidades iguales la regla anterior se reduce a clasificar en la población cuya media este más próxima. Es decir, se clasificaría en la población 2 si la distancia de Mahalanobis es menor que en la población.

Estos desarrollos son la estructura teórica para el Análisis Discriminante Lineal (ADL) de Fisher 7 que es la base teórica en la cual se sustenta el modelo de Credit Scoring estándar. 3. Sobre la data En relación con la base de datos, se cuenta con 22 variables de características de 000 clientes que pidieron un préstamo en un banco europeo y que habían solicitado en el pasado créditos para consumo. Las variables que se emplean en el presente documento son: ASSETS, CHECKING, SAVINGS, DURATION, MONTO, HISTORY, AGE y OCCUP. Algunas de estas variables fueron recodificadas a partir de los siguientes criterios: la variable ASSETS se transformó en una variable binaria que adopta el valor (uno) si el cliente es propietario de algún activo y el valor 0 (cero) si no lo es. La variable HISTORY se transformó en una variable binaria que adopta el valor (uno) si el cliente no tuvo problemas en pagar créditos anteriores (categorías 2, 3 y 4 de la variable HISTORY) y el valor 0 (cero) si tuvo problemas (categorías 0 y de la variable HISTORY). La variable OCCUP adopta el valor (uno) si el cliente es un skill worker (categorías 3 y 4 de la variable OCCUP) y el valor 0 (cero) si es desempleado o unskilled worker (categorías y 2 de la variable OCCUP). 4. Resultados En principio, las poblaciones se encuentran representadas por la variable crédito y es a partir de esta variable que se calcula la probabilidad a priori a la cual pertenecen los clientes: 0 si hicieron default y si no hicieron. El cuadro N o muestra las frecuencias asociadas a cada una de las categorías para la muestra base de 600 clientes: Cuadro Nº : Frecuencia absoluta, relativa y relativa acumulada de clientes que hicieron y no hicieron default Crédito Freq. Percent Cum. 0 73 28.83 28.83 427 7.7 00 Total 600 00 7 G.S. MADDALA (983) demuestra la analogía existente entre la función lineal discriminante de Fisher y el modelo lineal de probabilidad. 59

La probabilidad a priori de hacer default es de 29%, mientras que la probabilidad a priori de no hacer default es de 7%.Con este cálculo es posible la estimación de la función discriminante lineal. Sin embargo, para la aplicación de la FDL se requiere probar la normalidad multivariada de los datos 8, por lo que este modelo funciona bien cuando las variables en consideración son cuantitativas o se conoce la normalidad conjunta de los mismos, pero, no se tiene garantía de ello cuando se tiene un conjunto de variables mixtas (continuas y binarias) 9 como es nuestro caso. La solución a este inconveniente se encuentra en la metodología de la Discriminación Logística. De acuerdo con el razonamiento anterior, el modelo Logit proporcionará de manera directa la probabilidad de pertenecer a cada una de las poblaciones (Score). Dicha probabilidad se calcula mediante la siguiente Función de Distribución Logística 0 : Y además: = + () p i 0 i e B BX p = i 0 i + e B + B X (2) Entonces, empleando la muestra de 600 clientes y las variables indicadas con anterioridad se estima un modelo Logit de la probabilidad de que un cliente pague su préstamo, los resultados obtenidos se presentan en el Cuadro Nº 2. 8 El autor de este documento cuenta con una programación en el paquete STATA para probar normalidad conjunta. Esta programación puede ser solicitada al correo juanmanuel263@gmail.com. 9 Peña (2002):... es frecuente que los datos disponibles no sean normales. Por ejemplo, cuando se emplean variables discretas. En estos casos no tenemos garantías de que los métodos estudiados sean óptimos. 0 Existe la posibilidad de tomar la distribución normal estándar como FDA, la cual da origen al modelo probit; sin embargo, este modelo es muy similar al modelo Logit y no tiene las ventajas de interpretación con que cuenta este último. El modelo Logit se estima con la técnica de Máxima Verosimilitud y para encontrar el valor del parámetro que maximiza la verosimilitud se emplea el algoritmo de Newton-Raphson, el cual se puede escribir como: B ( ) mv B X WX = + X ( Y Y ), donde W es una matriz diagonal con términos pi( pi) el vector de valores esperados de Y. 60

Cuadro Nº 2: Estimación del modelo Logit 2 Logistic regression Number of obs = 600 LR chi2(8) = 27.50 Prob > chi2 = 0.0000 Log likelihood = -296.64022 Pseudo R2 = 0.769 ------------------------------------------------------------------------------ credito Coef. Std. Err. z P> z [95% Conf. Interval] -------------+---------------------------------------------------------------- dassets -.3432875.2557358 -.34 0.79 -.8445204.579454 checking.5849635.0889876 6.57 0.000.4055.759376 savings.984658.073637 2.70 0.007.0544.342796 duration -.0296659.03786-2.6 0.009 -.059676 -.0073643 monto -.0000409.0000456-0.90 0.370 -.000303.0000486 dhistory.60367.3386386 3.43 0.00.4966473.824086 doccup.268977.2588755.04 0.300 -.239889.7755844 age.0674.009575.70 0.089 -.00247.0348279 _cons -.6552.582449-2.84 0.005-2.7930 -.5043 ------------------------------------------------------------------------------ La estimación mostrada en el cuadro Nº 2 permite calcular la función SCORE a partir de la expresión número. Mientras que en el cuadro Nº 3 se muestra la Matriz de Confusión, que es la clasificación realizada a partir de los resultados obtenidos con la función SCORE 3 y el cruce con la variable CREDITO. Cuadro Nº 3: Matriz de confusión base 600 Crédito 0 Predicción 0 Total 63 0 73 36.42% 63.58% 00% 40 387 427 9.37% 90.63% 00% Total 03 497 600 2 Es importante señalar que los coeficientes de las variables: dassets, monto, doccup y age son estadísticamente no significativos, pero se mantienen en el modelo ya que la evaluación de la significancia individual, del ajuste global y del estudio de los residuos van más allá del alcance de este estudio exploratorio. 3 La regla es que un puntaje o un score adverso determina la negación de un crédito y un score por encima del mínimo pedido por el banco hace que la evaluación para otorgar el crédito continúe. Así en nuestro caso, la clasificación empleando la función SCORE se realizó a partir de la siguiente regla: si el SCORE es mayor a 0.5 entonces el cliente pertenece a la población sin default y si es menor pertenece a la población con default. 6

En el 36.42% de los casos el modelo predijo correctamente la categoría 0 (estar en default), mientras que el 90.63% de los casos el modelo predijo correctamente la categoría (no estar en default). La probabilidad global de clasificar mal a un individuo es del 25% y la de clasificar correctamente a un individuo es del 75%, respectivamente 4. Del mismo modo, se siguió el procedimiento para la base de datos de 400 clientes y en el cuadro Nº 4 se presenta la matriz de confusión respectiva: Cuadro Nº 4: Matriz de confusión base 400 Crédito 0 Predicción 0 Total 57 70 27 44.88% 55.2% 00% 32 24 273.72% 88.28% 00% Total 89 3 400 En el 44.9% de los casos el modelo predijo correctamente la categoría 0 (estar en default), mientras que el 88.3% de los casos el modelo predijo correctamente la categoría (no estar en default). La probabilidad global de clasificar mal a un individuo es del 26% y la de clasificar correctamente a un individuo es del 74%, respectivamente. De otro lado, con el objeto de calcular el punto de corte o de frontera los bancos suelen emplear en la regla discriminante el estadístico de Kolmogorov- Smirnov. Para su cálculo se siguen los pasos expuestos en el cuadro N o 5. 4 La probabilidad global es un buen estimador de cuanto se va a equivocar una entidad financiera al clasificara los individuos, a esta probabilidad también se le conoce como el r cuadrado de conteo. El r cuadrado de conteo de fallo consiste en sumar los valores de las diagonales de la matriz en las que el modelo predice incorrectamente y dividir el resultado por la población total, de la misma manera el r cuadrado de conteo de acierto se suman los valores de las diagonales de la matriz en las que el modelo predice correctamente y se divide el resultado por la población de clientes total. 62

Cuadro Nº 5: Proceso de cálculo del estadístico Kolmogorov-Smirnov 5 Ordena por SCORE de menor a mayor las observaciones de SCORE y CREDITOS. Calcular 20 rangos de percentiles de la variable SCORE con una razón de 5% que vallan de 0 a 00. Para cada uno de los rangos calcular la cantidad, el porcentaje y el porcentaje acumulado de créditos buenos y créditos malos. K-S: es el estadístico de Kolmogorov-Smirnov que se calcula como diferencia entre la columna % acumulado de créditos malos y la columna % acumulado de créditos buenos. Score mínimo (máximo): el valor mínimo (máximo) del SCORE en cada intervalo. Punto medio: el valor central del SCORE en el intervalo. El valor del estadístico de Kolmogorov-Smirnov se corresponde con el valor máximo de la columna K-S. Para este valor, la columna Punto medio da el valor de corte para clasificar los créditos. Todos los clientes con valores de SCORE mayores al valor de corte son clasificados como créditos buenos. Para el caso de la muestra de 600 la estimación del estadístico Kolmogorov-Smirnov arrojó un punto de corte de 0.46. El re-cálculo de la matriz de confusión de presenta en el siguiente cuadro Nº 6. Cuadro Nº 6: Matriz de confusión empleando el estadístico KS para la base de datos de 600 clientes Crédito 0 Clasificación 0 48 25 73 27.75% 72.25% 00% 24 403 427 5.62% 94.38% 00% Total 72 528 600 63 Total En el 27.8% de los casos el modelo predijo correctamente la categoría 0 (estar en default), mientras que el 94.4% de los casos el modelo predijo 5 El autor de este documento cuenta con una programación en el paquete STATA que permite calcular el estadístico de Kolmogorov-Smirnov. Esta programación puede ser solicitada al correo juanmanuel263@gmail.com.

correctamente la categoría (no estar en default). La probabilidad global de clasificar mal a un individuo es del 25% y la de clasificar correctamente a un individuo es del 75%, respectivamente. Lo que se observa es un incremento en la probabilidad de predicción de clientes que devolverían su deuda y una disminución en la probabilidad de predicción de malos clientes respecto al modelo anterior. Para la base de 400 clientes se obtuvo un punto de corte de 0.47 y la matriz de confusión se presenta en el cuadro N o 7. Cuadro Nº 7: Matriz de confusión empleando el estadístico Kolmogorov- Smirnov para la base de datos de 400 Crédito 0 Clasificación 0 48 79 27 37.80% 62.20% 00% 30 243 273 0.% 89.0% 00% Total 78 322 400 64 Total Tal como en el caso anterior el modelo mejora en la clasificación de individuos que devolverían su deuda y empeora en la clasificación de individuos que no devolverían su deuda, respecto a la clasificación realizada con el modelo logístico. 5. Comentarios finales En este documento se revisaron las ideas matemáticas y la intuición que se encuentran tras una clasificación Credit Scoring empleando el análisis discriminante lineal y el problema que surge cuando no se puede probar normalidad conjunta de los datos, debido a la presencia de una base de datos compuesta por variables mixtas (continuas y dicótomas). Asimismo, el empleo de la discriminación logística como solución al problema de normalidad conjunta y el cálculo del estadístico Kolmogorov-Smirnov como una técnica que permite estimar el punto de corte de la función score. Se entiende que el punto de partida del razonamiento del analista es la premisa que el costo de conceder un crédito a un mal cliente es mucho mayor que el costo de rechazar a un buen cliente (costo de cero).por lo que se querrá

reducir la probabilidad de otorgarle un crédito a un mal cliente e incrementar la probabilidad de otorgarle el crédito a un buen cliente. En relación al punto anterior, las estimaciones con la base de datos de 600 clientes arrojó una probabilidad global de clasificar a un mal cliente de 25% y la probabilidad fue del 26% con la base de datos de 400. Con el empleo de la metodología de Kolmogorov-Smirnov esta probabilidad fue de 25% para la base de 600 clientes y 27% para la base de 400 clientes. Es decir, de acuerdo con las características definidas por cliente, el banco tendría una probabilidad de clasificar mal a un mal cliente (darle un préstamo a un mal cliente) o la de clasificar mal a un buen cliente (negarle el préstamo a un buen cliente) entre 25% y 27%, lo cual en el peor de los casos podría implicar una probabilidad de no pago o re-pago del préstamo en ese mismo rango de porcentajes y, se convertiría en su cartera pesada. Asimismo, la probabilidad de acertar y clasificar correctamente a un buen cliente, es decir, la probabilidad de negarle el préstamo a un mal cliente y otorgárselo a un buen cliente se encuentra entre el 73% y el 75%. Los resultados indican que con la metodología Kolmogov-Smirnov se gana una mayor predicción en la clasificación de buenos clientes pero se pierde en la clasificación de malos clientes. Esto significa que con la predicción empleando el estadístico de Kolmogov-Smirnov se gana una mayor cantidad de aciertos en la clasificación de clientes que pagarían o re-pagarían sus préstamos, pero, el costo que se paga es que el riesgo de otorgarle un crédito a un mal cliente se incrementa. Finalmente, la literatura especializada indica que los resultados de la aplicación del Credit Scoring, se suele complementar con el juicio humano, formando un sistema de decisión hibrido que involucre ambos resultados. Esto quiere decir que debe existir una validación de los resultados no solo externa sino también interna, asociada al criterio del analista. 65

6. Referencias Bibliográficas ANDERSON T. W. (2003). An Introduction to Multivariate Statistical Analysis. Third Edition. Stanford University. Department of Statistics. GUTIÉRREZ Girault, Matías Alfredo (2007). Modelos de Credit Scoring Qué, Cómo, Cuándo y Para Qué-http://www.bcra.gov.ar/pdfs/invest/ CreditScoring.pdf HAIR, BLACK, BABIN y ANDERSON. (5) Multivariate Data Analysis. Seventh Edition. MADDALAG.S. (983). Limited-dependent and qualitative variables in econometrics. PEÑA Daniel (2002). Análisis de datos multivariantes. McGraw-Hill. Interamericana de España, SL. RENCHER Alvin C. (2002). Methods of Multivariate Analysis. Second Edition TIMM Neil H. (2002). Applied Multivariate Analysis. Department of Education in Psychology. School of Education. University of Pittsburgh. 66