Carteras minoristas. árbol de decisión. Ejemplo: Construcción de un scoring de concesión basado en un DIRECCIÓN GENERAL DE SUPERVISIÓN

Documentos relacionados
PATRONES DE DISTRIBUCIÓN ESPACIAL

CONTRASTES DE HIPÓTESIS NO PARAMÉTRICOS

Proyecto PropULSA: Estadística y Probabilidad Breviario Académico

Proyecto 6. Árboles de decisión: Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial.

Estadística y sus aplicaciones en Ciencias Sociales 5. Estimación. Facultad de Ciencias Sociales, UdelaR

Contrastes de hipótesis paramétricos

Contrastes de Hipótesis paramétricos y no-paramétricos.

ESTADÍSTICA. Población Individuo Muestra Muestreo Valor Dato Variable Cualitativa ordinal nominal. continua

TEORIA DE DECISIONES

ALGORITMO ID3. Objetivo

INDICE. Prólogo a la Segunda Edición

3. Árboles de decisión

Tema 10: Introducción a los problemas de Asociación y Correlación

Fundamentos de Estadística y Simulación Básica

CONTRASTE DE HIPÓTESIS

1. Ejercicios. 2 a parte

Cabrera Hernández Elizabeth Ramírez Bustos Fabián GENERACION DE NUMEROS ALEATORIOS

MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión.

Tema 9: Contraste de hipótesis.

Ejercicio resuelto con tabla de decisión. Tarjetas. Pseudocódigo y diagramas de flujo. (CU00258A)

ESTADÍSTICA APLICADA. TEMA 1. ESTADÍSTICA DESCRIPTIVA

Podemos definir un contraste de hipótesis como un procedimiento que se basa en lo observado en las muestras y en la teoría de la probabilidad para

Estadística. Análisis de datos.

Matemática. Desafío. GUÍA DE EJERCITACIÓN AVANZADA Cálculo de medidas de dispersión y muestreo GUICEN041MT22-A16V1

PROGRAMA DETALLADO VIGENCIA TURNO UNIVERSIDAD NACIONAL EXPERIMENTAL POLITÉCNICA DE LA FUERZA ARMADA 2009 DIURNO INGENIERÌA EN SISTEMAS ASIGNATURA

Teorema Central del Límite (1)

Dr. Richard Mercado Rivera 18 de agosto de 2012 Matemática Elemental

ÍNDICE INTRODUCCIÓN... 21

2. EL DISEÑO UNIFACTORIAL (COMPARACION DE TRATAMIENTOS)

TEMA IV PERCENTIL Y ESTADIGRAFOS DE POSICION

Simulación I. Investigación Operativa, Grado en Estadística y Empresa, 2011/12

ALGORITMO MINIMAX. o Nodo: Representa una situación del juego. o Sucesores de un nodo: Situaciones del juego a las que se

Estadísticos Aplicados en el SPSS 2008

Introducción a SPSS Árboles de Clasificación. Jorge Del Río L. Consultor Estadístico

INFERENCIA ESTADÍSTICA. Metodología de Investigación. Tesifón Parrón

Capítulo 8. Análisis Discriminante

Análisis de Estructuras Espaciales Persistentes. Desempleo Departamental en Argentina.

Transformaciones de Potencia

Unidad IV: Distribuciones muestrales

TÉCNICAS ESTADÍSTICAS APLICADAS EN NUTRICIÓN Y SALUD

UNIVERSIDAD NACIONAL EXPERIMENTAL DE GUAYANA VICERRECTORADO ACADÉMICO COORDINACION DE PRE-GRADO PROYECTO DE CARRERA DE INGENIERIA INDUSTRIAL

6.4. APLICACIÓN DE REDES NEURONALES EN EL CÁLCULO DE LA TASA DE CONTORNEAMIENTOS Velocidad de retorno del rayo con distribución uniforme

Aprendizaje Automatizado

Métodos de Clasificación sin Métrica. Reconocimiento de Patrones- 2013

4ta. Práctica. Búsqueda en árbol con contrincante: MiniMax con poda Alfa-Beta. Inteligencia Artificial Prácticas 2004/2005

Minería de Datos. Árboles de Decisión. Fac. Ciencias Ing. Informática Otoño de Dept. Matesco, Universidad de Cantabria

Aprendizaje Automatizado. Árboles de Clasificación

DISTRIBUCIONES BIDIMENSIONALES

Tipo de punta (factor) (bloques)

PLAN DE TRABAJO 9 Período 3/09/07 al 28/09/07

AGRO Examen Parcial 2. Nombre:

Análisis y Complejidad de Algoritmos. Arboles Binarios. Arturo Díaz Pérez

Departamento de Medicina Preventiva y Salud Publica e Historia de la Ciencia. Universidad Complutense de Madrid. SPSS para windows.

ANOVA. Análisis de la Varianza. Univariante Efectos fijos Muestras independientes

6.4 TECNICAS DE SEGMENTACION

U.D.1: Análisis estadístico de una variable Consideraciones iniciales: Propuesta: 1.1 Distribución de frecuencias. Variables Cualitativas: Ejemplo

Análisis Segmento Municipalidades

MANUAL DE METODOLOGÍAS

Formulación del problema de la ruta más corta en programación lineal

Estadística y sus aplicaciones en Ciencias Sociales 6. Prueba de hipótesis. Facultad de Ciencias Sociales, UdelaR

Contraste de hipótesis paramétricas

Probabilidad Condicional

Introducción. Proceso de toma de decisión: Elegir lo mejor entre lo posible. Decisión multicriterio Teoría de juegos

Matemáticas I Grado de Administración y Dirección de Empresas Examen de Febrero Curso 2011/ ?

Tablas de contingencia y contrastes χ 2

ESTADÍSTICA, SISTEMAS DE INFORMACIÓN Y NUEVAS TECONOLOGÍAS Código de la Asignatura Créditos

Basilea: Desarrollo y Supervisión de Modelos Internos

Técnicas de Minería de Datos

TEMA II DISTRIBUCION DE FRECUENCIA

1. GRAFOS : CONCEPTOS BASICOS

CAPÍTULO 4 TÉCNICA PERT

Estadísticas Pueden ser

Definición 1.1 Sea G = (V, A) un grafo no dirigido. G se denomina árbol si es conexo y no contiene ciclos.

Estadística Inferencial. Estadística Descriptiva

crédito. Por ejemplo si la institución ha fijado que los clientes buenos son aquellos que tienen 500 puntos o más, este cliente sería rechazado.

Julio Deride Silva. 27 de agosto de 2010

CLASIFICACIÓN DE LA IMAGEN. Escuela de Ingeniería Civil y Geomática Francisco Luis Hernández Torres

Prueba de Hipótesis. Bondad de Ajuste. Tuesday, August 5, 14

Tema 4: Gramáticas independientes del contexto. Teoría de autómatas y lenguajes formales I

Arboles de decisión. Area de Computación e Inteligencia Artificial

Un estudio estadístico consta de las siguientes fases: Recogida de datos. Organización y representación de datos. Análisis de datos.

Introducción a la unidad 4:

License Plate Detection using Neural Networks

ESTADÍSTICA UNIDIMENSIONAL

ESTADÍSTICA DESCRIPTIVA Y ANÁLISIS DE DATOS CON LA HOJA DE CÁLCULO EXCEL

Práctica 5 ANÁLISIS DE UNA MUESTRA INTERVALOS DE CONFIANZA CONTRASTE DE HIPÓTESIS

Seguimiento de Modelos y Carteras

Enfoque de distribución de pérdidas en la práctica

ALGORITMO PARA EL CALCULO DE AREAS BAJO LA DISTRIBUCIÓN GAUSSIANA

Seamos pesimistas! (razonablemente)

Pruebas de Hipótesis-ANOVA. Curso de Seminario de Tesis Profesor QF Jose Avila Parco Año 2016

Problemas Prueba de significación de la hipótesis nula Vicente Manzano-Arrondo, 2013

Tema 5. Muestreo y distribuciones muestrales

Ejemplos y ejercicios de. Estadística Descriptiva. yanálisis de Datos. 2 Descripción estadística de una variable. Ejemplos y ejercicios.

Arboles de decisión. Area de Computación e Inteligencia Artificial

INSTITUTO NACIONAL DE ESTADÍSTICAS (INE) 29 de Abril de 2016

Datos cuantitativos. Método tabular

INFERENCIA ESTADISTICA

Guía docente MÉTODOS ESTADÍSTICOS PARA LA EMPRESA

FLORIDA Secundaria. 1º BACH MATEMÁTICAS CCSS -1- BLOQUE ESTADÍSTICA: ESTADÍSTICA VARIABLE UNIDIMENSIONAL. Estadística variable unidimensional

Transcripción:

Carteras minoristas Ejemplo: Construcción de un scoring de concesión basado en un árbol de decisión Grupo de Tesorería y Modelos de Gestión de Riesgos Sergio Gavilá II Seminario sobre Basilea II Validación de modelos avanzados en el Pilar I Madrid, 14 al 17 de noviembre de 2006

Etapas árboles de decisión Selección de variables Segmentación de variables Construcción árbol de decisión Creación categorías de riesgo homogéneas 2

Selección de variables La entidad selecciona a priori un conjunto de variables referidas a la operación y al acreditado a las que somete a una variedad de pruebas: Predictividad Contrastes paramétricos Contrastes no paramétricos Redundancia Correlaciones Análisis factorial Opinión de analistas expertos Fiabilidad de información Missings Outliers Estabilidad En base a los resultados obtenidos se selecciona un subgrupo de las variables analizadas que serán las que se utilicen en la construcción del scoring de concesión basado en un árbol de decisión. 3

Construcción árbol de decisión (I) Los árboles de decisión son modelos de clasificación secuencial que se construyen mediante la partición de la muestra inicial en varios subconjuntos descendientes a través de algún test lógico conectándose los distintos nodos mediante ramas. El proceso de partición continúa hasta que se cumple una determinada condición de parada, dando lugar a un conjunto de nodos terminales (hojas). Componentes básicos de un árbol: - Nodos de decisión. - Ramas. - Nodos finales u hojas. 4

Construcción árbol de decisión (II) Nodo de decisión LOAN TO VALUE Rama >=80 <80 >15 AÑOS PLAZO <=15 AÑOS 1 RENTA 2 >24.000 <=24.000 Nodo final 4 3 5

Segmentación de variables (I) Igual amplitud de cada intervalo w = ( v vmin) / k max donde v max valor máximo de la variable, v min valor mínimo de la variable, k número de segmentos que se quiere generar. Igual número de observaciones en cada intervalo w = n / k donde n número de observaciones en la muestra, k número de segmentos que se quiere generar. 6

Segmentación de variables (II) Método basado en el índice de entropía - Consiste en un proceso de generación de intervalos top-down en el que los intervalos se van generando hasta que se cumple una determinada condición. 2 H ( S ) = p i log 2 p i i = 1 donde H(S) información del conjunto de observaciones S, p i probabilidad a priori de que un caso de S pertenezca a la clase i (default, no default). S1 S2 H ( A, T, S) = H( S1) + H( S2) S S donde A variable a segmentar, S j conjunto de observaciones del segmento j, T valor de corte, H (A, T, S) información del conjunto de observaciones S dada la partición realizada de la variable A. Ganancia ( A, T, S ) = H ( S ) H ( A, T, S ) - Se selecciona el punto de corte que maximice la ganancia de información derivada de segmentar la variable. - Este proceso puede realizarse de forma recursiva a cada uno de los intervalos generados por T hasta que la ganancia de información derivada de segmentar nuevamente la variable no sea suficiente. 7

Segmentación de variables (III) Método basado en el estadístico Chi-Square - Consiste en un proceso de fusión de intervalos bottom-up, donde los intervalos son continuamente fusionados hasta que se satisface una determinada condición. - El criterio para decidir si dos intervalos adyacentes deben ser fusionados es el test de independencia de la Chi-Square. m k ( Aij Eij ) 2 X = E i= 1 j= 1 Donde m=2 (intervalos que se comparan), k número de clases (default, no default), A ij número de operaciones en el intervalo i-th y clase j-th, E ij número de operaciones esperado en el intervalo i- th y clase j-th calculado. Por ejemplo, para la clase default E id es el producto de la frecuencia de default observada en la muestra multiplicada por el número de operaciones en el intervalo i-th. - Si se acepta la hipótesis nula se acepta que entre los dos intervalos que se están analizando la morosidad no muestra un comportamiento estadísticamente diferente. ij - Los dos intervalos adyacentes con el menor valor del estadístico son fusionados. Este paso se repite de forma recursiva hasta que no existe ningún par de intervalos adyacentes que posea un valor del estadístico inferior a un determinado valor asociado a un nivel de significación específico. 2 8

Construcción árbol de decisión (I) Los árboles de decisión son modelos de clasificación secuencial que se construyen mediante la partición de la muestra inicial en varios subconjuntos descendientes a través de algún test lógico conectándose los distintos nodos mediante ramas. El proceso de partición continúa hasta que se cumple una determinada condición de parada, dando lugar a un conjunto de nodos terminales (hojas). Componentes básicos de un árbol: - Nodos de decisión. - Ramas. - Nodos finales u hojas. 9

Construcción árbol de decisión (II) Nodo de decisión LOAN TO VALUE Rama >=80 <80 >15 AÑOS PLAZO <=15 AÑOS 1 RENTA 2 >24.000 <=24.000 Nodo final 4 3 10

Construcción árbol de decisión (III) Fijación de criterios Máximo número de ramas por nodo Número mínimo de observaciones por nodo final Número mínimo de observaciones para dividir un nodo Máxima profundidad del árbol Muestra de entrenamiento-validación Técnicas para determinar qué variable se selecciona en cada nodo de decisión: Índice de entropía Chi-Square Índice de Gini etc. 11

Construcción árbol de decisión (IV) Nº LTV Plazo Renta Default Nodo final 1 <80 <=15 <=24.000 No 1 2 <80 <=15 <=24.000 No 1 3 <80 <=15 <=24.000 No 1 4 <80 <=15 <=24.000 No 1 5 <80 <=15 >24.000 No 1 6 <80 >15 >24.000 No 1 7 <80 >15 >24.000 No 1 8 <80 >15 >24.000 No 1 9 <80 >15 >24.000 No 1 10 <80 >15 >24.000 No 1 11 >=80 <=15 <=24.000 No 2 12 >=80 <=15 <=24.000 No 2 13 >=80 <=15 <=24.000 Sí 2 14 >=80 <=15 >24.000 No 2 15 >=80 <=15 >24.000 No 2 16 >=80 >15 <=24.000 No 3 17 >=80 >15 <=24.000 Sí 3 18 >=80 >15 >24.000 Sí 4 19 >=80 >15 >24.000 Sí 4 20 >=80 >15 >24.000 Sí 4 LTV No Default Default Total P d 1-P d <80 10 0 10 0% 100% >=80 5 5 10 50% 50% Total 15 5 20 25% 75% Plazo No Default Default Total P d 1-P d <=15 9 1 10 10% 90% >15 6 4 10 40% 60% Total 15 5 20 25% 75% Renta No Default Default Total P d 1-P d <=24.000 7 2 9 22,2% 77,8% >24.000 8 3 11 27,3% 72,7% Total 15 5 20 25% 75% Para seleccionar la variable que se sitúa en la raíz del árbol, calculamos la ganancia de información (ó el estadístico Chi-Square) para cada una de las variables (en el ej. LTV, Plazo o Renta). Se selecciona la variable con la mayor ganancia de información. En este caso, el LTV: Ganancia (LTV)=0.31, Ganancia (Plazo)=0.08, Ganancia (Renta)=0.002. Se segmenta la muestra de acuerdo con los valores que toma el LTV y volvemos a calcular la ganancia de información para las variables restantes (Plazo, Renta) en cada uno de los nodos generados. 12

Construcción árbol de decisión (V) Este proceso se realiza de forma recursiva, hasta que se cumple una condición de parada: Ninguna variable aporta información suficiente o no supera el test de la Chi-Square. No se alcanza el número mínimo de observaciones fijado para dividir un nodo. Se ha alcanzado el máximo grado de profundidad fijado. En el ejemplo, se obtienen cuatro nodos finales para los que se calcula el número de observaciones, el número de defaults y no defaults y la frecuencia de default observada (FDO) en cada uno de ellos. Cada rama desde la raíz hasta el nodo final se puede interpretar como una regla de decisión: Si LTV<80 entonces alcanzamos el nodo final 1 que posee una FDO=0%. Si LTV>=80 y Plazo<=15 entonces alcanzamos el nodo final 2 que posee una FDO=20%. Si LTV>=80 y Plazo>15 y Renta<=24.000 entonces alcanzamos el nodo final 3 que posee una FDO=50%. Si LTV>=80 y Plazo>15 y Renta>24.000 entonces alcanzamos el nodo final 4 que posee una FDO=100%. 13

Creación categorías de riesgo La entidad bancaria obtiene 62 nodos finales. Para obtener las categorías de riesgo (notas) con las que finalmente se calibra el modelo se siguen los siguientes pasos: Ordenación de los nodos finales en función de las frecuencias de default observadas en cada uno de ellos en la muestra con la que se ha construido el árbol. Agrupación de los 62 nodos finales en 9 notas estableciendo como criterios de partida que: Los nodos incluidos dentro de una misma nota tengan una FDO muy similar entre sí y claramente diferente respecto a los otros grupos adyacentes. Se obtenga una distribución unimodal sin que existan concentraciones excesivas dentro de ninguna nota (inferior al 30%) ni notas con un número de observaciones excesivamente bajo (especialmente en las notas mejores). Distribución por Nodos Distribución por Notas Frecuencia 9000 8000 7000 6000 5000 4000 3000 2000 1000 0 1 6 11 16 21 26 31 36 41 46 51 56 61 Nodo Frecuencia P-MALO 7,00% 6,00% 5,00% 4,00% 3,00% 2,00% 1,00% 0,00% P-Malo Frecuencia 30000 25000 20000 15000 10000 5000 0 1 2 3 4 5 6 7 8 9 Nota Frecuencia P-MALO 5,00% 4,50% 4,00% 3,50% 3,00% 2,50% 2,00% 1,50% 1,00% 0,50% 0,00% P-Malo 14

GRACIAS POR SU ATENCIÓN 15