VIII Jornadas de Usuarios de R

Documentos relacionados
Modelos de Churn Bancarios con R Trabajo Final de la Maestría en Data Mining

Aprendizaje Automatizado. Árboles de Clasificación

APLICACIONES DE MINERA DE DATOS EN ADUANA DE PERU. Luis Azaña Bocanegra

Estadística Multivariada Computacional Introducción al Aprendizaje Automático (parte 1)

Random Forests. Felipe Parra

Tareas de la minería de datos: clasificación. PF-5028 Minería de datos Prof. Braulio José Solano Rojas UCR

ÍNDICE. Introducción... Capítulo 1. Investigación de mercados y muestreo. Muestreo aleatorio simple y sistemático... 1

Técnicas de Minería de Datos

Tareas de la minería de datos: clasificación. CI-2352 Intr. a la minería de datos Prof. Braulio José Solano Rojas ECCI, UCR

DISPLASIA BRONCOPULMONAR EN PRETÉRMINOS: CLASIFICACIÓN BASADA EN VARIABLES CLÍNICAS A TRAVÉS DE MÉTODOS PARAMÉTRICOS Y NO PARAMÉTRICOS

ÍNDICE. Capítulo 1. Técnicas de segmentación. Conceptos y clasificación... 1

Taller Minería de datos aplicados a la educación

Estimación electoral con modelos predictivos (Random Forest) Jorge Buendía Javier Márquez

Carteras minoristas. árbol de decisión. Ejemplo: Construcción de un scoring de concesión basado en un DIRECCIÓN GENERAL DE SUPERVISIÓN

Tema: Análisis de valores faltantes con SPSS

R for Data Mining Análisis de datos, segmentación y técnicas de predicción con R. web

ÁREAS DE LA ESTADÍSTICA

La Minería de Datos y el Negocio:

ANÁLISIS DE DATOS. L.A. y M.C.E. Emma Linda Diez Knoth

Métodos de ensambles

Métodos de Clasificación sin Métrica. Reconocimiento de Patrones- 2013

Aprendizaje Automatizado

Complementación y ampliación de la currícula de la Maestría 2017 Maestría en Generación y Análisis de Información Estadística

CRITERIOS DE SELECCIÓN DE MODELOS

Random Forests. Teoría y ejemplos. Romain Gouron. Conferencia 9, GLAM, Doble titulo Ecole Centrale de Nantes (Francia)

Aprendizaje Supervisado Árboles de Decisión

III JORNADAS DE DATA MINING

Los Buenos y los Malos para las transferencias de nicho ecológico

Introducción a SPSS Árboles de Clasificación. Jorge Del Río L. Consultor Estadístico

Introducción a la minería de datos

Análisis de Datos. Introducción al aprendizaje supervisado. Profesor: Dr. Wilfrido Gómez Flores

SPSS Aplicación práctica: Base de datos del HATCO

Reconocimiento de Patrones

Proyecto 6. Árboles de decisión: Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial.

Julio Deride Silva. 4 de junio de 2010

Voxel Based Morphometry (VBM) Grupo de Inteligencia Computacional UPV-EHU Maite Termenón

Aprendizaje Automático

Precisión del Modelo

ANÁLISIS DISCRIMINANTE

Introducción a la Estadística Aplicada en la Química

GUÍA DOCENTE: Sistemas Basados en Conocimiento y Minería de Datos (SBC)

Scoring de cobranza, una valiosa herramienta en la Gestión de Cartera. Jose Cruzado VP Riesgo. Banco Colpatria

RECONOCIMIENTO DE VINOS POR CULTIVOS CLASIFICACION

Tema 8: Árboles de Clasificación

ENCUESTA DE CLIMA ORGANIZACIONAL

Aplicaciones de apoyo al diagnóstico médico. Identificación de objetos amigos y enemigos. Identificación de zonas afectadas por un desastre natural.

RECONOCIMIENTO DE PATRONES DRA. LETICIA FLORES PULIDO

MASTER DE INGENIERÍA BIOMÉDICA. Métodos de ayuda al diagnóstico clínico. Tema 6: Árboles de decisión.

Jesús García Herrero TÉCNICAS DE REGRESIÓN NO LINEAL

Árboles de Decisión Árboles de Sintaxis

II. 2. Análisis manual de imágenes médicas: Análisis de la curva ROC (Receiver Operating Characteristic).

ANÁLISIS DE DATOS. Jesús García Herrero

Minería de Datos. Profra. Heidy Marisol Marin Castro Universidad Politécnica de Victoria

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 11 -

Aprendizaje Automático Segundo Cuatrimestre de Evaluación de Hipótesis

Minería de Datos. Árboles de Decisión. Fac. Ciencias Ing. Informática Otoño de Dept. Matesco, Universidad de Cantabria

Taller #3. Carlos Reveco Cinthya Vergara

Análisis de datos Categóricos

LA MINERÍA DE DATOS APLICADA A LA BÚSQUEDA DE PATRONES DE SUPERVIVIENCIA EN LA NEOPLASIA MALIGNA DE TRÁQUEA, BRONQUIOS Y PULMÓN

Minería de Datos. Árboles de Decisión. Fac. Ciencias Ing. Informática Otoño de Dept. Matesco, Universidad de Cantabria

FICHEROS Y BASES DE DATOS (E44) 3º INGENIERÍA EN INFORMÁTICA. Tema 4. Técnicas de Dispersión. Definición y Manejo.

Validación Cruzada (cross-validation) y Remuestreo (bootstrapping)

Correlación. El coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables (r)

MATRIZ DE ARBOLES DE DECISION

MINERIA DE TEXTOS EN R: VIA UN MODELO DE ESPACIO VECTORIAL Y ANÁLISIS CLUSTER. Resumen

Planeación de Demanda

(e) Con la poda alfa-beta se eliminan nodos que nunca serán alcanzados

Regresión de Poisson

ANÁLISIS DE REGRESIÓN

TEMA II EL ANÁLISIS PRELIMINAR DE LOS DATOS

EXPERTO EN DATA SCIENCE

CURSO DE ESTADÍSTICA APLICADA A LA INVESTIGACIÓN BIOMÉDICA CON R

Aux 6. Introducción a la Minería de Datos

Inducción de Árboles de Decisión ID3, C4.5

NEWTON TREES. Árboles de Estimación Estocástica de Probabilidades:

Réplica del III taller sobre modelización de nichos ecológicos de GBIF

Sobreajuste - Overfitting

Análisis de Datos. Validación de clasificadores. Profesor: Dr. Wilfrido Gómez Flores

Segmentación de clientes. Dra. Adriana Amigo

Diseño Muestreo y Experimental -->fundamental para análisis estadísticos. Escogencia de factores (V. independientes), niveles de factores,

1. Datos Atípicos o Outliers

Diplomado en Estadística e Investigación Científica

Preparación de los datos de entrada

CURSO DE MINITAB AVANZADO. DURACIÓN: 40 horas (Material y duración adaptado a las necesidades de la empresa)

Jesús García Herrero METODOLOGÍA DE ANÁLISIS DE DATOS

Uso de modelos probabilísticos

MATEMÁTICAS APLICADAS A LAS CIENCIAS SOCIALES I Y II CONTENIDOS BACHILLERATO

APRENDIZAJE PROBABILÍSTICO NAIVE BAYES

Cátedra: Estadística Técnica Facultad de Ingeniería UNCuyo. Índice D. Fernández & M. Guitart TABLA DE CONTENIDOS

FACULTAD DE ESTUDIOS ESTADÍSTICOS

Aplicaciones del Análisis estadístico multivariado - Ejercicios Clase EJERCICIOS CLASE 6. Arboles de Regresión

Glosario de Vocabulario

Técnicas de Clasificación Supervisada DRA. LETICIA FLORES PULIDO

FACULTAD DE INGENIERÍA

Estudio de rampas de producción eólica.

White paper Un método para hacer corresponder entre candidatos y un puesto de trabajo Posiciones basadas en un modelado predictivo Presentado por:

Delia S. G. 1, 2, 3 y 4 de octubre de 2017 Buenos Aires Argentina

Economía Aplicada. Modelos con variables dependiente binarias. Departamento de Economía Universidad Carlos III de Madrid

Índice. Resumen 15 Motivación 15 Desarrollos y aportes 16 Publicaciones derivadas de esta tesis doctoral 19

Planteamiento del problema y conceptos básicos Sistemas de reconocimiento de patrones Ciclo de diseño Reconocimiento de patrones y aprendizaje

Transcripción:

VIII Jornadas de Usuarios de R Análisis del Abandono en el Sector Bancario Predicción del abandono de clientes Albacete, 17 de Noviembre de 2016

I. INDICE : Modelo Abandonos I. COMPRENSIÓN DEL NEGOCIO Qué es el Abandono? II. DEFINICIÓN ABANDONO Abandono Real Abandono Técnico III. ANÁLISIS DE DATOS Fuentes de datos y estructura IV. PREPARACIÓN DE DATOS Análisis de correlaciones Reducción del conjunto variables V. MODELIZACIÓN Y EVALUACIÓN Árboles de decisión (rpart) Regresión Logística (stast) Random Forest (randomforest) Curva ROC (ROCR) 2

I. Comprensión del Negocio: Modelo Abandonos Presente en la estrategia de cualquier Empresa, las tasas de abandono se disparan en todos los sectores y compañías. Si hablamos de telecomunicaciones, las tasas superan en algunos casos el 30%. Si hablamos de banca y seguros, oscila entre el 7 y el 18%. 3

I. Comprensión del Negocio: Modelo Abandonos Tipos de abandono? Nos centraremos en el estudio del abandono voluntario y sus patrones de comportamiento Involuntario (Más fácil de identificar) Fallecimiento Morosidad Fraude ABANDONO Voluntario (Difícil de identificar) Decisión del cliente Cancelar productos, reducir ingresos, etc.. 4

II. Definición de Abandono: Modelo Abandonos Tipos de abandono? Abandono Real (Cancelación de todos los contratos) Abandono + Técnico = (Disminución de posiciones y actividad) Abandono Total Establecemos el momento del abandono para cada cliente en un horizonte temporal estable y completo, que nos permita determinar su patrón de comportamiento antes de producirse el evento. El conocimiento profundo de estos clientes y su comportamiento es vital para establecer un patrón de fuga. Variables Trimestrales 1 1 1 1 1 1 1 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 Variables Trimestrales 5

III. Análisis de Datos: Modelo Abandonos 1 2 3 4 Aprovisionamiento Pre- Procesamiento Modelización Producción Descripción Identificación de fuentes de datos Depuración de datos Descripción Identificación del cliente que contrata préstamo personal Análisis de las variables. Selección variables candidatas Análisis de las variables (missing, outliers, correlaciones, varianzas cero, etc ) Descripción Selección de modelos predictivos Validación de los modelos Selección del modelo final Creación de la segmentación de valor Descripción Puesta en producción Calculo de las probabilidades de abandono de clientes 6

III. Análisis de Datos: Modelo Abandonos Fichero de datos: Abandono de Clientes Partimos de un dataset anonimizado con 62 variables, agrupadas en variables de tenencia, tendencia, saldos y movimientos de los distintos productos financieros a contratar. Adicionalmente se incluyen variables socio demográficas. Objetivos: Clasificar a los clientes por su propensión al abandono (v.a clase = Target). Solución: Creación de un modelo de retención de clientes. Resultado: Adecuar los esfuerzos en las campañas de marketing en función de los distintos perfiles de clientes que nos permitan definir una estrategia diferenciadora. 7

III. Análisis de Datos: Modelo Abandonos Lectura del Dataset Definimos el directorio de trabajo y cargamos las librerías correspondientes. Leemos el fichero de datos y realizamos una primera auditoria de datos. Exploración de la estructura del Dataset 8

III. Análisis de Datos: Modelo Abandonos Estructura del Dataset: Churn 9

III. Análisis de Datos: Modelo Abandonos Estructura del Dataset: Churn

IV. Pre-Procesamiento: Modelo Abandonos Creación del Training/Testing Dividimos el conjunto de datos inicial en una muestra de training y testing para controlar el Overfitting. Utilizamos createdatapartition del paquete caret para separar ambas muestras. Observaremos la distribución y los problemas de Oversampling que presenta la muestra. 11

IV. Pre-Procesamiento: Modelo Abandonos. Pre-procesamiento: Reducción del conjunto de variables Conjunto de datos con predictores que presencia muy significativa de un único valor o varianza casi cero : La función nearzerovar del paquete caret nos permite identificar variables con varianza cercana a cero. Identificamos aquellas cuya proporción entre las categorías este en 95/5 y con al menos 10 valores. Con este criterio identificamos 21 variables. 12

IV. Pre-Procesamiento: Modelo Abandonos. Pre-procesamiento: Reducción del conjunto de variables Conjuntos de datos con variables muy correlacionadas: Eliminaremos variables que estén correlacionadas (por encima de un umbral mínimo) Seleccionamos las dos variables mas correlacionadas y de entre ellas se eliminan la mas correlacionada con el resto. Utilizamos findcorrelation() del paquete caret para determinar aquellos predictores correlacionados por encima de un umbral. La función corrplot del paquete corrplot nos permite visualizar la matriz de correlaciones. Conseguimos identificar 3 variables con correlación por encima de 0.7. Se elimina tanto de la muestra de training como del testing. 13

IV. Pre-Procesamiento: Modelo Abandonos Reducción del conjunto de variables 14

V. Pre-Procesamiento: Modelo Abandonos. Pre-procesamiento: Problemas con el balanceo de clases - OverSampling 15

V. Modelización: Modelo Abandonos. Modelización: Random Forest (librería randomforest) PRINCIPALES CARACTERÍSTICAS: Random Forest es un tipo de método de particionamiento recursivo, donde cada nodo es dividido en dos nodos hijos, seleccionando el predictor que maximiza la diferencia en abandono en los nodos hijos. Adecuado para pequeñas n y grandes p (pocos datos y muchas variables), analizando un gran numero de variables, sin tener que hacer selección previa. Utilizado tanto para clasificación como regresión. Calculamos subconjuntos de árboles al azar, subconjuntos de X frente a Y. Se basa en muestras bootstrap. Cada división del árbol está basada en una muestra aleatoria de los predictores. Los árboles no se cortan, son tan largos como sea posible. No existe la poda. El resultado de un conjunto de árboles clasificación/regresión se han demostrado mejores para producir predicciones que los resultados de un solo árbol de clasificación. Alto coste computacional. Establecer un numero de árboles adecuado para que todas las variables puedan participar en la construcción de suficientes árboles. 16

V. Modelización: Modelo Abandonos. Modelización: Evaluación El objetivo es evaluar la calidad del modelo a través de su capacidad predictiva, mediante la comparación de valores observados frente a valores predichos. Evitaremos el sobreajuste (overfitting) evaluando el modelo en una muestra de test diferente, medida de error honesta. Accuracy = 95% de clasificaciones correctas Error Rate = 5% de clasificaciones incorrectas Sensibilidad = 97% capacidad de detectar VP Especificidad = 87% capacidad de detectar VN Valor predictivo positivo = 98% Valor predictivo negativo = 80% La curva ROC representa : (1-especificidad, sensibilidad) Evalúa la capacidad de clasificación con dos clases. Su forma de medida la define el área bajo la curva (AUC) y mide la capacidad de predicción Predictor ideal AUC = 1 y aleatorio AUC = 0.5 17

EVALUACIÓN SOLUCIÓN V. Modelización: Modelo Abandonos. Modelización: Random Forest (librería randomforest) 18

V. Modelización: Modelo Abandonos. Modelización: Árboles de Decisión (Librería Rpart) Crea Algoritmo con rpart Predicción del Abandono de la base de clientes PRINCIPALES CARACTERÍSTICAS: Es una técnica supervisada, la clasificación se hace en función de una variable clase. Partición recursiva a partir de un conjunto de entrenamiento mostrando una organización jerárquica. La estructura tipo : Nodo interior (Pregunta) y Nodo hoja (clasificación). Robustos frente a datos faltantes y anómalos. Ventajas: Permite trabajar con todo tipo de variables y su interpretación es sencilla. Desventajas: Dificultad al elegir árbol óptimo y necesidad de gran número de datos para asegurar nodos de hojas significativas. Tipos de árboles: CART, Chaid, C4.5 y QUEST (Estructura similar) 19

EVALUACIÓN SOLUCIÓN V. Preparación de Datos: Modelo Abandonos. Modelización: Árboles de Decisión (Librería Rpart) 20

VI. Modelización: Modelo Abandonos. Modelización: Regresión Logística (librería stats) PRINCIPALES CARACTERÍSTICAS: La regresión logística es un método para el ajuste de una curva de regresión y = f(x), con y como variable categórica. Los predictores pueden ser continuos, categóricos o mezcla de ambos. La variable categórica y, en general, puede asumir valores diferentes. La regresión logística en R se ajusta mediante el comando glm(), Generalized Linear Model La distribución apropiada para este tipo de datos es la Binomial 21

EVALUACIÓN SOLUCIÓN V. Modelización: Modelo Abandonos. Modelización: Regresión Logística (Librería stast) 22

V. Modelización: Modelo Abandonos. Selección del mejor modelo predictivo AUC 91% AUC 90% AUC 84% Random Forest Regresión Logística Árbol de decisición

MUCHAS GRACIAS