III JORNADAS DE DATA MINING



Documentos relacionados
1.1. Introducción y conceptos básicos

EJEMPLO PRÁCTICO DE CÁLCULO DEL VALOR DE VIDA DEL CLIENTE (VVC) O LIFE TIME VALUE (LTV)

Análisis y cuantificación del Riesgo

Cadena de Valor y Estrategias Genéricas 1. Prof. Marcelo Barrios

Eduardo Kido 26-Mayo-2004 ANÁLISIS DE DATOS

Media vs mediana vs moda Cual medida de tendencia central es mas adecuada? MEDIA conveniencias:

ANÁLISIS LOS CRÉDITOS

Covarianza y coeficiente de correlación

ANÁLISIS DE BONOS. Fuente: Alexander, Sharpe, Bailey; Fundamentos de Inversiones: Teoría y Práctica; Tercera edición, 2003

ESTIMACIÓN. puntual y por intervalo

Ejercicio de estadística para 3º de la ESO

3. Métodos para la evaluación de proyectos

Determinación de primas de acuerdo al Apetito de riesgo de la Compañía por medio de simulaciones

ANÁLISIS DE DATOS NO NUMERICOS

ANÁLISIS DINÁMICO DEL RIESGO DE UN PROYECTO

Técnicas de valor presente para calcular el valor en uso

Servicio de administración de pautas publicitarias en Internet

Análisis de los datos

MEDICION DEL TRABAJO

PRINCIPIOS FINAN IEROS FUNDAMENTALE DEL FED

Finanzas para Mercadotecnia

de la empresa Al finalizar la unidad, el alumno:

La selección del mercado meta es esencialmente idéntica, sin importar si una firma vende un bien o servicio.

VALOR VITALICIO DEL CLIENTE?

Validation. Validación Psicométrica. Validation. Central Test. Central Test. Centraltest CENTRAL. L art de l évaluation. El arte de la evaluación

8.1. Introducción Dependencia/independencia estadística Representación gráfica: diagrama de dispersión Regresión...

El Valor del Cliente. Marcelo Ferreyra. IX Jornadas de Data Mining & Business Intelligence Universidad Austral

Administración de Empresas. 11 Métodos dinámicos de evaluación de inversiones 11.1

SUPOSICIONES O CERTEZAS?

ARTÍCULOS NIIF 5 ACTIVOS NO CORRIENTES MANTENIDOS PARA LA VENTA Y OPERACIONES DISCONTINUAS. Por C.P.C. GERARDO QUEZADA* gerardoquezada@bdomexico.

Portafolio de Servicios y Productos

Lección 1-Introducción a los Polinomios y Suma y Resta de Polinomios. Dra. Noemí L. Ruiz Limardo 2009

El Plan de Empresa tiene una doble función: Herramienta de Gestión. Herramienta de Planificación

Retiro de activos y el stock de capital bruto

Chile más equitativo. Por Claudio Sapelli (*)

Destino Perú. En la búsqueda de nuevas oportunidades. Experiencias de Internacionalización

Parte I: Introducción

Habilidades y Herramientas para trabajar con datos

LECCIÓN SEIS: Preparando un Presupuesto de Efectivo

H E R R A M I E N T A S D E A N Á L I S I S D E D A T O S HERRAMIENTAS DE ANÁLISIS DE DATOS

EL ESTADO DE ORIGEN Y APLICACION DE FONDOS

COMUNICADO Nro /11/2010. Ref.: Tarjetas de crédito. Tasas y costos promedio de las tarjetas de crédito a agosto de Tarjetas de Crédito

Matemáticas financieras y criterios de evaluación

Fórmulas y enfoques utilizados para calcular el Tasa Efectiva de Interés (TEI) o Costo Anual Total (CAT)

Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología

UTILIDAD BRUTA, GASTOS Y UTILIDAD NETA MARGEN BRUTO

Facultad de Economía Claudia Montserrat Martínez Stone CAPITULO IV EVALUACIÓN FINANCIERA

EL FONDO DE MANIOBRA Y LAS NECESIDADES OPERATIVAS DE FONDOS

VER TOMAR HELADO. Aprendizaje de Educación para un Consumo Responsable

Tutorial - Parte 2: Scoring

Consideraciones al precio de un warrant. El precio del warrant: la prima. Factores que afectan al precio de un warrant

CRITERIOS GENERALES PARA LA DETERMINACIÓN DE POSICIÓN DE DOMINIO

Parámetros y estadísticos

INDICADORES. PROBLEMAS ASOCIADOS A SU SELECCIÓN PARA MEDIR SUSTENTABILIDAD Y EFICIENCIA AMBIENTAL

Inversión. Inversión. Arbitraje. Descuento. Tema 5

Capítulo 9. La distribución de las ganancias

ANÁLISIS DESCRIPTIVO CON SPSS

SERIES DE TIEMPO INTRODUCCIÓN

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007

CASO 3-5 EUROPEAN ALCOHOL RESEARCH FOUNDATION

NORMA INTERNACIONAL DE AUDITORÍA 520

Explicación de la tarea 3 Felipe Guerra

Capítulo 3 Paquetes Auxiliares en la Administración de Redes

Medidas de tendencia central o de posición: situación de los valores alrededor

Otras medidas descriptivas usuales

Monografías de Juan Mascareñas sobre Finanzas Corporativas ISSN: Introducción al VaR

La NIC 32 acompaña a la NIC 39, instrumentos financieros: reconocimiento y medición.

Análisis e interpretación de estados financieros INTERPRETACIÓN DEL ANÁLISIS FINANCIERO

TransUnion República Dominicana. Preguntas frecuentes sobre los modelos de score de TransUnion

LOS INGRESOS DE LA EMPRESA EN LIBRE COMPETENCIA

Medias Móviles: Señales para invertir en la Bolsa

Capítulo 2 Tratamiento Contable de los Impuestos. 2.1 Normas Internacionales de Contabilidad

Comente: Los bancos siempre deberían dar crédito a los proyectos rentables. Falso, hay que evaluar la capacidad de pago.

Es momento de vender mi empresa? Cuánto vale? Quiénes pueden ser candidatos a comprarla?

LT Accountant & Asociados Firma de Auditores y Asesores Autorizados

México en el año 2005 y los impactos sobre su demanda. específicamente de los productos de Anheuser-Busch.

LECCIÓN Nº 03 ANÁLISIS VERTICAL Y HORIZONTAL DE LOS ESTADOS FINANCIEROS

1.2 SISTEMAS DE PRODUCCIÓN

Centro de Capacitación en Informática

Capítulo 10. Gráficos y diagramas

Precio del alquiler de pisos durante una serie de meses. Evolución del índice del precio del trigo con mediciones anuales.

Master en Gestion de la Calidad

MEJORA EN EL SERVICIO DE HCM.

MEDIDAS DE DISPERSIÓN EMPLEANDO EXCEL

Cadena de valor. Cadena de valor genérica. Actividades primarias. Actividades de apoyo Actividades primarias

CONTABILIDAD ANALISIS VERTICAL Y HORIZONTAL DE ESTADOS CONTABLES

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

FINANZAS. Las finanzas se definen como el arte y la ciencia de administrar el dinero.

Decisión: Indican puntos en que se toman decisiones: sí o no, o se verifica una actividad del flujo grama.

Bienvenido a la prelicencia!

CORRELACIÓN Y PREDICIÓN

Resultados de Marketing Directo Utilizando Conceptos de Segmentación. RFM: Recency, Frequency, Monetary Value.

WE ARE EXPERTS IN DATA PROCESSING & ANALYTICS IDATHA. DARK DATA White Paper - IDATHA. Octubre IDATHA.COM

Movimiento a través de una. José San Martín

Aproximación local. Plano tangente. Derivadas parciales.

UNIVERSIDAD NACIONAL DE COLOMBIA SEDE MEDELLÍN FACULTAD DE MIAS ESCUELA DE LA INGENIERÍA DE LA ORGANIZACIÓN

Interés Simple y Compuesto

Finanzas Corporativas. Presupuesto de Capital

CMMI (Capability Maturity Model Integrated)

Metodología Integral para la Evaluación de Proyectos de Asociación Público Privada (APP)

Transcripción:

III JORNADAS DE DATA MINING EN EL MACRO DE LA MAESTRÍA EN DATA MINING DE LA UNIVERSIDAD AUSTRAL R.O.I. VS L.T.V. José Alvarez Profesor Maestría en Data Mining de la Universidad Austral. IAE - Pilar, 12 y 13 de agosto de 2008

1

Objetivos Plantear algunas limitaciones en la instrucción y la práctica de data mining Presentar algunas herramientas para aliviar (puntualmente) las limitaciones señaladas ROI vs. LTV es solo la punta del iceberg 2 2

Limitaciones Poca instrucción y aplicación de teoría estadística de las decisiones Poca instrucción y aplicación de los fundamentos de las disciplinas abarcadas por data mining Poca capacitación en tareas de modelización de complejidad mediana (ni hablar de alta) Algunas consecuencias: Modelizaciones muy ingenuas Aplicaciones inadecuadas o muy poco eficaces 3 Data Mining, bastante básica en sus inicios, se dedicaba fundamentalmente a encontrar patrones novedosos (pepitas de conocimiento) y se orientaba conceptualmente a las consideraciones algorítmicas. Pero ha evolucionado en los últimos diez años hacia una disciplina que, especialmente en contextos de negocios, se encarga de la modelización predictiva, forecasting y optimización de todo tipo de fenómenos y problemas. Esto llevó a algunos a tratar de redefinir el campo, empezando por su denominación: sería Analytics en lugar de Data Mining. Más allá del nombre, el contexto actual plantea requerimientos importantes y mucho más exigentes a los profesionales que pretendan hacer data mining. Se requieren conocimientos y destrezas mucho más profundos en técnicas y fundamentos estadísticos, y una práctica mucho más diversa y compleja. 3

Algunas herramientas Mayor atención a la teoría y práctica de teoría estadística de las decisiones Criterios más complejos de evaluación de modelos, como LTV y otros Aplicación del análisis de supervivencia 4 Estas son solo algunas herramientas puntuales y acotadas que consideraremos en la presentación. Más en general, lo que es necesario, para resolver realmente las limitaciones antes planteadas, son, por lo menos, revisiones y ampliaciones de las curricula del lado educativo, y determinación de estándares y buenas prácticas para las aplicaciones. 4

Paradigma de data mining 5 La instrucción y el propio diseño de las herramientas de mining estimulan a pensar que existe una situación paradigmática típica del data mining predictivo que es la de encontrar un modelo campeón. Así lo plantean también unos cuantos libros de texto. 5

Scoring de modelos El propósito de una función de scoring es establecer un orden entre los modelos según su performance La performance se mide agregando el resultado de un conjunto de predicciones del modelo, una por cada caso del conjunto de testeo (scoring de nuevos casos) El orden define un modelo ganador Es muy frecuente una aplicación inadecuada del scoring de modelos por varias razones: Rol de la selección de modelos Funciones multiobjetivo Necesidad de múltiples modelos Selección de una función de scoring 6 6

Rol de la selección de modelos La selección de modelos indica cuál es el modelo menos malo, no necesariamente un buen modelo El modelo ganador puede ser bastante inadecuado en términos de lo que se desea modelizar Algunas técnicas como el análisis de regresión (en todas sus variantes) poseen numerosos diagnósticos y métodos que permiten evaluar la calidad de un modelo y ajustarlo, sin necesidad del enfoque de competencia de modelos El enfoque de selección de modelos solo es conveniente en situaciones restringidas 7 Lo que buscamos en general es un buen modelo, es decir, un modelo que sea capaz de representar las principales relaciones entre las variables de un problema, que nos permita comprender las características importantes del mismo y que tenga una buena performance predictiva. En general, esto no se logra organizando una competencia entre modelos. El enfoque de selección de modelos se presta fácilmente a déficits metodológicos como la comparación de modelos de complejidad muy distinta y la utilización de métricas de performance no apropiadas, o no igualmente apropiadas para todos los modelos competidores. Algunas de las situaciones restringidas en las que la selección de modelos puede ser apropiada son: Cuando se emplean técnicas de modelización pobres en recursos diagnósticos. De todas maneras, esta es una situación que convendría evitar. Cuando se desea decidir si un modelo existente puede ser reemplazado por otro en situaciones en las que el modelo existente acusa problemas de performance, o hay nueva información predictiva disponible. Los modelos que se comparan son muy similares en muchos aspectos. Esta es una situación apropiada para el enfoque de selección de modelos. 7

Funciones uniobjetivo La selección de modelos se basa en el orden establecido por una función uniobjetivo de scoring (función de valores escalares con un orden total) En general los nodos de evaluación de las herramientas de mining se basan en el máximo (o mínimo) de una sola métrica Criterios de selección más complejos deben aplicarse manualmente Siempre es conveniente examinar la consistencia o no de diversas métricas 8 8

Funciones multiobjetivo La selección de modelos es, en realidad, un problema de optimización: encontrar el máximo de una función de bondad de un modelo El espacio de búsqueda es el de todos los modelos posibles: cuánto más diversos o heterogéneos sean los modelos, más complejo es el problema de búsqueda y más improbable es que baste una función uniobjetivo La evaluación debe usar una función multiobjetivo (multicriterio): debe encontrar soluciones óptimas de compromiso entre criterios frecuentemente en conflicto Ejemplo: identificar los clientes más redituables pero menos riesgosos 9 La optimización es la disciplina que se encarga de encontrar una o más soluciones factibles que corresponden a valores extremos de una o más funciones objetivo. Se denominan soluciones óptimas. Debido a las propiedades extremas de las soluciones óptimas, los métodos de optimización son de mucha importancia en la práctica, en áreas como el diseño ingenieril, la experimentación científica y la toma de decisiones en problemas de negocios. Cuando un problema de optimización involucra una sola función objetivo, la tarea de encontrar la solución óptima se llama optimización uniobjetivo. Cuando el problema involucra más de una función objetivo se denomina optimización multiobjetivo. Estos últimos problemas de búsqueda y optimización también se denominan problemas multicriterio de decisión. La existencia de múltiples objetivos en conflicto (como minimizar simultáneamente el costo de fabricación y maximizar la confiabilidad de un producto, o maximizar la cartera de poseedores de tarjetas de crédito pero minimizar el promedio del índice de riesgo de la misma) es algo frecuente en muchos problemas prácticos. En estos casos, ninguna solución puede calificarse como solución óptima y por lo tanto, deben encontrarse soluciones óptimas de compromiso. Formalmente, cuando la función de evaluación es una función de valores escalares, el problema es uniobjetivo, y cuando la función de evaluación es una función de valores vectoriales, el problema es multiobjetivo. Cada componente de un vector responde a algún criterio de valoración de la solución. La dificultad básica de los problemas multiobjetivo radica en que los diversos criterios pueden estar en conflicto entre sí, de modo que una solución óptima en una dimensión (objetivo) puede no serlo en otra u otras dimensiones. Esto hace que no se pueda considerar el caso multiobjetivo meramente como una extensión del caso uniobjetivo. Más bien, el problema uniobjetivo debe considerarse un caso degenerado de problema multiobjetivo. Para poder decidir la optimalidad de una solución según un criterio nos basta que las soluciones estén totalmente ordenadas. El inconveniente en los problemas multiobjetivo reside en que no podemos, sin más, inducir un orden completo entre los vectores que representan la calidad de las soluciones a partir del orden de los componentes. Para resolver un problema multiobjetivo existen básicamente dos enfoques. En un primer enfoque, podemos transformar de alguna forma la función de valores vectoriales en una función de valores escalares (es decir, componer los varios criterios en uno solo), o sea, transformar un problema multiobjetivo en un problema uniobjetivo; pero esta estrategia tiene sus dificultades. La principal es que la tarea de construir la función de evaluación combinada de modo de preservar los criterios fundamentales de valoración de una solución puede ser muy difícil o incluso imposible. Parece mejor, entonces, un segundo enfoque que resuelva un problema multiobjetivo sin transformarlo en uniobjetivo. A partir del orden establecido por los diferentes criterios no podemos inducir un orden total en el conjunto de vectores (y por ende de soluciones), pero sí podemos definir un orden parcial. Este orden permite reconocer el conjunto de soluciones no inferiores o no dominadas. Una vez obtenido, debemos utilizar algún criterio, información extra, etcétera, relacionado con el problema que nos permita elegir una única solución. Los conjuntos de Pareto son una herramienta frecuentemente utilizada en economía para tratar de resolver problemas multicriterio. 9

Múltiples modelos Problema: Predecir el monto de pago mensual de los balances de tarjeta de crédito a partir de información de los clientes (transaccional, demográfica, etc.) Solución ingenua : Modelo de regresión, árbol de decisión, etc. que predice el monto concreto para cada cliente Solución apropiada: La distribución de los pagos es bimodal: un porcentaje hace el pago mínimo, otro hace el pago total Modelo 1: Clasificador de pago mínimo Modelo 2: Clasificador de pago total Modelo 3: Predicción de monto de pago para los no clasificados positivamente en los dos modelos anteriores Mejora de un 25% en la precisión 10 Muchos problemas no se modelizan mediante un único modelo, sino mediante varios modelos que representan o predicen distintos aspectos o segmentos del problema. Si bien esto puede mejorar muchas veces el resultado final, hay que tener en cuenta varias cosas: Se requiere un estudio preliminar de los datos y conocimiento de dominio para detectar los casos en los que es conveniente usar más de un modelo: multimodalidad, problemas heterogéneos, etc. Se deben aplicar criterios de la teoría estadística de decisiones para determinar cómo combinar los modelos A veces la combinación de modelos puede producir problemas de estabilidad. Técnicas habituales (aunque no demasiado usadas) como ensemble learning y aprendizaje multiestratégico pueden considerarse casos particulares de una modelización múltiple, en las que se hace una búsqueda casi ciega de varios modelos que en realidad terminan modelizando los mismos aspectos (o similares) de un problema, aunque probablemente usando diferentes valores de parámetros (en particular, el ensemble learning). 10

Selección de una función de scoring Como en la práctica suele ser difícil medir la utilidad de un modelo en términos de la tarea concreta se recurre a funciones de scoring genéricas (p. ej. el error cuadrático) que tienen propiedades bien conocidas y son fáciles de calcular. Es muy común la utilización de funciones de scoring convenientes (genéricas) pero totalmente inapropiadas para una aplicación dada Tipos de funciones: Funciones genéricas Funciones basadas en costo/ganancia Funciones basadas en el ROI Funciones basadas en el NPV Funciones basadas en el LTV 11 Diferentes funciones de scoring tienen distintas propiedades y son útiles en diferentes situaciones. Existen funciones de scoring para modelos (globales) y para patrones (locales). También existen diferentes funciones de scoring para modelos predictivos y descriptivos. Además, funciones de scoring para modelos de complejidad fija y funciones de scoring para modelos de distinta complejidad. Cuanto más específica sea la función de scoring respecto del problema de aplicación, mayor será su potencia discriminadora sobre los modelos. 11

Funciones genéricas Error de clasificación (Función de pérdida 0-1): Error cuadrático medio (ECM): 1/n i (h(x i ) f(x i )) 2 Medidas de separación: Diferencia de medias de dos distribuciones Estadístico K-S (Kolmogorov-Smirnov) Area bajo la curva ROC (equivalente al test Wilcoxon-Mann-Whitney) Medidas que penalizan la complejidad del modelo: AIC, SBC 12 12

P Umbrales 0 1 70 5 9 16 Sen Esp.64.93 66 9 4 21.84.88 x 1 x 2 57 18 1 24.96.76 Diferentes umbrales producen diferentes decisiones y diferentes matrices de confusión Para determinar el umbral óptimo debe definirse un criterio 13de performance Salvo en los clasificadores que asignan directamente una clasificación, los estadísticos basados en el error de clasificación (sensibilidad, valor predictivo positivo, riesgo, etc.) dependen de la selección de un valor de corte (umbral). Diferentes umbrales producen diferentes reglas de decisión y matrices de confusión. Para determinar el umbral óptimo debe definirse un criterio de performance. Si el objetivo es aumentar la sensibilidad del clasificador, entonces el clasificador óptimo asignaría todos los casos a la clase 1. Si el objetivo fuera aumentar la especificidad, entonces el clasificador óptimo asignaría todos los casos a la clase 0. Para aplicaciones realistas, existe una solución de compromiso entre sensibilidad y especificidad. Umbrales más altos disminuyen la sensibilidad y aumentan la especificidad. Umbrales más bajos disminuyen la especificidad y aumentan la sensibilidad. 13

Diferencia de medias Modelo 1 Modelo 2 PDF Clase 0 Clase 1 0 1 0 1 Probabilidad Posterior 14 Los estadísticos que resumen la performance de un clasificador a través del rango de umbrales (como las medidas de separación) pueden ser útiles para evaluar la potencia discriminatoria global de los modelos. En el enfoque de las medidas de separación, se mide la divergencia entre las probabilidades posteriores predichas para cada clase. Cuanto más se superponen las distribuciones, más débil es el modelo. Los estadísticos más simples se basan en la diferencia de medias de las dos distribuciones. Uno es el test t de Student, que tiene muchas propiedades óptimas cuando las dos distribuciones son simétricas, tienen varianzas iguales y colas no pesadas. Sin embargo, esto no suele ocurrir con las probabilidades posteriores predichas, que típicamente siguen distribuciones asimétricas con varianzas muy desiguales. Existen otros tests estadísticos para dos clases basados en distribuciones no normales. 14

0 1 PDF 0 1 Estadístico K-S Modelo 2 Probabilidad Posterior 1 0 EDF D =.49 0 1 Se basa en la distancia entre las dos distribuciones empíricas D es la diferencia vertical máxima entre las distribuciones acumulativas 15 El test para dos muestras de Kolmogorov-Smirnov se basa en la distancia entre las funciones de distribución empíricas. El estadístico D es la diferencia vertical máxima entre las distribuciones acumuladas. Si D es igual a cero, las distribuciones son idénticas en todos lados. Si D > 0, existen algunos valores de probabilidad posterior en los que las distribuciones difieren. El valor máximo del estadístico K-S, 1, ocurre cuando las distribuciones están perfectamente separadas. El uso del estadístico K-S para comparar modelos predictivos es popular en marketing en bases de datos. 15

Area bajo la curva ROC PDF EDF ROC Modelo 1 D =.24 c =.66 Modelo 2 D =.49 c =.82 Equivalente al test de Wilcoxon-Mann-Whitney 16 El test K-S es sensible a todo tipo de diferencias entre las distribuciones: localización, escala y forma. En el contexto de la modelización predictiva, puede argumentarse que las diferencias de localización son muy importantes. Debido a su generalidad, el test K-S no es particularmente potente para la detección de diferencias de localización. El test no paramétrico para dos muestras más potente es el de Wilcoxon-Mann-Whitney. Este test es equivalente al área debajo de la curva ROC. La versión de Wilcoxon se basa en los rangos de los datos. En el contexto de la modelización predictiva, las probabilidades posteriores predichas pueden ser ordenadas de menor a mayor. El estadístico se basa en la suma de los rangos en las clases. El área bajo la curva ROC, c, puede determinarse a partir de la suma de rangos en la clase 1. 16

Criterio de Schwarz-Bayes (SBC) SBC = 2 ln( l( w)) + p ln( n) + constant SBC usa una penalización por complejidad dada por p ln(n), donde p es el número de parámetros en el modelo y n es el número de observaciones, y -2 ln(l(w)), una medida de verosimilitud que mide el ajuste del modelo a los datos SBC favorece entonces modelos que tienen buen ajuste a los datos pero que son parsimoniosos (menor número posible de parámetros) No existe una escala absoluta para SBC. Se prefieren los modelos con valores más bajos en 17 este criterio SBC es un ejemplo de medidas que además de utilizar algún criterio de performance predictivo utilizan una medida de la complejidad del modelo (penalizan la complejidad). Dos ventajas importantes de estas medidas son: Establecen un terreno común para comparar modelos de distinta complejidad Permiten usar todos los datos para entrenamiento y testeo, sin necesidad de hold-out o crossvalidation. La desventaja principal es que estas medidas no poseen una escala absoluta, lo que dificulta una interpretación fina de los resultados obtenidos. 17

Funciones basadas en costo/ganancia Costo Total 70 5 Predicho 9*4 + 5 = 41 9 16 0 1 Real 0 1 0 1 4 0 66 9 4 21 4*4 + 9 = 25 Matriz de costos 57 18 1 24 1*4 + 18 = 22 La regla de decisión óptima minimiza el costo esperado total (riesgo) 18 Un enfoque formal para determinar el umbral óptimo utiliza la teoría estadística de las decisiones. Se asignan costos o ganancias a cada decisión. La regla de decisión óptima es aquella que minimiza el costo total esperado (riesgo) o maximiza la ganancia total esperada. 18

Regla bayesiana (dos clases) Costo de clasificar un caso con 1: (1 p) costo FP Costo de clasificar un caso con 0: p costo FN Regla óptima: asignar un caso a 1 si Asignar a clase 1 si Si no asignar a clase 0 (1 p) costo FP < p costo FN La regla bayesiana solo depende de la tasa de los costos, no de sus valores concretos Si los costos son iguales, la regla bayesiana corresponde a 19 un umbral de 0.5 La regla bayesiana es la regla de decisión que minimiza el costo esperado. En la situación de dos clases, la regla bayesiana puede determinarse analíticamente como se expone arriba. p es la probabilidad posterior verdadera de que un caso pertenece a la clase 1. Como p debe estimarse a partir de los datos, la regla de Bayes usa p^. Una consecuencia es que la regla bayesiana puede no alcanzar el costo mínimo si la estimación de la probabilidad posterior es pobre. 19

Umbrales Cuando la tasa de costos es igual a 1, el costo esperado es proporcional a la tasa de error Un umbral de 0.5 tiende a minimizar la tasa de error (maximizar la precisión) Sin embargo, el uso de la tasa de error frecuentemente refleja que no se pensaron cuidadosamente los objetivos reales de la aplicación Cuando el suceso target es raro el costo de un falso negativo es usualmente mayor que el costo de un falso positivo (el costo de no ofrecer un producto o servicio a alguien que lo compraría es mayor que enviar la promoción a alguien que no lo comprará) Esto frecuentemente lleva a umbrales mucho menores que.5 20 20

Matriz de ganancias Ganancia Total Predicho 0 1 70 5 9 16 16*4-5 = 59 Real 0 1 0-1 0 4 66 9 4 21 21*4-9 = 75 57 18 1 24 24*4-18 = 78 21 Definir una matriz de ganancia (en lugar de una matriz de costos) no lleva a una regla de clasificación diferente. Sin embargo, permite utilizar un estadístico práctico para medir la performance de un clasificador. Un modelo produce probabilidades posteriores que junto con una matriz de ganancias o costos) clasifica a los individuos en probables positivos y probables negativos. Como en el conjunto de testeo se conoce la verdadera clasificación de esos individuos, es factible calcular la ganancia esperada individual y, por lo tanto, la ganancia total. Esta puede usarse como criterio de selección y evaluación de modelos. 21

ROI El enfoque de retorno de la inversión se usa frecuentemente porque es simple y fácil de comprender ROI= (Ganancias brutas Inversión)/Inversión Genera medidas simples de scoring basadas en la aplicación del modelo y en relación con su objetivo inmediato Sin embargo, es una medida miope Solo mide los resultados inmediatos No busca optimizar las ganancias obtenibles haciendo uso de datos y conocimiento 22 disponibles al analista Se invierte tanto en una promoción, por ejemplo, y se mide la respuesta. Se calcula la ganancia neta de las ventas a quienes respondieron a la promoción y se divide por la cantidad invertida. El resultado es el retorno de la inversión. Por ejemplo, se invierten $40.000 en mailing a 100.000 clientes en una promoción. Si se tiene una tasa de respuesta del 2% y se venden 2.000 ítems a $100 cada uno, con una ganancia neta de $50 por ítem, se tendrá una ganancia bruta de $100.000. Restando los $40.000 invertidos en el mailing de la ganancia bruta, el retorno es $60.000. El retorno sobre la inversión es de 1.5, algo respetable y comprensible. El ROI es un modo de medir el resultado inmediato de un esfuerzo de marketing o algún otro tipo de actividad comercial que use un modelo como insumo. 22

NPV (Valor Neto Actual) Valor neto actual (NPV): El valor en pesos actuales de las ganancias futuras generadas por un producto o servicio El cálculo de NPV es más complejo, requiere de la estimación de diversos componentes según la aplicación: Ejemplo en marketing: Probabilidad de respuesta: Estimación a partir de un modelo de respuesta Indice de riesgo: Indice determinado por un modelo o un análisis actuarial Ingresos: Valor presente de los ingresos producidos por un producto o servicio en un intervalo de tiempo (por ejemplo, 3 años) Costos: Costos diversos vinculados a la campaña de marketing Modelo: NPV = P(Activación) x Indice de riesgo x Ganancia del 23 producto - Costos Un enfoque de Valor Actual Neto (NPV) es un primer intento de resolver la miopía del ROI. Se intenta predecir la ganancia global de un producto durante una longitud de tiempo predeterminada. El valor se calcula sobre un cierto número de años descontado a pesos actuales. Aunque hay algunos métodos estándar para calcular el NPV, existen muchas variaciones a través de productos e industrias. La probabilidad de respuesta surge de algún modelo de respuesta Indice de riesgo: Indice actuarial derivado de un análisis de segmentación de clientes. Representa un ajuste al NPV final basado en grupo de edad, género, estado civil, etc. Ingresos: Estimación promedio de la ganancia que un producto o servicio produce en un intervalo de tiempo. Costos: Los costos de las diversas tareas de una campaña de marketing: procesamiento, folletería, correo, etc. 23

Utilización moderna de modelos Registro del modelo Ambiente de producción Repositorio de modelos Selección del modelo ganador Interrase de mining Interfase de scoring Software estadístico Código scoring Testeo del modelo Modelo en producción Puesta en producción Interactivo Batch Tiempo real Ambiente de desarrollo y administración Seguimiento del modelo Retiro del modelo 24 Concepción del ambiente de desarrollo, despliegue y administración de modelos de SAS. En un contexto actual o futuro, donde una empresa considera sus modelos predictivos como un recurso estratégico y táctico importante, la existencia de múltiples modelos aplicables a los mismos clientes y situaciones influye de modo significativo en la forma de realizar tareas analíticas. 24

Estandarización del ciclo de vida de un modelo (Concepción de SAS) SEMMA RECARSA Sample Explore Modify Model Assess Register Evaluate Compare (Test) Approve Release Score Assess 25 Todavía en la concepción de SAS, al estándar de desarrollo de modelos (SEMMA) debe agregarse un estándar de administración de modelos (RECARSA). 25

Ciclo de vida del cliente Prospecto Nuevo cliente Ciente establecido Ex-cliente Respuesta Pérdida Up-sell Activación Valor tiempo de vida del prospecto Cross-sell Ganancia Ingresos Costos Ganancia Valor tiempo de vida del cliente Recuperación Riesgo Pérdida Riesgo Riesgo Retención Cobranza Cobranza 26 En un contexto de Business Intelligence con enfoques de CRM integrales, de 360, etc. tiene sentido considerar a los clientes en términos de su ciclo de vida como clientes, y anidar los distintos problemas de CRM y sus modelizaciones en este marco. El ciclo de vida del cliente se divide en tres partes principales: 1) prospecto, 2) cliente y 3) ex-cliente. Dentro de este ciclo de vida hay muchas oportunidades para desarrollar modelos predictivos. Un prospecto puede modelizarse por su propensión a responder y o activarse. También puede estimarse el nivel de riesgo usando modelización predictiva o segmentación. Combinando modelos de respuesta, activación y/o riesgo con algunas estimaciones del valor del cliente como attrition y/o ganancias subsiguientes, puede calcularse el valor de tiempo de vida de un prospecto. Después de que un prospecto se vuelve un cliente, existen numerosas oportunidades de modelización adicionales. Finalmente, después de que la relación con el cliente finaliza, hay modelos que pueden desarrollarse para mejorar las ganancias. Formular un problema de modelización en este marco permite desarrollar modelos más apropiados y eficaces que pueden utilizar información más completa y precisa para su predicción y evaluación. Esto lleva directamente a la aplicación de un enfoque de LTV (tiempo de vida del cliente) en la modelización. 26

LTV Valor de tiempo de vida (LTV): Valor esperado de un prospecto o cliente durante un período de tiempo dado, descontado a pesos actuales. También se conoce como CLV (Customer Life Value) El cálculo de LTV es complejo, requiere de la estimación de diversos componentes según la aplicación: Ejemplo en marketing : Duración esperada de la relación con el cliente Período de tiempo: medida del incremento de LTV Ingresos: Valor presente de los ingresos producidos por un producto o servicio Costos diversos Tasa de retención Factor de riesgo Ganancias incrementales (Cross-sell/Upsell, referenciamiento, etc.) Modelo: LTV = P(Activación) x Indice de riesgo x (Ganancia del producto + 27 Cross-sell/Upsell) x Indice de retención - Costos Un modelo de LTV intenta predecir el valor total de un cliente (persona o negocio) durante una longitud de tiempo predeterminado. De manera similar al NPV, se calcula sobre un cierto número de años y se descuenta a pesos actuales. Los métodos para calcular el valor de tiempo de vida también varían a través de productos e industrias. A medida que los mercados se achican y la competencia aumenta, las compañías buscan oportunidades para obtener ganancias de su base de clientes. Como resultado, muchas compañías expanden sus ofertas de productos y/o servicios en un esfuerzo por hacer cross-sell y up-sell a sus clientes existentes. Este enfoque crea la necesidad de ir más allá del valor neto actual de un producto, a un enfoque de valor de tiempo de vida del cliente (LTV). Esta valuación permite a las compañías asignar recursos en base al valor potencial del cliente. Las mediciones de LTV son útiles para adquirir clientes, manejar sus relaciones con los mismos e incluso cuantificar la salud financiera de largo plazo de una empresa en base a la calidad de su portfolio de clientes. Una vez que se asigna un LTV a cada cliente, la base de clientes puede segmentarse de diversas maneras. Con esta información, una compañía puede tomar acciones o evitarlas en base al beneficio a largo plazo para la compañía. Duración esperada de la relación con el cliente: Este valor es uno de los más críticos para los resultados y difícil de determinar. Podría pensarse que una duración prolongada sería mejor para el negocio, pero hay dos desventajas. Primero, cuanto mayor es la duración, menor la precisión del modelo. Segundo, una gran duración demora la validación final. Período de tiempo: medida del incremento de LTV. Generalmente es un año, pero puede reflejar diferentes periodos de renovación o ciclos de productos. 27

LTV en Marketing La investigación de marketing tradicional es un enfoque estático que puede complementarse con un enfoque más dinámico basado en el valor actual del cliente y su ciclo de vida Obstáculos de los enfoques de LTV: Formalización teórica insuficiente Requiere una competencia cuantitativa y conceptual más compleja Clases de enfoques: Modelos econométricos que buscan una comprensión en términos económicos de la conducta del consumidor Modelos de naturaleza probabilística: Pareto/NBD, BG/NBD Técnicas de Data Mining 28 La introducción del enfoque de LTV se basa en trabajos empíricos de investigadores de marketing. No existe aún un conjunto de fundamentos teóricos apropiados, si bien algunas de sus formulaciones (en general las menos prácticas) se basan en algunos instrumentos estadísticos y econométricos tradicionales. Para mayores consideraciones sobre estas cuestiones véase Castéran (2004). Gupta et al. (2006) utilizan una clasificación más compleja de enfoques de LTV consistente en: Modelos RFM, Modelos probabilísticos, Modelos econométricos, Modelos de persistencia, Modelos computacionales, Modelos de difusión/crecimiento. 28

Modelo Pareto/NBD Calcula P(activo) y predice el número de transacciones (individuales y acumulativas) Difícil de implementar Supuestos del modelo: Las compras siguen una distribución de Poisson con tasa de compra λ El tiempo de vida sigue una distribución exponencial con tasa μ Heterogeneidad de los clientes: Las tasas de compra y de deserciones tienen distribuciones gamma Tasas de compra y de deserciones son independientes Modelo: Entrada: Vector de parámetros θ=(r, α, s, β ) y vector de transacciones V=(X=x, t, T) Salida: P(Activo V, θ), E[V, T F, θ] 29 Modelo formulado por Schmittlein, Morrison y Colombo (1987). Es el modelo más conocido y referenciado. Conceptualmente simple aunque intrincado de implementar. Varios supuestos distribucionales. Entrada: Vector de parámetros θ=(r, α, s, β) (r, α): Parámetros de la distribución gamma de tasa de compras (s, β): Parámetros de la distribución gamma de la tasa de deserción Vector de transacciones V=(X=x, t, T): información de las compras individuales, donde x es el número de transacciones en el período (0, T] y t es el tiempo de la última compra. Salida: P(Activo V, θ): probabilidad de que un cliente todavía está activo dado un patrón individual de compra y parámetros del modelo E[V, T F, θ]: Número esperado de compras dado un patrón individual de compra y parámetros del modelo 29