Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one con sus clientes. Las empresas recogen datos de todos lo procesos. Los datos recogidos se tienen que analizar, comprender y convertir en información con la que se pueda actuar y aquí es donde Data Mining juega su papel Data Mining proporciona la Inteligencia El Data Warehouse proporciona los datos. La inteligencia permitirá buscar en esos datos tratando de encontrar patrones, descubrir reglas, nuevas ideas que probar, y hacer predicciones acerca del futuro Se estudiarán las técnicas y herramientas que añaden la inteligencia al data warehouse para explotar los datos de los clientes y sacar el máximo rendimiento Como nos ayudan? Definición Intuitiva Qué clientes permanecerán fieles? Qué clientes están a punto de abandonar? Dónde debemos localizar la próxima sucursal? Qué productos se deben promocionar a qué prospectos?... Las respuestas a estas preguntas están enterradas en los datos y se necesitan las técnicas de Data Mining para buscarlas Data Mining (en este contexto) en el análisis y exploración, por medios automáticos o semiautomáticos de grandes cantidades de datos para descubrir patrones significativos (útiles), y reglas. La meta es permitir a la organización mejorar sus ventas, sus campañas de marketing, las operaciones de soporte a los clientes, a través de una mejor comprensión de sus clientes 1
Definición Qué es Data Mining? Es una de las actividades principales asociadas a la comprensión, navegación y explotación de los datos en el nuevo mundo digital Automatiza el proceso de identificación y descubrimiento de estructuras útiles en los datos Por qué ahora? Las técnicas que se verán existían hace años pero la convergencia de los siguientes factores: Cantidad de datos producida Los datos están integrados (data warehouse) La potencia de los ordenadores Fuerte presión de la competencia Software de data mining ha hecho que ahora se vuelva a hablar de ellas Cómo se usa Data Mining hoy? Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta de mailings Campañas de adquisición de clientes Parte II: El ciclo de Data Mining El ciclo de data mining Importante Medir los resultados Identificar un problema Actuar basándonos en la información Usar data mining para transformar los datos en información La promesa de Data Mining es encontrar los patrones Simplemente el hallazgo de los patrones no es suficiente Debemos ser capaces de entender los patrones. responder a ellos, actuar sobre ellos, para finalmente convertir los datos en información, la información en acción y la acción en valor para la empresa 2
Data Mining es un proceso El Proceso de KDD Data Mining es un proceso que se tiene que centrar en las acciones derivadas del descubrimiento de conocimiento no en el mecanismo de descubrimiento en si mismo. Aunque los algoritmos son importantes, la solución es más que un conjunto de técnicas y herramientas. Las técnicas se tienen que aplicar en el caso correcto a los datos correctos CODIFICACIÓN LIMPIEZA SELECCIÓN Datos INTERPRETACIÓN Y EVALUACIÓN DATA MINING Conocimiento Modelos Datos Transformados Datos Procesados Datos objetivo Estándar de proyecto de Data Mining: Crisp-DM Comprensión del problema (I) Implantación Compresión del problema Evaluación Compresión de los datos. Preparación de los datos Modelado Comprensión de los objetivos y requerimientos del proyecto desde una perspectiva de negocio, convertir este conocimiento en una definición de un problema de data mining y en un plan preliminar diseñado para alcanzar los objetivos Comprensión del problema (II) Fases y salidas: Determinar los objetivos del negocio Antecedentes Objetivos del negocio Criterios de éxito del proyecto (perspectiva del negocio) Evaluar la situación Recursos, Requerimientos, suposiciones, restricciones Riesgos y contingencias Terminología Costes y beneficios Comprensión del problema (III) Fases y salidas: Determinar las metas de Data Mining Metas de data mining Criterios de éxito (perspectiva de data mining) Producir un plan de proyecto Plan de proyecto Evaluación inicial de herramientas y técnicas disponibles 3
Comprensión de los datos La fase de comprensión de los datos comienza con una colección de datos inicial y realiza actividades para familiarizarse con los datos, identificar problemas de calidad para descubrir las primeras características de los datos o detectar subconjuntos para realizar las primeras hipótesis sobre la información oculta Comprensión de los datos (II) Conseguir el conjunto inicial de datos Informe inicial sobre los datos Describir los datos Informe con la descripción de los datos Explorar los datos Informe acerca de la exploración de los datos Verificar la Calidad de los datos Informe acerca de la calidad de los datos Comprensión de datos: tareas a realizar Selección de las fuentes Estudiar los datos Establecer los metadatos Establecer el tipo de las variables: Cuantitativas Cualitativas Establecer la caducidad de cada dato: vida de las variables Estudio de los datos El mundo que nos rodea consiste de objetos que percibimos y lo que interesa es descubrir las relaciones entre los objetos Los objetos tienen unas características que son las que se van a analizar Las medidas tienen un período de caducidad y se toman en unas circunstancias Tipos de datos Generalmente se hace la distinción en : Cuantitativas. Se distinguen a su vez en Discretas (número de empleados) Continuas (sueldo,...) Cualitativas. Se pueden distinguir: Nominales. Nombrar el objeto al que se refieren (estado civil, género) Ordinales. Se puede establecer un orden en sus valores (alto, medio, bajo) Preparación de los datos Cubre todas las actividades de construcción del conjunto final de datos (datos entrada de los algoritmos de Data mining), desde el conjunto inicial de datos. Es posible que estas actividades se tengan que realizar múltiples veces y sin orden determinado. Entre las tareas destacan las de selección de tablas, atributos, registros, asi como las de transformación y limpieza de los datos. 4
Preparación de los datos (II) Entradas Conjunto de datos Descripción del conjunto de datos Selección de datos Informe de los motivos de la selección Limpieza de datos Informe de la limpieza de los datos Preparación de los datos (III) Fases y Salidas (cont.): Construir el conjunto de datos Atributos derivados Registros generados Integrar los datos Datos integrados Formato de los datos Datos con nuevo formato Preparación de los datos Asegurar la calidad de los datos Los datos no fueron recogidos para tareas de Data Mining Datos pobres, inconsistentes Numerosas fuentes, diferentes sistemas Funciones Revisión de los datos Tratamiento de Valores nulos e información incompleta Preparación: Revisión de los datos Métodos estadísticos y de visualización 90 Variables categóricas: 80 70 60 50 Distribución de variables 40 30 20 Histogramas 10 0 Pie charts Variables cualitativas Media, varianza, moda 100 90 80 70 Scaterplots, boxplots... 60 1er trim. 2do trim. 3er trim. 50 40 30 20 10 0 0 2 4 6 Este Oeste Norte Este Oeste Norte 1e r 2d o Preparación: Información incompleta Preparación Transformación Valores atípicos ( outliers ): Su tratamiento depende de su naturaleza Se pueden eliminar en el proceso de carga del data warehouse Valores nulos: (ninguna de las técnicas es perfecta) Eliminar las observaciones con nulos Eliminar las variables con muchos nulos Utilizar un modelo predictivo Conseguir una la visión integrada, consistente y consolidada de los datos Los datos hay que refinarlos para que cumplan con los requisitos de entrada de los algoritmos: Conversión de variables Reducción /adición de variables Discretización / generalización 5
Modelado En esta fase se seleccionan distintas técnicas de minería y se aplican calibrando sus parámetros para conseguir los valores óptimos. Hay distintas técnicas para el mismo tipo de problema la diferencia muchas veces radica en los requisitos que han de cumplir los datos de entrada por ello a menudo es necesario volver a la fase de preparación de datos. Modelado (II) Selección de la técnica de modelado Técnica elegida Requisitos de la técnica elegida Generar un diseño de prueba Diseño de prueba Construir el modelo Parámetros elegidos Modelo y descripción Evaluar el modelo Evaluación del modelo Parámetros revisados Evaluación En este momento se dispone de al menos un modelo que parece tener buena calidad desde la perspectiva del análisis de datos. Antes de la implantación es importante revisar el proceso para cerciorarse de que también ha logrado los objetivos de negocio. Es importante en este punto determinar si algún aspecto de negocio no ha sido tenido suficientemente en consideración. Al final de la fase se tendrá la decisión sobre el uso de los resultados de minería. Evaluación (II) Evaluar los resultados Contrastar los resultados de minería con los criterios de éxito del negocio Modelos aprobados Proceso de revisión Revisión del proceso Determinar los pasos siguientes Lista de posibles acciones futuras Decisión sobre la implantación Implantación La creación del modelo no es el final del proyecto. Incluso cuando se trata de incrementar el conocimientos, este se tiene que poner en orden y presentarlo de manera que se pueda hacer uso del mismo. Esta fase por tanto, puede ser tan simple como la generación de un informe o tan compleja como la implantación de un proceso de minería en toda la empresa. Es importante que al cliente se le deje claro las acciones necesarias para hacer uso efectivo del los modelos obtenidos. Implantación (II) Desarrollo del plan de implantación Plan de Implantación Desarrollo del plan de monitorización y mantenimiento Plan de seguimiento Realización del informe final Informe final Revisión del proyecto Experiencia Documentación 6
Resumen Data Mining es un proceso Todas las fases son igualmente importantes Sin una preparación adecuada los resultados perderán calidad 7