Data Mining Técnicas y herramientas Introducción
POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos se tienen que analizar, comprender y convertir en información: rol Data Mining
Data Mining proporciona la Inteligencia El Data Warehouse proporciona datos. Data Mining: Búsqueda de patrones, reglas, nuevas ideas que probar, predicciones Técnicas y herramientas añaden inteligencia al datawarehouse para explotar los datos y sacar el máximo rendimiento
Como nos ayudan? clientes permanecerán fieles? clientes están a punto de abandonar? Dónde localizar la próxima sucursal? Qué productos se deben promocionar y cómo? Las respuestas a estas preguntas están ocultas en los datos y técnicas de Data Mining para búsqueda
Definición Intuitiva Data Mining (en este contexto) en el análisis y exploración, por medios automáticos o semiautomáticos de grandes cantidades de datos para descubrir patrones significativos (útiles), y reglas.
Definición Qué es Data Mining? Es una de las actividades principales asociadas a la comprensión, navegación y explotación de los datos en el nuevo mundo digital Automatiza el proceso de identificación y descubrimiento de estructuras útiles en los datos
Por qué ahora? Las técnicas existentes. Convergencia de los siguientes factores: Cantidad de datos producida Los datos están integrados (data warehouse) La potencia de cómputo Fuerte presión de la competencia Software de data mining disponible
Cómo se usa Data Mining hoy? Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta de mailings Campañas de captación de clientes
El ciclo de Data Mining
El ciclo de data mining Identificar un problema Medir los resultados Usar data mining para transformar los datos en información Actuar basándonos en la información
Importante Promesa de Data Mining: encontrar los patrones Hallar patrones no es suficiente Necesidad de entenderlos, actuar, convertir los datos en información, la información en acción y la acción en valor para la organización
Data Mining es un proceso Data Mining proceso centrado en acciones derivadas del descubrimiento de conocimiento no en el mecanismo de descubrimiento en si mismo. Algoritmos son importantes, la solución es más que un conjunto de técnicas y herramientas. Las técnicas se tienen que aplicar en el caso correcto a los datos correctos
El proceso de KDD INTERPRETACIÓN Y EVALUACIÓN DATA MINING Conocimiento CODIFICACIÓN Modelos LIMPIEZA Datos Transformados SELECCIÓN Datos Procesados Datos Datos objetivo
Estándar de proyecto de Data Mining: Crisp-DM!
Comprensión del problema (I) Comprensión de los objetivos y requerimientos del proyecto desde una perspectiva de negocio. Convertir conocimiento en la definición de un problema de data mining y en un plan preliminar diseñado para alcanzar los objetivos
Comprensión del problema (II) Fases y salidas: Determinar los objetivos del negocio Antecedentes Objetivos del negocio Criterios de éxito del proyecto (perspectiva del negocio)
Comprensión del problema (II) Evaluar la situación Recursos Requerimientos, supuestos, restricciones Riesgos y contingencias Terminología Costos y beneficios
Comprensión del problema (III) Fases y salidas: Determinar metas de Data Mining Metas de data mining Criterios de éxito (perspectiva de data mining)
Comprensión del problema (III) Producir un plan de proyecto Plan de proyecto Evaluación inicial de herramientas y técnicas disponibles "
Comprensión de los datos Inicio: colección de datos inicial Objetivo: familiarizarse con los datos, identificar problemas de calidad para descubrir las primeras características de los datos o detectar subconjuntos para proponer hipótesis iniciales
Comprensión de los datos (II) Fases y Salidas: Conseguir el conjunto inicial de datos Informe inicial sobre los datos Describir los datos Informe con la descripción de los datos Explorar los datos Informe de la exploración de los datos Verificar la Calidad de los datos Informe de la calidad de los datos
Comprensión de datos: tareas a realizar Selección de las fuentes Estudiar los datos Establecer los metadatos Establecer el tipo de las variables: Cuantitativas Cualitativas Establecer la caducidad de cada dato: vida de las variables
Estudio de los datos Interés: descubrir las relaciones entre los objetos fuente: características de objetos a analizar Las medidas tienen un período de caducidad y se toman en unas circunstancias
Cuantitativas Tipos de datos Discretas (número de empleados) Continuas (sueldo,...) Cualitativas. Nominales (estado civil, género) Ordinales orden en sus valores (alto, medio, bajo)
Preparación de los datos Propósito: construcción del conjunto final de datos (datos entrada de los algoritmos de Data mining), a partir el conjunto inicial de datos. Incluye seleccionar tablas atributos y registros transformación y limpieza de los datos.
Preparación de los datos (II) Entradas Conjunto de datos Descripción del conjunto de datos Fases y Salidas Selección de datos Justificación de la selección Limpieza de datos Informe proceso limpieza
Preparación de los datos (III) Fases y Salidas (cont.) Construir el conjunto de datos Atributos derivados Registros generados Integrar los datos Datos integrados Formato de los datos Datos con nuevo formato
Preparación de los datos Asegurar calidad de los datos Datos no fueron recogidos para tareas de Data Mining Datos pobres, inconsistentes Numerosas fuentes, diferentes sistemas Funciones Revisión de los datos Tratamiento de Valores nulos e información incompleta
Preparación: Revisión de los datos " Métodos estadísticos y de visualización 90 80 70 Variables categóricas: 60 50 Este 40 Oeste 30 Norte 20 Distribución de variables 10 0 1er trim. 2do trim. 3er trim. Histogramas T1 Pie charts T2 T3 Variables cualitativas 100 T4 90 80 70 60 Este Media, varianza, moda 50 Oeste 40 Norte 30 20 10 0 Scaterplots, boxplots... 0 2 4 6
Preparación: Información incompleta Valores atípicos ( outliers ): Tratamiento depende de su naturaleza Se pueden eliminar en el proceso de carga del data warehouse Valores nulos: (ninguna de las técnicas es perfecta) Eliminar las observaciones con nulos Eliminar las variables con muchos nulos Utilizar un modelo predictivo
Preparación Transformación Conseguir una la visión integrada, consistente y consolidada de los datos Necesidad de refinar datos de acuerdo con los requisitos de entrada de los algoritmos: Conversión de variables Reducción /adición de variables Discretización / generalización
Modelado Propósito seleccionar técnicas de minería a aplicar calibrar parámetros para conseguir los valores óptimos. distintas técnicas para el mismo tipo de problema diferencia en los requisitos de datos de entrada. Necesidad de volver a la fase de preparación de datos.
Modelado (II) Fases y Salidas Selección de la técnica de modelado Técnica elegida Requisitos de la técnica elegida Generación diseño de prueba Diseño de prueba
Modelado (II) Fases y Salidas Construir el modelo Parámetros elegidos Modelo y descripción Evaluar el modelo Evaluación del modelo Parámetros revisados
Evaluación modelo disponible de buena calidad desde la perspectiva del análisis de datos. verificación cumplimiento de objetivos de organización. determinar si algún aspecto no ha sido tenido suficientemente en consideración. resultado: decisión sobre el uso de los resultados de minería.
Evaluación (II) Fases y Salidas Evaluar los resultados Contrastar los resultados de minería con los criterios de éxito del negocio Modelos aprobados Proceso de revisión Revisión del proceso Determinar los pasos siguientes Lista de posibles acciones futuras Decisión sobre la implantación
Implantación Fase puede ser tan simple como la generación de un informe o tan compleja como la implantación de un proceso de minería en toda la empresa.
Implantación (II) Fases y Salidas Desarrollo del plan de implantación Plan de Implantación Desarrollo del plan de monitorización y mantenimiento Plan de seguimiento Realización del informe final Informe final Revisión del proyecto Experiencia Documentación
Resumen Data Mining es un proceso Todas las fases son igualmente importantes Sin una preparación adecuada los resultados perderán calidad "