Parte I: Introducción



Documentos relacionados
Data Mining Técnicas y herramientas

Cómo se usa Data Mining hoy?

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

Seguimiento y evaluación

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

Elementos requeridos para crearlos (ejemplo: el compilador)

UNIVERSIDAD AUTONOMA DE GUADALAJARA ACP06 ALUMNO: JOSE ANGEL DEHESA JIMENEZ REGISTRO: C R M

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial

SERIE ESTRATEGIA COMERCIAL CRM. Lic. Guiomar Patricia González P.

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

Guía del sitio Evaluación de teamseoblasteo 1

Caso práctico de Cuadro de Mando con Tablas Dinámicas

El participante puede llevar a cabo el proceso de auto-comparación y sobre esa base reforzar los aspectos menos consistentes.

TEMA 2. FILOSOFÍA DE LOS GRÁFICOS DE CONTROL. Principios básicos de los gráficos de control. Análisis de patrones.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

Portafolio de Servicios y Productos

Su éxito se mide por la pertinencia y la oportunidad de la solución, su eficacia y eficiencia.

Contenido Derechos Reservados DIAN - Proyecto MUISCA

3. GESTIÓN DE CONFIGURACIÓN DE SOFTWARE

INFORME Nº1 PROPUESTA METODOLÓGICA Y PLAN DE TRABAJO DESARROLLO DE UN SISTEMA INTEGRADO DE GESTIÓN PARA EL GOBIERNO REGIONAL DE ATACAMA

Enfoque del Marco Lógico (EML)

IAP TÉCNICAS DE AUDITORÍA APOYADAS EN ORDENADOR (TAAO)

SERVICIOS. Reingeniería. Instalación / Puesta en marcha. Personalización. Cursos de formación. Servicio técnico. Servicio de mantenimiento

ANEXO A - Plan de Proyecto EDT de la solución EDT GENERAL DEL PROYECTO1

La inteligencia de marketing que desarrolla el conocimiento

CAPITULO 2 - POR QUÉ NECESITAN LAS EMPRESAS UN CUADRO DE MANDO INTEGRAL?

La calidad de los datos ha mejorado, se ha avanzado en la construcción de reglas de integridad.

BUSINESS INTELLIGENCE A TRAVÉS

CENTRO DE CONTACTO CON EL CLIENTE MÓDULO DE GESTIÓN DE ACTIVIDADES E INTERACCIONES

Prácticas ITIL para un mejor flujo de trabajo en el helpdesk

Norma ISO 14001: 2015

Índice INTERNET MARKETING 1

Formulación de Planificación Estratégica

HERRAMIENTAS DE LA CALIDAD

Experiencia de Cliente en el sector sanitario

PRESENTACIÓN CMMI: (CAPABILITY MATURITY MODEL INTEGRATION)

SISTEMA DE INFORMACION GERENCIAL. Lic.Patricia Palacios Zuleta

INTELIGENCIA DE NEGOCIOS

GUÍA PARA SISTEMAS DE RASTREABILIDAD

Master en Gestion de la Calidad

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Presentación de Pyramid Data Warehouse

Metodología básica de gestión de proyectos. Octubre de 2003

PROPUESTA METODOLOGICA PARA LA EDUCCIÓN DE REQUISITOS EN PROYECTOS DE EXPLOTACIÓN DE INFORMACIÓN

Metodología para el diseño de la estrategia de TI

INSTRODUCCION. Toda organización puede mejorar su manera de trabajar, lo cual significa un

Habilidades y Herramientas para trabajar con datos

PUBLICACIÓN INFORMATIVA DE LA ASOCIACIÓN ESPAÑOLA DE FINANCIEROS DE EMPRESA N 64. MARZO

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

INTRODUCCIÓN QUIÉNES SOMOS NUESTRO OBJETIVO

6 Anexos: 6.1 Definición de Rup:

FocalPoint Business Coaching

MINING SOLUTIONS LIMITADA

Mantenimiento de Sistemas de Información

Metodologías de Desarrollo de Sistemas de Información

UN PASEO POR BUSISNESS INTELLIGENCE

Diseño de un estudio de investigación de mercados

PREPARADO POR: FECHA DE EMISIÓN: FECHA DE VALIDACIÓN:

Gestión de Configuración del Software

Guía breve para la. administración de la capacitación en las. entidades públicas. Versión abreviada del Manual para la. entidades públicas

Indicaciones específicas para los análisis estadísticos.

Gestión de la Configuración

Unidad 1. Fundamentos en Gestión de Riesgos

MOLAP REALIZADO POR: JOSE E. TABOADA RENNA

ANÁLISIS DE RIESGOS EN LA GESTIÓN DE PROYECTOS. Los riesgos son eventos o condiciones inciertas que, si se producen, tienen un

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

POSICIONAMIENTO EN LA WEB (SEM Y SEO)

Diseño orientado al flujo de datos

La selección del mercado meta es esencialmente idéntica, sin importar si una firma vende un bien o servicio.

ERP GESTION LOGÍSTICA

INTRODUCCIÓN: Una Visión Global del Proceso de Creación de Empresas

Sistema de Gestión de la Seguridad de la Información, UNE-ISO/IEC 27001

Propuesta Matriz de Actividades para un Ciclo de Vida de Explotación de Datos

DE VIDA PARA EL DESARROLLO DE SISTEMAS

Bases de datos en Excel

Gestión y Desarrollo de Requisitos en Proyectos Software

GESTION OPERATIVA. Niveles de gestión

Guía Práctica para el Diseño de Proyectos Sociales

Introducción...3. Herramientas de diseño y seguimiento de los proyectos...3. El ciclo del proyecto...4. Identificación del proyecto...

PLAN DE MEJORAS. Herramienta de trabajo. Agencia Nacional de Evaluación de la Calidad y Acreditación

Sistema para Gestión Hotelera Visión

CAPITULO III MARCO METODOLÓGICO. Desde la perspectiva de Hurtado de Barrera (2008), el tipo de

Figure 7-1: Phase A: Architecture Vision

Aproximación práctica a ITIL. Proyecto VeredaCS. F r00

Qué es el Modelo CMMI?

PROCEDIMIENTO ESPECÍFICO. Código SB-V-01-1 Edición 0

activuspaper Text Mining and BI Abstract

Taller: Planificación Estratégica. Centro de Iniciativas Comunitarias y Base de Fe

Parámetros con la ventana de selección de usuario, reglas, texto y descomposición (IVE)

Estrategia de negocio basada en clientes: Software CRM

Interoperabilidad de Fieldbus

Anexo VI EVALUACIÓN DEL DESEMPEÑO

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

Escogiendo un sistema host

ANEXO : PERFILES. Guía de Comunicación Digital para la Administración General del Estado. ANEXO PERFILES

Implantación y Aceptación del Sistema

El Proceso Unificado de Desarrollo de Software

I N T E R P R E T A T I V O

Qué es SPIRO? Características

Salud de Activos Reflejo de la Estrategia de Mantenimiento

Transcripción:

Parte I: Introducción Introducción al Data Mining: su Aplicación a la Empresa Cursada 2007 POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one con sus clientes. Las empresas recogen datos de todos lo procesos. Los datos recogidos se tienen que analizar, comprender y convertir en información con la que se pueda actuar y aquí es donde Data Mining juega su papel Data Mining proporciona la Inteligencia El Data Warehouse proporciona los datos. La inteligencia permitirá buscar en esos datos tratando de encontrar patrones, descubrir reglas, nuevas ideas que probar, y hacer predicciones acerca del futuro Se estudiarán las técnicas y herramientas que añaden la inteligencia al data warehouse para explotar los datos de los clientes y sacar el máximo rendimiento Como nos ayudan? Definición Intuitiva Qué clientes permanecerán fieles? Qué clientes están a punto de abandonar? Dónde debemos localizar la próxima sucursal? Qué productos se deben promocionar a qué prospectos?... Las respuestas a estas preguntas están enterradas en los datos y se necesitan las técnicas de Data Mining para buscarlas Data Mining (en este contexto) en el análisis y exploración, por medios automáticos o semiautomáticos de grandes cantidades de datos para descubrir patrones significativos (útiles), y reglas. La meta es permitir a la organización mejorar sus ventas, sus campañas de marketing, las operaciones de soporte a los clientes, a través de una mejor comprensión de sus clientes 1

Definición Qué es Data Mining? Es una de las actividades principales asociadas a la comprensión, navegación y explotación de los datos en el nuevo mundo digital Automatiza el proceso de identificación y descubrimiento de estructuras útiles en los datos Por qué ahora? Las técnicas que se verán existían hace años pero la convergencia de los siguientes factores: Cantidad de datos producida Los datos están integrados (data warehouse) La potencia de los ordenadores Fuerte presión de la competencia Software de data mining ha hecho que ahora se vuelva a hablar de ellas Cómo se usa Data Mining hoy? Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta de mailings Campañas de adquisición de clientes Parte II: El ciclo de Data Mining El ciclo de data mining Importante Medir los resultados Identificar un problema Actuar basándonos en la información Usar data mining para transformar los datos en información La promesa de Data Mining es encontrar los patrones Simplemente el hallazgo de los patrones no es suficiente Debemos ser capaces de entender los patrones. responder a ellos, actuar sobre ellos, para finalmente convertir los datos en información, la información en acción y la acción en valor para la empresa 2

Data Mining es un proceso El Proceso de KDD Data Mining es un proceso que se tiene que centrar en las acciones derivadas del descubrimiento de conocimiento no en el mecanismo de descubrimiento en si mismo. Aunque los algoritmos son importantes, la solución es más que un conjunto de técnicas y herramientas. Las técnicas se tienen que aplicar en el caso correcto a los datos correctos CODIFICACIÓN LIMPIEZA SELECCIÓN Datos INTERPRETACIÓN Y EVALUACIÓN DATA MINING Conocimiento Modelos Datos Transformados Datos Procesados Datos objetivo Estándar de proyecto de Data Mining: Crisp-DM Comprensión del problema (I) Implantación Compresión del problema Evaluación Compresión de los datos. Preparación de los datos Modelado Comprensión de los objetivos y requerimientos del proyecto desde una perspectiva de negocio, convertir este conocimiento en una definición de un problema de data mining y en un plan preliminar diseñado para alcanzar los objetivos Comprensión del problema (II) Fases y salidas: Determinar los objetivos del negocio Antecedentes Objetivos del negocio Criterios de éxito del proyecto (perspectiva del negocio) Evaluar la situación Recursos, Requerimientos, suposiciones, restricciones Riesgos y contingencias Terminología Costes y beneficios Comprensión del problema (III) Fases y salidas: Determinar las metas de Data Mining Metas de data mining Criterios de éxito (perspectiva de data mining) Producir un plan de proyecto Plan de proyecto Evaluación inicial de herramientas y técnicas disponibles 3

Comprensión de los datos La fase de comprensión de los datos comienza con una colección de datos inicial y realiza actividades para familiarizarse con los datos, identificar problemas de calidad para descubrir las primeras características de los datos o detectar subconjuntos para realizar las primeras hipótesis sobre la información oculta Comprensión de los datos (II) Conseguir el conjunto inicial de datos Informe inicial sobre los datos Describir los datos Informe con la descripción de los datos Explorar los datos Informe acerca de la exploración de los datos Verificar la Calidad de los datos Informe acerca de la calidad de los datos Comprensión de datos: tareas a realizar Selección de las fuentes Estudiar los datos Establecer los metadatos Establecer el tipo de las variables: Cuantitativas Cualitativas Establecer la caducidad de cada dato: vida de las variables Estudio de los datos El mundo que nos rodea consiste de objetos que percibimos y lo que interesa es descubrir las relaciones entre los objetos Los objetos tienen unas características que son las que se van a analizar Las medidas tienen un período de caducidad y se toman en unas circunstancias Tipos de datos Generalmente se hace la distinción en : Cuantitativas. Se distinguen a su vez en Discretas (número de empleados) Continuas (sueldo,...) Cualitativas. Se pueden distinguir: Nominales. Nombrar el objeto al que se refieren (estado civil, género) Ordinales. Se puede establecer un orden en sus valores (alto, medio, bajo) Preparación de los datos Cubre todas las actividades de construcción del conjunto final de datos (datos entrada de los algoritmos de Data mining), desde el conjunto inicial de datos. Es posible que estas actividades se tengan que realizar múltiples veces y sin orden determinado. Entre las tareas destacan las de selección de tablas, atributos, registros, asi como las de transformación y limpieza de los datos. 4

Preparación de los datos (II) Entradas Conjunto de datos Descripción del conjunto de datos Selección de datos Informe de los motivos de la selección Limpieza de datos Informe de la limpieza de los datos Preparación de los datos (III) Fases y Salidas (cont.): Construir el conjunto de datos Atributos derivados Registros generados Integrar los datos Datos integrados Formato de los datos Datos con nuevo formato Preparación de los datos Asegurar la calidad de los datos Los datos no fueron recogidos para tareas de Data Mining Datos pobres, inconsistentes Numerosas fuentes, diferentes sistemas Funciones Revisión de los datos Tratamiento de Valores nulos e información incompleta Preparación: Revisión de los datos Métodos estadísticos y de visualización 90 Variables categóricas: 80 70 60 50 Distribución de variables 40 30 20 Histogramas 10 0 Pie charts Variables cualitativas Media, varianza, moda 100 90 80 70 Scaterplots, boxplots... 60 1er trim. 2do trim. 3er trim. 50 40 30 20 10 0 0 2 4 6 Este Oeste Norte Este Oeste Norte 1e r 2d o Preparación: Información incompleta Preparación Transformación Valores atípicos ( outliers ): Su tratamiento depende de su naturaleza Se pueden eliminar en el proceso de carga del data warehouse Valores nulos: (ninguna de las técnicas es perfecta) Eliminar las observaciones con nulos Eliminar las variables con muchos nulos Utilizar un modelo predictivo Conseguir una la visión integrada, consistente y consolidada de los datos Los datos hay que refinarlos para que cumplan con los requisitos de entrada de los algoritmos: Conversión de variables Reducción /adición de variables Discretización / generalización 5

Modelado En esta fase se seleccionan distintas técnicas de minería y se aplican calibrando sus parámetros para conseguir los valores óptimos. Hay distintas técnicas para el mismo tipo de problema la diferencia muchas veces radica en los requisitos que han de cumplir los datos de entrada por ello a menudo es necesario volver a la fase de preparación de datos. Modelado (II) Selección de la técnica de modelado Técnica elegida Requisitos de la técnica elegida Generar un diseño de prueba Diseño de prueba Construir el modelo Parámetros elegidos Modelo y descripción Evaluar el modelo Evaluación del modelo Parámetros revisados Evaluación En este momento se dispone de al menos un modelo que parece tener buena calidad desde la perspectiva del análisis de datos. Antes de la implantación es importante revisar el proceso para cerciorarse de que también ha logrado los objetivos de negocio. Es importante en este punto determinar si algún aspecto de negocio no ha sido tenido suficientemente en consideración. Al final de la fase se tendrá la decisión sobre el uso de los resultados de minería. Evaluación (II) Evaluar los resultados Contrastar los resultados de minería con los criterios de éxito del negocio Modelos aprobados Proceso de revisión Revisión del proceso Determinar los pasos siguientes Lista de posibles acciones futuras Decisión sobre la implantación Implantación La creación del modelo no es el final del proyecto. Incluso cuando se trata de incrementar el conocimientos, este se tiene que poner en orden y presentarlo de manera que se pueda hacer uso del mismo. Esta fase por tanto, puede ser tan simple como la generación de un informe o tan compleja como la implantación de un proceso de minería en toda la empresa. Es importante que al cliente se le deje claro las acciones necesarias para hacer uso efectivo del los modelos obtenidos. Implantación (II) Desarrollo del plan de implantación Plan de Implantación Desarrollo del plan de monitorización y mantenimiento Plan de seguimiento Realización del informe final Informe final Revisión del proyecto Experiencia Documentación 6

Resumen Data Mining es un proceso Todas las fases son igualmente importantes Sin una preparación adecuada los resultados perderán calidad 7