Data Mining Técnicas y herramientas



Documentos relacionados
Parte I: Introducción

Cómo se usa Data Mining hoy?

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial

Propuesta Matriz de Actividades para un Ciclo de Vida de Explotación de Datos

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

UN PASEO POR BUSISNESS INTELLIGENCE

CUESTIONARIO AUDITORIAS ISO

Habilidades y Herramientas para trabajar con datos

ANEXO A - Plan de Proyecto EDT de la solución EDT GENERAL DEL PROYECTO1

JUSTIFICACIÓN DEL DESARROLLO DE UN SE

UNIVERSIDAD AUTONOMA DE GUADALAJARA ACP06 ALUMNO: JOSE ANGEL DEHESA JIMENEZ REGISTRO: C R M

Elementos requeridos para crearlos (ejemplo: el compilador)

PRESENTACIÓN CMMI: (CAPABILITY MATURITY MODEL INTEGRATION)

Master en Gestion de la Calidad

Metodologías de Desarrollo de Sistemas de Información

3. GESTIÓN DE CONFIGURACIÓN DE SOFTWARE

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

6 Anexos: 6.1 Definición de Rup:

Seguimiento y evaluación

PROCEDIMIENTO ESPECÍFICO. Código G Edición 0

Metodología básica de gestión de proyectos. Octubre de 2003

MOLAP REALIZADO POR: JOSE E. TABOADA RENNA

Diseño de un estudio de investigación de mercados

MINING SOLUTIONS LIMITADA

La inteligencia de marketing que desarrolla el conocimiento

Calidad Escuela de Ingeniería de Sistemas y Computación Desarrol o de Software II Agosto Diciembre 2007

HERRAMIENTAS DE LA CALIDAD

Guía breve para la. administración de la capacitación en las. entidades públicas. Versión abreviada del Manual para la. entidades públicas

Contenido Derechos Reservados DIAN - Proyecto MUISCA

Capítulo IV. Manejo de Problemas

Qué es SPIRO? Características

BUSINESS INTELLIGENCE A TRAVÉS

Gestión de Configuración del Software

ANÁLISIS DE RIESGOS EN LA GESTIÓN DE PROYECTOS. Los riesgos son eventos o condiciones inciertas que, si se producen, tienen un

Salud de Activos Reflejo de la Estrategia de Mantenimiento

Mantenimiento de Sistemas de Información

El Proceso Unificado de Desarrollo de Software

LOS CINCO GRADOS DE MADUREZ DE UN PROYECTO BI

6.4 ESTRATEGIAS DE PRUEBA

PREPARADO POR: FECHA DE EMISIÓN: FECHA DE VALIDACIÓN:

Taller: Planificación Estratégica. Centro de Iniciativas Comunitarias y Base de Fe

Visión global del KDD

1. Aplica medidas de seguridad pasiva en sistemas informáticos describiendo características de entornos y relacionándolas con sus necesidades

Caso práctico de Cuadro de Mando con Tablas Dinámicas

OHSAS 18001: Sistema de Gestión de la Seguridad y Salud en el trabajo

Portafolio de Servicios y Productos

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Gestión de Proyectos TI

El participante puede llevar a cabo el proceso de auto-comparación y sobre esa base reforzar los aspectos menos consistentes.

La calidad de los datos ha mejorado, se ha avanzado en la construcción de reglas de integridad.

CMM - Capability Maturity Model. Estructura de CMM... Componentes de CMM. Estructura de CMM

INTELIGENCIA DE NEGOCIOS

-OPS/CEPIS/01.61(AIRE) Original: español Página Estructura del programa de evaluación con personal externo

Boletín de Asesoría Gerencial* Modelo Credit Scoring: Un paso hacia una gestión diferenciada y eficiente del riesgo de crédito

SERIE ESTRATEGIA COMERCIAL CRM. Lic. Guiomar Patricia González P.

Calidad de Sistemas de Información

Gestión y Desarrollo de Requisitos en Proyectos Software

Figure 7-1: Phase A: Architecture Vision

Diseño orientado al flujo de datos

Conceptos articuladores para el desarrollo de los proyectos del programa de Estudio. 1. Formulación de la situación problema.

Manual de Usuario Estadísticas Multidimensionales por Internet. Servicio de Rentas Internas Dirección Nacional de Planificación y Coordinación

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

CURSO BÁSICO DE MEDIO AMBIENTE

Recursos HELP DESK Biblioteca 2012

SISTEMA DE INFORMACION GERENCIAL. Lic.Patricia Palacios Zuleta

ARQUITECTURA TÉCNICA ASIGNATURA: MATERIALES DE CONSTRUCCIÓN II CURSO: APUNTES TEMA 1: CONTROL DE CALIDAD

Gestión de Riesgos en Proyectos

Ejemplo Manual de la Calidad

XXVI REUNION DE SISTEMATIZACION DE BANCOS CENTRALES AMERICANOS E IBERICOS. La Habana, Cuba, 26 al 30 de octubre de 1998

IAP TÉCNICAS DE AUDITORÍA APOYADAS EN ORDENADOR (TAAO)

TEMA 2. FILOSOFÍA DE LOS GRÁFICOS DE CONTROL. Principios básicos de los gráficos de control. Análisis de patrones.

GUÍA PARA SISTEMAS DE RASTREABILIDAD

INFORME Nº1 PROPUESTA METODOLÓGICA Y PLAN DE TRABAJO DESARROLLO DE UN SISTEMA INTEGRADO DE GESTIÓN PARA EL GOBIERNO REGIONAL DE ATACAMA

PROCEDIMIENTO PARA EL CONTROL DE REGISTROS. GESTIÓN DE CALIDAD Versión: 01

CURSO DE LEAN SIGMA TRANSACCIONAL PARA BLACK BELTS Dr. P. Reyes CURSO DE BLACK BELTS EN LEAN SIGMA TRANSACCIONAL

PROPUESTA METODOLOGICA PARA LA EDUCCIÓN DE REQUISITOS EN PROYECTOS DE EXPLOTACIÓN DE INFORMACIÓN

Servicio Business Intellingence integrado con Data Management & Big Data Del dato al conocimiento

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

Gestión de Empresas Visual e Interactiva E.R.P.

Norma ISO 14001: 2015

Modulo III: Metodologías - ISO con MOSS

SISTEMAS DE INFORMACIÓN I TEORÍA

CUESTIONARIO AUDITORIAS ISO

O jeto de apre r ndizaje

Test de Idioma Francés. Manual del evaluador

Sistema de Gestión de Proyectos Estratégicos.

Botón menú Objetivo de la Minería de datos.

COMITÉ TECNICO DE NORMALIZACION DE GESTION Y ASEGURAMIENTO DE LA CALIDAD

Gerenciamiento de Proyectos. Estándar PMI. Cambio Organizacional UDELAR

SISTEMAS DE INFORMACIÓN III TEORÍA

<Generador de exámenes> Visión preliminar

2. Despliega el cableado de una red local interpretando especificaciones y aplicando técnicas de montaje.

IMPLANTACIÓN DE UN SISTEMA DE GESTIÓN Y MEJORA DE LA EFICIENCIA ENERGÉTICA SEGÚN LA NORMA UNE-EN 16001

GUIA SOBRE LOS REQUISITOS DE LA DOCUMENTACION DE ISO 9000:2000

Administración de proyectos. Organizar, planificar y programar los proyectos de software

DESARROLLO DE SOFTWARE DEFINICIÓN GENERAL DEL PROCESO GABY LORENA GUERRERO LEYDI ROCIO ERAZO PABLO FELIPE MIRANDA WALTER ALEXIS ANTE

Transcripción:

Data Mining Técnicas y herramientas Introducción

POR QUÉ? Empresas necesitan aprender de sus datos para crear una relación one-toone con sus clientes. Recogen datos de todos lo procesos. Datos recogidos se tienen que analizar, comprender y convertir en información: rol Data Mining

Data Mining proporciona la Inteligencia El Data Warehouse proporciona datos. Data Mining: Búsqueda de patrones, reglas, nuevas ideas que probar, predicciones Técnicas y herramientas añaden inteligencia al datawarehouse para explotar los datos y sacar el máximo rendimiento

Como nos ayudan? clientes permanecerán fieles? clientes están a punto de abandonar? Dónde localizar la próxima sucursal? Qué productos se deben promocionar y cómo? Las respuestas a estas preguntas están ocultas en los datos y técnicas de Data Mining para búsqueda

Definición Intuitiva Data Mining (en este contexto) en el análisis y exploración, por medios automáticos o semiautomáticos de grandes cantidades de datos para descubrir patrones significativos (útiles), y reglas.

Definición Qué es Data Mining? Es una de las actividades principales asociadas a la comprensión, navegación y explotación de los datos en el nuevo mundo digital Automatiza el proceso de identificación y descubrimiento de estructuras útiles en los datos

Por qué ahora? Las técnicas existentes. Convergencia de los siguientes factores: Cantidad de datos producida Los datos están integrados (data warehouse) La potencia de cómputo Fuerte presión de la competencia Software de data mining disponible

Cómo se usa Data Mining hoy? Conocer a los clientes Detectar segmentos Calcular perfiles Cross-selling Detectar buenos clientes Evitar el churning, attrition Detección de morosidad Mejora de respuesta de mailings Campañas de captación de clientes

El ciclo de Data Mining

El ciclo de data mining Identificar un problema Medir los resultados Usar data mining para transformar los datos en información Actuar basándonos en la información

Importante Promesa de Data Mining: encontrar los patrones Hallar patrones no es suficiente Necesidad de entenderlos, actuar, convertir los datos en información, la información en acción y la acción en valor para la organización

Data Mining es un proceso Data Mining proceso centrado en acciones derivadas del descubrimiento de conocimiento no en el mecanismo de descubrimiento en si mismo. Algoritmos son importantes, la solución es más que un conjunto de técnicas y herramientas. Las técnicas se tienen que aplicar en el caso correcto a los datos correctos

El proceso de KDD INTERPRETACIÓN Y EVALUACIÓN DATA MINING Conocimiento CODIFICACIÓN Modelos LIMPIEZA Datos Transformados SELECCIÓN Datos Procesados Datos Datos objetivo

Estándar de proyecto de Data Mining: Crisp-DM!

Comprensión del problema (I) Comprensión de los objetivos y requerimientos del proyecto desde una perspectiva de negocio. Convertir conocimiento en la definición de un problema de data mining y en un plan preliminar diseñado para alcanzar los objetivos

Comprensión del problema (II) Fases y salidas: Determinar los objetivos del negocio Antecedentes Objetivos del negocio Criterios de éxito del proyecto (perspectiva del negocio)

Comprensión del problema (II) Evaluar la situación Recursos Requerimientos, supuestos, restricciones Riesgos y contingencias Terminología Costos y beneficios

Comprensión del problema (III) Fases y salidas: Determinar metas de Data Mining Metas de data mining Criterios de éxito (perspectiva de data mining)

Comprensión del problema (III) Producir un plan de proyecto Plan de proyecto Evaluación inicial de herramientas y técnicas disponibles "

Comprensión de los datos Inicio: colección de datos inicial Objetivo: familiarizarse con los datos, identificar problemas de calidad para descubrir las primeras características de los datos o detectar subconjuntos para proponer hipótesis iniciales

Comprensión de los datos (II) Fases y Salidas: Conseguir el conjunto inicial de datos Informe inicial sobre los datos Describir los datos Informe con la descripción de los datos Explorar los datos Informe de la exploración de los datos Verificar la Calidad de los datos Informe de la calidad de los datos

Comprensión de datos: tareas a realizar Selección de las fuentes Estudiar los datos Establecer los metadatos Establecer el tipo de las variables: Cuantitativas Cualitativas Establecer la caducidad de cada dato: vida de las variables

Estudio de los datos Interés: descubrir las relaciones entre los objetos fuente: características de objetos a analizar Las medidas tienen un período de caducidad y se toman en unas circunstancias

Cuantitativas Tipos de datos Discretas (número de empleados) Continuas (sueldo,...) Cualitativas. Nominales (estado civil, género) Ordinales orden en sus valores (alto, medio, bajo)

Preparación de los datos Propósito: construcción del conjunto final de datos (datos entrada de los algoritmos de Data mining), a partir el conjunto inicial de datos. Incluye seleccionar tablas atributos y registros transformación y limpieza de los datos.

Preparación de los datos (II) Entradas Conjunto de datos Descripción del conjunto de datos Fases y Salidas Selección de datos Justificación de la selección Limpieza de datos Informe proceso limpieza

Preparación de los datos (III) Fases y Salidas (cont.) Construir el conjunto de datos Atributos derivados Registros generados Integrar los datos Datos integrados Formato de los datos Datos con nuevo formato

Preparación de los datos Asegurar calidad de los datos Datos no fueron recogidos para tareas de Data Mining Datos pobres, inconsistentes Numerosas fuentes, diferentes sistemas Funciones Revisión de los datos Tratamiento de Valores nulos e información incompleta

Preparación: Revisión de los datos " Métodos estadísticos y de visualización 90 80 70 Variables categóricas: 60 50 Este 40 Oeste 30 Norte 20 Distribución de variables 10 0 1er trim. 2do trim. 3er trim. Histogramas T1 Pie charts T2 T3 Variables cualitativas 100 T4 90 80 70 60 Este Media, varianza, moda 50 Oeste 40 Norte 30 20 10 0 Scaterplots, boxplots... 0 2 4 6

Preparación: Información incompleta Valores atípicos ( outliers ): Tratamiento depende de su naturaleza Se pueden eliminar en el proceso de carga del data warehouse Valores nulos: (ninguna de las técnicas es perfecta) Eliminar las observaciones con nulos Eliminar las variables con muchos nulos Utilizar un modelo predictivo

Preparación Transformación Conseguir una la visión integrada, consistente y consolidada de los datos Necesidad de refinar datos de acuerdo con los requisitos de entrada de los algoritmos: Conversión de variables Reducción /adición de variables Discretización / generalización

Modelado Propósito seleccionar técnicas de minería a aplicar calibrar parámetros para conseguir los valores óptimos. distintas técnicas para el mismo tipo de problema diferencia en los requisitos de datos de entrada. Necesidad de volver a la fase de preparación de datos.

Modelado (II) Fases y Salidas Selección de la técnica de modelado Técnica elegida Requisitos de la técnica elegida Generación diseño de prueba Diseño de prueba

Modelado (II) Fases y Salidas Construir el modelo Parámetros elegidos Modelo y descripción Evaluar el modelo Evaluación del modelo Parámetros revisados

Evaluación modelo disponible de buena calidad desde la perspectiva del análisis de datos. verificación cumplimiento de objetivos de organización. determinar si algún aspecto no ha sido tenido suficientemente en consideración. resultado: decisión sobre el uso de los resultados de minería.

Evaluación (II) Fases y Salidas Evaluar los resultados Contrastar los resultados de minería con los criterios de éxito del negocio Modelos aprobados Proceso de revisión Revisión del proceso Determinar los pasos siguientes Lista de posibles acciones futuras Decisión sobre la implantación

Implantación Fase puede ser tan simple como la generación de un informe o tan compleja como la implantación de un proceso de minería en toda la empresa.

Implantación (II) Fases y Salidas Desarrollo del plan de implantación Plan de Implantación Desarrollo del plan de monitorización y mantenimiento Plan de seguimiento Realización del informe final Informe final Revisión del proyecto Experiencia Documentación

Resumen Data Mining es un proceso Todas las fases son igualmente importantes Sin una preparación adecuada los resultados perderán calidad "