Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Documentos relacionados

Minería de Datos. Índice. Raquel M. Crespo García. Julio Villena Román. Definición y conceptos Técnicas y modelos

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

Parte I: Introducción

Visión global del KDD

Habilidades y Herramientas para trabajar con datos

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

MINERIA DE DATOS Y Descubrimiento del Conocimiento

Data Mining Técnicas y herramientas

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

Minería de Datos. Vallejos, Sofia

Base de datos II Facultad de Ingeniería. Escuela de computación.

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

EPB 603 Sistemas del Conocimiento!"#$ %& $ %'

Trabajo final de Ingeniería

Minería de Datos. Vallejos, Sofia

CLASIFICACIÓN NO SUPERVISADA

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático?

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre

DISEÑO E IMPLEMENTACIÓN DE SOLUCIONES BUSINESS INTELLIGENCE CON SQL SERVER 2012

La inteligencia de marketing que desarrolla el conocimiento

Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler

Datamining Introducción

LOS CINCO GRADOS DE MADUREZ DE UN PROYECTO BI

MOLAP REALIZADO POR: JOSE E. TABOADA RENNA

SISTEMA DE INFORMACION GERENCIAL. Lic.Patricia Palacios Zuleta

MINERÍA DE DATOS Y DESCUBRIMIENTO DE CONOCIMIENTO (DATA MINING AND KNOWLEDGE DISCOVERY)

INTELIGENCIA DE NEGOCIOS. Business Intelligence. Alumno: Toledo Paucar Jorge

Sistemas de Sensación Segmentación, Reconocimiento y Clasificación de Objetos. CI-2657 Robótica M.Sc. Kryscia Ramírez Benavides

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Universidad acional Experimental Del Táchira Decanato de Docencia Departamento de Ingeniería en Informática

CURSO MINERÍA DE DATOS AVANZADO

Pontificia Universidad Católica de Chile Escuela de Ingeniería Departamento de Ingeniería Industrial y de Sistemas. Datamining Técnicas

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA JUSTIFICACIÓN OBJETIVO GENERAL OBJETIVOS ESPECÍFICOS

Introducción. Francisco J. Martín Mateos. Dpto. Ciencias de la Computación e Inteligencia Artificial Universidad de Sevilla

PLAN DE TRABAJO DOCENTE 2013

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

Introducción a la Minería de Datos (Data Mining)

Redes de Kohonen y la Determinación Genética de las Clases

Resultados de Marketing Directo Utilizando Conceptos de Segmentación. RFM: Recency, Frequency, Monetary Value.

Introducción al DataMining

El almacén de indicadores de proceso de negocio en ejecución

Fundamentos del diseño 3ª edición (2002)

Curso del Data Mining al Big Data

Darío Álvarez Néstor Lemo

Proceso del KDD (minería de datos o DataMining)

Web mining y obtención de información para la generación de

Un primer acercamiento a la CMDB.

SAQQARA. Correlación avanzada y seguridad colaborativa_

DATA WAREHOUSE DATA WAREHOUSE

Incorpora la localización en tu compañía. Mejora la rentabilidad con la solución Location Analytics de Esri

Finanzas e Investigación de Mercados"

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA

forma de entrenar a la nuerona en su aprendizaje.

INTELIGENCIA DE NEGOCIOS

Unidad 1. Fundamentos en Gestión de Riesgos

INTELIGENCIA EN REDES DE COMUNICACIONES

CONSTRUCCION DE INDICADORES DE GESTION Y HERRAMIENTAS OLAP PARA PEQUEÑAS Y MEDIANAS EMPRESAS

REPUTACIÓN LO QUE TOMA AÑOS CONSTRUIR PUEDE VERSE AFECTADO CRITICAMENTE POR UN SOLO EVENTO

Solicitar la competencia Business Intelligence Solutions

SAS Data Scientist. Plan de Formación

Evaluación, limpieza y construcción de los datos: un enfoque desde la inteligencia artificial

CMM - Capability Maturity Model. Estructura de CMM... Componentes de CMM. Estructura de CMM

BUSINESS INTELLIGENCE A TRAVÉS

Un presente y futuro de RR.HH. basado en datos: Aplicaciones de Data Mining en la Gestión de Personas. Prof. Lic. Juan M. Bodenheimer jb@instare.

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Parte 7: Análisis de los datos

Academia de la carrera de Licenciatura Informática del Instituto Tecnológico Aguascalientes

Título: Árboles de Decisión automáticos para el Pronóstico del Rendimiento Docente (aplicable al Control de Procesos).

Minería de Datos Web. 1 er Cuatrimestre Página Web. Prof. Dra. Daniela Godoy.

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:

Grado en Ingeniería Informática

CAPÍTULO IV METODOLOGÍA PARA EL CONTROL DE INVENTARIOS. En este capítulo se presenta los pasos que se siguieron para la elaboración de un sistema de

Aplicación de herramientas de inteligencia de negocios en modelamiento geometalúrgico

Botón menú Objetivo de la Minería de datos.

Figure 7-1: Phase A: Architecture Vision

Quienes Somos? Valor. Estrategia

Materia: Inteligencia de negocios

CONFIGURACIÓN Y DESARROLLO

Inteligencia de Negocio

Curso de Minería de Datos Instructor: Dr. Luis Carlos Molina Félix

Tópicos Avanzados de Análisis y Diseño INGENIERIA DE SOFTWARE ING. MA. MARGARITA LABASTIDA ROLDÁN

Capítulo 2. Técnicas de procesamiento digital de imágenes y reconocimiento de patrones.

ANEXO A - Plan de Proyecto EDT de la solución EDT GENERAL DEL PROYECTO1

Estos documentos estarán dirigidos a todas las personas que pertenezcan a equipos de implementación de Oracle BI, incluyendo a:

Business Intelligence

SÍLABO. : Electivo : Ingeniería de Sistemas : IS0806. : VIII Ciclo : 2 de Teoría y 2 de Práctica : 03 : Ninguno

Business Intelligence

Soluciones Integrales en Inteligencia de Negocios

Análisis y cuantificación del Riesgo

Metodología básica de gestión de proyectos. Octubre de 2003

Capítulo 2 Tecnología data warehouse

Microsoft SQL Server Conceptos.

opinoweb el poder de sus datos Descubra LA NECESIDAD DE PREDECIR

TOMA DE DECISIONES II

PREPARADO POR: FECHA DE EMISIÓN: FECHA DE VALIDACIÓN:

Transcripción:

Inteligencia en Redes de Comunicaciones Tema 7 Minería de Datos Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda {jvillena, rcrespo, rueda}@it.uc3m.es

Índice Definición y conceptos Técnicas y modelos IRC 2011/2012 1

Descubrimiento de conocimiento Para decidir cuál es la técnica más adecuada para una determinada situación es necesario distinguir el tipo de información que se desea extraer de los datos. Según su nivel de abstracción, el conocimiento contenido en los datos puede clasificarse en distintas categorías y requerirá una técnica más o menos avanzada para su recuperación: Fuente: Data Mining. DAEDALUS White Paper, Daedalus Data, Decisions and Language, S.A. (www.daedalus.es) IRC 2011/2012 2

Tipos de conocimiento Conocimiento evidente Conocimiento multi-dimensional Conocimiento oculto Conocimiento profundo Imagen original: P. Adriaans, D. Zantinge. Addison-Wesley: Data Mining, 1996. IRC 2011/2012 3

Tipos de conocimiento (2) (según su nivel de abstracción) Conocimiento evidente Información fácilmente recuperable mediante una simple consulta SQL Un ejemplo de este tipo de conocimiento es una pregunta como Cuántos alumnos obtuvieron su título en la UC3M en el año 2011? o Cuál es la nota media de mis alumnos?. Técnica: consulta SQL IRC 2011/2012 4

Tipos de conocimiento (3) (según su nivel de abstracción) Conocimiento multi-dimensional El siguiente nivel de abstracción consiste en considerar los datos con una cierta estructura. Por ejemplo, en vez de considerar cada transacción individualmente, las ventas de una compañía pueden organizarse en función del tiempo y de la zona geográfica, y analizarse con diferentes niveles de detalle (país, región, localidad...). Técnicamente, se trata de reinterpretar una tabla con n atributos independientes como un espacio n-dimensional, lo que permite detectar algunas regularidades difíciles de observar con la representación monodimensional clásica. Este tipo de información es la que analizan las herramientas OLAP, que resuelven de forma automática cuestiones como Cuáles fueron las ventas en España el pasado marzo? Aumentar el nivel de detalle: mostrar las de Madrid. Técnica: OLAP (análisis multidimensional) Fuente: Data Mining. DAEDALUS White Paper, Daedalus Data, Decisions and Language, S.A. (www.daedalus.es) IRC 2011/2012 5

Tipos de conocimiento (3) (según su nivel de abstracción) Conocimiento oculto Información no evidente, desconocida a priori y potencialmente útil Que puede recuperarse mediante técnicas de minería de datos, como reconocimiento de regularidades o algoritmos de aprendizaje automático Esta información es de gran valor, puesto que no se conocía y se trata de un descubrimiento real de nuevo conocimiento, del que antes no se tenía idea y que abre la posibilidad de descubrir una nueva visión del problema. Un ejemplo de este tipo de información sería Qué tipos de clientes tenemos? Cuál es el perfil típico de cada clase de usuario?. Técnica: minería de datos Fuente: Data Mining. DAEDALUS White Paper, Daedalus Data, Decisions and Language, S.A. (www.daedalus.es) IRC 2011/2012 6

Tipos de conocimiento (3) (según su nivel de abstracción) Conocimiento profundo Información que está almacenada en los datos, pero que resulta imposible de recuperar a menos que se disponga de alguna clave que oriente la búsqueda Un ejemplo típico sería un mensaje cifrado. Es fácil recuperar la información codificada si se dispone de la clave, pero imposible o muy difícil si no se tiene. IRC 2011/2012 7

Aprender Objetivo: Construir un sistema computacional que sea capaz de encontrar y modelar el conocimiento oculto que a los seres humanos nos resulta difícil ver Cómo? Dotando a ese sistema de algoritmos o técnicas que imiten la cualidad humana del aprendizaje, esto es, ser capaz de extraer nuevos conocimientos a partir de las experiencias (ejemplos) IRC 2011/2012 8

KD Knowledge Discovery is the nontrivial extraction of implicit, previously unknown and potentially useful information from data W. J. Frawley, G.Piatetsky-Shapiro, C. J. Matheus IRC 2011/2012 9

KDD Knowledge Discovery in Databases: nombre técnico con que se denomina al proceso global de extracción de conocimiento de bases de datos IRC 2011/2012 10

Data Mining La minería de datos comprende una serie de técnicas, algoritmos y métodos cuyo fin es la explotación de grandes volúmenes de datos con vistas al descubrimiento de información previamente desconocida y que pueda servir de ayuda en el proceso de toma de decisiones, formando parte del conjunto de tecnologías de la Inteligencia de Negocio IRC 2011/2012 11

Business Intelligence Realización eficiente de todas las actividades relacionadas con la generación, extracción, organización, análisis, compartición y distribución del conocimiento de una organización IRC 2011/2012 12

Datos, Información y Conocimiento Conocimiento: capacidad de convertir datos e información en acciones efectivas IRC 2011/2012 13

Objetivo Poner al alcance de cada individuo lo que necesita en el momento preciso para que su actividad sea efectiva IRC 2011/2012 14

Arquitectura tecnológica Reservas Facturas Inventario Base de datos operacional Integración y carga de datos DataWarehouse Modelo de datos multidimensional Análisis OLAP Query & Reporting Informes de negocio Toma de decisiones Pedidos Catálogo Clientes Base de datos operacional Fuentes de datos externas Motor de minería de datos Segmentación Asociaciones Predicción IRC 2011/2012 15

Verificación vs. descubrimiento Verificación 1. Elaborar una hipótesis sobre la existencia de una información de interés 2. Convertir la hipótesis en una consulta 3. Ejecutar la consulta contra un sistema de información 4. Interpretar los resultados 5. Refinar la hipótesis y repetir la ejecución Descubrimiento 1. Identificar un objetivo o problema de negocio 2. Habilitar un acceso a los datos de interés y acondicionarlos 3. Seleccionar una técnica de explotación de los datos adecuada para el problema 4. Ejecutar la técnica contra los datos 5. Interpretar los resultados Las técnicas de minería de datos son herramientas que facilitan el descubrimiento de la información IRC 2011/2012 16

Proceso de minería de datos Conocimiento Modelo Conocimiento Interpretación Evaluación Extracción de conocimiento Selección de características Datos Preprocesado Selección Base de datos IRC 2011/2012 17

Metodología CRISP-DM CRoss Industry Standard Process for Data Mining Comprensión ámbito aplicación Comprensión Datos Preprocesado Datos Aplicación Datos Modelado Evaluación Imagen original: http://www.crisp-dm.org/ IRC 2011/2012 18

Dominios de aplicación Aplicaciones en campos muy diversos Medicina Economía Comercio Marketing Telecomunicaciones Seguridad Etc. IRC 2011/2012 19

Herramientas Comerciales Intelligent Miner / DB2 Data Warehouse Edition (IBM) Clementine (SPSS) Enterprise Miner (SAS) DataEngine De código libre Weka IRC 2011/2012 20

IBM Intelligent Miner Imagen original: ibm.com IRC 2011/2012 21

SPSS Modeler (antes Clementine) Imagen original: ibm.com IRC 2011/2012 22

SAS Enterprise Miner Imagen original: sas.com IRC 2011/2012 23

MIT DataEngine Fuente: DataEngine, MIT GmbH IRC 2011/2012 24

MIT DataEngine (2) Fuente: DataEngine, MIT GmbH IRC 2011/2012 25

Weka Imagen original: Weka Knowledge Explorer (http://www.cs.waikato.ac.nz/~ml/weka/gui_explorer.html) http://www.cs.waikato.ac.nz/~ml/sounds/weka-long.au IRC 2011/2012 26

Weka (2) Imagen original: Weka Knowledge Explorer (http://www.cs.waikato.ac.nz/~ml/weka/gui_explorer.html) IRC 2011/2012 27

Enfoque multidisciplinar Enfoque integrador multidisciplinar Aprendizaje Métodos analíticos Minería de datos Estadística Diferentes técnicas según el tipo de información a extraer Bases de datos Enfoques gráficos IRC 2011/2012 28

Técnicas de minería de datos Técnicas descriptivas Orientadas a describir un conjunto de datos Técnicas predictivas Orientadas a estimar valores de salida Técnicas de modelado Orientadas a la comprensión del sistema: obtener una representación del sistema que permita imitar su comportamiento Emplea cualquier técnica que no funcione como caja negra Agrupamiento Árboles de decisión Análisis de secuencias/asociaciones IRC 2011/2012 29

Técnicas de extracción de conocimiento Técnicas descriptivas Segmentación de datos Agrupación no supervisada de clientes Categorización automática de sucursales Clasificación Asignación de nuevos clientes a segmentos predefinidos Identificación de alarmas Análisis de asociaciones Análisis de venta cruzada de productos Correlación de hábitos de consumo en base a su ocurrencia Técnicas predictivas Análisis de patrones secuenciales Detección de secuencias de compra en el tiempo Análisis de similitud en series temporales Identificación de pautas de compra en el tiempo Predicción Asignación de probabilidades de fraude con tarjetas Estimación de la demanda y el rendimiento por cliente IRC 2011/2012 30

Segmentación Para la agrupación automática de registros que comparten rasgos similares (no supervisados), existen diversas técnicas: Segmentación o clustering El nº de segmentos se determina durante la ejecución del algoritmo Procesa tanto variables cuantitativas como cualitativas Maximiza la similitud entre los miembros de un mismo segmento y las diferencias entre los miembros de segmentos diferentes, en base a métricas de similitud, no de distancia Es eficiente para la detección de nichos de registros Segmentación neuronal (mapas autoorganizativos de Kohonen) Es necesario predefinir el nº de segmentos que se desean obtener y su distribución bidimensional Procesa tanto variables cualitativas como cuantitativas, aunque funciona mejor cuando dominan estas últimas Es eficiente cuando se desea particionar una población imponiendo cierta relación entre los segmentos obtenidos IRC 2011/2012 31

Clasificación Como métodos de clasificación supervisada (predicción de variables cualitativas), algunas técnicas son: Clasificación basada en árboles de decisión Modelo de clasificación en forma de árbol de decisión Procesando tanto variables cuantitativas como cualitativas Técnicas de podado, que proporciona árboles de menor tamaño Son escalables, pudiendo procesar conjuntos con independencia del número de clases, atributos y registros Clasificación neuronal Basada en redes neuronales de propagación hacia atrás Detecta de forma automática la topología más adecuada para cada problema, aunque permite especificar una concreta Realiza un análisis de sensibilidad para detectar las variables más significativas para cada topología IRC 2011/2012 32

Predicción Para la estimación de variables cuantitativas, los métodos más empleados son: Funciones de base radial Pueden procesar variables cuantitativas y cualitativas a la vez Detecta el número de centroides óptimo, predefiniendo el número máximo de éstos y el número mínimo de registros asignados a cada centro Funciona especialmente bien cuando la estructura de los datos tiende a agruparse en conjuntos, ya que implementa cierto tipo de segmentación Predicción neuronal Basada en redes neuronales de propagación hacia atrás Detecta de forma automática la topología más adecuada para cada problema, aunque permite especificar una concreta Permite predecir datos en forma de series temporales Permite implementar regresión logística IRC 2011/2012 33

Análisis de asociaciones Los análisis de asociaciones y patrones secuenciales permiten extraer información desconocida de los hábitos de compra: Análisis de asociaciones Detecta elementos en una transacción que implican la presencia de otros elementos en ésta misma Expresa las afinidades entre elementos en forma de reglas de asociación XY, facilitando una serie de métricas como el soporte y confianza Patrones secuenciales Detectan patrones entre transacciones, lo que permite optimizar las ventas a lo largo del tiempo Análisis de similitud en series temporales Detecta todas las ocurrencias de secuencias similares en una colección de series temporales IRC 2011/2012 34

Equipo de trabajo Para lograr un resultado óptimo en un proyecto de minería de datos, el equipo de trabajo debe incluir: expertos en manipulación de datos expertos en inteligencia artificial y en algoritmos de extracción de conocimiento conocedores del dominio de aplicación o con habilidades para comunicarse con los expertos analistas de negocio Query & reporting Datawarehouse Minería de datos Herramienta de decisión Bases de datos Ingeniería de datos Analista de negocio Usuario de negocio Administrador de BD IRC 2011/2012 35

Esfuerzo requerido Adquisición de datos 40% Limpieza y transformación de datos 10% Preprocesado de datos 30% Minería de datos (modelado) 5% IRC 2011/2012 36

Submodelos En la mayoría de las ocasiones, un único modelo no sirve para representar el sistema completo de manera fiable Lo habitual es aplicar la técnica de divide y vencerás y construir submodelos que cubren aspectos parciales del sistema Estos submodelos en conjunto resultan más precisos o, al menos, acotan de forma más precisa el error en los aspectos que cubren Para realizar la división en submodelos, se suele aplicar segmentación (clustering) y luego se construye un modelo de predicción para cada uno de los grupos encontrados IRC 2011/2012 37

Segmentación + Predicción El proceso habitual suele ser una primera segmentación de la población en grupos, y luego aplicar a cada uno de ellos un modelo adaptado, por ejemplo de predicción. Así el modelo de cada grupo será mejor que si hubiera un único modelo para toda la población. Matriz de datos ID Hogar V. Hogar ID Hogar Nº Miembros Provincia CodPostal Zona Buzoneo 12345677 9912341234 Matrices de Minería Conjunto Entrenamiento ID HOGAR V. Hogar V. Pedido V. Tienda V. Objetivo ID Hogar Antigüedad VP012001 VDZ1990 VDJ2000 VDX012001Abandona Telepizza 12345677 1 9912341234 1 0 0 0 Modelo de segmentación Toda la Población Modelo de segmentación Para cada grupo Conjunto Entrenamiento ID HOGAR V. Hogar V. Pedido V. Tienda V. Objetivo ID Hogar Antigüedad VP012001 VDZ1990 VDJ2000 VDX012001Abandona Telepizza 12345677 1 9912341234 1 0 0 0 Conjunto Test/Prueba ID HOGAR V. Hogar V. Pedido V. Tienda V. Objetivo ID Hogar Antigüedad VP012001 VDZ1990 VDJ2000 VDX012001Abandona Telepizza 12345677 1 9912341234 1 0 0 0 good (m 7,r 1 ) (m 3,r 2 ) average bad Modelo predicción grupo N IRC 2011/2012 38