Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP



Documentos relacionados
MOLAP REALIZADO POR: JOSE E. TABOADA RENNA

Aprendizaje Automático y Data Mining. Bloque IV DATA MINING

Visión global del KDD

Introducción a la Minería de Datos

Capítulo 2 Tecnología data warehouse

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

Tema 1. Conceptos básicos

DISEÑO E IMPLEMENTACIÓN DE SOLUCIONES BUSINESS INTELLIGENCE CON SQL SERVER 2012

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre

Definición. Data Warehousing: almacenamiento, transformación y distribución de datos útiles para los responsables de tomar decisiones 9/29/2006 4

Trabajo final de Ingeniería

Minería de datos (Introducción a la minería de datos)

Base de datos II Facultad de Ingeniería. Escuela de computación.

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA

MINERIA DE DATOS Y Descubrimiento del Conocimiento

Business Intelligence

Curso del Data Mining al Big Data

Minería de datos (Introducción a la minería de datos)

Informática II Ing. Industrial. Data Warehouse. Data Mining

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 9 -

Academia de la carrera de Licenciatura Informática del Instituto Tecnológico Aguascalientes

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE

Contenido XIII. Capítulo 1. Capítulo 2. Alfaomega. Bases de datos - Reinosa, Maldonado, Muñoz, Damiano, Abrutsky

Ingeniería del conocimiento. Sesión 1 Por qué estudiar aprendizaje automático?

UNIVERSIDAD DE COSTA RICA SISTEMA DE ESTUDIOS DE POSGRADO POSGRADO EN COMPUTACION E INFORMATICA JUSTIFICACIÓN OBJETIVO GENERAL OBJETIVOS ESPECÍFICOS

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

DEPARTAMENTO: Ingeniería e Investigaciones Tecnológicas ASIGNATURA: BASE DE DATOS Año 2011

Base de datos II Facultad de Ingeniería. Escuela de computación.

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

1. INTRODUCCIÓN AL CONCEPTO DE LA INVESTIGACIÓN DE MERCADOS 1.1. DEFINICIÓN DE INVESTIGACIÓN DE MERCADOS 1.2. EL MÉTODO CIENTÍFICO 2.

Soluciones Integrales en Inteligencia de Negocios

Ingeniería del Software. Diseño. Diseño en el PUD. Diseño de software. Patrones arquitectónicos. Diseño Orientado a Objetos en UML

Apoyo a la toma de Decisiones. Carlos A. Olarte Bases de Datos II

Portafolio de Servicios y Productos

Introducción a la Minería de Datos (Data Mining)

Apoyo para la Toma de Decisiones

UN PASEO POR BUSISNESS INTELLIGENCE

Sistemas de Información para la Gestión. UNIDAD 2: RECURSOS DE TI Información y Aplicaciones

Botón menú Objetivo de la Minería de datos.

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 5 -

Materia: Inteligencia de negocios

Data Mining Técnicas y herramientas

3.3.3 Tecnologías Mercados Datos

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 2 -

Escuela de Ingeniería en Informática Empresarial SYLLABUS

INTELIGENCIA DE NEGOCIOS

CAPÍTULO 2 DATA WAREHOUSES

CUALIFICACIÓN SISTEMAS DE GESTIÓN DE INFORMACIÓN PROFESIONAL. Nivel 3. Versión 5 Situación RD 1201/2007 Actualización

Universidad acional Experimental Del Táchira Decanato de Docencia Departamento de Ingeniería en Informática

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

Programa de la asignatura Curso: 2006 / 2007 ADMINISTRACIÓN DE BASES DE DATOS (1311)

MINERÍA DE DATOS: ÁREA DE OPORTUNIDADES

El almacén de indicadores de proceso de negocio en ejecución

Sistemas de Información para la Gestión. Unidad 3 Aplicaciones de Sistemas

Por qué DW y DM? Data Warehouse and Data Mining. Información en las empresas. Data Warehouse

IWG-101: Introducción a la Ingeniería. Departamento de Informática, UTFSM 1

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

Competencias generales vinculadas a los distintos módulos Módulo de Formación Básica

INTELIGENCIA DE NEGOCIOS CON SQL SERVER 2008 R2

Panel: Minería de datos para la administración tributaria

CREACIÓN DE PROYECTOS DE BUSINESS INTELLIGENCE CON SQL SERVER. 40 horas 60 días

KYMATIC Soluciones Informáticas S.L.

10778 Implementing Data Models and Reports with Microsoft SQL Server 2012

SUPLEMENTO EUROPASS AL TÍTULO

Manual imprescindible SQL Server 2012 (c) Francisco Charte Ojeda

TÓPICOS AVANZADOS DE BASES DE DATOS

DATA WAREHOUSE PARA LA PRESTACIÓN DEL SERVICIO PÚBLICO DE INFORMACIÓN ESTADÍSTICA

Nombre de la asignatura: Administración de base de datos. Representantes de la academia de Ingeniería en Sistemas Computacionales del ITZ

TÉCNICAS DE MINERÍA DE DATOS Y TEXTO APLICADAS A LA SEGURIDAD AEROPORTUARIA

Sistemas de Información 12/13 La organización de datos e información

Datamining Introducción

INTELIGENCIA DE NEGOCIOS. Business Intelligence. Alumno: Toledo Paucar Jorge

Sistema de análisis de información. Resumen de metodología técnica

Parte I: Introducción

Proceso Unificado de Rational PROCESO UNIFICADO DE RATIONAL (RUP) El proceso de desarrollo de software tiene cuatro roles importantes:

SQL Server Business Intelligence parte 1

SAQQARA. Correlación avanzada y seguridad colaborativa_

Finanzas e Investigación de Mercados"

Sistemas de Data Warehousing

De qué tratará el curso. Otras consideraciones. Objetivos. Introducción. Motivación Explosión en la disponibilidad de información:

Facultad de Ciencias Económicas. Departamento de Sistemas. Asignatura: INTELIGENCIA DE NEGOCIOS. Plan 1997

BearSoft. SitodeCloud. Rafael Rios Bascón Web: Móvil:

Curso de Minería de Datos Instructor: Dr. Luis Carlos Molina Félix

Pentaho BI. Lic. Patricia Palacios Zuleta

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

- Know Systems. DKS9 BPM-Gestión del Conocimiento 2011 Página 1 de 17

La inteligencia de marketing que desarrolla el conocimiento

BUSINESS INTELLIGENCE

Introducción Qué es Minería de Datos?

PROGRAMA DEL DIPLOMADO DE PROCESO BENCHMARKING. TEMA 7. MANEJO DE LA INFORMACIÓN.

Resumen General del Manual de Organización y Funciones

Fundamentos de la Inteligencia de Negocios

Data Warehousing - Marco Conceptual

CRM - Ventas. Ofimática S.A. Donde su cliente es el eje del éxito

ANEXO A - Plan de Proyecto EDT de la solución EDT GENERAL DEL PROYECTO1

Inteligencia de Negocios Introducción. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

activuspaper Text Mining and BI Abstract

Transcripción:

Universidad Politécnica de Puebla UPP JESÚS ANTONIO GONZÁLEZ BERNAL 1

2 Evolución de la Tecnología BD 1960 s y antes Creación de las BD en archivos primitivos 1970 s hasta principios de los 1980 s BD Jerárquicas y de Red BD Relacionales Herramientas de modelado de datos (Entidad-Relación) Indexado y técnicas de organización (B-trees, Hashing) Lenguajes de queries SQL, etc. Interfaces de usuario y reportes Procesamiento y optimización de queries Manejo transacciones (recuperación, control concurrencia) OLTP (On Line Transaction Processing)

Evolución de la Tecnología BD 1980 s (Mediados al presente) Sistemas de BD Avanzados Modelos de datos avanzados: Extended-Relational, OO, Object-Relational, Deductivo Orientados a aplicaciones Espaciales, temporales, multimedia, activos, cientificos, bases de conocimiento 3

Evolución de la Tecnología BD 1980 s (Finales al presente) Data warehouse y OLAP (On Line Analytical Processing) Minería de datos y descubrimiento de conocimiento 1990 s (l (al presente) t) Sistemas basados en XML Web mining 4 2000 (a la fecha) NUEVA GENERACIÓN DE SISTEMAS DE INFORMACIÓN INTEGRADOS

Qué es la minería de datos? La tarea no trivial de extraer información implícita, previamente desconocida y potencialmente il úild útil de bases de datos (Frawley et. al. 1992). 5

Qué es la minería de datos? El proceso de descubrir conocimiento interesante de grandes cantidades de datos almacenadas en bases de datos, data warehouses u otro repositorio i de información (Jiawei Han, Micheline Kamber 2001). 6

Qué es la minería de datos? Sinónimos: - Descubrimiento de Conocimiento en Bases de Datos - Minería de conocimiento i de bases de datos - Extracción de conocimiento - Análisis de datos y patrones - Arqueología de datos 7

Cómo nació la minería de datos? Automatización de aplicaciones Uso de lectores de códigos de barras DATOS DATOS Necesidad de nuevas herramientas para analizar la información DATOS DATOS Almacenaje masivo de información Las herramientas estándares como la estadística y los queries a bases de datos no son suficientes 8 La minería de datos es parte del proceso de descubrimiento de conocimiento en bases de datos

Proceso de Descubrimiento de Conocimiento en Bases de Datos (KDD Process) DOMINIO ESPECÍFICO RECOLECCIÓN DE INFORMACIÓN DATOS SELECCIÓN PREPARACIÓN DE DATOS CONJUNTO DE DATOS DATOS LIMPIOS Y PREPARADOS TRANSFORMACIÓN DE DATOS APLICACIÓN DEL CONOCIMIENTO CONOCIMIENTO EVALUACIÓN/ INTERPRETACIÓN DE PATRONES MINERÍA DE DATOS 9 PATRONES ENCONTRADOS INFORMACIÓN FORMATEADA Y ESTRUCTURADA

Arquitectura de un Sistema Típico de Minería de Datos Interfaz Gráfica Evaluación de Patrones Algoritmo de M.D. Base de Conocimiento Limpieza de datos Integración de datos Servidor de B.D. o Data Warehouse Filtrado 10 (Han and Kamber 2001) Database Data warehouse

Arquitectura de un Sistema Típico de Minería de Datos Base de datos Puede ser: base de datos, datawarehouse, hoja de cálculo u otra clase de repositorio A estos datos se le aplican técnicas de limpieza e integración 11 Servidor de bases de datos Utilizado para obtener la información relevante según el proceso de minería de datos

12 Arquitectura de un Sistema Típico de Minería de Datos Base de conocimiento Conocimiento del dominio para guiar la búsqueda, evaluar que tan interesantes son los patrones Creencias de los datos (del usuario: lo que se espera de los datos para descubrir comportamientos t inesperados) Umbrales de evaluación Conocimiento previo Meta-datos

Arquitectura de un Sistema Típico de Minería de Datos Algoritmo de minería de datos Modular para realizar distintos tipos de análisis Caracterización Asociación Clasificación Análisis i de grupos Evolución (en espacio o tiempo) Análisis de desviaciones 13

Arquitectura de un Sistema Típico de Minería de Datos Módulo de Evaluación de Patrones Medidas de que tan interesante es un patrón Interactúa con el algoritmo de M.D. para guiar la búsqueda hacia patrones interesantes 14

Arquitectura de un Sistema Típico de Minería de Datos Interfaz gráfica Interacción con el usuario Elección de la tarea de minería de datos Proveer información para enfocar la búsqueda Ayudar a evaluar los patrones Explorar los patrones encontrados y la base de datos original Visualizar los patrones en distintas formas 15

Minería de datos Utiliza métodos basados en: Tecnología de Bases de Datos Estadística Aprendizaje automático Cómputo de alto rendimiento Reconocimiento de patrones Redes Neuronales Visualización de Datos Recuperación de Información Procesamiento de imágenes y señales Análisis de Datos Espaciales 16

Perspectiva de Bases de Datos Énfasis en Eficiencia y Escalabilidad para grandes bases de dt datos Algoritmo escalable Tiempo de ejecución crece linealmente en proporción al tamaño de la base de datos dd dados los recursos disponibles de memoria principal y espacio en disco 17

Repositorios de Datos Base de Datos Relacional DBMS Lenguajes: (i.e., DDL, DML, DQL, etc.) Tablas, atributos, tuplas Modelo E-R Normalización Acceso a datos Queries 18 Análisis de datos Tendencias Patrones Desviaciones

Repositorios de Datos Data Warehouse Repositorio de información recopilada de varias fuentes bajo un esquema unificado y usualmente reside en un solo sitio Construcción Limpieza de datos Transformación de datos Integración de datos Carga de los datos Actualización periódica de los datos Datos organizados sobre temas de alto nivel (cliente, proveedor, actividad, parte) 19

Repositorios de Datos Data Warehouse (continuación...) Datos desde una perspectiva histórica (resúmenes de varios años) Mdld Modeladosobre una estructura multidimensional lidi i l Cubos de datos Análisis de Datos OLAP Utiliza información previa sobre el dominio para presentar los datos a diferentes niveles de abstracción (drill-down down, roll-up para ver diferentes niveles de agrupación de información Se requiere más análisis de datos 20

Repositorios de Datos Base de Datos Transaccional Cada registro es una transacción Número de transacciónylista deelementos de la transacción Análisis de datos Qué elementos se venden bien juntos? Market basket data analysis 21

Repositorios de Datos Avanzados Bases de datos Orientadas a Objetos Bases de datos Objeto-Relacionales Bases de datos Espaciales Bases de datos Temporales y de Series de Tiempo Bases de datos de Texto Bases de datos Multimedia Bases de datos Heterogéneas El World Wide Web 22

Para qué usamos la minería de datos? Predecir Utilizar algunas variables o campos en una base de datos para predecir valores desconocidos o futuros. Describir Encontrar patrones que describan la información (interpretables por el hombre) 23

Tareas de la minería de datos Clasificación Regresión Agrupamiento o clustering (encontrar clases) Sumarización (describir clases o conceptos) Modelos de dependencias Detección de cambios y desviaciones Asociación Análisis i de Evolución (cambios en el tiempo) 24

Clasificación de Sistemas de M.D. Tipos de bases de datos sobre los que se hace M.D. (Datawarehouse, transaccional, relacional, OO, etc.) Tipo de conocimiento minado (caracterización, discriminación, i i ió asociación, ió clasificación, ió agrupamiento, etc.) Tipos de técnicas utilizadas (aprendizaje (p automático, estadística, visualización,...) Adaptaciones para Aplicaciones (DNA, e-mail, etc...) 25

Componentes de un Algoritmo de Minería de Datos Modelo de representación Modelo de evaluación Método de búsqueda 26

Componentes de un Algoritmo de Minería de Datos Modelo de Representación Lenguaje para describir los patrones Árbol de decisiones Lógica de primer grado Gráfico 27

28 Componentes de un Algoritmo de Minería de Datos Modelo de Evaluación Características del patrón encontrado Útil? Novedoso? Entendible? Efectivo para predecir? Medidas objetivas? Soporte Confianza

29 Componentes de un Algoritmo de Minería de Datos Método de Búsqueda Búsqueda de parámetros Paraoptimizar el modelo de evaluación Parámetros de redes neuronales Parámetro de espacio en beam search Búsqueda del modelo Itera sobre la búsqueda de parámetros y elige el mejor resultado

30 Métodos de Minería de Datos Árboles de decisión y reglas ID3, C4.5 Regresión no lineal y métodos de clasificación Redes Neuronales (Backprogagation) Métodos basados en ejemplos Método del vecino más cercano Modelos gráficos de dependencias probabilísticas Redes Bayesianas Modelos de aprendizaje relacional (ILP) FOIL, Progol Asociaciones Agrawal

Quiénes son los usuarios? Negocios --> Para construir modelos a partir de grandes bases de datos Información transaccional Dt Datawarehouses Consumidores --> Para filtrar información de grandes bases de datos Por ejemplo del Web Investigadores --> Para analizar grandes bases de datos 31

Aplicaciones de Minería de Datos 32 Astronomía Clasificación de estrellas y galaxias Análisis de Mercado y Administración Perfil de clientes Qué tipos de clientes compran que productos? Clasificación o Agrupamiento (clustering) Qué productor se compran normalmente juntos? Reglas de asociación Descubrir las relaciones entre características personales y el tipo de productos que se compran Descubrir correlaciones entre compras

33 Más Aplicaciones de Minería de Datos Finanzas Compañías de inversión hacen transacciones en la bolsa devalores basándose en resultados de Minería de Datos Predicción de flujo de efectivo Detección de fraude Utilizan bases de datos históricas para crear modelos de comportamiento fraudoliento y utilizar Minería de Datos para identificar nuevos fraudes. Seguros de autos Seguros médicos Lavado de dinero Telefónicos Tratamiento médico inapropiado

34 Aun Más Aplicaciones de Minería de Datos Deportes Para interpretar las estadísticas Web Analizar logs en general Analizar el comportamiento de los usuarios de un sitio E-mail Clasificar e-mail y repartirlo al departamento adecuado Personalización Hacer recomendaciones de acuerdo a características conocidas del usuario Recursos humanos Ayudar a seleccionar empleados

Todavía Más Aplicaciones de Minería de Datos Bancos Analizar clientes para otorgar crédito Medicina Aplicaciones que buscan nuevos medicamentos Análisis de secuencias de genes Predecir si un compuesto causa cáncer Análisis de secuencias de proteínas 35

Ejemplo Será un buen día para jugar tenis? 36 Vista Temperatura Humedad Viento Jugar? Soleado Alta Alta Falso No Soleado Alta Alta Verdadero No Nublado Alta Alta Falso Si Lluvioso Media Alta Falso Si Lluvioso Baja Normal Falso Si Lluvioso Baja Normal Verdadero No Nublado Baja Normal Verdadero Si Sl Soleado Mdi Media Alta Fl Falso No Soleado Baja Normal Falso Si Lluvioso Media Normal Falso Si Soleado Media Normal Verdadero Si Nublado Media Alta Verdadero Si Nublado Alta Normal Falso Si Lluvioso Media Alta Verdadero No

Ejemplo 4 atributos Vista: soleado, nublado o lluvioso Temperatura: alta, media o baja Humedad:alta d o normal Viento: falso o verdadero Espacio de búsqueda 36 posibles combinaciones (3x3x2x2=36) 37

Ejemplo Reglas (Lista de decisiones) Si Vista=Soleado y Humedad=Alta Entonces Jugar=No Si Vista=Lluviosa y Viento=Verdadero Entonces Jugar=no Si Vista=Nublado Entonces Jugar=Si Si Humedad=Normal Entonces Jugar=Si Si Ninguna de las otras reglas aplica Entonces Jugar=Si 38

Aprendizaje Automático o Minería de Datos? Dos comunidades Bases de datos Aprendizaje automático Manejo degrandesd cantidades d de datos Cuántos datos se necesitan para hacer minería de datos? PAC Learning Algoritmos eficientes y escalables 39

Retos en Minería de Datos 40 Metodología de MD e interacción con el usuario MD para diferentes tipos de conocimiento en bases de datos MD interactivai de conocimiento i a múltiples l niveles de abstracción Incorporación de conocimiento previo Lenguajes de consultas de MD y MD ad hoc Presentación y visualización de los resultados de MD Manejo de datos ruidosos o incompletos Evaluación de patrones

Retos en Minería de Datos Desempeño Eficiencia y escalabilidad de los algoritmos de MD Algoritmos de MD paralelos, distribuidos e incrementales Diversidad de los tipos de datos Manejodetipos de datos relacionales y complejos MD de información de bases de datos heterogéneas y sistemas de información global 41