Módulo Minería de Datos



Documentos relacionados
MOLAP REALIZADO POR: JOSE E. TABOADA RENNA

Definición. Data Warehousing: almacenamiento, transformación y distribución de datos útiles para los responsables de tomar decisiones 9/29/2006 4

Capítulo 2 Tecnología data warehouse

Inteligencia de Negocios Introducción. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

Construcción de cubos OLAP utilizando Business Intelligence Development Studio

Estos documentos estarán dirigidos a todas las personas que pertenezcan a equipos de implementación de Oracle BI, incluyendo a:

Sistemas de Información 12/13 La organización de datos e información

CAPÍTULO 2 DATA WAREHOUSES

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 5 -

CREACIÓN DE PROYECTOS DE BUSINESS INTELLIGENCE CON SQL SERVER. 40 horas 60 días

Sistema de análisis de información. Resumen de metodología técnica

Oracle vs Oracle por Rodolfo Yglesias Setiembre 2008

Pentaho BI. Lic. Patricia Palacios Zuleta

OLAP 2 OLAP 1 OLAP 4 OLAP 3 OLAP 5 OLAP 6

SQL Server Business Intelligence parte 1

Microsoft SQL Server Conceptos.

El almacén de indicadores de proceso de negocio en ejecución

Facultad de Ciencias Económicas. Departamento de Sistemas. Asignatura: INTELIGENCIA DE NEGOCIOS. Plan 1997

Arquitectura para análisis de información. Zombi es una arquitectura que proporciona de manera integrada los componentes


Reporte Registro de Personas con Discapacidad

Enfoques de desarrollo DW Kimball/Inmon.

Presentación de Pyramid Data Warehouse

Overview of Data Warehousing / Business Intelligence with SQL Server

INTELIGENCIA DE NEGOCIOS

Bases de Datos Avanzadas Introducción Curso Maestría

Tecnologías Aplicadas a Business Intelligence Proyecto Práctico

BearSoft. SitodeCloud. Rafael Rios Bascón Web: Móvil:

ANEXO A - Plan de Proyecto EDT de la solución EDT GENERAL DEL PROYECTO1

Business Intelligence

BUSINESS INTELLIGENCE

Sistemas de Información para la Gestión. Unidad 3 Aplicaciones de Sistemas

LOS CINCO GRADOS DE MADUREZ DE UN PROYECTO BI

Parte I: Introducción

CAPÍTULO 4 IMPLEMENTACIÓN DE SARP. Este capítulo describe los detalles de la implementación de SARP. Una vez explicado el

DISEÑO E IMPLEMENTACIÓN DE SOLUCIONES BUSINESS INTELLIGENCE CON SQL SERVER 2012

Novedades en Q-flow 3.02

Tecnologías de Información y Comunicación II CLASE 10

Inteligencia de Negocios

Modelamiento Dimensional. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

Software de Control de Visitas ALCANCE TÉCNICO

Workshop BI Open Source. 3. Análisis Multidimensional. Visores OLAP

SpagoBI Open Source Business Intelligence

Apoyo a la toma de Decisiones. Carlos A. Olarte Bases de Datos II

Manual de guía para Clientes Sistema MoTrack

Modulo II Data Warehouse y OLAP

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

BI Business Intelligence Un Mercado de Alto Crecimiento

CONFIGURACIÓN Y DESARROLLO

1.1.- Objetivos de los sistemas de bases de datos Administración de los datos y administración de bases de datos Niveles de Arquitectura

El diseño de la base de datos de un Data Warehouse. Marta Millan

Fundamentos de la Inteligencia de Negocios

DISEÑO MICROCURRICULAR

Autenticación Centralizada

UN PASEO POR BUSISNESS INTELLIGENCE

Tecnologías de la Información en la Gestión Empresarial

10778 Implementing Data Models and Reports with Microsoft SQL Server 2012

Materia: Inteligencia de negocios

Sistemas de Información para la Gestión. UNIDAD 2: RECURSOS DE TI Información y Aplicaciones

OWASP Seguridad de Acceso a Datos David Sutherland Socio Consultor Datactiva. dsutherland@datactiva.cl

SolucionesAnalíticas con Pentaho.

Capítulo 4 Implementación

FACULTAD DE INGENIERÍA. Bases de Datos Avanzadas

Libertya BI 1.0. Guía de Usuario

Capítulo 1 Documentos HTML5

Tabla de contenido. Manual B1 Time Task

MÓDULO 2 CONTROL FINANCIERO

ANEXO F ARQUITECTURAS DE INTELIGENCIA DE NEGOCIOS

Eurowin 8.0 SQL. Manual del módulo TALLAS Y COLORES

Manual de Usuario Estadísticas Multidimensionales por Internet. Servicio de Rentas Internas Dirección Nacional de Planificación y Coordinación

Módulo Presupuesto SP 3.0

Soluciones de BI estandarizadas. Desafíanos!

3.3.3 Tecnologías Mercados Datos

Base de datos II Facultad de Ingeniería. Escuela de computación.

Día :00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida

SAP BusinessObjects Edge BI Standard Package La solución de BI preferida para. Empresas en Crecimiento

Base de datos en Excel

Definición Historia y Evolución Conceptos Importantes Beneficios Soluciones Aplicaciones Business Intelligence Hoy Futuro del Business Intelligence

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

Configurar la conexión al origen de datos del sistema

UNIVERSIDAD MINUTO DE DIOS PROGRAMA CONTADURÍA PÚBLICA

Bases de Datos Otoño 2012 Maestría en Ingeniería de Software L.I Yessica Sugeidy Morales Mateo. 22/09/2012 Bases de Datos

Academia de la carrera de Licenciatura Informática del Instituto Tecnológico Aguascalientes

Artículo dedicado a la Innovación y Mejores Prácticas en la Ingeniería de Negocios

Alicia Iriberri Dirección de Tecnologías de Información. I.- Definición del foco estratégico

TEMA: MANEJO DE TABLAS DINAMICAS EN MICROSOFT EXCEL 2013.

ANEXO D Documento de Explotación. 1. Objetivo. 2. Alcance. 3. Fases de Explotación

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA

OpenLab. Módulo OLStat

Guía Práctica para el Uso del Servicio de Software Zoho CRM

El uso de plataformas de Educación a Distancia como herramientas de capacitación en el uso de Tecnologías de la Información

Fundamentos de la Inteligencia de Negocios

Transcripción:

Módulo Minería de Datos Diplomado Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

Análsis Dimensional OLAP On-Line Analytical Processing

Estructura del Proceso de Acceso a Datos y Entrega de Información en BI Data Quality Fuentes de datos Calidad de datos ETLC Data Data Warehou Warehou se se OLAP Diseño y Construcción Modelos OLAP Modelos Molap / Rolap Metadata Integrada para Acceder Bases de Datos y Fuentes OLAP Análisis OLAP Agregaciones Reportes y Consultas Score Cards Minería de datos

OLAP On-Line Analytical Processing Técnica de Análisis Multidimensional Diseñado para lograr un buen rendimiento en consultas ad-hoc Vista Multidimensional de los datos Mecanismo para almacenar un cubo Puente entre como los datos están almacenados en la bodega y en como son presentados al usuario

OLAP Fácil de usar por los analistas del negocio Navegar en los Datos Velocidad de las consultas Esconde complejidad Riqueza analítica OLAP permite mas fácilmente: Analizar datos Generar reportes Acceder los datos por navegadores de web Visualizar datos Importar datos

Creación de una matriz multidimensional Dos pasos clave en la conversión de los datos tabulares en una matriz multidimensional. En primer lugar, identificar qué atributos deben ser las dimensiones y que es atributo de ser el atributo de destino cuyos valores aparecen como entradas en la matriz multidimensional. Los atributos utilizados como dimensiones deben tener valores discretos

Creación de una matriz multidimensional El valor objetivo es típicamente un recuento o valor continuo, por ejemplo, el costo de un elemento, precio de venta En segundo lugar, encontrar el valor de cada entrada de la matriz multidimensional mediante la suma de los valores (del atributo de destino) o recuento de todos los objetos que tienen los valores de los atributos correspondientes a esa entrada.

Cubo Contiene datos de primer interés para los usuarios Es un subconjunto de los datos que están en la bodega. Contiene valores agregados a todos los niveles de las dimensiones Usados para organizar los datos en dimensiones y medidas Mejoran la velocidad de consulta

Cubo Dimensión Dimensión Medida Dimensión

Cubo de Ventas Producto Arroz Azúcar Almacén Almacén 1 Almacén 2 Almacén 3 Almacén 4 Sal Pasta Total de ventas T1 T2 T3 T4 Tiempo Cual fue el total de ventas de azúcar en el almacén 4 durante el tiempo T1?

Cubo El cubo puede responder preguntas que incluyan tres dimensiones y una medida Dimensión producto: contiene categorías del producto Dimensión almacén: contiene almacenes Dimensión tiempo: contiene periodos del año Medida ventas: cantidad numérica que puede ser sumarizada

Cubo Un cubo puede tener hasta 64 dimensiones Cada celda del cubo tiene un valor El valor de cada celda es la intersección de las dimensiones El dato en la celda es una agregación Para obtener las ventas totales anuales por producto y localización: seleccionar el producto y la localización y suma por las cuatro celdas de tiempo

Jerarquía de agregación Tomado de [5]

Operaciones OLAP Roll Up: dimensiones generales Drill Down: dimensiones especificas Roll Up Drill Down Single Cell Multiple Cells Slice Dice Tomado de [6]

OLAP Operaciones Slicing es la selección de un grupo de celdas de la matriz multidimensional especificando un valor para una o más dimensiones. Dicing rotar el cubo para mirar otras dimensiones slice dice

Esto es equivalente a la definición de una submatriz de la matriz completa. En la práctica, ambas operaciones también puede ser acompañado por la agregación sobre algunas dimensiones.

OLAP Operaciones: Roll-up y drill down Valores de los atributos a menudo tienen una estructura jerárquica. Cada día se asocia a un año, mes y semana. Una localización se asocia con un continente, país, estado (provincia, etc), y la ciudad. Los productos se pueden dividir en varias categorías, tales como ropa, electrónica y muebles. Tenga en cuenta que estas categorías suelen anidar y la forma de un árbol o red. Un año contiene meses, que contiene días. Un país contiene un estado que contiene una ciudad.

OLAP Operaciones: Roll-up y drill down Esta estructura jerárquica da lugar a la enrollable y perforador de fondo de operaciones. Roll up Drill down

Para los datos de ventas, podemos agregado (enrollar) las ventas a través de todas las fechas en un mes. Por el contrario, dado un punto de vista de los datos, donde se rompe la dimensión del tiempo en meses, podríamos dividir los totales de ventas mensuales (drill down) en los totales de ventas diarias. Asimismo, se puede profundizar o rodar sobre la ubicación o identificación de los atributos del producto.

Ejemplo: Conjunto de Datos Iris Se muestra cómo los atributos: longitud, ancho del pétalo, y el tipo de especie, se pueden convertir en una matriz multidimensional En primer lugar, discretizar la anchura y la longitud del pétalo de tener valores categóricos: bajo, medio y alto. Recibimos la siguiente tabla - tenga en cuenta el atributo de número

Ejemplo: Iris de datos (continuación) Cada tupla única: ancho de pétalo, longitud de pétalo, y el tipo de las especies identifica un elemento de la matriz. Este elemento se le asigna el valor de recuento correspondiente. La figura ilustra el resultado. Todo aquello no especificado tuplas son 0.

Ejemplo: Iris de datos (continuación) Las rebanadas de la matriz multidimensional se muestran los siguientes tabulaciones cruzadas Qué nos dicen estas tablas?

Ejemplo de datos de cubos Conjunto de datos que registra las ventas de productos en una serie de tiendas de la compañía en fechas diferentes. Estos datos pueden ser representados como una matriz de 3 dimensiones. 3 bidimensional agregados 3 unidimensionales agregados 1 cero-dimensional agregado (el total)

Ejemplo de datos de cubos (continuación) Agregaciones por dos dimensiones (valores en las casillas), una dimensión (totales de columnas y filas) y cero dimensiones (total general)

MOLAP y ROLAP Las arquitecturas de los Bodegas han evolucionado en base al crecimiento, en funcionalidad y rendimiento, de los DBMS. Es por ello, que la arquitectura reinante de los 80 fue el modelo MOLAP (Multidimensional OLAP). En los 90, surge una nueva arquitectura de DW denominada ROLAP (Relational OLAP)

MOLAP Capacidad de análisis Ofrece vistas de objetos multidimensionales Tiempo de respuesta cero, pues tiene todo precalculado. Si no se precalcula todo (en general todo el precálculo tiene volúmenes inaceptables) la capacidad de análisis se limita a aquellas porciones del cubo que fueron precalculadas.

MOLAP Existen variantes de los MOLAP donde en caso de no poder responder a una consulta, se precalcula el cubo que responde a esa pregunta y a la periferia, pudiendo llevar esta generación varias horas de construcción (generalmente batch).

MOLAP Sistema de diseño propietario Generalmente el cubo se trata de una caja negra de datos encriptados que pueden residir de forma local o en un servidor MOLAP. Flexibilidad y escalabilidad limitados. Cambios en el modelo dimensional del negocio implican la generación de todos los cubos nuevamente.

MOLAP Ambientes adecuados Modelos dimensionales pequeños y estáticos. Instalaciones dónde el tiempo de respuesta sea crítico. Pocos volúmenes de datos. Análisis de información a nivel agregado.

ROLAP Capacidad de análisis Ofrece vistas de objetos multidimensionales. Tiempos de respuestas que rondan entre los segundos y los minutos. Existen técnicas de tuning, caching, materialización de vistas, indexación y esquema de diseño que mejoran la performance de respuesta de los ROLAP.

ROLAP Sistema de diseño abierto El cliente interactúa directamente contra el RDBMS vía SQL en distintos motores. Provee flexibilidad y escalabilidad. Los cambios en el modelo dimensional del negocio son trasladados al DW e inmediatamente se encuentra disponible para las consultas pertinentes. La ventana de carga del data warehouse es menor pues no existe el tiempo de generación de los multi-cubos.

ROLAP Ambientes adecuados Modelos dimensionales grandes y dinámicos. Grandes volúmenes de datos. Necesidad de análisis a nivel transaccional.

OLAP Demos y presentaciones: Pentaho: http://demo.pentaho.com/pentaho

Referencias [1] Wiley - Mastering Data Warehouse Design - Relational And Dimensional Techniques 2003. [2] Wiley - Data Analysis -The Data Warehouse Toolkit - Second Edition. [3] Wiley - Building The Data Warehouse - Third Edition [4] Wiley - The Data Warehouse ETL Toolkit -2005. [5] Wiley - The Data Warehouse Lifecycle Toolkit 1998 [6] MicroStrategy - Business Intelligence - 2006. [7] Data Mining: Introductory and Advanced Topics by Margaret Dunham, Publisher: Prentice Hall 2006 [8] Introduction to Data Mining. Tan, Steinbach, Kumar. 2006