Modulo II Data Warehouse y OLAP

Documentos relacionados
Resumen Inteligencia de Negocios

Unidad 10. Almacenes de Datos

Aux 2. Introducción a la Minería de Datos

OLAP 2 OLAP 1 OLAP 4 OLAP 3 OLAP 5 OLAP 6

Sistemas de Información 12/13 La organización de datos e información

Diseño multidimensional. Jordi Conesa i Caralt Isabel Guitart Hormigo M. Elena Rodríguez González

MOLAP REALIZADO POR: JOSE E. TABOADA RENNA

DIPLOMADO EN MICROSOFT SQL SERVER 2008

Definición. Data Warehousing: almacenamiento, transformación y distribución de datos útiles para los responsables de tomar decisiones 9/29/2006 4

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 5 -

Inteligencia de Negocios

Capítulo 2 Tecnología data warehouse

CAPÍTULO 2 DATA WAREHOUSES

Grandes de Bases de Datos. Almacenes de Datos (DW) e Inteligencia de negocios IN (BI)

Bases de Datos Masivas

Soluciones OLAP con Microsoft Analysis Services

ANEXO F ARQUITECTURAS DE INTELIGENCIA DE NEGOCIOS

Inteligencia de Negocios

Decision Support System (DDS)

Inteligencia de Negocio

PROYECTO DE TESIS DIEGO GALLARDO. ESPEL - Diego Gallardo

CREACIÓN DE PROYECTOS DE BUSINESS INTELLIGENCE CON SQL SERVER. 40 horas 60 días

Prueba de autoevaluación 2

Data Warehousing Diseño e implementación de un data warehouse

Bodegas de Datos y OLAP. Introducción a la Bodegas de Datos

Facultad de Ciencias Económicas. Departamento de Sistemas. Asignatura: INTELIGENCIA DE NEGOCIOS. Plan 1997

FACULTAD DE INGENIERÍA. Bases de Datos Avanzadas

Módulo Minería de Datos

Programa Internacional Business Intelligence

CAPÍTULO 4 IMPLEMENTACIÓN DE SARP. Este capítulo describe los detalles de la implementación de SARP. Una vez explicado el

Pablo A. Sacco UNIVERSIDAD TECNOLÓGICA NACIONAL FACULTAD REGIONAL CÓRDOBA INGENIERÍA EN SISTEMAS DE INFORMACIÓN

Inteligencia de Negocios Introducción. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

ACTAS DE REUNIONES. ACTA Nro. 1 - Fecha: 7/02/2013 Julio Carreño Katerin Bejarano Alisson Rodríguez

Bases de datos 1. Teórico: Introducción

PONTIFICIA UNIVERSIDAD CATOLICA DEL ECUADOR TEMA: AUTOR: DIRECTOR:

Business Intelligence.

Bases de Datos Otoño 2012 Maestría en Ingeniería de Software L.I Yessica Sugeidy Morales Mateo. 22/09/2012 Bases de Datos

Licencia GNU FDL. Detalle del cambio. Ing. Bernabeu Ricardo Dario, Ing. García Mattío Mariano Alberto. Versión incial. 05/11/2009

09/01/2009. Diseño e implementación de Datawarehouse con Analysis Services Universidad de Guadalajara. Mario Octavio II Muñoz Camacho

SQL Server Business Intelligence parte 1

ANEXO A - Plan de Proyecto EDT de la solución EDT GENERAL DEL PROYECTO1

6. Data warehouse optimization

UNIVERSIDAD NACIONAL DEL CALLAO

Sistema de análisis de información. Resumen de metodología técnica

La magia de las fórmulas

Cátedra: BI Business Intelligence. Asignatura BI Business Intelligence Ciclo Lectivo 2012 Vigencia del Ciclo lectivo 2012.

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA

MSc. Francisco García

Oracle vs Oracle por Rodolfo Yglesias Setiembre 2008

Capítulo 4 Implementación

Integración de Datos y ETL con Oracle Warehouse Builder: Parte 1

Cliente- Servidor. Bases de Datos Distribuidas

Sistemas de Inteligencia de Negocios

Modelos Multidimensionales con Analysis Services Primeros Pasos

SIIGO INTELIGENTE. Menú SIIGO Inteligente. Cartilla I

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMÉRICA) SYLLABO

Tecnología de Información

Bases de Datos Masivas

Inteligencia de Negocios

Tecnologías de Información y Comunicación II.

Importación de Datos


Integración de Datos y ETL con Oracle Warehouse Builder NEW

Modelos Multidimensionales con Analysis Services Primeros Pasos

Sistemas de Data Warehousing

TEMA 15 : INTRODUCCIÓN A LAS BASES DE DATOS DE ATRIBUTO, DISEÑO Y CREACIÓN. OBJETIVOS DEL TEMA Conocimiento teórico del concepto de Base de Datos

SolucionesAnalíticas con Pentaho.

SSAS multidimensional mejores prácticas

Características Técnicas Generales para proveer Software de Business Intelligence, BI

Computación Aplicada. Universidad de Las Américas. Aula virtual de Computación Aplicada. Módulo de Excel 2013 LIBRO 11

PROGRAMA DE CURSO. Horas Docencia Horas de Trabajo SCT. Horas de Cátedra Docentes. Personal

El diseño de la base de datos de un Data Warehouse. Marta Millan

Fundamentos de la Inteligencia de Negocios

Guía del Curso Técnico en Mantenimiento de CRM: Recursos Empresariales y de Gestión de Relaciones con Clientes

DATAMART PASO A PASO

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE INGENIERÍA T E S I S. QUE PARA OBTENER EL TÍTULO DE: Ingeniero en Computación P R E S E N T A :

La Base de Datos OLAP Analysis Services (SSAS) Agenda. Agenda. Construyendo una Solución de BI paso a paso con SQL Server 2005

OLAP. (OnLine Analytical Processing) I.S.C. Zoraya Catalina Flores Juárez Bases de Datos Otoño, 2012.

PONTIFICIA UNIVERSIDAD CATÓLICA DEL ECUADOR FACULTAD DE INGENIERÍA ESCUELA DE SISTEMAS DISERTACIÓN DE TESIS PREVIO A LA OBTENCIÓN DEL TÍTULO DE

BI Data Warehouse. Índice UTN FRRO - SISTEMAS DE GESTION II

Manual de Usuario SIGECOF REGISTRO DE ASIENTO DE AJUSTE

Comparing the MOLAP the ROLAP storage models

Botón menú Objetivo de la Minería de datos.

Modelado dimensional de datos

DATA WAREHOUSE DATA WAREHOUSE

Enfoques de desarrollo DW Kimball/Inmon.

BASES DE DATOS TEMA 1 PERSPECTIVA DEL ÁREA DE BASES DE DATOS

Arquitectura de sistemas: Título: AnalyticsMOOC- Solución TIC Big Data para entornos MOOC Número de expediente: TSI

SQL Server 2014 Implementación de una solución de Business Intelligence (SQL Server, Analysis Services, Power BI...)

Cuadrante Mágico de Gartner para BI 2013 vs. 2014

Tabla de Símbolos. Programación II Margarita Álvarez

Business Intelligence

UNIVERSIDAD DE SAN CARLOS DE GUATEMALA FACULTAD DE INGENIERIA ESCUELA DE CIENCIAS Y SISTEMAS

APOYO PARA LA TOMA DE DECISIONES

** INTELIGENCIA DE NEGOCIOS**

Análisis y modelado de sistemas de software. Diseño Persistencia de objetos. Blanca A. Vargas Govea

CICLO ESCOLAR JULIO DICIEMBRE

Tabla de Símbolos. Programación II Margarita Álvarez

Fundamentos de la Inteligencia de Negocios

Transcripción:

Diplomado en Minería de Datos para la Toma de Decisiones Modulo II Data Warehouse y OLAP 2 Arquitectura Data Warehouse Objetivos 2.1 Niveles y Componentes. 2.2 Modelo de Datos Multidimensional. 2.3 Tipos de Sistemas OLAP. 2.4 Operaciones OLAP. 2.5 Procesamiento Eficiente OLAP. Identificar la arquitectura Data Warehouse y los componentes que la integran. Conocer los distintos esquemas de las estructuras de una BD Multidimensional y los pasos a seguir para su diseño. Conocer las principales características de los Sistemas OLAP.. 1

2. Arquitectura Data Warehouse Niveles y Componentes Arquitectura de 3 Niveles Usuarios Finanzas Staging-Area Data Marts Consultas y Reportes Complejos Ventas Inventarios ETLs Procesos de Extracción, Transformación y Carga BD Data Warehouse Análisis OLAP Contabilidad Metadatos Diccionario BD Minería de Datos 1 Bases de Datos Fuentes de Sistemas Operacionales 2 BD con datos integrados, depurados y resumidos 3 Sistemas- Interfases para Usuarios Usuarios 2

2. Arquitectura Data Warehouse Niveles y Componentes Componentes Data Warehouse Bases de Datos Fuentes Son el origen de la información que en su mayor parte son las Bases de Datos de los Sistemas Operacionales. También pueden ser hojas de cálculo Excel o archivos planos tipo txt, u otros. ETLs Son los programas que realizan los procesos de Extracción, Transformación y Carga. Staging Area Es una area de trabajo donde se realizan los procesos de ETL. Metadatos Es toda información referente a los procesos de ETLs y Diccionario de la Bd Datawarehouse.. Son los Datos de los Datos que se almacenan en el DWH. Diccionario de la BD Define los datos que están contenidos en la Base de Datos del Data Warehouse. Es parte de los Metadatos. BD Data Warehouse BD donde se integra toda la información extraída de los Sistemas Operacionales. Su diseño es multidimensional. Data Marts Cada Data Mart es como un subconjunto, del Almacén Central o BD Data Warehouse, orientado a un tema de análisis, normalmente asociado a un departamento de la empresa. 3

2. Arquitectura Data Warehouse Niveles y Componentes Componentes Data Warehouse Sistema Interfase para consultas y Reportes Complejos Es un sistema o herramientas de software que permite a los usuarios hacer consultas y/o crear reportes complejos con cierta facilidad. Procesan la información de la BD Data Warehouse. Sistema-Interfase para Análisis OLAP Es un sistema o herramientas de software que permite a los usuarios el Análisis Multidimensional OLAP (On-Line Analytical Processing)accesando directamente la BD Data Warehouse o mediante un motor MDBS accesar sus propias estructuras de Cubos. Sistema-Interfase para Minería de Datos Es un sistema o herramientas de software para el análisis inteligente de datos con métodos matemáticos.de búsqueda de regularidades y tendencias. 4

2. Arquitectura Data Warehouse Modelo de Datos Multidimensional Esquemas del Modelo Multidimensional Esquema Estrella Esquema Constelación Esquema Copo de Nieve 5

2. Arquitectura Data Warehouse Modelo de Datos Multidimensional Esquema Estrella Dos tipos de tablas: Dimensión Fecha Id_Fecha Fecha aaaamm Año Mes Trimestre Semestre Dimensión Producto Id_Product o Nombre de Producto Marca Tipo Empaque Métrica: Venta de Productos Id_Fecha Id_Tienda Id_Producto Cantidad Importe Dimensión Tienda (Lugar) Id_Tiienda Nombre de Tienda Estado Región Ciudad Pais Tabla de Dimensión Tabla de Hechos o Métricas (Facts) Es el tipo de tabla principal del modelo. Es donde las métricas de desempeño del negocio se almacenan. Los campos a incluir son de tipo numérico y sumables. Los ampos de mediciones deben ser de la misma granularidad. Una fila representa una medición. La identificación de cada registro (Llave Primaria) se hace por la concatenación de campos que corresponden a las dimensiones asociadas. Las tablas de dimensiones son complementos integrales de las tablas de hechos (facts). A través de ellas se consultan las tablas de hechos. Los campos o atributos de estas tablas juegan un papel muy importante en el modelo. 6

2. Arquitectura Data Warehouse Modelo de Datos Multidimensional Esquema Copo de Nieve Métrica: Venta de Productos Id_Fecha Id_Tienda Id_Producto Cantidad Importe Dimensión Producto Id_Producto Nombre de Producto Id_Marca Id_Empaque Dimensión Marca Id_Marca Marca (Nombre) Id_Tipo Dimensión Empaque Dimensión Tipo Id_Marca Tipo (Nombre) Id_Empaque Empaque (Nombre) Normalización de las Dimensiones El ahorro que se obtiene en el almacenamiento es insignificante. Las tablas de dimensiones son pequeñas en comparación de las de hechos (Facts). Entre más dimensiones, se complica su uso para los usuarios. Es mejor si dejamos las Dimensiones Desnormalizadas. 7

2. Arquitectura Data Warehouse Modelo de Datos Multidimensional Esquema Constelación Son un conjunto de estrellas y/o Copos de Nieve 8

2. Arquitectura Data Warehouse Modelo de Datos Multidimensional Pasos para el Diseño ( De acuerdo con R. Kimball ) Paso 1. Seleccionar el Proceso del Negocio. Paso 2. Definir la Granularidad. Paso 3. Escoger las Dimensiones. Paso 4. Identificar las Métricas (Hechos o Facts) 9

2. Arquitectura Data Warehouse Modelo de Datos Multidimensional Pasos para el Diseño Paso 1. Seleccionar el Proceso del Negocio. Un proceso es una actividad natural que se realiza en las organizaciones normalmente soportada por un Sistema Operacional. Enfocarse en los proceso del negocio y no en las funciones de los departamentos. El primer modelo funcional a construir debe ser el que más impacto tenga. Identificar y seleccionar los procesos que están requiriendo de mediciones de desempeño. 10

2. Arquitectura Data Warehouse Modelo de Datos Multidimensional Pasos para el Diseño Paso 2. Definir la Granularidad. Qué nivel de detalle de los datos debe estar en el Modelo Dimensional? Hay que definir las tablas de hechos (Facts) con el nivel en cada una de ellas. De preferencia el mayor nivel de detalle, de esta forma, ya no se podrá pedir más. El mayor detalle ofrece la flexibilidad máxima ya que permite analizar la información por más posibilidades. Considerar también niveles de resumen lo cual permitirá un mejor desempeño. 11

2. Arquitectura Data Warehouse Modelo de Datos Multidimensional Pasos para el Diseño Paso 3. Escoger las Dimensiones. Escoger las dimensiones que aplican a cada tabla de Hechos. En los atributos de las dimensiones incluir todas las descripciones posibles con las que se puedan o se requieran representar o referir las mediciones o métricas de las tablas de Hechos. Incluir primero todas las dimensiones directas o básicas que se observen en cada tabla de hechos. Continuar con Dimensiones Adicionales analizando que correspondan a la granularidad de la Tabla de Hechos. 12

2. Arquitectura Data Warehouse Modelo de Datos Multidimensional Pasos para el Diseño Paso 4. Identificar las Métricas ( hechos o facts) Identificar los campos base de mediciones en cada tabla de hechos. Los campos de mediciones deben ser númericos y ser aditivos, esto es, que sea posible sumarlos y que tenga sentido hacerlo. Las mediciones o campos que se definan deben corresponder a la granularidad (detalle ) definida en el paso 2. Observar casos como porcentajes y razones no son aditivos. 13

2. Arquitectura Data Warehouse Tipos de Servidores OLAP Tipos de Servidores OLAP Para realizar el proceso de las consultas o análisis OLAP existen los siguientes Tipos de Servidores o Sistemas: ROLAP OLAP Relacional MOLAP OLAP Multidimensional También se puede tener una combinación de ambos : HOLAP OLAP Hibrido (Rolap y Molap) 14

2. Arquitectura Data Warehouse Tipos de Servidores OLAP Sistemas ROLAP Implementación OLAP que almacena los datos en un DBMS Relacional y utiliza un motor ROLAP para proporcionar la función analítica. BD Relacional Interfaz Presentación BD Data Warehouse Motor OLAP El motor ROLAP: Ejecuta las consultas multidimensionales de los usuarios. Transforma dinámicamente sus consultas a consultas SQL. 15

2. Arquitectura Data Warehouse Tipos de Servidores OLAP Sistemas MOLAP Implementación OLAP que almacena los datos en un DBMS Multidimensional (MDDB) para proporcionar la función analítica. BD Multidimensional Interfaz Presentación BDs Operación BD Data Warehouse Motor MDDB El motor MDDB: Realiza con gran velocidad las consultas. Para la carga de datos requiere de cálculos intensos de compilación. Tiene capacidades limitadas para crear agregaciones dinámicamente. 16

2. Arquitectura Data Warehouse Tipos de Servidores OLAP ROLAP vs MOLAP ROLAP Mantiene tiempos de respuesta razonables. Pueden crecer a un gran numero de dimensiones. Soportan bien grandes volúmenes de datos. Es una arquitectura flexible que permite grandes volúmenes de datos y proporciona un soporte amplio a requerimientos OLAP. MOLAP Tiene mejores tiempos de respuesta. Requiere de preparación de los datos en la carga de lo mismos. Son adecuadas para pocas dimensiones Se comportan razonablemente en volúmenes reducidos. Es una solución adecuada para volúmenes de datos y dimensiones modestos. 17

2. Arquitectura Data Warehouse Operaciones OLAP Consultas de Análisis Las herramientas OLAP presentan al usuario una visión multidimensional de los datos (esquema multidimensional) para cada consulta de análisis. Importe total de las ventas por tipo de producto y por trimestre? Restricción: Ventas durante este año Tipo Trimestre Ventas Discos T1 10000000 Discos T2 12000000 Discos T3 14000000 Discos T4 10500000 Ropa T1 32000000 Una consulta a un almacén de datos consiste en la obtención de medidas sobre los hechos y atributos de las dimensiones, restringidas por condiciones. 18

2. Arquitectura Data Warehouse Operaciones OLAP Operadores de las Consultas Drill Roll Slice & dice Swap Fechas (Tiempo) Producto Ventas Lo interesante de las herramientas OLAP es que permiten manipular las consultas con los operadores siguientes: 19

2. Arquitectura Data Warehouse Operaciones OLAP Drill ROLL Son operaciones que permiten cambiar las consultas para realizar la división o la consolidación de los datos. Drill ROLL Disgregación (división) Al introducir un nuevo criterio en el análisis, los datos se presentan con mayor división (más detalle). Agregación (consolidación) Al eliminar un criterio en el análisis, los datos se presentan más consolidados (mayor resumen). Estas operaciones se pueden hacer sobre: Atributos de una dimensión Drill-Down Roll-Up Dimensiones Independientes Drill-Across Roll-Across 20

2. Arquitectura Data Warehouse Operaciones OLAP Drill-Down ROLL-Up Permiten la disgregación (dividir) o la Agregación (consolidar) al introducir o eliminar un criterio sobre un atributo de una dimensión. Tipo Trimestre Ventas Discos T1 10000000 Drill-Down Discos T2 12000000 Discos T3 14000000 Discos T4 10500000 Ropa T1 32000000 Tipo Trimestre Mes Ventas Discos T1 Ene 4000000 Discos T1 Feb 3000000 Roll-Up Discos T1 Mar 3000000 Discos T2 Ene 6000000 21

2. Arquitectura Data Warehouse Operaciones OLAP Drill-Across ROLL-Across Permiten la disgregación (dividir) o la Agregación (consolidar) al introducir o eliminar un criterio sobre un atributo de una dimensión. Tipo Trimestre Ventas Discos T1 10000000 Drill-Across Discos T2 12000000 Discos T3 14000000 Discos T4 10500000 Ropa T1 32000000 Tipo Trimestre Ciudad Ventas Discos T1 México 4000000 Discos T1 Monterrey 3000000 Roll-Across Discos T1 Guadalajara 3000000 Discos T2 México 6000000 22

2. Arquitectura Data Warehouse Operaciones OLAP Slice & Dice Slice Dice Es la operación que produce la selección de una rebanada de un cubo escogiendo un valor para alguna de sus dimensiones. Esta operación produce la selección un subcubo permitiendo al analista proporcionar valores específicos para las dimensiones. Slice Fechas (Tiempo) Dice Ventas Producto 23

2. Arquitectura Data Warehouse Operaciones OLAP Swap (Pivot) Permite rotar o cambiar la orientación de las dimensiones. Tipo Trimestre Ventas Discos T1 10000000 Discos T2 12000000 Discos T3 14000000 Discos T4 10500000 Ropa T1 32000000 Swap Trimestre Discos Ropa T1 100000 32000000 T2 120000 24000000 T3 140000 17000000 T4 105000 15000000 T1 135000 21000000 24

2. Arquitectura Data Warehouse Procesamiento Eficiente OLAP Indexación de Datos OLAP Qué es un Índice? Es la definición a nivel de campo de estructuras que permitan hacer un acceso random o directo a un registro específico en una tabla. Cómo funciona un índice en un libro? Cómo usamos el mapa de calles de la Guía Roji? En la BD del Data Warehouse Pocos índices La carga de Datos es rápida. El tiempo de respuesta es lento. Muchos Índices La carga de Datos es lenta. La cantidad de espacio aumenta. Reduce el tiempo de respuesta. 25

2. Arquitectura Data Warehouse Procesamiento Eficiente OLAP Llaves Subrogadas Son llaves generadas artificialmente que vienen a sustituir a las llaves naturales en las tablas de dimensiones. Ejemplo: Dimensión Fecha (Tiempo) Id_Fecha Fecha (aaaammdd) Año Mes Trimestre. 1 2011-12-05 2011 Dic T4 2 2011-12-06 2011 Dic T4.. 8 2012-01-05 2012 Ene T1 Fact o Métrica Ventas de Producto Id_Fecha Id_Tienda Id_Producto Cantidad Importe 8 10 255 5467 389 La nueva llave debe ser un campo de tipo entero y sus valores son números consecutivos. 26

2. Arquitectura Data Warehouse Procesamiento Eficiente OLAP Ventajas de las Llaves Subrogadas Mejorar los Tiempos de Respuesta. Homogenizar Llaves. Al integrar información desde diferentes sistemas operacionales con tablas que tienen llaves diferentes para tablas que tratan el mismo concepto. La nueva llave subrogada permite asignar valores homogéneos. Conservar la Historia. Permite mantener la historia de los cambios que pudieran ocurrir en alguna dimensión. Ej. Cuando un empleado cambia de departamento o región. Qué pasa con los registros que están en el DWH ligados a este empleado. Cambian también de región? La solución: Crear un nuevo registro para el empleado con un nuevo valor en la llave subrogada de manera que toda referencia nueva a este empleado apunte a la nueva región y así no se toca nada de lo anterior y seguirá apuntando a la región anterior. 27

2. Arquitectura Data Warehouse Procesamiento Eficiente OLAP Para Optimizar Evitar normalizar las tablas de Dimensiones. Indexar campos por los que se harán búsquedas con frecuencia. Agregar llaves Subrogadas. Evitar en lo posible llaves que no sean numéricas. Consultar los manuales de su MDBS. Para aprovechar todas las características que tenga sobre índices. Un Data Warehouse está diseñado para consultas, por lo tanto es valido que esté sobre-indexado. 28