Seminario: Modelamiento de Datos Modelos Multidimensionales. Diseño Dimensional. Construyendo una solución de BI paso a paso con SQL Server 2005



Documentos relacionados
Inteligencia de Negocios. Modelado Multidimensional Lógico

DATA WAREHOUSES. Loreto Bravo (basado en slides de Mónica Caniupán) Bases de Datos II 2011

La Base de Datos OLAP Analysis Services (SSAS) Agenda. Agenda. Construyendo una Solución de BI paso a paso con SQL Server 2005

Sistemas de Información Gerencial

Analisis Multidimensional

Unidad 10. Almacenes de Datos

Los días, meses y fecha. The date

Temario. XI Encuentro Danysoft en Microsoft Crear modelos analíticos con herramientas Microsoft BI. XI Encuentro Danysoft Sala SQL

Edwin Garzón Microsoft

CI2355 Almacenes de datos y OLAP

Foundations in Spanish

Modulo II Data Warehouse y OLAP

La herramienta OLAP genera la correspondiente consulta y la envía al gestor de consultas del sistema (p.ej. mediante una sentencia SELECT).

Arquitectura de un data warehouse Funcionamiento detallado de un data warehouse

Cubos OLAP Parte II. Datawarehouse y Mineria de datos. Ejercicio 1. Ejercicio 2. Creación de un proyecto de Analisys Services

Las empresas han comenzado a aprovechar los cada vez más numerosos datos en línea para tomar mejores decisiones sobre sus actividades.

Creación de la base de datos

Computación Web (Curso 2015/2016)

TaskMagic3. Match the items on the left with the items on the right. 1. the night. el fin de semana. hasta. 2. the week. 3. after

Resumen Inteligencia de Negocios

Procesamiento analítico en línea (OLAP) B.1 Qué es el procesamiento analítico en línea?

BIA SPANISH IMMERSION----SECOND GRADE HOMEWORK CALENDAR. Week of January 23 January 26, 2017

UNIVERSIDAD NACIONAL DEL CALLAO

Approval of Resolution Ordering Election for May 5, 2018, in Trustee Districts 1 and 7. Policy Reminders

OLAP EXPLOTACIÓN DE UN DW: HERRAMIENTAS OLAP. SISTEMAS ROLAP Y MOLAP. SQL AMPLIADO. OLAP 1

Prueba de autoevaluación 2

Visit us at pvschools.net District Calendar. Safety Reminders

tanto, no pueden navegar por dicho modelo en busca de información.

EXPLOTACIÓN DE UN DW: HERRAMIENTAS OLAP OLAP EXPLOTACIÓN DE UN DW: HERRAMIENTAS OLAP EXPLOTACIÓN DE UN DW: HERRAMIENTAS OLAP

Primeros pasos en modelos Multidimensionales

UNIVERSIDAD NACIONAL TECNOLÓGICA DE LIMA SUR CARRERA PROFESIONAL DE INGENIERÍA DE SISTEMAS

Clase: Análisis de Servicios (Cubos OLAP)

Procesamiento Analítico en Línea IBARRA MARIA DE LOS ANGELES

HBase: BigTable en Hadoop

Modelos Multidimensionales con Analysis Services Primeros Pasos

Introducción al curso. Prof. María de Jesús Berríos Prof. Juan C. Karman Agosto 2010

Taller #2. Carlos Reveco Cinthya Vergara

PONTIFICIA UNIVERSIDAD CATOLICA DEL ECUADOR TEMA: AUTOR: DIRECTOR:

Nombre: Fecha: Período Día Avancemos: Lección preliminar: Parte 2. Lunes,, Miércoles,,,, Qué día fue ayer (yesterday)? Ayer fue

Microsoft Virtualization para profesionales de Vmware

Seminario: La Base de Datos OLAP Analysis Services (SSIS) Avanzado. Agenda. Agenda. Retos de BI en tiempo real

SQL DML Select. Ges$ón y Modelación de Datos. María Constanza Pabón

Bases de datos Masivas Introducción a Data Warehouse Proceso de ETL. Banchero, Santiago

Grandes de Bases de Datos. Almacenes de Datos (DW) e Inteligencia de negocios IN (BI)

Datawarehousing: Modelado de Datos y OLP. Jose Aguilar CEMISID, Escuela de Sistemas Facultad de Ingeniería Universidad de Los Andes Mérida, Venezuela

hoy es viernes 7 de noviembre de 2008

PRECIOS 2017 $ CECM PRICES COLEGIO DE ESPAÑOL Y CULTURA MEXICANA HORAS CLASE DEL CURSO 50 HORAS CLASE POR DÍA DÍAS DE LA SEMANA

Voter Information Guide and Sample Ballot

Capítulo 3. Data Warehouse

El Metodo Kimball Integración de Datos

Bases de Datos Masivas

Diseño y Construcción de Data Warehouse. Instituto de Computación - Facultad de Ingeniería Mayo Diseño Lógico

Introducción al Data Warehousing. Diseño Conceptual.

Sistemas de Información Gerencial

RESUMEN SQL. Tipo de coincidencia Modelo Planteado Coincide No coincide. Varios caracteres 'ab*' 'abcdefg', 'abc' 'cab', 'aab'

Dirección General de Estudios de Postgrado Área de Ingeniería Programa: Maestría Sistemas de Información

Microsoft Office Word

Medidas y Dimensiones en un Data WareHouse (DWH)

Analysis Services Multidimensional vs Tabular

SYLLABUS I. DESCRIPCIÓN

UMET : UNIVERSIDAD METROPOLITANA

Warehousing: es un término utilizado para describir una forma. de integración de la información: copiar información de diversas

Microsoft Solutions Framework - CMMI. Luis Fraile MVP Team System lfraile@lfraile.net

Greetings and Introductions (Expresiones de saludo)

Procesamiento de base de datos: Fundamentos, Deseño e Implementación

Introducción a Data Analysis Expressions (DAX) Marco Tulio Gómez BI Consultant Soluciones Computarizadas

Las expresiones de tiempo más comunes son las que se encuentran en la siguiente Tabla 1: night Saturday week month year. evening

Representación multidimensional de los datos

La plataforma de gestión académica para escuelas y colegios

CUBE, ROLLUP, GROUPING del SQL

Amount Past Due Días en atraso Suma total de los días en atraso. M Si Amount Past Due for Delinquent %

ESCUELA SUPERIOR POLITECNICA DEL LITORAL

INTRODUCCIÓN MDX MDX. Jortilles.com

BASES DE DATOS AVANZADAS. Facultad de Estadística e Informática

Aux 2. Introducción a la Minería de Datos

Nuevos SKU s Project y Visio

FACULTAD DE INGENIERÍA. Bases de Datos Avanzadas

Balanza comercial española Partida XX.XX.XX.XX Año Elaborado para: Cliente, S.L.

5/7/2016 FedEx Ship Manager Imprimir su(s) etiqueta(s)

El Calendario Español

Capítulo 6: Diseño de BD y el modelo ER

Apoyo a la toma de Decisiones. Carlos A. Olarte Bases de Datos II

FUNDAMENTOS DE BASES DE DATOS TEMA 6

UNIVERSIDAD DON BOSCO FACULTAD DE ESTUDIOS TECNOLOGICOS ESCUELA DE COMPUTACION

Office 2010 Licenciamiento. Pablo Rovira Jefe de Producto

"Diseño y mantenimiento de Data Warehouses a través de transformación de esquemas"

SUBJECT HABLAR COMER VIVIR ACOSTAR(SE) Yo Tú Él / Ella/ Usted Nosotros Vosotros Ellos / Ellas / Ustedes

SYLLABUS de la Asignatura Inteligencia de Negocios

Short-Term Stock and Inventory Survey (ECSE). Base 2010 Second quarter of Provisional data

Soluciones OLAP con Microsoft Analysis Services

Programación con SQL Server


Short-Term Stock and Inventory Survey (ECSE). Base 2015 First and Second quarter Provisional data

La productividad es la relación entre la cantidad de productos obtenida por un sistema productivo y los recursos utilizados para obtener dicha

Prince George s County Public Schools Registración & Información de Clases

Transcripción:

Seminario: Construyendo una solución de BI paso a paso con SQL Server 2005 Modelamiento de Datos Modelos Multidimensionales Ing. José Mariano Alvarez jose.mariano.alvarez@sqltotalconsulting.com Retos del Diseño de un DW / Data Mart Diseñar esquemas físicos legibles para el usuario de negocio que provean respuestas rápidas y predecibles que soporten el análisis impredecible de largos volúmenes de datos históricos y su contexto. Los esquemas deben: Facilitar la formulación de preguntas de negocio. Proveer respuestas rápidas y predecibles para múltiples vías de acceso. Proveer facilidad para carga y mantenimiento. Ser extensibles. Ser sensibles al cambio. Proveer una vista exacta de cambios históricos. Diseño Dimensional Centrado en el análisis de procesos de negocios y eventos. Modelamiento en términos de dimensiones y hechos. Denormalización de las dimensiones jerárquicas (denormalización administrable). Opciones de Modelo de Datos Normalizado Estrella Snowflake (copo de nieve) Combinación 1

Qué es un Star Schema? Ejemplo de un Star Schema Es un Esquema de base de datos relacional para representar datos de forma multidimensional. Es la forma más simple de un esquema de Data Warehouse que contiene una o más dimensiones y tablas de hechos. El Centro de la estrella es una tabla de hechos grande que está conectada a las tablas dimensionales. Las ventajas del Star Schema son: Fácil entendimiento de los datos Alto rendimiento (Desempeño) Dimensión Producto product key product name product size product form product package product dept product cat product subcat Dimensión Organización organization key division name area name region name market name Hechos Venta product key organization key store key time key units sold qty lcl currency sale amt US$ sale amount US$ cost amount product gross margin intercompany profit royalty amount Dimensión Tienda store key store name store address store manager floor plan type store size Dimensión Tiempo time key time date week month quarter year Tabla de Hechos Contiene las medidas relacionadas a los procesos o eventos que son analizados por las dimensiones contenidas en las tablas de dimensiones. Las filas registran que un evento ha ocurrido. Define la relación entre 2 o mas dimensiones. Características de las Tablas de Hechos Son usualmente las tablas más grandes. Son altamente normalizadas. Normalmente solo se añaden registros. Pueden crecer rápidamente. Pueden contener detalles o datos resumidos. Las medidas no necesariamente son agregadas. Son unidas a tablas de dimensiones mediante llaves foráneas que referencia a las llaves primarias de las tablas de dimensiones. Tipos de Tabla de Hechos Ejemplo de Tabla de Hechos Las tablas de hechos contienen medidas relacionadas con: Transacciones. Eventos. Valores de puntos en el tiempo (instantáneas). Otros. Ventas. Ordenes. Envíos. Cuentas. Reservaciones Rentas. Nivel de Inventario. Balance Contable. Chequeo de Txs. Txs ATM. Suscripciones. Llamadas (CDRs). 2

Granularidad Todas las medidas deben estar al mismo nivel de detalle. Detalle de Ordenes Id de Fecha Id de Cliente Id de Producto Unidades Monto Monto total de la orden (no pertenece) Contenido de las tablas de Hechos Product Sales Fact product key organization key store key time key units sold qty lcl currency sale amt US$ sale amount US$ cost amount product gross margin intercompany profit royalty amount Usualmente solo llaves de dimensiones y medidas. Ejemplo Tabla de Hechos Product Order Due Date Ship Customer Territory Sales Tax Sales Freight Key Key Key Date Key Date Key Key Amount Amount Order Number 1 2 3 4 12 1 100 21.57 SO43701 79.20 1 2 2 2 11 2 150 30.20 SO43702 75.30 2 2 2 3 11 2 200 14.56 SO43700 70.20 Tablas de Dimensiones Contienen perspectivas del negocio. Utilizan terminología de negocio. Columnas extensas. Contienen dato textual y discreto. Son usualmente más pequeñas que las tablas de hechos. Pueden contener jerarquías denormalizadas (colapsadas). Tablas de Dimensiones Están unidas a una tabla de hechos mediante una llave foránea que referencia a su llave primaria. Las Tablas de Dimensiones contienen los parámetros analíticos La cantidad vendida es analizada por día, mes, trimestre o año. Cantidades vendidas en los días soleados vs. los días lluviosos. Cantidad de inventario analizado por almacén, por producto. Ganancia analizada por producto, categoría, departamento, tienda, distrito, región. 3

Ejemplo de Tabla de Dimensiones Ejemplos Dimensión Tiempo Clientes. Almacén. Productos. Servicios. Empleados. Partes. Contrato. Vendedor. Cuentas. Ubicación. Tiempo. TimeKey FullDate DayName Month Quarter Semester Year 1 2001-07-01 Sunday July 3 2 2001 2 2001-07-02 Monday July 3 2 2001 3 2001-07-03 Tuesday July 3 2 2001 4 2001-07-04 Wednesday July 3 2 2001 Dimensión Producto Product Key Product Code Product Name 218 HL-U509 Sport-100 Helmet, Black 219 SO-B909-M Mountain Bike Socks, M 220 SO-B909-L Mountain Bike Socks, L 221 HL-U509-B Sport-100 Helmet, Blue Product Subcategory Color Status 31 Black Current 23 White NULL 23 White NULL 31 Blue NULL Ejemplos Dimensión Empleado Employee Key Parent Employee Key Sales Territory Key First Name Last Name Marital Status Email Address 3 14 11 Roberto Brown 2 rbrown@adw. com 4 3 11 Rob Ford 2 rford@adw.co m 5 3 11 Kevin Walters 2 kwalters@adw.com 6 267 11 Mary Higa 2 mhiga@adw.c om Dimensión Territorio Territory Key Territory Code Sales Territory Region Sales Territory Country Sales Territory Group 1 1 NorthWest United States North America 2 2 NorthEast United States North America 3 3 Central United States North America Pasos para Diseñar un Star Schema Identificar un proceso de negocio para el análisis (ejemplo: Ventas) Identificar las medidas o hechos (Monto en Pesos). Identificar las dimensiones para los hechos (Producto, Ubicación, Tiempo, Organización). Listar los campos que describen cada dimensión (nombre de la región, nombre de la sucursal, categoría de producto, etc.) Determinar el nivel más bajo (granularidad) de agregación en la tabla de hechos. Aspectos Importantes de los Star y Snowflake Schemas En un Star Schema cada dimensión deberá tener una Llave Primaria En un Star Schema hay una tabla por dimensión En un Snowflake schema una tabla dimensional tendrá una o más tablas padre Las jerarquías están en una sola tabla en el star schema En un Snowflake las jerarquías están distribuidas en diferentes tablas. Consideraciones para el diseño de la Dimensión Tiempo May 12 Se debe usar una tabla dimensional o un server time dimension? Qué granularidad debo usar? Qué calendarios y jerarquías se requieren? 4

Qué son Dimensiones Lentamente Cambiantes (Slowly Changing Dimensions)? SCD Ejemplos * Type 1 slowly changing dimension Cambio de un atributo sobreescribe filas. Type 2 slowly changing dimension Un cambio crea nuevos registros. Marca de registro actual o expirado. Type 3 slowly changing dimension Se mantiene el dato original, el nuevo, y la fecha efectiva de cambio. SCD Tipo 1 SCD Tipo 2 California SCD Tipo 3 CUSTOMER customer_id (PK) customer_name purchase_profile credit_profile address STORE store_id (PK) store_name address district floor_type ERD ORDER order_num (PK) customer_id (FK) store_id (FK) clerk_id (FK) date PRODUCT SKU (PK) description brand category ORDER-LINE order_num (PK) (FK) SKU (PK) (FK) promotion_key (FK) dollars_sold units_sold dollars_cost TIME time_key (PK) SQL_date day_of_week month STORE store_key (PK) store_id store_name address district floor_type DIMENSIONAL MODEL FACT time_key (FK) store_key (FK) clerk_key (FK) product_key (FK) customer_key (FK) promotion_key (FK) dollars_sold units_sold dollars_cost PRODUCT product_key (PK) SKU description brand category CUSTOMER customer_key (PK) customer_name purchase_profile credit_profile address CLERK clerk_id (PK) clerk_name clerk_grade PROMOTION promotion_num (PK) promotion_name price_type ad_type CLERK clerk_key (PK) clerk_id clerk_name clerk_grade PROMOTION promotion_key (PK) promotion_name price_type ad_type Jerarquías Dimensión Tiempo Fiscal Year Calendar Year Fiscal Quarter Calendar Quarter Fiscal Month Calendar Month Fiscal Week Type of Day Calendar Week Day of Week Day Holiday 5

Attribute Name Attribute Description Sample Values Day The specific day that an activity took 06/04/1998; 06/05/1998 place. Day of Week The specific name of the day. Monday; Tuesday Holiday Identifies that this day is a holiday. Easter; Thanksgiving Type of Day Indicates whether or not this day is a weekday or a weekend day. Weekend; Weekday Calendar Week The week ending date, always a Saturday. Note that WE denotes WE 06/06/1998; WE 06/13/1998 Calendar Month The calendar month. January,1998; February, 1998 Calendar Quarter The calendar quarter. 1998Q1; 1998Q4 Calendar Year The calendar year. 1998 Fiscal Week The week that represents the corporate calendar. Note that the F F Week 1 1998; F Week 46 1998 Fiscal Month The fiscal period comprised of 4 or 5 F January, 1998; weeks. Note that the F in the data F February, 1998 Fiscal Quarter The grouping of 3 fiscal months. F 1998Q1; F1998Q2 Fiscal Year The grouping of 52 fiscal weeks / 12 F 1998; F 1999 fiscal months that comprise the financial year. Tipos de Dimensiones Regular Role-playing Fact Many-many Referenced Regular Dimension Un foreign key existe entre la tabla de hechos y la tabla de dimensión Role-playing Dimension Una dimensión puede ser usada múltiples veces sobre el mismo cubo/measure group Order Date Order Customer Order Date Shipped Date Se ven dos dimensiones distintas e.g. OrderDate ShippedDate Fact Dimension Many-many Dimension Una dimensión basada sobre una fact table Balance Account Customer Account Customer FactResellerSales Order Details via intermediate measure group CustomerAccount El cual es tratado como una dimensión Un Multidimensional (MOLAP) measure group puede tener una dimensión relacional (ROLAP) 6

Many to many Referenced Dimension Fact (Acct Bal) Order Reseller Geography Dimension (Customer) Bridge acct-key (PK) customer-key (PK) weighting-factor via intermediate attribute Reseller.GeographyKey Recursiva Dimension (Employee) Fact (Employee) employee-key (FK) Navigation (Supervise) employee-key (PK) supervises-key number-levels-down bottom-most-flag Modelo Analítico Multidimensional Elementos de un modelo multidimensional - OLAP Métricas Dimensiones Jerarquías Atributos Métricas Lo que queremos analizar Indicadores de gestión Valores numéricos del análisis Ejemplos: Ventas en Monto Ventas en unidades Cantidad de Clientes Utilidad Margen de Contribución Costo Stock 7

Dimensiones Son las perspectivas de análisis Analizamos las ventas Por Tienda Por Vendedor Por Producto Por Semana Por Departamento Por Marca Por Mes Por Territorio de Ventas Por País Jerarquías Son los niveles de agrupación dentro de una dimensión. También se conocen como los caminos de drilldown o roll-up Una dimensión puede tener más de una jerarquía. Ejemplo: Dimensión Tiempo Jerarquías: Año-Trimestre-Mes-Día Año-Semana-Día Atributos Son características de los miembros de las dimensiones Pueden ser usados para clasificar, filtrar, o buscar información dentro de la base de datos Ejemplo: Dimensión = Producto, Miembro = Producto Atributos: Unidad de medida, Empaque, Color, Categoría, Sub Categoría, Marca Algunos atributos se pueden convertir en miembros de una dimensión en una de sus jerarquías. Todos los miembros de una dimensión son atributos de la misma, no todos los atributos de una dimensión pertenecen a una jerarquía. http://www.microsoft.com/sql/bi http://www.microsoft.com/sql/ 2003-2005 Microsoft Corporation. All rights reserved. This presentation is for informational purposes only. Microsoft makes no warranties, express or implied, in this summary. 8