Almacenes de datos. Juan Carlos Trujillo Mondéjar. IWAD: Ingeniería del Web y Almacenes de Datos

Documentos relacionados
Un método global basado en UML para el diseño de Almacenes de Datos

Definición. Data Warehousing: almacenamiento, transformación y distribución de datos útiles para los responsables de tomar decisiones 9/29/2006 4

Capítulo 2 Tecnología data warehouse

Sistema de análisis de información. Resumen de metodología técnica

Sistemas de Información 12/13 La organización de datos e información

MOLAP REALIZADO POR: JOSE E. TABOADA RENNA

Proceso E.T.L Enfoque Kimball

FACULTAD DE INGENIERÍA. Bases de Datos Avanzadas

Estos documentos estarán dirigidos a todas las personas que pertenezcan a equipos de implementación de Oracle BI, incluyendo a:


DATA WAREHOUSE DATA WAREHOUSE

Oracle vs Oracle por Rodolfo Yglesias Setiembre 2008

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 5 -

OLAP 2 OLAP 1 OLAP 4 OLAP 3 OLAP 5 OLAP 6

BUSINESS INTELLIGENCE

Almacén de datos - concepto. Arquitectura de un sistema de almacén de datos

Tecnologías de Información y Comunicación II CLASE 10

DISEÑO E IMPLEMENTACIÓN DE SOLUCIONES BUSINESS INTELLIGENCE CON SQL SERVER 2012

Overview of Data Warehousing / Business Intelligence with SQL Server

CAPÍTULO 2 DATA WAREHOUSES

Cuadrante Mágico de Gartner para BI 2013 vs. 2014

ANEXO A - Plan de Proyecto EDT de la solución EDT GENERAL DEL PROYECTO1

Business Intelligence

Data Warehousing. Introducción. Facultad de Ingeniería Escuela de Ingeniería de Sistemas y Computación

rg.o El l c i c c i l c o l o de d vi v d i a d a cm a l@ rza e de d u n u n si s s i t s e t ma m a de d in i f n or o ma m c a i c ó i n ó b

Microsoft SQL Server Conceptos.

Oracle Business Intelligence Suite Standard Edition One. Antonio Akiyama Consultor Senior Business Intelligence

Construcción de cubos OLAP utilizando Business Intelligence Development Studio

Data Warehousing. Arquitectura de procesos en un sistema de data warehousing. Facultad de Ingeniería Escuela de Ingeniería de Sistemas y Computación

Fundamentos de la Inteligencia de Negocios

Fundamentos de la Inteligencia de Negocios

asired EIS Descripción de producto. Integración de Sistemas Explotación de Datos y Business Intelligence para la Pequeña y Mediana Empresa.

Modelado dimensional de datos

Tecnologías de la Información en la Gestión Empresarial

SolucionesAnalíticas con Pentaho.

El diseño de la base de datos de un Data Warehouse. Marta Millan

BASES DE DATOS TEMA 1

APOYO PARA LA TOMA DE DECISIONES

Contenido XIII. Capítulo 1. Capítulo 2. Alfaomega. Bases de datos - Reinosa, Maldonado, Muñoz, Damiano, Abrutsky

Capítulo 1: Introducción a los Sistemas de Gestión de Bases de Datos (SGBD)

Inteligencia de Negocios Introducción. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

Base de datos II Facultad de Ingeniería. Escuela de computación.

Clasificación de los Sistemas de Información

Resumen General del Manual de Organización y Funciones

3.3.3 Tecnologías Mercados Datos

El almacén de indicadores de proceso de negocio en ejecución

Quienes Somos? Valor. Estrategia

REPOSITORIO COR O P R OR O A R T A I T VO V

- Bases de Datos - - Diseño Físico - Luis D. García

PROYECTO DE TESIS DIEGO GALLARDO. ESPEL - Diego Gallardo

Data Warehousing - Marco Conceptual

Comparación de características entre las ediciones Estándar y Enterprise

Facultad de Ciencias Económicas. Departamento de Sistemas. Asignatura: INTELIGENCIA DE NEGOCIOS. Plan 1997

ARIS Process Performance Manager

Inteligencia de Negocios. & Microsoft Excel 2013

DATA WAREHOUSE PARA LA PRESTACIÓN DEL SERVICIO PÚBLICO DE INFORMACIÓN ESTADÍSTICA

UNIVERSIDAD NACIONAL DE INGENIERÍA CENTRO DE EXTENSIÓN Y PROYECCIÓN SOCIAL

IWG-101: Introducción a la Ingeniería. Departamento de Informática, UTFSM 1

Diseño dinámico de arquitecturas de información

Tema 5: Integración de Datos Distribuidos

Introducción. Componentes de un SI. Sistema de Información:

UNIVERSIDAD DE ORIENTE FACULTAD DE CIENCIAS ECONOMICAS

Cuadro de mando para el análisis de la información de Extranjería del Ministerio de Administraciones Públicas

Sistemas de Información para la Gestión. UNIDAD 2: RECURSOS DE TI Información y Aplicaciones

PROCESOS SOFTWARE. Según esta estrategia, todo proceso debe planificarse, implantarse y evaluarse, para luego actuar sobre él.

Figure 9-1: Phase C: Information Systems Architectures

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA

Sistemas de Información 12/13 Introducción a los Sistemas de Información

UN PASEO POR BUSISNESS INTELLIGENCE

Manual imprescindible SQL Server 2012 (c) Francisco Charte Ojeda

Reporte Registro de Personas con Discapacidad

3. Horario laboral referencial: Lunes Viernes 8:00 a.m. a 6:00 p.m.

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

DATA WAREHOUSING (ENERO DE 2003) Documento creado por Ing. Héctor H. Martínez Orpinel

El Proceso Unificado de Desarrollo de Software

Maxpho Commerce 11. Gestión CSV. Fecha: 20 Septiembre 2011 Versión : 1.1 Autor: Maxpho Ltd

Tema I: Bases de Datos y Sistema Gestor de Bases de Datos

PROCEDIMIENTO ESPECÍFICO. Código G Edición 0

EASY TIME REPORT Because time is money. For real. Gestión de tiempos profesionales

Web Warehousing. Robert Cercós Brownell Ingeniería Industrial - U. de Chile

Tema 1. Conceptos básicos

SQL Server Business Intelligence parte 1

Unidad didáctica 2: Metodologías de desarrollo de Bases de Datos. Unidad didáctica 1: Fase de análisis de requisitos Modelo E/R

FUENTES SECUNDARIAS INTERNAS

Administración de Bases de Datos; Remota e In-Situ.

Elementos requeridos para crearlos (ejemplo: el compilador)

CONFIGURACIÓN Y DESARROLLO

LOS CINCO GRADOS DE MADUREZ DE UN PROYECTO BI

Consultoría Empresarial

Apoyo a la toma de Decisiones. Carlos A. Olarte Bases de Datos II

PROGRAMACIÓN ORIENTADA A OBJETOS Master de Computación. II MODELOS y HERRAMIENTAS UML. II.1 UML: Introducción

FICHEROS Y BASES DE DATOS (E44) 3º INGENIERÍA EN INFORMÁTICA. Tema 8. Elementos Básicos

INTELIGENCIA DE NEGOCIOS CON SQL SERVER 2008 R2

Introducción Microsoft SQL Server 2000 Qué puede hacer con SQL Server 2000? Qué necesita saber para usar SQL Server 2000?

MINISTERIO DE EDUCACIÓN DIRECCIÓN DE EDUCACIÓN TÉCNICA Y PROFESIONAL PROGRAMA DE LA ASIGNATURA BASE DE DATOS ESPECIALIDAD INFORMÁTICA.

CURSO DE ESPECIALISTA EN DESARROLLO DE APLICACIONES WEB

GENERALIDADES DE BASES DE DATOS

Índice libro SQL Server / 6

Estándares para el Uso de Herramientas de Desarrollo y Plataformas de Aplicaciones Web

Transcripción:

Almacenes de datos Juan Carlos Trujillo Mondéjar IWAD: Ingeniería del Web y Dpto. Lenguajes y Sistemas Informáticos Universidad de Alicante Indice Diseño de almacenes de datos: visión práctica Integración de fuentes: Procesos ETL Diseño de almacenes de datos: UML Conclusiones 1

Indice Sistemas de apoyo a la decisión El almacén de datos (AD) Diferencia sistemas transaccionales y de AD Arquitectura de almacenes de datos Diseño de almacenes de datos: visión práctica Integración de fuentes: Procesos ETL Diseño de almacenes de datos: UML Conclusiones Indice Sistemas de apoyo a la decisión El almacén de datos (AD) Diferencia sistemas transaccionales y de AD Arquitectura de almacenes de datos Diseño de almacenes de datos: visión práctica Integración de fuentes: Procesos ETL Diseño de almacenes de datos: UML Conclusiones 2

Introducción Sistemas de apoyo a la decisión Empresas en la actualidad Sistemas orientados a los procesos diarios de la empresa Sistemas de Procesamiento Transaccional en Línea (On-Line Transactional Processing, OLTP) Compras de productos, ventas, pedidos, gestión de clientes,.. Optimizados para la edición e inserción de datos Aproximadamente el 90% de SGBD son relacionales SGBD eficientes, robustos, etc. Datos históricos almacenamientos externos Introducción Sistemas de apoyo a la decisión Entornos económicos altamente competitivos Empresas necesitan adoptar decisiones estratégicas Qué tipo de cliente me ha estado comprando el BMW 320i durante los últimos 10 años? Ha variado un cliente sus gustos de compra de vehículos? Ha estado comprando el mismo vehiculo de soltero que de casado? Qué descuento deberiamos ofrecer para incrementar significativamente las ventas? Sistemas de apoyo a la decisión 3

Introducción Sistemas de apoyo a la decisión Son válidos los sistemas OLTP para tales entornos? Algunos problemas Gran volumen de datos históricos no disponibles en sistemas diarios OLTP Normalmente en distintas fuentes de datos Proveedores, Clientes, componentes, productos defectuosos, etc. Los directivos/analistas no saben manejar tales sistemas Indice Sistemas de apoyo a la decisión El almacén de datos (AD) Diferencia sistemas transaccionales y de AD Arquitectura de almacenes de datos Diseño de almacenes de datos: visión práctica Integración de fuentes: Procesos ETL Diseño de almacenes de datos: UML Conclusiones 4

Indice Sistemas de apoyo a la decisión El almacén de datos (AD) Diferencia sistemas transaccionales y de AD Arquitectura de almacenes de datos Diseño de almacenes de datos: visión práctica Integración de fuentes: Procesos ETL Diseño de almacenes de datos: UML Conclusiones Introducción El almacén de datos El Almacén de datos (Data Warehouse, DW) Repositorio de datos históricos para ser utilizados por los Sistemas de Apoyo a la Decisión Son sistemas eminéntemente de consulta enfocados a extraer conocimiento de los datos históricos almacenados El análisis de los datos On-Line Analytical Processing (OLAP) Utilizan el modelado multidimensional (cubos, hipercubos, etc) 5

Introducción El almacén de datos Definición según W. Inmon (1992) Una colección de datos orientados por tema, variables en el tiempo y no volátiles que se emplea como apoyo a la toma de decisiones estratégicas Introducción El almacén de datos Orientados por tema El diseño enfocado a responder eficientementa a consultas estratégicas Actividades de interés: compra, ventas, alquileres, Contexto de análisis: clientes, vendedores, productos, etc El modelado Multidimensional (primera aproximación) Hechos actividades de interés Dimensiones contexto de análisis 6

Introducción El almacén de datos Integrados Datos integrados de distintas fuentes de datos operacionales Variables en el tiempo Datos relativos a un periodo de tiempo y se incrementan periódicamente No volátiles Los datos almacenados normalmente no se modifican ni actualizan nunca (casi nunca), sólo se insertan nuevos datos Indice Sistemas de apoyo a la decisión El almacén de datos (AD) Diferencia sistemas transaccionales y de AD Arquitectura de almacenes de datos Diseño de almacenes de datos: visión práctica Integración de fuentes: Procesos ETL Diseño de almacenes de datos: UML Conclusiones 7

Indice Sistemas de apoyo a la decisión El almacén de datos (AD) Diferencia sistemas transaccionales y de AD Arquitectura de almacenes de datos Diseño de almacenes de datos: visión práctica Integración de fuentes: Procesos ETL Diseño de almacenes de datos: UML Conclusiones Introducción Diferencia sistemas transaccionales y de AD Usuario Función Diseño de BD Datos Vistas Destino/utilización Unidades de trabajo Acceso # Registros accedidos # Usuarios Tamaño de la BD Medidas de rendimiento OLTP AD/OLAP Profesional de TI Analista de Información Operaciones diarias Apoyo a la decisión Orientada a la aplicación Orientado al tema/negocio (Basado en EE-R) (Multidimensional, ej. estrella) Actuales, Aislados Históricos, Consolidados Detallados, Planos, Relac. Agregados, Multidimensional Estructuradas, repetitivas Ad-Hoc Transacciones simples Consultas complejas Lectura/escritura Lectura mayoritariamente Decenas Millones Miles Centenares 100 MB-GB 100 GB-TB Cantidad de transacciones Cantidad de consultas, Respuesta 8

Indice Sistemas de apoyo a la decisión El almacén de datos (AD) Diferencia sistemas transaccionales y de AD Arquitectura de almacenes de datos Diseño de almacenes de datos: visión práctica Integración de fuentes: Procesos ETL Diseño de almacenes de datos: UML Conclusiones Indice Sistemas de apoyo a la decisión El almacén de datos (AD) Diferencia sistemas transaccionales y de AD Arquitectura de almacenes de datos Diseño de almacenes de datos: visión práctica Integración de fuentes: Procesos ETL Diseño de almacenes de datos: UML Conclusiones 9

Introducción Arquitectura de almacén de datos Monitorización & Administración Repositorio de metadatos Servidores OLAP Análisis Fuentes externas Extraer Almacén de Datos Consultas/Informes BD operacionales Transformar Cargar Refrescar Servir Minería de datos Fuentes de datos Data Marts Herramientas de consulta Introducción Arquitectura de almacén de datos. Procesos ETL Procesos para poblar de datos el almacén (ETL) Extracción (Extraction) Limpieza (Cleaning) y Transformación (Transformation) Carga (Loading) y Refresco 10

Introducción Arquitectura de almacén de datos Monitorización & Administración Repositorio de metadatos Servidores OLAP Análisis Fuentes externas Extraer Almacén de Datos Consultas/Informes BD operacionales Transformar Cargar Refrescar Servir Minería de datos Fuentes de datos Data Marts Herramientas de consulta Introducción Arquitectura de almacén de datos. Servidores OLAP Servidores de consulta ROLAP Utilizan tecnología Relacional (Relational OLAP) Utilizan extendiones del SQL estándar para soportar el acceso multidimensional a los datos Métodos de implementación adecuados para representar los datos multidimensionales en tecnología relacional Ventaja: Basado en un estándar 11

Introducción Arquitectura de almacén de datos. Servidores OLAP Servidores de consulta MOLAP Utilizan tecnología Multidimensional (Multidimensional OLAP) Los datos están almacenados directamente en matrices Operaciones de consulta están implementadas directamente sobre estas matrices No están basados en SQL estándar Ventaja: Suelen ser más rapidos que los ROLAP Inconveniente: no basados en un estándar Introducción Arquitectura de almacén de datos Monitorización & Administración Repositorio de metadatos Servidores OLAP OLAP Fuentes externas Extraer Almacén de Datos Consultas/Informes BD operacionales Transformar Cargar Refrescar Servir Minería de datos Fuentes de datos Data Marts Herramientas de consulta 12

Indice Sistemas de apoyo a la decisión El almacén de datos (AD) Diferencia sistemas transaccionales y de AD Arquitectura de almacenes de datos Diseño de almacenes de datos: visión práctica Integración de fuentes: Procesos ETL Diseño de almacenes de datos: UML Conclusiones Indice Diseño de almacenes de datos: visión práctica Integración de fuentes: Procesos ETL Diseño de almacenes de datos: UML Conclusiones 13

Indice Diseño de almacenes de datos: visión práctica Bases de datos transaccionales vs. almacenes de datos Modelado Multidimensional (MD) Esquema estrella y variantes (en SGBDR) Dimensión tiempo Algunos datos del mercado Integración de fuentes: Procesos ETL Diseño de almacenes de datos: UML Conclusiones Indice Diseño de almacenes de datos: visión práctica Bases de datos transaccionales vs. almacenes de datos Modelado Multidimensional (MD) Esquema estrella y variantes (en SGBDR) Dimensión tiempo Algunos datos del mercado Integración de fuentes: Procesos ETL Diseño de almacenes de datos: UML Conclusiones 14

Diseño de AD: visión práctica Bases de datos transaccionales vs. Almacenes de datos Monitorización & Administración Repositorio de metadatos Servidores OLAP OLAP Fuentes externas Extraer Almacén de Datos Consultas/Informes BD operacionales Transformar Cargar Refrescar Servir Minería de datos Fuentes de datos Data Marts Herramientas de consulta Diseño de AD: visión práctica Bases de datos transaccionales vs. Almacenes de datos Bases de datos transaccionales (relacionales) Normalización Optimizadas para edición e inserción de datos Diseño conceptual Modelo EER Diseño lógico Modelo Lógico Relacional Diseño físico Modelo físico (Indices, particionamiento, ) 15

Diseño de AD: visión práctica Bases de datos transaccionales vs. Almacenes de datos Almacenes de datos Des - normalización Optimizadas para consultas complejas Reduce número de objetos y de relaciones entre éstos Fácil interpretación por el analista de la información Diseño conceptual Modelado MD (intuitivo) Diseño lógico Esquemaestrella(siSGBDR) Diseño físico Modelo físico (Indices, particionamiento, ) Indice Diseño de almacenes de datos: visión práctica Bases de datos transaccionales vs. almacenes de datos Modelado Multidimensional (MD) Esquema estrella y variantes (en SGBDR) Dimensión tiempo Algunos datos del mercado Integración de fuentes: Procesos ETL Diseño de almacenes de datos: UML Conclusiones 16

Indice Diseño de almacenes de datos: visión práctica Bases de datos transaccionales vs. almacenes de datos Modelado Multidimensional (MD) Esquema estrella y variantes (en SGBDR) Dimensión tiempo Algunos datos del mercado Integración de fuentes: Procesos ETL Diseño de almacenes de datos: UML Conclusiones Diseño de AD: visión práctica Modelado Multidimensional (MD) Atributos de dimensión Ventas productos Provincia Almacén Madrid Barcelona Alicante Bebida 9 Hechos Medidas (celdas) Tipo... Producto Comida 8 Cantidad Enero... Mayo Mes Dimensiones Tiempo 17

Diseño de AD: visión práctica Modelado Multidimensional (MD) Tablas multidimensionales Almacén. comunidad = Comunidad Valenciana Ventas Alicante Albatera Elche Valencia Burjasot Cullera Producto.Grupo = Supermercado Comida Bebida Cong Fresco Refresco Alcohol 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 1600 Diseño de AD: visión práctica Modelado Multidimensional (MD). Dimensiones Normalmente se representan mediante Grafos Acíclicos dirigidos (G.A.D.) Jerarquía Múltiple marca Producto grupo familia tipo Dimensión nombre Zona_Ventas Jerarquía de camino alternativo Almacén comunidad ciudad provincia población dirección teléfono Jerarquías de clasificación Atributos de dimension 18

Diseño de AD: visión práctica Modelado Multidimensional (MD). Hechos Atributos de hecho o medidas Atómicos Ej. Cantidad vendida, precio, etc. Derivados Utilizan una fórmula para calcularlos Ej. Precio_total = precio * cantidad_vendida Diseño de AD: visión práctica Modelado Multidimensional (MD). Hechos Aditividad Conjunto de operadores de agregación (SUM, AVG, etc. ) que se pueden aplicar para agregar los valores de medidas a lo largo de las jerarquías de clasificación (Kimball, 1996) Es aditiva SUM sobre todas las dimensiones Semi-aditiva SUM sólo sobre algunas dimensiones No aditiva SUM sobre ninguna dimensión 19

Diseño de AD: visión práctica Modelado Multidimensional (MD). Consultas Definición de requerimientos iniciales de usuario Están basados en jerarquías definidas en Dimensiones Cantidad vendida de productos comestibles agrupados por su familia y tipo, de almacenes de la comunidad valenciana y, agrupados por la provincia y ciudad donde se vendieron Diseño de AD: visión práctica Modelado Multidimensional (MD). Operaciones OLAP Operaciones de consulta (OLAP) Roll-up Agregar valores de medidas a lo largo de jerarquías de clasificación Almacén. comunidad = Comunidad Valenciana Ventas Alicante Alicante Albatera Elche Valencia Valencia Burjasot Cullera Provincia Ciudad Producto.Grupo = alimentación Comida Bebida Comida Bebida Cong. Fresca Refresco Alcohol 100 200 300 400 1400 2200 500 600 700 800 900 1000 1100 1200 4600 5400 1300 1400 1500 1600 Grupo Familia Tipo 20

Diseño de AD: visión práctica Modelado Multidimensional (MD). Operaciones OLAP Operaciones de consulta (OLAP) Drill-down Desagregar valores de medidas a lo largo de jerarquías de clasificación Almacén. Comunidad= Comunidad Valenciana Ventas Alicante Alicante Albatera Elche Valencia Valencia Burjasot Cullera Producto.Grupo = alimentación Comida Food Bebida Drink Comida Bebida Frozen Cong. Fresca Fresh Refresco Refresh Alcohol 100 200 300 400 1400 2200 500 600 700 800 900 1000 1100 1200 4600 5400 1300 1400 1500 1600 Diseño de AD: visión práctica Modelado Multidimensional (MD). Operaciones OLAP Operaciones de consulta (OLAP) Drill-accross Consultar medidas de varios hechos en el mismo cubo Ej. Que en la tabla MD analizaramos el ratio de ventas respecto de compras. 1000 / 400 21

Diseño de AD: visión práctica Modelado Multidimensional (MD). Operaciones OLAP Operaciones de consulta (OLAP) Slice-dice Definir restricciones sobre niveles de jerarquías Ej. Analizar datos donde el año sea 1999 Almacén. Comunidad = Comunidad Valenciana Ventas Alicante Albatera Albatera Elche Alicante Valencia Burjasot Elche Cullera Producto.Grupo = Alimentación Comida Comida Bebida Cong. Congelada Fresca Refresco Fresca Alcohol 100 200 300 400 500 100 600 700 200 800 900 1000 1100 1200 1300 500 1400 1500 600 1600 Diseño de AD: visión práctica Modelado Multidimensional (MD). Operaciones OLAP Operaciones de consulta (OLAP) Pivoting Reorientar la vista multidimensional de los datos, es decir, cambiar la distribución de filas/columnas Algunos autores consideran también el intercambio de medidas y hechos como pivoting (kimball, 1996) (Inmon, 1996) 22

Indice Diseño de almacenes de datos: visión práctica Bases de datos transaccionales vs. almacenes de datos Modelado Multidimensional (MD) Esquema estrella y variantes (en SGBDR) Dimensión tiempo Algunos datos del mercado Integración de fuentes: Procesos ETL Diseño de almacenes de datos: UML Conclusiones Indice Diseño de almacenes de datos: visión práctica Bases de datos transaccionales vs. almacenes de datos Modelado Multidimensional (MD) Esquema estrella y variantes (en SGBDR) Dimensión tiempo Algunos datos del mercado Integración de fuentes: Procesos ETL Diseño de almacenes de datos: UML Conclusiones 23

Diseño de AD: visión práctica Esquema estrella y variantes (SGBDR) Producto producto_cod producto_nombre producto_color marca_cod marca_director familia_cod familia_des tipo_cod. Grupo_cod. Cliente cliente_cod cliente_nombre ciudad. comunidad Tablas de dimensión Ventas_productos producto_cod almacén_cod cliente_cod tiempo_cod cantidad_vendida precio... total_precio... Tabla de hechos Almacén almacén_cod almacén _nombre almacén _direc ciudad. provincia.. Zona_ventas. comunidad Tiempo tiempo_cod día vacaciones mes. año Diseño de AD: visión práctica Esquema estrella y variantes (SGBDR) Tablas de dimensiones Describen el contexto para analizar los hechos Datos textuales (Alfanuméricos) Datos desnormalizados redundancia Cada fila contiene su clave primaria y los atributos descriptores de todos los niveles de jerarquía Tablas más pequeñas que las tablas de hechos 24

Diseño de AD: visión práctica Esquema estrella y variantes (SGBDR) Tabla de dimensión producto Producto_cod Producto nombre... Family_Desc 1 Puleva Milk ½ L. Productos lácteos 2 Puleva Milk 1L. Productos lácteos 3 Yogourt Pascual Productos lácteos 4 Mr. Proper Productos limpieza 5. Ajax. Productos. limpieza...... Producto producto_cod producto_nombre producto_color marca_cod marca_director familia_cod familia_des tipo_cod. Grupo_cod. Diseño de AD: visión práctica Esquema estrella y variantes (SGBDR) 25

Diseño de AD: visión práctica Esquema estrella y variantes (SGBDR) Tablas de hechos Actividades básicas de empresa Cada fila se compone de: Clave primaria (compuesta por claves ajenas de las dimensiones) Medidas Datos numéricos Generalmente relación m-n con dimensiones y, m-1 en particular con cada dimensión Diseño de AD: visión práctica Esquema estrella y variantes (SGBDR) Tabla de hecho ventas CliKey ProductoKey AlmacénKey Tiempo_key Sale Amount 1 1 1 1 100 1 2 1 2 120 1 3 1 3 200.... 26

Diseño de AD: visión práctica Esquema estrella y variantes (SGBDR) Diseño de AD: visión práctica Esquema estrella y variantes (SGBDR) 27

Diseño de AD: visión práctica Esquema estrella y variantes (SGBDR) Esquema estrella Ventajas Fácil de entender por los usuarios Reduce número de uniones físicas Respuestas rápidas para la mayoría de las consultas Metadatos sencillos Soportado por la inmensa mayoría de aplicaciones Diseño de AD: visión práctica Esquema estrella y variantes (SGBDR) Esquema estrella Inconvenientes El aumento del tamaño de la tabla de hechos con datos agregados puede empeorar el rendimiento general Por ello se recomienda tablas de hechos agregados al margen Las dimensiones tienen un tamaño enorme Alrededor de 50 atributos (Kimball) Es poco robusto o susceptible a cambios 28

Diseño de AD: visión práctica Esquema estrella y variantes (SGBDR). Constelaciones de hechos Producto producto_cod producto_nombre producto_color marca_cod marca_director familia_cod familia_des tipo_cod. Grupo_cod. Cliente cliente_cod cliente_nombre ciudad. comunidad Ventas_productos producto_cod almacén_cod cliente_cod tiempo_cod cantidad_vendida precio... total_precio Ventas_productos producto_cod comunidad_cod cliente_cod tiempo_cod cantidad_vendida precio... total_precio Almacén almacén_cod almacén _nombre almacén _direc ciudad. provincia.. Zona_ventas. comunidad Tiempo time_cod día vacaciones mes. año Esquema constelaciones de hechos Principal Ventaja Rapidez de respuesta a consultas de datos agregados Diseño de AD: visión práctica Esquema estrella y variantes (SGBDR). Constelaciones de hechos 29

Esquema constelaciones de hechos Inconvenientes Un gran número de tablas de agregados Cada tabla de agregados se usa para calcular su nivel Navegar por jerarquías requiere escanear distintas tablas Aumenta el tamaño de los metadatos Diseño de AD: visión práctica Esquema estrella y variantes (SGBDR). Constelaciones de hechos Dificulta su gestión y mantenimiento ya que para cada carga nueva de datos se han de recalcular todos las tablas de hechos Puede haber requerimientos que necesiten varias tablas Diseño de AD: visión práctica Esquema estrella y variantes (SGBDR). Copos de nieve (snowflake) Se normalizan los niveles de jerarquía de dimensiones Tabla dimensión valores del mínimo nivel de jerarquía Almacén Cod_almacén nombre superficie dirección teléfono cod_ciudad... Ciudad Cod_ciudad descrip_ciudad habitantes_ciudad cod_comunidad... Comunidad Cod_comunidad descrip_comunidad habitantes_ciudad cod_país... País Cod_país descrip_país habitamtes_ país... 30

Esquema copos de nieve Ventajas Fácil para definir jerarquías Podría salvar espacio en disco, pero no demasiado Diseño de AD: visión práctica Esquema estrella y variantes (SGBDR). Copos de nieve (snowflake) Mejora considerablemente el rendimiento cuando un gran número de requerimientos solicita datos agregados o de niveles superiores de jerarquías Los requerimientos escanean un reducido número de filas Esquema copos de nieve Inconvenientes Aumenta el número de tablas aumenta el número de uniones (join) Algunos requerimientos pueden demorarse en exceso Aumenta la complejidad de diseño y mantenimiento Requiere una clave primaria más por cada nivel de jerarquía normalizado No soportado por todas las herramientas del mercado Diseño de AD: visión práctica Esquema estrella y variantes (SGBDR). Copos de nieve (snowflake) 31

Recomendaciones Normalmente no se recomienda Realmente cuando el espacio en disco es un problema Normalmente se recomienda normalizar una o dos de las dimensiones más grandes Existen un gran número de filas Diseño de AD: visión práctica Esquema estrella y variantes (SGBDR). Copos de nieve (snowflake) Suele aplicarse cuando muchos atributos caracterizan a los niveles más altos de las jerarquías Recomendaciones Utilizar sólo cuando las ventajas son muy explícitas: Ahorro en disco significativo Diseño de AD: visión práctica Esquema estrella y variantes (SGBDR). Copos de nieve (snowflake) Muchos atributos en los niveles más altos de jerarquías Estadísticamente, el espacio en disco ahorrado utilizando snowflake schemas es del 1% del espacio total en disco 32

Diseño de AD: visión práctica Esquema estrella y variantes (SGBDR). Híbrido Utilizar copos de nieve con constelaciones de hechos (agregados) Almacén Ciudad Comunidad País Cod_almacén nombre superficie dirección teléfono cod_ciudad... Cod_ciudad descrip_ciudad habitantes_ciudad cod_comunidad... Cod_comunidad descrip_comunidad habitantes_ciudad cod_país... Cod_país descrip_país habitamtes_país... Ventas_Productos Cod_producto Cod_almacén Cod_dia cantidad_vendida coste precio precio_total total_beneficio número_clientes... Ventas_ciudad Cod_producto Cod_ciudad Cod_dia cantidad_vendida coste precio precio_total total_beneficio número_clientes... Ventas_comunidad Cod_producto Cod_comunidad Cod_dia cantidad_vendida coste precio precio_total total_beneficio número_clientes... Ventas_país Cod_producto Cod_país Cod_dia cantidad_vendida coste precio precio_total total_beneficio número_clientes... Más particularidades Relaciones muchos a muchos hechos-dimensión Hechos que no son hechos (Factless fact tables) Dimensiones degeneradas Hechos degenerados Dimensiones que cambian lentamente Hechos y dimensiones comunes Etc. Diseño de AD: visión práctica Esquema estrella y variantes (SGBDR). Copos de nieve (snowflake) 33

Diseño guiado por requerimientos de usuarios (user requirement driven) Análisis requerimientos Modelado MD Diseño guiado por datos A partir de fuentes de datos Aproximación híbrida Diseño de AD: visión práctica Esquema estrella y variantes (SGBDR). Copos de nieve (snowflake) Diseño de AD: visión práctica Esquema estrella y variantes (SGBDR). Un apunte metodológico Si partimos de fuentes de datos operacionales Comunidad Título... Estudios (0,n) (0,n) tiene Cliente (1,n) Cod (1,n) compra Nombre... Está Producto (1,n) Vive (1,1) (1,n) (1,1) Provincia (1,n) (1,1) Está Ciudad... Nombre D.N.I.... Nombre... Producto producto_cod Descripción... Compras producto_cod cliente_cod cantidad_vendida precio total_precio... Cliente cliente_dni estudios Ciudad_cod Comunidad comunidad_cod nombre Provincia provincia_cod nombre Ciudad ciudad_cod nombre 34

Indice Diseño de almacenes de datos: visión práctica Bases de datos transaccionales vs. almacenes de datos Modelado Multidimensional (MD) Esquema estrella y variantes (en SGBDR) Dimensión tiempo Algunos datos del mercado Integración de fuentes: Procesos ETL Diseño de almacenes de datos: UML Conclusiones Indice Diseño de almacenes de datos: visión práctica Bases de datos transaccionales vs. almacenes de datos Modelado Multidimensional (MD) Esquema estrella y variantes (en SGBDR) Dimensión tiempo Algunos datos del mercado Integración de fuentes: Procesos ETL Diseño de almacenes de datos: UML Conclusiones 35

Diseño de AD: visión práctica La dimensión Tiempo Tabla de dimensión tiempo Día laborable Período fiscal Principal evento Mes Vacaciones Clave de la Tabla tiempo Una columna simple: generl. auto generada Permite un análisis más flexible Tiempo Diseño de AD: visión práctica La dimensión Tiempo Normalizada Tabla de hechos Día_id Tabla de hechos Día_id Tabla de hechos Día_id Dim_Tiempo Día_id Mes_id Cuatrimestre_id Semestre_id Año_id Dim_Tiempo Día_id Mes_id Cuatrimestre_id Semestre_id Año_id Mes_fiscal_id Cuat_fiscal_id Semester_fiscal_id Año_fiscal_id Dim_Tiempo Día_id Mes_id Cuatrimestre_id Semestre_id Año_id 36

Indice Diseño de almacenes de datos: visión práctica Bases de datos transaccionales vs. almacenes de datos Modelado Multidimensional (MD) Esquema estrella y variantes (en SGBDR) Dimensión tiempo Algunos datos del mercado Integración de fuentes: Procesos ETL Diseño de almacenes de datos: UML Conclusiones Indice Diseño de almacenes de datos: visión práctica Bases de datos transaccionales vs. almacenes de datos Modelado Multidimensional (MD) Esquema estrella y variantes (en SGBDR) Dimensión tiempo Algunos datos del mercado Integración de fuentes: Procesos ETL Diseño de almacenes de datos: UML Conclusiones 37

Diseño de AD: visión práctica Algunos datos del mercado Ratio de crecimiento: bajo Mercado grande dificil crecer Cierto grado de saturación Media de costes drásticamente disminuida Fuente: The OLAP Report Diseño de AD: visión práctica Algunos datos del mercado 38

Diseño de AD: visión práctica Algunos datos del mercado. Oracle Almacén de datos Arquitectura del Oracle 9i/10g Oracle Warehouse Builder (OWB) Acceso a datos Discoverer para managers Express para analistas Soporta tecnología Web Diseño de AD: visión práctica Algunos datos del mercado. Oracle Discoverer 39

Diseño de AD: visión práctica Algunos datos del mercado. Oracle Discoverer Diseño de AD: visión práctica Algunos datos del mercado. Oracle Discoverer 40

Diseño de AD: visión práctica Algunos datos del mercado. SQL Server Diseño de AD: visión práctica Algunos datos del mercado. SQL Server 41

Diseño de AD: visión práctica Algunos datos del mercado. Cognos Transformer Diseño de AD: visión práctica Algunos datos del mercado. Cognos Transformer 42

Diseño de AD: visión práctica Algunos datos del mercado. Cognos Power Play Indice Diseño de almacenes de datos: visión práctica Bases de datos transaccionales vs. almacenes de datos Modelado Multidimensional (MD) Esquema estrella y variantes (en SGBDR) Dimensión tiempo Algunos datos del mercado Integración de fuentes: Procesos ETL Diseño de almacenes de datos: UML Conclusiones 43

Indice Diseño de almacenes de datos: visión práctica Integración de fuentes: Procesos ETL Diseño de almacenes de datos: UML Conclusiones Indice Diseño de almacenes de datos: visión práctica Integración de fuentes: Procesos ETL Extracción Transformación Carga Diseño de almacenes de datos: UML Conclusiones 44

Indice Diseño de almacenes de datos: visión práctica Integración de fuentes: Procesos ETL Extracción Transformación Carga Diseño de almacenes de datos: UML Conclusiones Indice Diseño de almacenes de datos: visión práctica Integración de fuentes: Procesos ETL Extracción Transformación Carga Diseño de almacenes de datos: UML Conclusiones 45

Integración de fuentes: Procesos ETL Introducción Algunas tareas comunes de procesos ETL: Datos de distintas fuentes se tienen que unir (join) Datos se tienen que agregar Datos se han de convertir a un formato común Generar claves auto generadas Verificar la calidad de los datos Etc. Integración de fuentes: Procesos ETL Introducción Definir una estrategia de calidad de datos para la empresa según política de toma de decisiones Definir el nivel de calidad óptimo de los datos Considerar el modificar reglas de las fuentes de datos operacionales Básico documentar las fuentes Diseñar los procesos de limpieza (y sus tareas) de forma muy cuidadosa Los procesos de limpieza iniciales puedes variar de los procesos de refresco posteriores 46

Integración de fuentes: Procesos ETL Introducción Cuidado datos incorrectos o engañosos producirán decisiones estratégicas erróneas El mercado de herramientas de ETL en 2001: sobre $667 millones in USA Esfuerzo en ETL: 30% del presupuesto total de los proyectos de DW Actualmente el diseño y mantenimiento de procesos ETL es todavía un asunto pendiente Aunque varias herramientas en mercado, no disponemos de modelo o metodología estándar para su diseño desde primeros pasos de un proyecto de DW Integración de fuentes: Procesos ETL Introducción Rutinas convencionales COBOL, 4GL Herramientas especializadas Proceso de conversión personalizada Expertos de negocio 47

Integración de fuentes: Procesos ETL Introducción Seis pasos detallados: 1. Seleccionar las fuentes para extraer datos 2. Transformar las fuentes 3. Unir las fuentes 4. Seleccionar las estructuras destino a cargar datos (hechos, dimensiones, etc.) 5. Mapear los atributos de las fuentes en los destinos 6. Cargar los datos Integración de fuentes: Procesos ETL Introducción El paso de transformación también puede incluir limpieza de datos (detectar y borrar errores e inconsistencias) La creación manual y mantenimiento de los procesos ETL aumenta el coste de los DW CUIDADO: Documentación con gran cantidad de páginas con código de programas ETL 48

Indice Diseño de almacenes de datos: visión práctica Integración de fuentes: Procesos ETL Extracción Transformación Carga Diseño de almacenes de datos: UML Conclusiones Indice Diseño de almacenes de datos: visión práctica Integración de fuentes: Procesos ETL Extracción Transformación Carga Diseño de almacenes de datos: UML Conclusiones 49

Hollywood Hollywood Hollywood Hollywood Hollywood Hollywood Integración de fuentes: Procesos ETL Extracción Producción Archivos Internas Externas X + Browser: http:// Browser: http:// Customers: + X Browser: http:// Customers: a recorof + X as 12345.00 12780.00 2345787.00 87877.98 5678.00 100% ABC CO 110% GMBH LTD 230% GBUK INC 200% FFR ASSOC -10% MCD CO Integración de fuentes: Procesos ETL Extracción IMS DB2 VSAM SQL Oracle Sybase Rdb X + Browser: http:// Browser: http:// Customers: + X Browser: http:// Customers: + a recorof as X Distintas plataformas de S.O. Plataformas Hardware Sistemas de ficheros Sistemas de bases de datos SAP Sistemas médicos Predicción financiera Oracle Financial 50