Datawarehousing : fundamentos



Documentos relacionados
Inteligencia de Negocios. Cecilia Ruz

Sistemas de Información 12/13 La organización de datos e información

Definición. Data Warehousing: almacenamiento, transformación y distribución de datos útiles para los responsables de tomar decisiones 9/29/2006 4

FACULTAD DE INGENIERÍA. Bases de Datos Avanzadas

Capítulo 2 Tecnología data warehouse

Proceso E.T.L Enfoque Kimball

Inteligencia de Negocios

MOLAP REALIZADO POR: JOSE E. TABOADA RENNA

CAPÍTULO 2 DATA WAREHOUSES

ANEXO A - Plan de Proyecto EDT de la solución EDT GENERAL DEL PROYECTO1

Fundamentos de la Inteligencia de Negocios

BASES DE DATOS TEMA 3 MODELO ENTIDAD - RELACIÓN

Business Intelligence

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 5 -

Módulo Minería de Datos

Tecnologías de Información y Comunicación II CLASE 10

Sistemas de Información para la Gestión. UNIDAD 2: RECURSOS DE TI Información y Aplicaciones

DATA WAREHOUSE DATA WAREHOUSE

El diseño de la base de datos de un Data Warehouse. Marta Millan

Fundamentos de la Inteligencia de Negocios

Fundamentos de la Inteligencia de Negocios

Sistema de análisis de información. Resumen de metodología técnica

Tecnología aplicada a la toma de decisiones o malas decisiones en tecnología?

TEMA 3 PROFESOR: M.C. ALEJANDRO GUTIÉRREZ DÍAZ 2 3. PROCESAMIENTO DE CONSULTAS DISTRIBUIDAS

Overview of Data Warehousing / Business Intelligence with SQL Server

Business Intelligence y Cuadro de Mando Integral: Herramientas para la Dirección Estratégica de las Organizaciones

Norma ISO 9001:2015. Cuáles son los cambios presentados en la actualización de la Norma?

Modelado dimensional de datos

UN PASEO POR BUSISNESS INTELLIGENCE

El almacén de indicadores de proceso de negocio en ejecución

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA

Unidad 10: DATAWAREHOUSING y OLAP. Cátedra Bases de Datos

Tecnologías de Información y Comunicación II.

Facultad de Ciencias Económicas. Departamento de Sistemas. Asignatura: INTELIGENCIA DE NEGOCIOS. Plan 1997

Data Warehousing. Introducción. Facultad de Ingeniería Escuela de Ingeniería de Sistemas y Computación

IBM Cognos 8 Suite. Mariano Maceiras. Agosto 2010

SQL Server Business Intelligence parte 1

Primeros pasos hacia la Inteligencia de Negocios: Almacenes de datos (DataWareHouse), Herramientas ETL(PDI), Procesamiento analítico en línea.

09/01/2009. Diseño e implementación de Datawarehouse con Analysis Services Universidad de Guadalajara. Mario Octavio II Muñoz Camacho

Sistemas de Información para la Gestión. Unidad 3 Aplicaciones de Sistemas

Enfoques de desarrollo DW Kimball/Inmon.

La calidad de los datos ha mejorado, se ha avanzado en la construcción de reglas de integridad.

Asegurando la Calidad del Dato en mi Proyecto de BI

Inteligencia de Negocios

Capítulo 4 Implementación

Inteligencia de Negocios Introducción. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

Data Warehousing. Arquitectura de procesos en un sistema de data warehousing. Facultad de Ingeniería Escuela de Ingeniería de Sistemas y Computación

La Base de Datos OLAP Analysis Services (SSAS) Agenda. Agenda. Construyendo una Solución de BI paso a paso con SQL Server 2005

Sistemas de Información y Bases de Datos. Introducción a las Bases de Datos Tema 1

Tecnologías Aplicadas a Business Intelligence Proyecto Práctico

Sybase IQ Servidor analítico con arquitectura basada en columnas

Inteligencia de Negocios. & Microsoft Excel 2013

INFORME TECNICO PREVIO DE EVALUACIÓN DE SOFTWARE N /UIE-PATPAL - FBB

Estos documentos estarán dirigidos a todas las personas que pertenezcan a equipos de implementación de Oracle BI, incluyendo a:

GUÍA DE SEGURIDAD DE LA INFORMACIÓN GUÍA GOBIERNO CORPORATIVO PARA EMPRESAS SEP

Parte I: Introducción

Base de Datos. Profesor: José Miguel Rubio L. P. UNIVERSIDAD CATÓLICA DE VALPARAÍSO FACULTAD DE INGENIERÍA ESCUELA DE INFORMÁTICA

Programa Analítico Plan de estudios Asignatura: Bases de Datos

asired EIS Descripción de producto. Integración de Sistemas Explotación de Datos y Business Intelligence para la Pequeña y Mediana Empresa.

Cómo empezar? Fernando Quesada abcq Solutions

Reporte Registro de Personas con Discapacidad

Data Mining Técnicas y herramientas

Sistemas de Inteligencia de Negocios

BASE DE DATOS RELACIONALES

Manual de usuario de Solmicro BI. Página 1

ASIGNATURA DE GRADO: BASES DE DATOS

Servicio Business Intellingence integrado con Data Management & Big Data Del dato al conocimiento

Ganar competitividad en el mercado con los sistemas adecuados: SAP ERP y SAP CRM

El análisis de la información permitió identificar como principales causas de discrepancia estadística en el flujo hacia el sur, las siguientes:

Almacén de datos - concepto. Arquitectura de un sistema de almacén de datos

IWG-101: Introducción a la Ingeniería. Departamento de Informática, UTFSM 1

Data Warehousing - Marco Conceptual

Optimización de modelos multidimensionales en SSAS

Materia: Inteligencia de negocios

LOS CINCO GRADOS DE MADUREZ DE UN PROYECTO BI

Sistemas de Data Warehousing

BUSINESS INTELLIGENCE

BASES DE DATOS, MODELOS DE DATOS Y DBMS

Oracle vs Oracle por Rodolfo Yglesias Setiembre 2008

Bases de Datos Masivas

ARQUITECTURA DE UNA BODEGA DE DATOS

Informática II Ing. Industrial. Data Warehouse. Data Mining

Construcción de cubos OLAP utilizando Business Intelligence Development Studio

REPOSITORIO COR O P R OR O A R T A I T VO V

Base de datos relacional

TEORIA DE BASES DE DATOS. M. Sc. Cristina Bender Lic. Diana Gázquez

SpagoBI Open Source Business Intelligence

Inteligencia de Negocios Business Intelligence. Georgina Noemi Villalobos Ventura

Programa 18 Eficiencia en la gestión académica

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE ESTUDIOS SUPERIORES ACATLÁN HORAS SEMANA

Caso práctico de Cuadro de Mando con Tablas Dinámicas

FICHEROS Y BASES DE DATOS (E44) 3º INGENIERÍA EN INFORMÁTICA. Tema 5. Sistemas de Bases de Datos. frente a Sistemas de Ficheros

Teoría del Inventario de Emisiones de Contaminantes Atmosféricos Generados por Aeropuertos.

MS Excel 2010 Avanzado y Tablas Dinámicas

FUENTES SECUNDARIAS INTERNAS

PLIEGO DE PRESCRIPCIONES TÉCNICAS PARA LA CONTRATACIÓN DE SERVICIOS DE MANTENIMIENTO DEL SISTEMA DE INFORMACIÓN ESTADÍSTICO DE LA CONSEJERÍA DE

Transcripción:

Datawarehousing : fundamentos Business Intelligence Es un paraguas bajo el que se incluye un conjunto de conceptos y metodologías cuya misión consiste en mejorar el proceso de toma de decisiones en los negocios basándose en hechos y sistemas que trabajan con hechos Howard Dresner (Gartner Group),1989 1

B.I.: recursos y herramientas Fuentesde datos : warehouses,data marts,etc Herramientasde administraciónde datos Herramientasde extracción yconsulta Herramientasde modelización(data Mining) Evolución: Business Data to Business Information Etapa Pregunta de N egocio Tecnología disponible Proveedores Características Data Collection (1960) Data Access (1980) Cuál fue el total de ventas en Capital Federal y GBA? Cuáles fueron las ventas por sucursal en Capital Federal y GBA? Com putadoras, cintas, discos RDBMS SQ L IBM, NCR, etc Oracle, Informix, Sybase, etc Retrospectivo Estático Retrospectivo Dinámico 2

Evolución: Business Data to Business Information Etapa Pregunta de Negocio Tecnología disponible Proveedores Características Data Navigation (1990) Data Mining (2000) Cuál fue el total de ventas en Capital Federal? Drill down a GBA Cómo evolucionarán las ventas en el próximo año? OLAP DW Algoritmos avanzados Multiprocesado res Pilot, Discoverer, Arbor, etc Intelligent Miner (IBM) SGI SAS, etc Retrospectivo Dinámico Niveles múltiples Prospectivo. Proactivo Data Warehouse Data Warehouse is a subject-oriented, integrated, timevariant, non volatile collection of data in support of management decisions Bill Inmon (1990) 3

Subject oriented Los datos almacenados en el DataWarehouse proveen información sobre un tema en particular en vez de atender la operatoria de gestión de la compañía. Integrated Los datos son volcados al DataWarehouse desde diferentes fuentes e integrados en un todo consistente. 4

Time-variant Todos los datos del datawarehouse refieren a un particular momento en el tiempo (como una foto o snapshot ). Non volatile Los datos son estables. En general siempre se agregan datos pero no se quitan. Esto permite análisis retrospectivos sobre la marcha del negocio. 5

Data Warehouse A copy of transaction data specifically structured for query and analysis. Ralph Kimball Datos operacionales y Data Warehouse Datos operacionales Data Warehouse Contenido Valores elementales Datos sumarizados, derivados Organización Por aplicación Por tema Estabilidad Dinámicos Estáticos hasta su actualización 6

Datos operacionales y Data Warehouse Estructura Frecuencia de acceso Tipo de acceso Datos operacionales Optimizada para uso transaccional (NORMALIZADA) Alta Lectura / escritura Actualización campo por campo Data Warehouse Optimizada para querys complejos (DESNORMALIZADA) Media y baja Lectura Sumarización Datos operacionales y Data Warehouse Uso Tiempo de respuesta Cantidad de registros involucrados Datos operacionales Predecible Repetitivo Segundos A lo sumo decenas Data Warehouse Ad hoc Heurístico Segundos a minutos Cientos - miles 7

La arquitectura de los datos NIVEL DE ABSTRACCION REGLAS DE NEGOCIO METADATOS ESQUEMA DE LA BASE DE DATOS RESÚMENES DE DATOS TRANSACCIONALES DATOS TRANSACCIONALES Tamaño de los datos Problemas con los datos Demasiados datos datos corruptos o con ruido datos redundantes (requieren factorización) datos irrelevantes excesiva cantidad de datos 8

Problemas con los datos Pocos datos valores perdidos poca cantidad de datos Datos fracturados datos incompatibles múltiples fuentes de datos Cuántos datos son necesarios? Cuántas filas?. Cuántas columnas?. Cuánta historia? Regla general : cuanto más datos, mejor En la práctica : condicionado a los recursos de obtención y procesamiento. 9

Data Marts Técnicamente es un subconjunto del DW orientado a una finalidad específica de negocio : marketing, finanzas, producción, etc El término se utiliza también para identificar soluciones alternativas a un DW corporativo más reducidas y de menor costo y tiempo de implantación. Explotación del Datawarehouse Extracción, clean up y carga de datos Metadata DW ReportQuery OLAP Datos operacionales y externos Data Mining 10

Componentes del DW Fuentes de datos Procedimientos de Extracción Procedimientos de Transformación Procedimientos de carga (Loading) Soporte físico de los datos (DBMS) Herramientas de explotación : OLAP, reporting, Data Mining, etc. ETL Adquisición y limpieza Objetivos Remover datos no necesarios de las fuentes operacionales Consolidar representaciones de datos de diferentes fuentes Calcular sumarizaciones y variables derivadas Resolver problemas de missings y outliers 11

Metadata Provee a los usuarios de información para facilitarles el acceso e interpretación del contenido del DW Metadata Información sobre los datos: Fuentes de datos Descripción de operaciones de transformación Estructura de datos del DW Reglas de clean up Referencias históricas y temporales,etc 12

La importancia de los metadatos Los metadatos proveen la vinculación entre los datos y los usuarios de negocio. Describen los datos Incluyen los modelos lógicos de datos, el mapeo de los datos a los sistemas transaccionales, el esquema físico de los datos, información de carga, actualización y seguridad, etc. ETL Procedimientos (herramientas) destinados a obtener los datos de las fuentes operacionales, limpiarlos, convertirlos a los formatos de utilización y cargarlos en el repositorio final. 13

Integridad de datos Los datos cumplen condiciones de integridad cuando se ajustan a todos los stándares de valor y completitud. Todos los datos del DW son correctos El DW está completo(no existenmás datos fuera de él). Integridad de datos La credibilidad del DW depende de la integridad de sus datos El uso del DW depende de la percepción de los usuarios y de la confianzaque tenganen su contenido. De la integridadde datos dependeel éxito del proyecto. 14

Controles de Integridad Controles de Prevención : controlan la integridad antes de cargarlos datos en el DW. Controles de Detección : aseguran la exactitud y completitud de la información una vez cargada en el DW. Data Process Flow Data Process Flow Stages: 1.Data Migration 2.Cleansing 3.Transformation 4.Loading 5.Reconciliation 15

Etapas del proceso ETL Migración de datos Limpieza Transformación (cálculos, agregados, sumarizaciones, de-normalización). Carga Conciliación -Validación Migración Staging area: área de trabajo fueradel DW. El propósito de la migración es mover los datos de los sistemas operacionales a las áreas de trabajo (staging areas). NO se debe mover datos innecesarios (control preventivo). 16

Limpieza (Data cleaning) Corregir,estandarizary completarlos datos. Identificardatos redundantes Identificarvalores atípicos (outliers) Identificarvalores perdidos (missings) Limpieza (ejemplo) FIRST_NAME LAST_NAME COMPANY_NAME AREA_CODE PHONE STATE sam Adams boston beer co. 617 3685000MA Sam Adams Boston beer co,. 617 3685000MA Samuel Adams Boston Beer Co. 617 3685000 MA SAMUEL ADAMS BOSTON BEER 617 3685000MA Samuel Adams Boston Beer Co. 617 3685000 MA 17

Limpieza (otros ejemplos) Eliminar transacciones con monto = 0 (promociones, regalos) Eliminar transacciones anuladas (balance = 0). Normalizar nombres de marcas de auto, de direcciones, etc. Eliminar fechas de nacimiento inválidas (edad > 100 años o negativa) Limpieza (actividades) Las denominaciones de los sistemas operacionales deben uniformarse y referenciarse con nombres propios de los sistemas de negocios (autodocumentados) Cust Cust_id Cust_nro Nro de Cliente 18

Limpieza (actividades) Los tipos de dato asociados a cada atributo deben standarizarse y consolidarse para las diferentes fuentes. Nombre(A20) Nombre(A25) Nombre A(25) Limpieza (actividades) Se debe uniformar las tablas de códigos de los sistemas operacionales y simplificar esquemas de codificación Datos complejos, que representan varios atributos a la vez, deben ser particionados. 19

Transformación Son procesos destinados a adaptar los datos al modelo lógico del DW Se generan reglas de transformación. Las reglas deben validarsecon los usuarios del DW Transformación Generalmente el DW no contiene información de las entidades que - en los sistemas operacionales - son muy dinámicas y sufren frecuentes cambios. Si es necesariose utilizansnapshots (fotos instantáneas) 20

Transformación La des-normalización de los datos tiene como propósito mejorar la performance. Otro propósito es el de reflejar relaciones estáticas,es decir, que no cambian en una perspectiva histórica. Por ejemplo: producto - precio vigente al momento de facturación. Transformación (sumarizaciones) Los datos sumarizadosaceleranlos tiemposde análisis. Las sumarizaciones también ocultan complejidad de los datos. Las sumarizaciones pueden incluir joins de múltiples tablas Las sumarizaciones proveen múltiples vistas del mismo conjunto de datos detallados(dimensiones). 21

Sumarizaciones (mantenimiento) El mantenimiento de las sumarizaciones es una tarea crítica. El DW debe actualizarlas a medida que se cargan nuevos datos. Debe existir alguna forma de navegar los datos hasta el nivel de detalle (drill down). La definición de la granularidad es un problema serio de diseño. El nivel de granularidad: problema de diseño del DW Cúal es la unidad de tratamiento (fila) Qué es un cliente? Una cuenta, un individuo, una familia Cómo se sumariza la dimensión tiempo? Días, semanas, meses? 22

Carga (Loading) Dos aproximaciones: Full Refresh Incremental Aunque el Full Refresh parece más sólido desde el punto de vista de la integridad de los datos, a medida que crece el DW se vuelve cada vez más difícil de realizar. Controles de detección La validación de la carga del DW identifica problemas en los datos no detectados en las etapas anteriores. Existen dos manerasde hacer la validación: completa (al final del proceso) por etapas a medida que se cargan los datos 23

Controles de detección Los controles incluyen reportes que comparan los datos del DW con las fuentes operacionales a través de: totales de control número de registros cargados valores originales vs valores limpios (transformados), etc. Herramientas ETL Pueden ser procesos manuales diseñados a medida (querys SQL, programas, etc). Existen herramientas que proporcionan interfaces visuales para definir joins, transformaciones, agregados, etc. sobre las plataformas mas comunes. 24

Modelado de datos La pregunta central De qué modo deben diseñarse las bases de datos que conforman un Data Warehouse para soportar eficientemente los requerimientos de los usuarios? 25

Por qué es importante? Visualizacióndel universodel negocio Modelo de abstracción de las preguntas que los usuarios necesitan responder Diseño del plan de implantacióndel Data Warehouse Dos técnicas Modelo E-R Modelo dimensional Entidades Atributos Relaciones Hechos Dimensiones Medidas 26

Modelo E-R Modelo dimensional: HECHOS Hechos : colección de items de datos y datos de contexto. Cada hecho representa un item de negocio, una transacción o un evento Los hechos se registranen las tablas CENTRALES del DW 27

Modelo dimensional: DIMENSION Una dimensión es una colección de miembros o unidades o individuos del mismo tipo Cada punto de entrada de la tabla de HECHOS está conectado a una DIMENSION Determinan el contexto de los HECHOS Modelo dimensional: DIMENSIONES Se utilizan como parámetros para los análisis OLAP Dimensiones habituales son: Tiempo Geografía Cliente Vendedor 28

Modelo dimensional: DIMENSIONES - Miembros Dimensión Tiempo Geografía Cliente Vendedor Miembro Meses, Trimestre, Años País, Región, Ciudad Id Cliente Id Vendedor Modelo dimensional DIMENSIONES - Jerarquía 29

Modelo dimensional DIMENSIONES : Medidas Medida : es un atributo numérico de un hecho que representa la performance o comportamiento del negocio relativo a la dimensión Ejemplos: Ventas en $$ Cantidad de productos Total de transacciones, etc. Visualización de un modelo dimensional 30

DW - OLAP El modelo dimensional es ideal para soportar las 4 operaciones básicas de la tecnología OLAP: Relacionadas con la granularidad: ROLL UP - DRILL DOWN Navegación por las dimensiones : SLICE - DICE Example: Roll Up and Drill Down $ of Anheuser-Busch by drinker/bar Joe s Bar Nut- House Blue Chalk Jim Bob Mary 45 33 30 50 36 42 38 31 40 Roll up by Bar Bud M lob Bud Light $ of A-B / drinker Jim 133 48 Bob 100 40 Mary 112 $ of A-B Beers / drinker Jim 40 45 Bob 29 31 Mary 40 37 35 Drill down by Beer 62 31

Drill Down - Roll Up Slice and Dice Slice: es un subconjunto del array multidimensional que tiene un único valor para una o más dimensiones. Es una rebanada del cubo Dice: es como el slice pero para 2 ó más valores de una o más dimensiones 32

Modelos básicos dimensionales STAR SNOWFLAKE Star 33

SnowFlake Maestría en Data Mining 68 34

E-R - Modelo dimensional El modelo dimensional puede verse como un caso particular del modelo de ER Foreing keys Dimension Hecho Entidad Presentación Esta presentación fue armada utilizando, además de material propio, material contenido en los manuales de Oracle y material provisto por los siguientes autores Siblberschat, Korth, Sudarshan - Database Systems Concepts, 6 th Ed., Mc Graw Hill, 2010 García Molina/Ullman/Widom - Database Systems: The Complete Book, 2nd Ed.,Prentice Hall, 2009 Elmasri/Navathe - Fundamentals of Database Systems, 6th Ed., Addison Wesley, 2011 70 35