Carga y Mantenimiento de DW

Documentos relacionados
Diseño y Construcción de Data Warehouse. Instituto de Computación - Facultad de Ingeniería Mayo Carga y Actualización

Introducción al Data Warehousing. Diseño Conceptual.

Instituto de Computación - Facultad de Ingeniería Marzo 2017

Administración de las Bases de Datos

Implementing a SQL Data Warehouse

Arquitectura de un data warehouse Funcionamiento detallado de un data warehouse

Resumen de Data Warehousing Consideraciones para una solución de almacén de datos Laboratorio: Explorar una solución de almacenamiento de datos

Dirección General de Estudios de Postgrado Área de Ingeniería Programa: Maestría Sistemas de Información

ETL es el proceso responsable por las operaciones que tiene lugar en el back stage de una arquitectura de Data Warehouse.

Carga inicial. (initial load) Mantenimiento o refresco periódico: inmediato, diario, semanal, mensual,... (refreshment)

CI2355 Almacenes de datos y OLAP

20767A Implementing a SQL Data Warehouse

M06 - Metodología Gestión Migración de Datos INTESIS. Desarrollo de Software Servidor Terminológico (SEMANTIKOS)

Universidad de la República Facultad de Ingeniería Instituto de Computación. Proyecto de Grado

Curso Implementing a Data Warehouse with Microsoft SQL Server 2014 (20463)

DISEÑO DE BASE DE DATOS II PROPÓSITO DEL CURSO

BASES DE DATOS II 28/02/2005 IDBIS- DECSAI 1

Resumen Inteligencia de Negocios

Teoría de Base de Datos Ing. José J. Reyes. Definiciones

Bodegas de Datos y OLAP. Introducción a la Bodegas de Datos

Diseño arquitectónico 1ª edición (2002)

Sala Pinillos, Cámara de Comercio y Producción de La Libertad, Jr. Junín 454 Trujillo. Teléfonos: (044) / (044) Website:

Pruebas de Software. Agenda. Pruebas de Programas Los Niveles de Prueba Diseño de Casos de Prueba

Aux 2. Introducción a la Minería de Datos

Perfil de la carrera Licenciatura en Computación Sistemas de Información

Curso a Distancia Utilizando SAIKU de Pentaho

ANÁLISIS DE SISTEMAS. Prof. Eliz Mora

POSGRADO EN DATABASE ORACLE

UNIDAD I. Universidad del Zulia Costa Oriental del Lago. Conceptos Básicos

ANX-PR/CL/ GUÍA DE APRENDIZAJE. ASIGNATURA Data warehousing y data mining. CURSO ACADÉMICO - SEMESTRE Segundo semestre

Denominación: GESTIÓN Y CONTROL DE LOS SISTEMAS DE INFORMACIÓN Código: UF1643

Descripción de servicio

Tema I: Introducción a las bases de datos. Curso Introducción a las bases de datos.

Ingeniería Técnica en Informática Escuela Universitaria de Informática Universidad Politécnica de Madrid. Asignatura: Administración de Bases de Datos

SISTEMAS DE INFORMACIÓN PARA ADMINISTRACIÓN DE OPERACIONES

Bases de datos Masivas Introducción a Data Warehouse Proceso de ETL. Banchero, Santiago

FACULTAD DE INGENIERÍA

Sistemas de Soporte a las Decisiones

El Metodo Kimball Integración de Datos

Integración de Datos y ETL con Oracle Warehouse Builder: Parte 1

Integración de Datos y ETL con Oracle Warehouse Builder NEW

PROGRAMA ACADÉMICO DE TECNOLOGÍAS DE LA INFORMACIÓN. Actividad Cuestionario de BI. como requerimiento parcial para acreditar la asignatura de

Diseño e implementación de una base de datos relacional para la gestión de apuestas de fútbol

SGBD. Gestión y Modelación de Datos. María Constanza Pabón

Figure 13-1: Phase E: Opportunities & Solutions

Diseño e implementación de la base de datos de un sistema de descarga de aplicaciones de móviles inteligentes. TFC BD Iago González Fermoso

Estilos del Tipo de Vista de Módulos

Capítulo 3. Data Warehouse

Modelos de Datos y DBMS

BASE DE DATOS AVANZADAS

octubre de 2007 Arquitectura de Software

DEPARTAMENTO DE VINCULACION 1

ISO Procedimientos para la evaluación de la Calidad

Pruebas de Software. Escuela de Ingeniería de Sistemas y Computación Desarrollo de Software II Agosto Diciembre 2008

Data Warehousing Diseño e implementación de un data warehouse

DIPLOMADO EN MICROSOFT SQL SERVER 2008

ADMINISTRACIÓN DE BASES DE DATOS CORPORATIVAS

INDICE Prefacio Capitulo 1: Introducción Parte Primeras: modelos de datos Capitulo 2: Modelos entidad-relación Capitulo 3: El modelo relacional

Las empresas han comenzado a aprovechar los cada vez más numerosos datos en línea para tomar mejores decisiones sobre sus actividades.

2.6 DISEÑO ARQUITECTONICO

NORMA DE COMPETENCIA LABORAL

Estimación para Proyectos Software

FUNDAMENTOS DE BASES DE DATOS TEMA 4. Metodología de desarrollo de Bases de Datos

BASES DE DATOS TEMA 1 PERSPECTIVA DEL ÁREA DE BASES DE DATOS

Programa de DISEÑO Y CONSTRUCCION DE DATA WAREHOUSE

Tema I: Bases de Datos y Sistema Gestor de Bases de Datos

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

Modelos de Datos y DBMS. Referencia. Elmasri Navathe. Temas:

3.4 MODELADO DEL SISTEMA

Bases de datos Unidad 1 Introducción a las BD. Mónica María Rojas Rincón Oficina: P19-103

El Sistema Gestor de Base de Datos (DBMS)

Modelo Conceptual de datos. Yenifer Laurens.

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

DISEÑO E IMPLEMENTACIÓN DE UN SISTEMA DE CONTROL DEL CONSUMO ENERGÉTICO

Procesos del software

Rational Unified Process

Bases de datos 1. Teórico: Introducción

BASES DE DATOS DISTRIBUIDAS

Conceptos de Inteligencia Empresarial

Gestión de Bases de Datos. Prof. Marlene Goncalves Universidad Simón Bolívar

Diseño Físico. domingo 3 de junio de 2012

Definiciones Básicas

INTELIGENCIA DE NEGOCIO

DE LAS BD A LOS ALMACENES DE DATOS (DW) FINALIDADES Y EVOLUCIÓN DE LOS SISTEMAS DE INFORMACIÓN FINALIDADES Y EVOLUCIÓN DE LOS SISTEMAS DE INFORMACIÓN

Inteligencia de Negocios

Diseño de bases de datos. Informática Aplicada Grado en GAP Fac. de Admón. y Dir. de Empresas Univ. Politécnica de Valencia

Unidad IV: Modelo de Diseño 4.1. Estrategias de diseño

TOPICOS IV: ING. YIM APESTEGUI FLORENTINO

Unidad 10. Almacenes de Datos

2 - El Sistema de Gestión de Base de Datos (SGBD)

Disseny i implementació d una base de dades relacional per al manteniment d aparells d una empresa Carlos Cabrera Larroya Enginyeria en Informàtica

Arquitectura ANSI/SPARC

TABLEAU - Visualización y Analítica Avanzada

ANALISTA PROGRAMADOR

ORGANISMO COORDINADOR DEL SISTEMA ELÉCTRICO NACIONAL INTERCONECTADO DE LA REPÚBLICA DOMINICANA

METODOLOGÍA DE IMPLEMENTACIÓN

Ingeniería del Software 2

Transcripción:

Proceso de Diseño esq. conceptual diseño concep. dis. lógico dis. lógico dis. lógico implementación esq. lóg. MD data marts MD carga refinamiento implementación esq. lóg. rel. DW esq. lóg. rel. DW DW rel. dis. lógico ER integrado fuente integ. carga integración bases fuente Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 1 Carga y Mantenimiento de DW Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 2

Plan Contexto - Ciclo de vida de un DW Carga inicial Problemática del proceso de actualización Carga inicial Herramientas ETL Laboratorio Conclusión Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 3 Estructura del Data Warehouse BD Fuente ODS Data Warehouse Corporativo Aplicaciones (Data Marts)... Datos detallados Transformaciones Datos Preparados (indicadores, agregados, históricos) Datos: homogeneizados sin preparar Describen los otros datos. Datos: homogeneizados. integrados. preparados. Datos : + preparados. especializados. Metadata Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 4

Ciclo de vida de un DW 3 grandes etapas diseño carga inicial refresque Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 5 Ciclo de vida de un DW / Diseño Etapa diseño Consiste en la definición de: esquema del DW y de los DMs extractores de fuentes limpiadores de datos integradores de datos El resultado es un conjunto de especificaciones formales o semi-formales que alimentan la metadata usada por el sistema y las aplicaciones dw. Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 6

Ciclo de vida DW / Carga Inicial Etapa carga inicial Consiste en la generación inicial del contenido del dw. 4 actividades: preparación integración agrupamiento (high level aggregation) adaptación (customization) Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 7 Carga inicial Preparación Integración Agrupamiento Adaptación Extracción Limpieza Integración Agrupamiento Adaptación............... datos fuentes ODS CDW Data Marts Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 8

Carga inicial Preparación se realiza para c/fuente y consiste en la extracción de datos la limpieza de datos el almacenamiento de datos Integración de datos consiste en la reconciliación de datos provenientes de fuentes heterogéneas la generación de las relaciones (vistas de base) del ODS. Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 9 Carga inicial Agrupamiento consiste en la generación de las "vistas agrupadas, resumidas" a partir de las vistas de base. Adaptación consiste en la generación y especialización de las "vistas usuario" que definen a los data marts. Esta descomposición en 4 pasos es llevada a la implementación de diferentes maneras en los productos y en los trabajos de investigación. Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 10

Actualización fuentes "definición" depósito de datos La actualización en sistemas de dw trata el problema de cómo reflejar los cambios que ocurren en las fuentes a partir de las cuales el depósito ha sido definido. En inglés, Refreshment Process. Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 11 Actualización Concepto de "frescura" (freshness) No se refiere necesariamente a los datos más actuales. "Frescura" requerida por las aplicaciones (los usuarios). Cambios que ocurren en las fuentes Esquema y datos Pocos trabajos sobre impacto en el depósito de datos debido a cambios en los requerimientos. Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 12

Actualización Etapa actualización tiene un flujo de datos similar a la etapa de carga. Sin embargo, el proceso de actualización: captura los cambios diferencia que ocurren en las fuentes propaga dichos cambios a lo largo de la jerarquía de depósitos Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 13 Carga inicial y Actualización Diferencias Período de disponibilidad requerida de las fuentes Carga inicial: un período largo Actualización: período / no sobrecargue las aplicaciones que usan a las fuentes. Restricciones sobre el tiempo de respuesta Carga inicial: el tiempo de respuesta se mezcla con la duración del proyecto. Actualización: depende de los requerimientos. Paralelismo en la etapa de preparación Mayor en refresque que en carga inicial Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 14

Parámetros del proceso de actualización Parámetros estáticos y dinámicos. Estáticos Requerimientos de las aplicaciones ej.: "frescura" de los datos, tiempos de cálculo de consultas y de vistas, modo de actualización (historia, sobreescritura,...). Restricciones de las fuentes ej.: períodos de disponibilidad, frecuencia de cambios Restricciones del sistema de dw ej.: limite de espacio, limites de funcionalidades Estos parámetros pueden evolucionar llevando a reconfigurar la arquitectura del dw y cambiar la estrategia de actualización. Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 15 Parámetros del proceso de actualización Dinámicos volumen de cambios en las fuentes "perfiles" de consultas Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 16

Dificultades en la actualización El volumen de datos almacenados en un dw. Los cambios deben propagarse a los distintos niveles de la jerarquia de depósitos de datos. Datos de interés y también datos de los niveles intermedios. Concurrencia entre el refresque y el procesamiento de consultas del dw Escenarios donde esta concurrencia es necesaria: Período corto o inexistente en que no hay consultas. Nivel de "frescura" de los datos. La dificultad radica en realizar el refresque sin detener demasiado el despacho de consultas. Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 17 Dificultades en la actualización La carga transaccional. Actualización de un DW puede involucrar transacciones pesadas de carga y acceso. uso de arquitecturas paralelas + compresión para transmisión + transacciones de larga duración. Refresque de un DM puede involucrar transacciones que acceden muchos datos, realizan muchos cálculos para resumir y actualizan pocos datos en el DM. problema porque se debe actualizar en una cierta ventana de tiempo. Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 18

Problema de la actualización El problema de la actualización de dws puede ser visto como la definición de un proceso de construcción incremental de dws. La incrementalidad aparece en distintos niveles extracción integración carga Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 19 Problema de la actualización La extracción debe poder encargarse de registrar los cambios ocurridos en una fuente. Esta tarea requiere: la detección de cambios en las fuentes la extracción de los cambios, y el registro de los cambios. Wrappers (uno en cada fuente) Funcionalidad típica: Traducir datos de la fuente a modelo de datos común En DW: Detectar y extraer cambios Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 20

Problema de la actualización Una clasificación de las fuentes Data Non-Cooperative Cooperative Snapshot Queryable Replicated Active Logged Specific Callback Internal Action Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 21 Problema de la actualización La integración debe ser incremental. La limpieza debe ser incremental. Determinar las operaciones a aplicar sobre el ODS. Determinar los datos que deben ser cambiados en el dw. Determinar información de otras fuentes para calcular el nuevo dato del dw. Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 22

Problema de la actualización La carga debe ser incremental. Las transacciones de actualización deben ser sincronizadas de manera que las vistas accedidas por las consultas se encuentren en un estado "consistente". Planificar el momento en que las transacciones de refresque se aplican. Facultad de Ingeniería - In.Co. Sistemas de Data Warehousing - 2003 23