v.1.0 Clase 2 Docente: Gustavo Valencia Zapata
Temas Clase 2: Diseño del Modelo de Datos Ciclo de vida de un DWH Salidas de un DWH Conceptos básicos de DHW Construcción de un DWH Referencias www.gustavovalencia.com
Conceptos Básicos de DWH Que es un Data Warehouse? (Bodega o almacén de datos). Colección de datos orientados a un determinado negocio. Coloca información de todas las áreas funcionales de la organización en manos de quien toma las decisiones. También proporciona herramientas para búsqueda y análisis de información. Es un repositorio para almacenar y analizar datos con naturaleza de variables cuantitativas y cualitativas Es considerado una de las partes centrales de un sistema de BI Almacena datos de calidad con propiedades de estabilidad, verificabilidad y automatización Permite separar los sistemas transaccionales de los informacionales en dos entornos de manera que el análisis de los datos existentes no interfiera con el procesamiento y registro de nuevos datos Docente: Gustavo Valencia Zapata
Conceptos Básicos de DWH Data Warehouse como integrador de datos Compras Filiales Cartera Gestión human Ventas Producción Inventarios CRM Fuente: Gustavo Valencia Z. Notas de clase: Inteligencia de Negocios, 2013. www.gustavovalencia.com
Conceptos Básicos de DWH Los datos almacenados están orientados a un objetivo especifico, integrando la variable del tiempo para la toma de decisiones. Es un sistema integrados, pues agrupa a todos los sistemas operacionales en un sistema de información con formatos y códigos consistentes. El DW es variante en el tiempo porque los datos se organizan y almacenan en jerarquías en el tiempo, lo que permite análisis retrospectivos, comparativos de estados actuales y de períodos anteriores. Propuesta 005. Refuerce el concepto de DWH por medio del video Benefits of a Data Warehouse (http://www.youtube.com/watch?v=kghby_sales) Docente: Gustavo Valencia Zapata
Conceptos Básicos de DWH Data Warehouse Es el maestro o centralizador de la información. Soporta múltiples áreas del negocio Maneja un alto detalle de la información Es un integrador de las fuentes de información No es necesario el uso de un modelo dimensional pero puede alimentar a modelos dimensionales. Datamart Es una aplicación del DWH Está construida para soportar una línea de negocio. Ideal para sumarizar grandes cantidades de datos. Se concentra en integrar datos de una área especifica. Es construida en un modelo dimensional usando esquema estrella. Coordina la gestión de información de los Datamarts www.gustavovalencia.com
Conceptos Básicos de DWH Un primer acercamiento a una arquitectura descentralizada de Datamart (DM): Almacenes DM CRM Inventarios DM Riesgos Producción Exportación DM Financiero Fuente: Gustavo Valencia Z. Notas de clase: Inteligencia de Negocios, 2013. Docente: Gustavo Valencia Zapata
Conceptos Básicos de DWH Data Warehouse corporativo o centralizado: Datamarts Almacenes DWH Corporativo DM CRM Inventarios DM Riesgos Producción Exportación DM Financiero Fuente: Gustavo Valencia Z. Notas de clase: Inteligencia de Negocios, 2013. www.gustavovalencia.com
Conceptos Básicos de DWH Según IDC (International Data Corporation) [10] tras analizar 541 empresas, la distribución de las implantaciones de Data Warehouse y Datamarts en la actualidad, y sus opiniones respecto a esta distribución en el futuro, muestra los siguientes datos: Fuente: DataPRIX Knowledge is The Goal, 2013. Solo en 20% de las empresas consultados no cuentan con un repositorio de datos para garantizar el análisis de información. La implementación de DWH es casi el doble de la de DM Se identifica como a futuro los DM aumentan su participación Docente: Gustavo Valencia Zapata
Ciclo de Vida de un DWH Metodología del ciclo de vida proyectos DWH/BI de Kimball: Tecnología Datos Aplicaciones Fuente: Ralph Kimball, DW/BI Lifecycle Methodology www.gustavovalencia.com
Ciclo de Vida de un DWH La metodología del ciclo de vida de Kimball aunque fue concebido a mediados de la década de los 80 s, fue publicada por primera vez indicando los años 90 s; desde entonces, se ha utilizado con éxito por miles de proyectos de DWH y BI, principalmente en sector industrial, áreas de aplicación, empresarial y desarrollo tecnológico (technical platform). Esta metodología se ha convertido en las mejores prácticas en la industria en general. A continuación se mencionan brevemente las etapas de la propuesta de Kimball et al. [11]: Planeación del Proyecto (Project Planning) Definición y alcance del proyecto de DWH, incluyendo la evaluación y justificación del proyecto. Modelación Dimensional (Dimensional Modeling) La definición de los requerimientos del negocio (área funcional) determinarán los datos necesarios para hacer frente a los requisitos analíticos de los usuarios finales. Docente: Gustavo Valencia Zapata
Ciclo de Vida de un DWH Diseño Físico (Physical Design) Definición de las estructuras físicas para apoyar el diseño de datos lógico. Claramente se requiere de un diseño lógico para convertirlo en una base de datos física, debido a que los detalles de implementación varían ampliamente desacuerdo a la tecnología (hardware y aplicaciones), tipo de proyecto, modelo lógico, volumen estimado, SGDB y las herramientas de acceso; estos elementos dan directrices en dicho diseño. Diseño e Implementación de ETL (Data Staging Design and Development) Este Etapa se divide en tres elementos: Extracción, Transformación y Carga. El proceso de extracción expone los problemas de calidad de datos, debido a que la calidad de los datos impactará significativamente la credibilidad del DWH, es necesario solucionar los problemas de calidad. Es importante tener presente dos realidades: Los problemas de calidad son usualmente un reflejo del pobre diseño de datos y/o la implementación de los sistemas. La mayoría de estos problemas pueden ser reparados y monitorizados para reducir el impacto sobre las aplicaciones www.gustavovalencia.com
Ciclo de Vida de un DWH Algunos de los problemas más comunes son: Sistemas que no emplean la misma llave primaria. Manejo de archivos planos y hojas de calculo como fuente de datos. Errores de formato: son típicos los de fecha y tiempo Almacenar fechas en formato de String Datos de Procesos fuera de la cadena de valor de TI Caracteres especiales Mal control de cambios: ejemplo retirara una columna en producción afecta los ETL s. Valores perdidos o ausentes (valores nulos) Exceso de datos innecesarios en la base de datos (Information pollution) Desconocimiento de la base de datos. Ausencia de diccionarios de datos De acuerdo con la investigación de Dasu et al. realizada en 2003 [12]: 1. En USA el problema de calidad de datos cuesta a los negocios 600 billones de dólares por año 2. Entre el 30% al 80% de las tareas de análisis es investida en limpiar y entender los datos. Docente: Gustavo Valencia Zapata
Ciclo de Vida de un DWH Diseño Físico Estándares Modelo Físico de Datos Plan Global Plan de indexación Diseño y construcción de la instancia de DB Estructura Física de Almacenamiento Monitorización www.gustavovalencia.com
Ciclo de Vida de un DWH Diseño Técnico de Arquitectura (Technical Architecture Design) En esta etapa se considera la integración de múltiples tecnologías. Se consideran tres factores: Requerimientos del negocio, ambiente tecnológica actual y el direccionamiento técnico futuro. Selección e Instalación de Producto (Product Selection and Installation) Con base al diseño técnico de arquitectura, se especifica los componentes de arquitectura tales como plataforma del hardware, herramientas de acceso a los datos, sistema de gestión de base de datos entre otros. En este etapa el elemento de integración toma singular importancia. Especificación de Aplicaciones Usuario Final (End User Application Specification) Se definen las aplicaciones de usuario, restringiendo el acceso ad hoc al DWH. Estas aplicaciones cubren los complementes de visualización, exploración, data mining y herramientas de BI tales como EIS y Dashboard. Desarrollo de Aplicaciones Usuario Final (End User Application Development) Aborda la configuración de las herramientas de usuario final, dependiendo de la dimensión del proyecto, estas aplicaciones demandarán su propia arquitectura que soporte los usuarios y la integración con el DWH. Docente: Gustavo Valencia Zapata
Ciclo de Vida de un DWH Despliegue (Deployment) Convergencia y funcionamiento de la tecnología, datos y aplicaciones de usuario final desde la estación de cada unos de los analistas o estrategas de BI. Se deben tener presente procesos de capacitación y de soporte al usuario sobre las aplicaciones. Mantenimiento y Crecimiento (Maintenance and Growth) Frete al usuario final: se les debe entregar apoyo y formación. Funcionamiento eficaz del DWH: monitorización de los procesos y procedimientos, estas métricas serán argumento para una posible etapa de crecimiento. Gestión de Proyectos (Project Management) Garantiza las actividades en el ciclo de vida de funcionamiento y sincronía, que se enfocan en el estado de procesos de monitorización, seguimiento de problemas y gestión de cambios; por otra parte, le corresponde desarrollar el plan de comunicación del proyecto. www.gustavovalencia.com
Ciclo de Vida de un DWH La metodología del ciclo de vida de Kimball aunque fue concebido a mediados de la dé ada de los 0 s, fue pu li ada por pri era vez i di a do los años 0 s; desde entonces, se ha utilizado con éxito por miles de proyectos de DWH y BI, principalmente en sector industrial, áreas de aplicación, empresarial y desarrollo tecnológico (technical platform). Esta metodología se ha convertido en las mejores prácticas en la industria en general. Propuesta 006. Realizar la lectura de artículo A Holistic Approach for Managing Requirements of Data Warehouse Systems. Eighth Americas Conference on Information Systems, Schiefer, J., List, B. & Bruckner, R.M. Docente: Gustavo Valencia Zapata
Ciclo de Vida de un DWH Recomendación 1. En los texto de Ralp Kimbal et al. se encuentra un mayor detalle las etapas del ciclo de vida de un proyecto de DWH, además de otros componentes relacionados. 1. The Data Warehouse Lifecycle Toolkit : Expert Methods for Designing, Developing, and Deploying Data Warehouses. 2. The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling 3. The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data Recomendación 2. La propuesta de Dasu et al. propone un acercamiento interesante a la calidad de datos desde el análisis estadístico y la minería de datos. 1. Exploratory Data Mining and Cleaning En la investigación de Gustavo Valencia et al. relacionada a la reducción de Malware en un siste a de i for a ió a ario, propo e u odelo CART (ár ol de lasifi a ió y regresión) de imputación de datos perdidos con el objeto de garantizar la calidad de datos en el DWH de la investigación. 2. Classification and Regression Trees for Handling Missing Values in a CMBD to reduce malware in an Information System www.gustavovalencia.com
Construcción de un DWH Hardware App. Almacenamiento (SGDB) App. De extracción y manipulación de datos Herramienta Middleware DWH Corporativo Hardware Garantizar que tenga altas características técnicas acorde a los complejos requerimientos de información de los usuarios. Capacidad de potencializar (crecer) Procesamiento paralelo: SMP (Symmetric Multiprocessing) MPP (Massively Parallel Processing) NUMA (Non-Uniform Memory Architecture) Fuente: Gustavo Valencia Z. Notas de clase: Inteligencia de Negocios, 2013. Docente: Gustavo Valencia Zapata
Construcción de un DWH Aunque la tecnología de multiprocesamiento surgió (1970) antes del concepto de DWH, es un elemento fundamente en el componente de hardware de un DWH o Datamart. Existen tres arquitecturas de hardware para el procesamiento en paralelo disponibles en el mercado SMP, MPP y NUMA [11]. SMP (Symmetric Multiprocessing) : Describe una arquitectura de hardware multiprocesador donde dos o más procesadores idénticos están conectados a una única memoria principal y son controlados por una única instancia del sistema operativo. La mayoría de los sistemas multiprocesador de hoy en día usan arquitectura SMP. MPP (Massively Parallel Processing): Describe una arquitectura de hardware multiprocesador que utiliza dos o mas procesadores en paralelo para ejecutar un solo programa, en esta arquitectura cada procesador tiene su propia memoria. NUMA (Non-Uniform Memory Architecture) : Es la combinación de SMP y MPP en un intento de combinar la flexibilidad de disco compartido de SMP con la velocidad paralela de MPP. Conceptualmente, es equivalente a la idea de maquinas SMP en clúster, pero con conexión más elaboradas, más ancho de banda y una mayor coordinación entre nodos. www.gustavovalencia.com
Construcción de un DWH MPP Interconexión de varios sistemas independientes de CPU (nodos) Mayor número de CPU s de menor potencia Al incorporar nuevos nodos aumenta la complejidad de administración del sistema además de ajustar las aplicaciones. SMP Los datos son usualmente estáticos* Múltiples CPU s compartiendo subsistemas I/O, memoria y discos. Aumento de CPU s sin impacto sobre el SO. Balanceo de Cargas Menor número de CPU con mayor potencia Clúster SMP: pocos nodos de alto rendimiento con baja carga de tráfico Fuente: Computer Desktop Encyclopedia 1998. Docente: Gustavo Valencia Zapata
Construcción de un DWH Hardware App. Almacenamiento (SGDB) App. De extracción y manipulación de datos Herramienta Middleware DWH Corporativo SGDB Un Sistema de Gestión de Base de Datos consiste en una colección de datos interrelacionados y un conjunto de programas para acceder a los mismos. El programa de almacenamiento (servidor) es independiente al programa de consulta (Cliente) de los usuarios El objetivo son las consultas complejas en lugar de la visualización Contempla un esquema de concurrencia de múltiples usuarios Fuente: Gustavo Valencia Z. Notas de clase: Inteligencia de Negocios, 2013. www.gustavovalencia.com
Construcción de un DWH Hardware App. Almacenamiento (SGDB) App. De extracción y manipulación de datos DWH Corporativo Extracción y manipulación (ETL) Funcionalidades básicas: Control de la extracción de los datos y su automatización Acceso a diferentes tecnologías. Uso de la arquitectura de metadatos Interfaz independiente del hardware Herramienta Middleware Fuente: Gustavo Valencia Z. Notas de clase: Inteligencia de Negocios, 2013. Docente: Gustavo Valencia Zapata
Construcción de un DWH Hardware App. Almacenamiento (SGDB) DWH Corporativo Herramientas Middleware Parveen conectividad entre entornos diferentes, para ayudar a la gestión del Data Warehouse. Analizadores y aceleradores de consulta: Optimizan tiempos de respuesta desde los Sistemas operacionales al DW. App. De extracción y manipulación de datos Herramienta Middleware Fuente: Gustavo Valencia Z. Notas de clase: Inteligencia de Negocios, 2013. Deben estar abiertas a todos los entonos de: Almacenamiento de datos (OLE, ODBC, etc.) Bases de datos (DB2, SQL, Oracle, MySQL, etc.) Estándares de capa de transporte: (SNA LU6.2, DECnetr, etc. www.gustavovalencia.com
Construcción de un DWH Elementos a tener presente en la construcción de un DWH [13]: Detectar y corregir errores (duplicados, eliminar valores sin sentido, procesos básicos de imputación) Manejo de valores codificados para las variables. Es importante tener un adecuado diccionario de datos disponible para los usuarios. Reestructurar y añadir nuevos campos (enriquecer el sistema) de acuerdo las necesidades del usuario. Emplear el concepto de Metadatos (datos que describen otros datos) No debe soportar procesos transaccionales del negocio. Docente: Gustavo Valencia Zapata
Salidas de un DWH Querys - Reporting Generación de consultas y reportes. Pueden ser informes predefinidos o dinámicos. Fundamentales para procesos de Monitorización (Dashboard). Es posible ubicar las herramientas y metodologías EIS (Decision Support System) y CPM (Corporate Performance Managemnet) dependiendo de este componente de explotación del DWH. DWH Corporativo Querys - Reporting Análisis multidimensional Dara Mining Fuente: Gustavo Valencia Z. Notas de clase: Inteligencia de Negocios, 2013. www.gustavovalencia.com
Salidas de un DWH Análisis Multidimensional Facilitan el análisis de datos por medio de dimensiones y jerarquías, utilizando consultas rápidas y predefinidas. OLAP: Su objetivo es agilizar la consulta de grandes cantidades de datos. Utiliza estructuras multidimensionales que contienen datos de grandes Bases de datos DWH Corporativo Querys - Reporting Análisis multidimensional Dara Mining Fuente: Gustavo Valencia Z. Notas de clase: Inteligencia de Negocios, 2013. Docente: Gustavo Valencia Zapata
Salidas de un DWH Data Mining Es la aplicación de modelos matemáticos sobre la información almacenada en el DWH. El resultado de los modelos soporte la toma de decisión en el proceso de BI. Es fundamental garantizar la optimización de los modelos y su ejecución automática según la necesidad del negocio. DWH Corporativo Querys - Reporting Análisis multidimensional Data mining requiere de una arquitectura propia que interconecta a los usuarios con el DWH por medio de un servidor negociador. Dara Mining Fuente: Gustavo Valencia Z. Notas de clase: Inteligencia de Negocios, 2013. www.gustavovalencia.com
Salidas de un DWH Propuesta 007. Realizar la lectura del do u e to Next Generation DWH. The Data Warehousi g I stitute, P. Russom. Docente: Gustavo Valencia Zapata
Referencias [10] International Data Corporation. Data Warehouse and Data Marts http://www.idc.com. [11] R. Kimball, L. Reeves, M. Ross & W. Thornthwaite. The Data Warehouse Lifecycle Toolkit : Expert Methods for Designing, Developing, and Deploying Data Warehouses. Wiley Publishing, Inc, 1998. [12] T. Dasu & T. Johnson. Exploratory Data Mining and Cleaning. John Wiley & Sons, 2003. [13] C, Imhoff, N, Galemmo & J, Geiger. Mastering Data Warehouse Desing. Wiley, 2003. www.gustavovalencia.com