Inteligencia de Negocios El warehouse, data mart y ETL Clase 4
La arquitectura de la solución Fuentes de datos Sistema operacional A Extracción Área del warehouse Transformación Area de trabajo Herramientas de acceso y exploración Sistema operacional B Carga (Load) Sistema operacional N Datos Externos Datos Internos no Sistematizados warehouse detallado u objetivo T, L warehouse agregado o subjetivo A B Análisis Multidimensional mining Tablero de comando Balance scorecard Alertas Reporting Etc. C mart A mart B mart N
El warehouse Diseñada y Administrada para brindar información a la toma de decisiones Integra datos de los distintos sistemas OLTP. Incorpora datos externos para analizar variables del entorno. El diseño y administración de la base de datos pensado para un procesamiento OLAP eficiente: Guardar datos precalculados. Índices que optimicen este tipo de consultas (sin preocuparse si son ineficientes en la actualización de datos), Usar redundancia, Independizar la bases de dato de la alta concurrencia del OLTP. Inmon -Orientados a temas -Integrados -Históricos -No volátiles
Caso de Ejemplo: Jurassic Park RRHH Facturacion I E T Area de trabajo L Warehouse Objetivo E T L Facturacion II Warehouse Subjetivo Aplicaciones de Business Intelligence Boleterias
Fuentes de datos Fuentes de Área del warehouse datos Transformación Sistema operacional A Extracción Area de trabajo Herramientas de acceso y exploración RRHH Sistema operacional B Sistema operacional N Datos Externos Datos Internos no Sistematizados Carga (Load) warehouse detallado u objetivo T, L warehouse agregado o subjetivo A B Análisis Multidimensional mining Tablero de comando Balance scorecard Alertas Reporting Etc. C mart A mart B mart N Facturacion I E T Area de trabajo L Warehouse Objetivo E L T Facturacion II Warehouse Subjetivo Aplicaciones de Business Intelligence Boleterias
Boletería
Sistema de Facturación I de Locales
Sistema de Facturación II de Locales
Sistema de RRHH
warehouse objetivo Fuentes de datos Sistema operacional A Extracción Área del warehouse Transformación Area de trabajo Herramientas de acceso y exploración RRHH Sistema operacional B Sistema operacional N Datos Externos Datos Internos no Sistematizados Carga (Load) warehouse detallado u objetivo T, L warehouse agregado o subjetivo A B Análisis Multidimensional mining Tablero de comando Balance scorecard Alertas Reporting Etc. C mart A mart B mart N Facturacion I E T Area de trabajo L Warehouse Objetivo E L T Facturacion II Warehouse Subjetivo Aplicaciones de Business Intelligence Boleterias
Modelo de datos DW Objetivo TIPO ESCUELA Id_tipo_escuela Descripcion CIUDAD id_ciudad PROVINCIA id_provincia Nombre provincia id_region REGION id_region Nombre region Nombre ciudad id_provincia ESCUELA LOCAL Id_escuela VENTA Id_local PARQUE Nombre_escuela Id_tipo_escuela ITEM_VENTA Numero_ticket Id_producto Numero_ticket Fecha_venta Legajo_empleado Id_escuela Id_local Id_parque Superficie Distancia_boleteria EMPLEADO legajo_empleado Id_parque Dirección id_ciudad PRODUCTO Id_producto Descripcion_producto Id_sub_categoria Descripcion_producto Precio_unitario Cantidad SUB CATEGORIA Id_sub_categoria Descripcion_sub_categoria Id_categoria CATEGORIA Id_categoria Descripcion_cateogira Nombre_empleado Apellido_empleado Sueldo Horas_capacitacion Numero_ticket
Sistema de entradas El ETL categorías, subcategorias y productos Sistema de facturacion I Sistema de facturacion II Los productos, categorías y subcategorías de este sistema son exactamente los mismos que los del sistema I warehouse Se respeta el mismo código pero se adiciona una v delante (tanto en producto como en categoría. En la subcategoría se repite la categoría.. Ventas: Cuando se pasan las filas de la tabla donde se registraron las ventas de entradas, se debe respetar también el mismo criterio de codificación.
warehouse subjetivo Fuentes de Área del warehouse datos Transformación Sistema operacional A Extracción Area de trabajo Herramientas de acceso y exploración RRHH Sistema operacional B Sistema operacional N Datos Externos Datos Internos no Sistematizados Carga (Load) warehouse detallado u objetivo T, L warehouse agregado o subjetivo A B Análisis Multidimensional mining Tablero de comando Balance scorecard Alertas Reporting Etc. C mart A mart B mart N Facturacion I E T Area de trabajo L Warehouse Objetivo E L T Facturacion II Warehouse Subjetivo Aplicaciones de Business Intelligence Boleterias
El diseño dimensional conceptual
Modelo de datos DW subjetivo (dimensional lógico mixto) EMPLEADO TIEMPO id_fecha Dia Mes Trimestre Año DISTRIBUCION GEOGRAFICA id_local Nombre local Id_parque Legajo Apellido_nombre Sueldo Horas_capacitacion Rango_horas_capacitacion TABLA DE HECHOS id_producto id_local id_fecha id_escuela Legajo monto vendido cantidad vendida ESCUELA Id_escuela Nombre Id_tipo_escuela PRODUCTO id_producto Descripcion producto Categoria Subcategoria TIPO ESCUELA Id_tipo_escuela Tipo_escuela PARQUE CIUDAD PROVINCIA REGION Id_parque id_ciudad id_provincia id_region Direccion id_ciudad Nombre ciudad id_provincia Nombre provincia id_region Nombre region
Redundancia Propiedad de la redundancia Acelerar consultas con datos precalculados Mayor tiempo en actualización de datos Mayor probabilidad de generar inconsistencias Mejorar controles Base OLTP Efectos warehouse
El ETL E T L Acceso a múltiples fuentes de datos Transformaciones para dejar los datos en el DW modificando: -Formatos -Codificaciones -Niveles de agregación -Calidad de datos -Otros criterios de integración Actualizar DW con los datos transformados Problemas a resolver Codificación de atributos: Nombres de tablas y atributos: Fuentes múltiples para un mismo atributo: Distintos niveles de agregación Diversos niveles de calidad Unificar diversos formatos: -F / M -Masculino / Femenino -0 / 1 -Varón / Mujer Periodicidad: Unidad Mensual, de medida de atributos: Semanal, Diaria, en tiempo real.? Cantidad vendida en: -Kilos -Unidades -Libros Tabla:PERSONA Tabla:CLIENTE Tabla:ENCUESTADO Zona de residencia Fecha de nacimiento Ventas: producto 01 remera manga corta xx Color negro Compras: producto A254-remera manga corta xx. Limpieza de: -Filas -Fuentes Nombre: Jorge Apellido: Lopez Nombre y apellido: Jorge Lopez?
El costo de la integración Diseño del data warehouse ETL warehouse desagregado VS warehouse agregado t Diseño del data warehouse ETL Diseño del data warehouse ETL Diseño del data warehouse ETL Diseño del data warehouse ETL Diseño del data warehouse ETL
Metadata Esquemas de datos Mapeo y proceso de actualización Definiciones de herramientas de BI La estructura de los datos del data warehouse. La estructura de datos de las fuentes de datos. La trazabilidad desde el ambiente operacional al data warehouse. Las reglas de proceso para transformar los datos de origen los datos que contendrá el data warehouse (limpieza, cálculo y equivalencias, definiciones de agregación, etc.). Los calendarios de ejecución de los procesos. El diario de ejecución de los procesos. Las definiciones de los términos de negocio a ser explorados.
Warehouse o Marts El mart warehouse mart mart mart mart Condicionantes Cuestión de plazos para obtener resultados Involucramiento político parcial y no integral warehouse mart de tresmart áreas de dos mart áreas
Inteligencia de Negocios El warehouse, data mart y ETL Clase 4