Sistemas de Información Gerencial Tema 6: Inteligencia de Negocios: Modelo Dimensional Ing. Francisco Rodríguez Novoa 1
INDICE OLTP. OLAP Modelo Estrella. Modelo Copa de Nieve Modelo Dimensional 2
Mapa de Inteligencia de Negocios Inteligencia de Negocios Metodología Kimball Planeamiento del Proyecto Modelo del Negocio Modelado Dimensional Modelado Físico ETL Minería de Datos Reportes
MODELOS RELACIONALES Y DIMENSIONALES
Dos técnicas Modelo E-R Entidades Atributos Relaciones Modelo dimensional Hechos Dimensiones Medidas
OLTP (On Line Transactional Process) Son sistemas de información operacionales que tienen transacciones en línea y de esa manera se van añadiendo datos. Gran detalle de cada operación.
Lógica El Diseño Transaccional es: Orientado a aplicaciones con movimientos constantes. Datos normalizados. Se busca ahorrar espacio de almacenamiento. Datos volátiles No existe sumarización de datos. Grandes niveles de detalle.
OLAP (Online Analytical Process) Tecnología que permite la explotación de datos en diferentes niveles organizacionales y periodos de tiempo
Lógica El Data Warehouse esta: Orientado a áreas de la organización Integrado Los datos no son volátiles Diversos niveles de detalle con sumarizaciónes. Se disminuye la cantidad de ligas con modelos tipo estrella o copo de nieve.
Conceptos Generales Fundamentos. Transacciones Registrar y Controlar (OLTP) Analizar y Evaluar (OLAP) Ventas Inventarios Contabilidad Recursos Humanos Etc- Velocidad de Transacción Integridad de Información Evitar Redundancias 3ª Forma Normal On-Line Transaction Processing Velocidad de Consultas Apoyo Toma de Decisiones Desnormalizado On-Line Analytical Processing 10
Como operan las B.D. Relacionales Los datos se almacenan en tablas Variable Meses Cantidad Productos Sales Expenses Cost of goods Sales Expenses Cost of goods Sales Expenses Cost of goods Sales Sales Expenses Cost of goods Sales Expenses Cost of goods January January January February February February March March March Qtr1 April April April May May May 25000 15000 5000 27000 20000 6000 2700 8000 19000 54700 23000 6100 1800 7600 1200 2000 Large Large Large Large Large Large Large Large Large Large Medium Medium Medium Medium Medium Medium
Lógica Variable Months Amount Product Sales Expenses Cost of goods Sales Expenses Cost of goods Sales Expenses Cost of goods Sales Sales January January January February February February March March March Qtr1 April 25000 15000 5000 27000 20000 6000 2700 8000 19000 54700 23000 6100 Large Large Large Large Large Large Large Large Large Large Medium de esta estructura a esta se necesita Expenses April Cost of goods Variable April January 1800 February MediumMarch April May June Sales Expenses Cost of goods May May May 7600 1200 2000 Medium Medium Medium Sales 25000 27000 24000 28000 30000 29000 Expenses 15000 20000 15000 17000 19000 14000 Cost of goods 5000 6000 5000 7000 7000 6000
OLAP Vista Multidimensional Poder observar los datos desde distintas perspectivas. LA SF West Sales Margin Denver Camera TV VCR Audio Camera TV VCR Audio Accounts by Product February March Actual Budget Actual Budget position only TV VCR Profit Total Exp Margin Cogs Jan Feb Mar Qtr 1 Jan Feb Mar Qtr 1 Products by Time East West Actual Budget Actual Budget position only TV VCR Apr Mar Feb Jan East West South Total East West South Total Products by Region Actual Budget Sales Margin Sales Margin East Apr Mar Feb Jan West Actual Budget Forecast Variance Actual Budget Forecast Variance Regions by Scenario Sales Margin TV VCR TV VCR
Conceptos Generales Características de un DataWarehouse Orientado a Temas Integrado Variantes en el Tiempo No Volátil Los datos se organizan y estructuran de acuerdo a las áreas temáticas que son de interés para los directivos de la empresa y no en función de procesos operacionales específicos. Todos los datos relativos a una misma entidad quedarán en una tabla. Debido a que la información procede desde distintos sistemas, es tarea del DW integrar las diversas fuentes y normalizar los datos. Un DW se organiza como una sucesión de fotografías de la organización o empresa, cada una asociada a un periodo o punto específico del tiempo, lo que permite realizar análisis en función del tiempo, con la finalidad de realizar pronósticos y análisis de tendencias. No se realizan actualización o eliminaciones de los datos, los datos se insertan como nuevos registros y por tanto no sobrescriben los existentes. 14
Conceptos Generales Componentes del Cubo Tabla de Hechos Almacena los indicadores del negocio (datos numéricos), tanto básicos como elementos calculados. Tabla de Dimensiones Almacena los datos descriptivos, por lo general son tablas con un porcentaje muy bajo de filas en relación a las tablas de Hechos, pero pueden contener muchas más columnas. Una correcta y completa definición de campos en la tabla de dimensiones puede ayudar a realizar análisis robusto sobre los datos.
Topología Conceptos Generales Estrella Las dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información y/o cuando existe un proceso robusto de administración de Información (por ejemplo EIAD). Copo de Nieve Las dimensiones se pueden relacionar con las tablas de hechos, o con otras dimensiones. Esta estrategia es mejor para la administración directa en el modelo de DW. 16
Eficiencia Modelo Estrella Soportado por múltiples RDBMS Análisis de datos de menor complejidad, debido a la denormalización
Modelo Copo de Nieve Mayor normalización, es decir, los niveles de las jerarquías se normalizan. Mayor flexibilidad Mayor dificultad de mantenimiento Joins más costosos Menos registros en las dimensiones.
Modelado Dimensional Es una adaptación del modelo relacional. Consiste de tablas de hechos que se caracterizan usando dimensiones y medidas. La información sobre un hecho (actividad) se representa mediante indicadores (medidas o atributos de hecho). La información de cada dimensión se representa por un conjunto de atributos (atributos de dimensión). Una dimensión es el contexto de un hecho, tienden a ser discretas y jerárquicas. Un indicador es una cantidad que describe el hecho, debe ser agregables.
Conceptos básicos 1. Hecho. Evento, actividad, item transacción del negocio. 2. Medida. Atributo o medida de hechos, métricas del negocio 3. Dimensión. Característica de un hecho. 4. Jerarquía. Relaciones padre-hijo dentro de una dimensión 5. Tabla de hechos: Almacena eventos y las métricas. 6. Tabla de dimensión. Almacenan las dimensiones.
Hechos Representan un evento o actividad específica, tiene dimensiones y medidas. Representan un item de negocio, una transacción o un evento que tiene significancia para el negocio. Corresponden a una colección de items de datos y datos de contexto. Son aquellos datos que residen en una tabla de hechos y que son utilizados para crear indicadores, a través de sumarizaciones preestablecidas. Un hecho debe estar relacionado al menos con una dimensión: El tiempo.
Medidas Métricas - Hechos Es un atributo numérico de un hecho que representa la performance o comportamiento del negocio relativo a la dimensión Ejemplos: Ventas en $$ Cantidad de productos Total de transacciones Cantidad de pacientes admitidos Llamadas efectuadas. ImporteTotal = precioproducto * cantidadvendida Rentabilidad = utilidad / PN CantidadVentas = cantidad PromedioGeneral = AVG(notasFinales)
Hechos o medidas Representan los valores que son analizados. Características de las medidas: Deben ser numéricas. Porque estos valores son las bases de las cuales el usuario puede realizar cálculos. Cruzan todas las dimensiones en todos los niveles. Si la medida es no numérica debemos codificarla a un valor numérico y cuando tengamos que exponerla decodificarla para mostrarla con el valor original.
Hechos o medidas Las medidas pueden clasificarse en: Naturales. Son aquellas que se obtiene por agregación de los datos originales. Suma: suma los valores de las columnas Cuenta: conteo de los valores Mínima: valor mínimo Máxima: valor máximo Cuenta de Distintos: valores diferentes Calculadas Si se derivan de una medida natural. Cálculos Matemáticos Expresiones condicionales Alertas
Dimensiones Es una característica de un hecho que permite su análisis posterior, en el proceso de toma de decisiones. Determina el contexto del hecho (quién participó, cuándo y donde pasó y su tipo). Es una entidad de negocios respecto de la cual se deben calcular las métricas (clientes, productos, tiempo) Tienden a ser discretas y jerárquicas <país, región, departamento, provincia, distrito>. Es una colección de miembros o unidades o individuos del mismo tipo que permite categorizar un hecho.
Dimensiones 3 Se utilizan como parámetros para los análisis OLAP Las dimensiones habituales son: Dimensión Tiempo Geografía Cliente Vendedor Miembro Meses, Trimestre, Años País, Región, Ciudad Id Cliente Id Vendedor
Ejemplo
Ejemplo
The Time Dimension Time is critical to the data warehouse. A consistent representation of time is required for extensibility. Sales fact Time dimension How and where should it be stored?
Granularidad La granularidad es el nivel de detalle en que se almacena la información. Por ejemplo: Datos de ventas o compras de una empresa, pueden registrarse día a día Datos pertinentes a pagos de sueldos o cuotas de socios, podrán almacenarse a nivel de mes. A mayor nivel de detalle, mayor posibilidad analítica, ya que los mismos podrán ser resumidos o sumarizados. Los datos con granularidad fina (nivel de detalle) podrán ser resumidos hasta obtener una granularidad media o gruesa. No sucede lo mismo en sentido contrario.
Tablas de Hechos Las tablas de hechos contienen las dimensiones y las medidas de los hechos. Los hechos o medidas son los valores de datos que se analizan (son numéricos). La tabla de hechos tiene una compuesta por las claves primarias de las tablas de dimensiones relacionadas a este. Clave primaria Dimensiones Medidas o hechos
Tabla de dimensiones 6 Definen la organización lógica de los datos. Tiene una PK (única) y columnas de referencia: Clave principal (PK) o identificador único. Clave foráneas. Datos de referencia primarios (identifican la dimensión) Datos de referencia secundarios (complementan la descripción). No siempre la PK del OLTP, corresponde con la PK de la tabla de dimensión relacionada.
Ejercicio Etapas en la construcción de un modelo dimensional: 0 Requerimientos del usuario 2 Construcción de las Dimensiones Armado de la Tabla de Hechos 3 4 Definición de las Medidas 1 Decidir la granularidad
Requerimientos del usuario Dimensiones Medidas Tiempo Sucursal Vendedor Cliente Producto Ventas_Importe X X X X X Ventas_Costo X X X X X Ventas_Unidades X X X X X Ventas_ImporteTotal X X X X X Ventas_Ganancia X X X X X Ventas_Promedio X X X X X
Decidir la granularidad La granularidad: Es el nivel de detalle al que se desea almacenar información sobre la actividad a modelar. Define el nivel atómico de datos en el almacén de datos. Determina el significado de las tuplas de la tabla de hechos. Determina las dimensiones básicas del esquema. Por ejemplo en la dimensión Sucursal:
Decidir la granularidad Ejemplo de la dimensión fecha. Se desea los datos por: Información anual Información semestral Información trimestral Información mensual.... Información semanal Información diaria Transacción en el OLTP + granularidad + detalle
Construcción de las dimensiones Identificar las dimensiones que caracterizan el proceso al nivel de detalle (gránulo) que se ha elegido. De cada dimensión se debe decidir los atributos (propiedades) relevantes para el análisis de la actividad. Entre los atributos de una dimensión existen jerarquías naturales que deben ser identificadas (día-mes-año) Tiempo. Cuándo se produce la actividad Sucursal.Donde está ubicado el almacén Vendedor. Quién ha vendido Cliente. Quién es el destinatario de la actividad Producto. Cuál es el objeto de la actividad
Dimensión Tiempo Dimensión Sucursal Dimensión Vendedor * Año ** Semestre *** Trimestre **** Mes ***** Día * Sucursal ** Tipo Sucursal *** País **** Provincia ***** Ciudad * Sucursal ** Sección *** Vendedor Dimensión Cliente * País ** Provincia *** Ciudad **** Razón Social Dimensiones Medidas Tiempo Sucursal Vendedor Cliente Producto Ventas_Importe X X X X X Ventas_Costo X X X X X Ventas_Unidades X X X X X Ventas_ImporteTotal X X X X X Ventas_Ganancia X X X X X Ventas_Promedio X X X X X
Dimensiones Medidas Tiempo Sucursal Vendedor Cliente Producto Ventas_Importe X X X X X Ventas_Costo X X X X X Ventas_Unidades X X X X X Ventas_ImporteTotal X X X X X Ventas_Ganancia X X X X X Ventas_Promedio X X X X X
Fact_Ventas ID_Tiempo ID_Producto ID_Cliente ID_Vendedor ID_Sucursal Tabla de Hechos 3 Dimensiones Medidas Tiempo Sucursal Vendedor Cliente Producto Ventas_Importe X X X X X Ventas_Costo X X X X X Ventas_Unidades X X X X X Ventas_ImporteTotal X X X X X Ventas_Ganancia X X X X X Ventas_Promedio X X X X X
Definición de las medidas Fact_Ventas ID_Tiempo ID_Producto ID_Cliente ID_Vendedor ID_Sucursal Fact_Ventas Fact_Ventas ID_Tiempo ID_Fecha ID_Producto ID_Producto ID_Cliente ID_Cliente ID_Vendedor ID_Vendedor ID_Sucursal Ventas_Importe Ventas_Costo Ventas_Unidades Medidas
FIN 42