MODELADO DE DATOS DATA WAREHOUSE Ana María Bisbé York a.bisbe@danysoft.com, Servicios Profesionales sp@danysoft.com www.danysoft.com 18.04.2013 Temario Datawarehouse vs Transaccional Modelado dimensional de datos Hechos y Dimensiones Escenarios 1
DISEÑO RELACIONAL VS DIMENSIONAL Punto de partida proyectos Inteligencia de negocio Diferentes contenedores de datos para obtener información Esquema relacional normalizadoado Varios cientos o miles de tablas Convenciones de nombres incorrectas o dudosas Problemas en la calidad de datos Problema de desconocimiento de reglas de negocio Problemas de documentación Almacenamiento de históricos i 2
Analizar contenedor de datos Ventas por Internet datos geográficos períodos de tiempo Resultados análisis contenedor Esquema relacional altamente normalizado SQL Server 92 tablas Trabajo con esquemas Cada tabla, una entidad Integridad referencial 3
Subconjunto de tablas a tratar Datos Producto? Datos Tiempo? Características Modelo Dimensional Orientado al tema, no a un informe Integrado Codificado Atributo Medida de atributo Convención de nombres Fuentes múltiples De tiempo variable Horizonte largo de tiempo vs operacionales Estructura clave con elemento tiempo No volátil 4
Objetivos Encontrar las tablas y columnas adecuadas Reducir cantidad de tablas (join) Encontrar procesos de actualización e IR (triggers) SQL Profiler Diferenciar nombres de objetos para IT vs usuario final Autodocumentado Obtener grandes cantidades de datos: limpios, transformados con cierta latencia Planificar consultas que requieren diseño físico adecuado Crear tabla de búsqueda de tiempos Esquema Estrella Simplificado, narrativo Denormalizado Única tabla de hechos (: M) Dimensiones (1: ) Claves foráneas FK Segmentación de datos Hecho El cliente A ha comprado el producto B en la fecha C con cantidad D por un precio de E 5
Esquema Copo de nieve Esquema Híbrido 6
Data Warehouse Muchas estrellas = Modelo dimensional DW Dimensiones compartidas MODELADO DE DATOS DIMENSIONES, HECHOS 7
Dimensiones Tipos de columnas Claves keys identificar entidades Nombres nombrar humanamente entidades SSAS ofrece traducciones Atributos: discretos o discretizados (10 valores o menos) Edad Propiedades de miembro etiquetas descriptivas - dirección Dimensiones Base del modelo Columnas homogéneas, identificar miembros Único estado activo en cada momento Relaciones entre atributos con dependencias funcionales Atributos sin hechos vs hechos sin atributos Denormalización Poder de las dimensionesi Etiquetas de filas y columnas Filtros 8
Dimensión Tiempo Tendencias y comparativas en períodos Clave surrogada inteligente Dimensiones lentamente cambiantes (SCD) Tipo 1 IdClienteS IdClienteB Nombre Distancia Género Propietari K K o 1552 31421 Juan Pérez 6 km M No Fecha IdClienteSK IdProductoS Cantidad Importe K 07/01/2011 1552 95 1 1798.00 02/03/2011 1552 37 1 27.95 07/05/2012 1552 87 2 320.26 21/08/2012 1552 33 2 129.99 21/02/2013 1552 42 1 19.95 IdClienteS IdClienteB Nombre Distancia i Género Propietari i K K o 1552 31421 Juan Pérez 31 km M Yes 9
Dimensiones lentamente cambiantes (SCD) Tipo 2 IdClienteS K IdCliente BK Nombre Distancia Género Propietari o 1552 31421 Juan 6 km M No Pérez IdClienteSK IdClienteBK Nombre Distancia Género Propietario FechaInicio FechaFin 1552 31421 Juan Pérez 6 km M No 07/01/2011 01/01/2013 2387 31421 Juan Pérez 31 km M Si 02/01/2013 31/12/9999 Fecha IdClienteSK IdProductoS Cantidad Importe K 07/01/2011 1552 95 1 1798.00 02/03/2011 1552 37 1 27.95 07/05/2012 1552 87 2 320.26 21/08/2012 1552 33 2 129.99 21/02/2013 2387 42 1 19.95 Modelo Dimensional Claves surrogadas Protegen DW de cambios en el origen Permiten integrar datos de múltiples orígenes Permiten añadir filas a las dimensiones que no existen en el sistema origen. Permiten analizar los cambios de atributos en el tiempo (SCD) Claves eficientes que unen las BBDD relacionales y de SSAS 10
Hechos Tipos de columnas Claves (FK) lado Muchos Medidas Linaje y auditoría Identificar hechos Columnas derivadas Ubicación de los hechos Cabecera vs detalle Asignación vs prorrateo Dimensiones degeneradas Hechos Sólo hechos Aditivos, semiaditivos y no aditivos No todos son hechos Hechos derivados Modelado dimensional del Datawarehouse Vista de origen de datos Modelado de cubo multidimensional (MDX) Herramienta cliente final Granularidad Muy eficientes, altamente normalizadas sin redundancias 11
MODELADO DE DATOS ANALIZAR DATOS Prospección y exploración de datos Problemas en calidad de datos: Campos sustituidos Campos sobrecargados Definición variable de los campos Entrada libre Herramientas Experto en los datos de origen Usuarios de negocio o usuarios poderosos Sistemas de informes existentes 12
Incidencias comunes en datos Impacto de datos sucios Tiempo invertido Recursos adicionales Pérdida de oportunidades 13
Herramientas MS SQL Server Management Studio (SSMS) MS Office Excel (2007 2010 2013) Filtros Segmentadores Minería de datos MDM PowerPivot PowerView BI SQL Server SSIS, SSRS, SSAS OLAP - SSAS DM, MDS, DQS Business Intelligence Development Studio (BIDS) Data Tools MS Sharepoint Performance Point PowerPivot, Power View SSIS Perfiles de datos 14
MS Office Excel 2010 SQL Server 2012 Master Data Services Master Data Services Combinar datos, tratamiento de errores 15
SQL Server 2012 Data Quality Services Interactive Cleansing Detección de anomalías Códigos Postales después de transformación 16
SQL Server 2012 DQS - Integración con SSIS Sincronizar conjuntos de datos (SCD) 17
Transformaciones de Flujo de datos MODELADO DE DATOS TRANSFORMAR Y CARGAR DATOS Escenario 18
Ver Modelo transaccional Productos Ver Modelo dimensional DW - Productos 19
I.- Tablas normalizadas Vista de Origen de datos - DSV DSV de dimensión I.- Tablas normalizadas Relaciones de atributos Jerarquías de usuarios y Relaciones de atributos 20
II.- Tablas denormalizadas con dependencia funcional correcta Optimizar ajustando las Relaciones de atributos III.- Tablas denormalizadas con dependencia funcional incorrecta Jerarquías de usuarios y Relaciones de atributos 21
III.- Tablas denormalizadas con dependencia funcional incorrecta Optimizar ajustando las Relaciones de atributos Errores del motor de almacenamiento OLAP: Se ha encontrado una clave de atributo duplicada al procesar: Tabla: 'dbo_dimproduct', Columna: 'Color', Valor: 'Black'. El atributo es 'Color'. III.- Tablas denormalizadas con dependencia funcional incorrecta Solución.- Agregar otra columna para ColorTamaño E l D t h En el Datawarehouse En DSV 22
Ventas por países por períodos de tiempo Valor añadido Danysoft Te ofrecemos la gama más completa de utilidades de terceros que complementan VSTS Te asesoramos en la adquisición, renovación y consolidación de licencias software. Editamos libros especialmente creados por y para desarrolladores. Utilidades Licencias Software Libros Formación a medida para equipos de desarrollo Consultorías para la puesta en marcha de tecnologías Presentaciones técnicas para ayudar a la toma de decisiones Formación Consultoría Presentaciones 23
Gracias Para más información contacte con el 902 123146, o vía email con info@danysoft.com Ana María Bisbé York, Servicios Profesionales sp@danysoft.com www.danysoft.com 24