La Investigación en OLAP y Data Warehousing: Pasado, Presente y Futuro Alejandro Vaisman Universidad de Buenos Aires / Universidad de Chile avaisman@dc.uba.ar Jornadas de Data Mining Facultad de Ciencias Exactas y Naturales UBA 29 de Setiembre de 2006 9/29/2006 1
Agenda Conceptos generales Tópicos de investigación Pasado y presente Futuro 9/29/2006 2
Agenda Conceptos generales Tópicos de investigación Pasado y presente Futuro 9/29/2006 3
Definición Data Warehousing: almacenamiento, transformación y distribución de datos útiles para los responsables de tomar decisiones 9/29/2006 4
Definición (cont.) Un Data Warehouse es una colección de datos orientada al negocio, integrada, variante en el tiempo y no volátil para el soporte del proceso de toma de decisiones de la gerencia. W.H. Inmon 9/29/2006 5
Características Orientado al Negocio - organiza y presenta los datos desde la perspectiva del usuario. Maneja gran volumen de datos - contiene datos históricos. Almacena información sobre diversos medios -a causa del gran volumen que debe manejar. 9/29/2006 6
Características(cont.) Abarca múltiples versiones de un esquema de base de datos - debido a la información histórica que contiene. Sumariza y agrega información - para presentarla de una manera comprensible para los usuarios. Integra y asocia información proveniente de diversas fuentes - datos recolectados durante años por diversas aplicaciones. 9/29/2006 7
Motivación Mercados altamente dinámicos y competitivos. Necesidad de tomar decisiones rápidamente. Aumento de la capacidad de almacenamiento. Crecientes volúmenes de información disponible. Baja de costos del Hardware. 9/29/2006 8
OLTP - On Line Transaction Processing Procesamiento de los datos operacionales. Gran nivel de detalle. Sistemas diseñados para soportar actualizaciones consistentes (normalización). Ineficiente para toma de decisiones. Consultas orientadas a obtener como respuesta unos pocos registros. 9/29/2006 9
OLAP - On Line Analytical Processing Sistemas que permiten recolectar y organizar la información analítica realmente necesaria y disponer inmediatamente de ella en diversos formatos (tablas, gráficos, reportes, etc.). Analizan los datos desde diferentes perspectivas (dimensiones) del negocio. Soportan análisis complejos de grandes volúmenes de datos. En consecuencia: Distintas tecnicas de diseño requeridas (p.ej. desnormalización) Distintos mecanismos de procesamiento de consultas (orientados a consultas de agregación) 9/29/2006 10
OLTP vs. OLAP OLTP OLAP Usuario Tipico empleado profesional Uso del sistema operacional análisis Interaccion usuarios predeterminada ad-hoc Unidad de trabajo transaccion consulta Caracteristicas lectura/escritura lectura Registros accedidos decenas millones Cant. de usuarios miles cientos Focalizacion ABM de datos extraer información 9/29/2006 11
Componentes Fuentes de datos. Sistemas operacionales, información externa, etc. Meta Datos. Estructura, definición y origen de los Datos. Data Warehouse. Datos organizados y herramientas para su análisis. Usuarios. Responsables de tomar decisiones. 9/29/2006 12
Enterprise Warehouse Representa la información de toda la organización Data Mart Tres Clases de Data Warehouse Un subconjunto de la información de la organización, que es de valor para grupos específicos de usuarios. Virtual Warehouse Un conjunto de vistas sobre los datos operacionales Solo unas pocas se materializan 9/29/2006 13
Arquitectura Típica Otras Fuentes BD Operacionales Metadata Extracción Transformación Carga Actualización Monitor & Integrador Data Warehouse OLAP Server Server Analysis Consultas Reportes Data mining Data Marts Fuentes de datos Almacenamiento de datos Motor OLAP Herramientas Front-End 9/29/2006 14
El Modelo Multidimensional Vista multidimensional del data warehouse => influencia el diseño de la base de datos, las herramientas front-end, y los motores OLAP. Modelo multidimensional de datos: un conjunto de medidas numéricas son los objetos de análisis. Ej: ventas, beneficios, duración de llamadas, etc. Adicionalmente existen, asociadas a las medidas, las dimensiones de análisis, que proveen el contexto a las medidas, y se describen mediante atributos. El modelo define una medida como un valor en un espacio multidimensional. Estas medidas pueden también representar datos agregados. Las dimensiones se pueden organizar en jerarquías de agregación. 9/29/2006 15
Jerarquías Dimensionales all all región Europa... América del Norte país Alemania... España Canadá... Méjico ciudad Frankfurt... Vancouver... Toronto oficina L. Chan... M. Wind Esquema Instancia 9/29/2006 16
TV PC VCR sum Producto Ejemplo de Data Cube Tiempo 1 er trim 2 do Qtr 3 er trim 4 to trim sum Ventas totales de TV en U.S.A. U.S.A Canada Méjico País sum 9/29/2006 17
Diseño El esquema estrella (Kimball, 1995) describe el modelo multidimensional de datos mediante tablas de hechos y tablas de dimensión. Ejemplo: queremos modelar y analizar las ventas a través de múltiples dimensiones. Tablas de Dimensión: Productos (item_id, marca, tipo), o Tiempo (día, semana, mes, trimestre, año), Geografía (sucursal, ciudad, region) Tablas de Hechos: contienen medidas (como ventas_totales) y las claves de las tablas de dimensión; ej: Ventas (item_id,día,sucursal,ventas_totales). Variante normalizada: el esquema snowflake. No provee soporte directo a las jerarquias dimensionales 9/29/2006 18
Diseño Físico: ROLAP vs. MOLAP El modelo multidimensional es implementado directamente por los llamados servidores MOLAP (Multidimensional OLAP). Soportan la visión multidimensional de datos mediante un motor de almacenamiento multidimensional, conformado por arrays propietarios. No requieren un mapping entre modelos. Excelente performance; problema: dimensiones esparzas. Si se utilizan BD relacionales como servidores, el modelo y sus operaciones deben ser mapeados a relaciones y consultas SQL => implementación ROLAP (Relational OLAP) Extienden el modelo relacional los servidores relacionales con middleware que soporta consultas multidimensionales. Utilizan diversas técnicas de materialización de vistas. 9/29/2006 19
Agenda Conceptos generales Tópicos de investigación Pasado y presente Futuro 9/29/2006 20
Tópicos de investigación (i) Diseño y modelado Distintos modelos multidimensionales Modelos relacionales y multidimensionales (ROLAP/MOLAP) Formas normales / constraints Metodologías Mapeo de modelos (ER - Star Schema) 9/29/2006 21
Tópicos de investigación (cont.) (ii) Procesamiento de consultas Optimización tradicional Materialización de vistas Materialización total vs. Selección de vistas materializadas Indexación Indices multidimensionales Indices Bitmap Star-Join, etc. Optimización avanzada Range queries Iceberg queries Cube Caching Procesamiento paralelo 9/29/2006 22
Tópicos de investigación (cont.) (iii) Integración de datos Integración de datos de distintas fuentes Aspectos teóricos LAV GAV - GLAV Mediadores, wrappers Resolución de conflictos 9/29/2006 23
Tópicos de investigación (cont.) (iv) Mantenimiento del Data Warehouse Mantenimiento de vistas materialzadas Minimización del tiempo de updates Propagación y refresco Mantenimiento incremental Mantenimiento on-line (distintas versiones simultáneas) Updates Dimensiones Fact tables 9/29/2006 24
Tópicos de investigación (cont.) (v) Misceláneas Privacidad y seguridad de la información en OLAP Premisa: permitir el análisis, manteniendo la privacidad de la información Visualización en OLAP Calidad de datos OLAP en sistemas de información geográfica (GIS) Agregación de regiones Agregación de medidas combinadas con consultas sobre geometrías Top-k queries OLAP y dispositivos moviles Modelado Procesamiento de consultas 9/29/2006 25
Tópicos de investigación (cont.) (vi) Modelos avanzados Temporal OLAP Mantenimiento de la historia del DW Evolución de esquemas vs. versionado de esquemas OLAP en arquitecturas P2P OLAP & XML Análisis OLAP para datos XML Web Warehousing Considerar la Web como un gran repositorio de información. Aplicar técnicas OLAP al sitio Web de la organización. Publicar el DW en la Web. 9/29/2006 26
Agenda Conceptos generales Tópicos de investigación Pasado y presente Futuro 9/29/2006 27
Pasado y Presente Principios de los 90 Inmon define data warehousing Interés desde el mundo empresario Interés desde los proveedores de software Tema casi ignorado en el mundo académico Aparecen los primeros problemas comunes a los DBMS s tradicionales: Integración de fuentes heterogéneas Vistas materializadas Resolver eficientemente consultas que incluyen agregación de datos 9/29/2006 28
Pasado y Presente (cont.) 1995, año clave Comienzo del proyecto de DW de Stanford Desarrollo de algoritmos y herramientas eficientes para integración de información desde fuentes heterogéneas Creciente interes desde el mundo académico Aparecen workshops y conferencias dedicadas al tema Papers en las conferencias más importantes (SIGMOD, VLDB, ICDE, EDBT) Comienzan a surgir herramientas comerciales especializadas 9/29/2006 29
Pasado y Presente (cont.) 1995, año clave Paper de J. Widom en CIKM 95: Research Problems in Data Warehousing Identifica una serie de problemas: Detección de cambios (refresco incremental de datos) Mantenimiento de vistas materializadas (summary tables) El proceso de ETL (Extraction, Transformation and Loading) Optimización Diseño Evolución 9/29/2006 30
Pasado y Presente (cont.) Entre 1995 y 1999... Modelado Agrawal, Gupta, Sarawagi, Modeling Multidimensional Databases. IBM Research Center, Almaden, 1995. Cabibbo & Torlone, Querying Multidimensional Databases, DBPL 1997; A Logical Approach to Multidimensional Databases, EDBT 1998 (mapping ER- Star Schema). M. Gyssens & L.V.S. Lakshmanan, A foundation for multi-dimensional databases, VLDB 1997. (basado en el MR) Gray et al. Data Cube: A Relational Aggregation Operator Generalizing Group-By, Cross-Tab, and Sub-Totals, Journal of Data Mining & Knowledge Discovery, 1997. 9/29/2006 31
Pasado y Presente (cont.) Entre 1995 y 1999... Query processing & Indexing V. Harinarayan, A. Rajaraman, J.D. Ullman, Implementing Data Cubes Efficiently, SIGMOD 1996. S. Agarwal, R. Agrawal, P.M. Deshpande, A. Gupta, J.F. Naughton, R. Ramakrishnan, S. Sarawagi, On the Computation of Multidimensional Aggregates, VLDB 1996. H. Gupta, Selection of Views to Materialize in a Data Warehouse, ICDT 1997. Y. Zhao, P.M. Deshpande, J.F. Naughton, An Array-Based Algorithm for Simultaneous Multidimensional Aggregates, SIGMOD 1997. H. Gupta, V. Harinarayan, A. Rajaraman, J. Ullman, Index Selection for OLAP, ICDE 1997. S. Sarawagi, Indexing OLAP Data, IEEE Data Engineering Bulletin, 1997. Wu & Buchmann, Encoded Bitmap Indexing for Data Warehouses, ICDE 1998. 9/29/2006 32
Pasado y Presente (cont.) Entre 1995 y 1999... Mantenimiento Y. Zhuge, H. Garcia-Molina, J. Hammer, J. Widom, View Maintenance in a Warehousing Environment, SIGMOD 1995. I.S. Mumick, Quass, B.S. Mumick, Maintenance of data cubes and summary tables in a warehouse, SIGMOD 1997. D. Quass and J. Widom, On-Line Warehouse View Maintenance for Batch Updates, SIGMOD 1997. Labio, Yerneni, Garcia-Molina, Shrinking the Warehouse Update Window, SIGMOD 1999. Hurtado, Mendelzon, Vaisman, Maintaining Data Cubes under Dimension Updates, ICDE 1999. 9/29/2006 33
Pasado y Presente (cont.) Hacia fines del siglo XX... Continúa el interés de la comunidad científica Se consolida el número de herramientas comerciales Se desarrollan (sobre todo a nivel internacional) una gran cantidad de implementaciones. 9/29/2006 34
Pasado y Presente (cont.) Hacia fines del siglo XX... Paper de Vassiliadis en DMDW 2000: Gulliver in the land of Data Warehousing: Practical Experiences and Observations of a Researcher Detecta un gap significativo entre investigación e industria Investigadores no conocen los problemas reales Empresas no interesadas en los resultados de las investigaciones 20 papers por año en VLDB, PODS, SIGMOD Temas: optimización, selección de vistas materializadas, integración de datos Problemas: Falta de metodologías de diseño y desarrollo Falta de standards para metadatos Falta de soluciones para ETL Dificultad para estimar el tamaño de las vistas 9/29/2006 35
Pasado y Presente (cont.) Donde estamos hoy? Menos investigación en DW & OLAP, NO indica que todo esté resuelto Entre 2000 y 2006, actividad centrada en workshops y conferencias especializadas (DOLAP, DMDW, DaWaK) Mendelzon & Vaisman, Temporal Queries in OLAP, VLDB 2000. Andreas Bauer, Wolfgang Hümmer, Wolfgang Lehner, and Lutz Schlesinger, A Decathlon in Multidimensional Modelling: Open Issues and Some Solutions, DaWaK 2002. Veronika Peralta & Raul Ruggia, Using Design Guidelines to Improve Data Warehouse Logical Design, DMDW 2003. Dong Xin, Jiawei Han, Xiaolei Li, and Benjamin W. Wah, Star-Cubing: Computing Iceberg Cubes by Top-Down and Bottom-Up Integration, VLDB, 2003. S.Chen, B. Liu, E.Rundensteiner, Multiversion Based View Maintenance Over Distributed Data Sources, ACM TODS 2004. B. Shah, K. Ramachandran, V. Raghavan, H. Gupta, A Hybrid Approach for Data Warehouse View Selection, International Journal of Data Warehousing and Mining, 2006. 9/29/2006 36
Pasado y Presente (cont.) Que estamos haciendo en la FCEyN? Temporal OLAP: TOLAP / TOLAP en la Web Vaisman, Ktenas, Izquierdo, A Web-based Architecture for Temporal OLAP, IJWET special issue on Data Warehousing in Web, Mobile, And Wireless Environments, 2006. Vaisman, Ktenas, Izquierdo, Web-enabled Temporal OLAP, LA-Web 2006. P2P OLAP Requerimientos, calidad de datos Data Quality-Based Requirements Elicitation for Decision Support Systems, en: Data Warehouses and OLAP: Concepts, Architectures and Solutions, Cap. 7., 2006. Alejandro A. Vaisman: Requirements Elicitation for Decision Support Systems: A Data Quality Approach, ICEIS 2006. Proyecto en calidad de datos en DW con la Universidad de la Republica, Uruguay. OLAP & GIS Proyecto PICT Cooperación bilateral SECyT-FWO, con la Universidad de Hasselt, Bélgica 9/29/2006 37
Pasado y Presente (cont.) Donde estamos hoy? Arquitecturas Modelado, requerimientos, calidad OLAP Lenguajes de consulta / procesamiento Optimización y tunning Indexing, DW físico 9/29/2006 38
Agenda Conceptos generales Tópicos de investigación Pasado y presente Futuro 9/29/2006 39
Futuro Temas abiertos Diseñadores Metodologías standard y utilizables para: Requerimientos Modelización Integración de fuentes de datos Esquemas de documentación integrados 9/29/2006 40
Futuro (cont.) Temas abiertos Usuarios Documentación, descripciones de alto nivel para comprender mejor la información como un activo Metadatos Standard de interoperabilidad en arquitecturas federativas Calidad de datos Falta de un enfoque común para evaluar la calidad de los datos Evolución 9/29/2006 41
Futuro (cont.) Temas abiertos Herramientas Integración de fuentes. Diseño Herramientas CASE especializadas Herramientas de documentación Requerimientos Modelización Integración de fuentes de datos Evolución Herramientas que soporten naturalmente versionado y evolución 9/29/2006 42
Futuro (cont.) Preguntas? 9/29/2006 43