Federación Médica del Interior (FEMI) Sociedad Uruguaya de Informática en la Salud (SUIS) Información en Salud Edición 2009 Sistemas de Data Warehousing Dr. Ing. Adriana Marotta (In.Co - F.Ing - UDELAR) amarotta@fing.edu.uy Abril 2009
Temas Temario: Introducción. n. Los Sistemas de Data Warehousing. Organización n de los Sistemas de DW. Usando los Sistemas de DW. Factores de éxito, errores y beneficios. Conclusiones, Tendencias y Perspectivas.
Motivaciones Problemática planteada: Acceso a Información n para la toma de decisiones. Stock Farmacia Diagnósticos Gestión RRHH? Factores críticos: Tiempo de acceso. Integración Calidad de información.?
Motivaciones Los datos existen, pero... No siempre se acceden fácilmente. f No siempre se utilizan. La información n suele ser difícil de obtener: Deben obtenerse los datos: A partir de los cuales se construye la información. n. Que definen el contexto de los anteriores. En un cierto contexto, un ítem puede ser información: n: Dependiendo del tipo de decisiones a tomar. Dependiendo de la persona encargada. Dependiendo de la calidad de su valor.
Motivaciones Y los sistemas de información n tradicionales... Orientados a sistemas operacionales. Asociados a procesos productivos. Procesan grandes cantidades de transacciones. Pueden resolver estas necesidades?
Motivaciones Sistema orientado a la Producción: Prioridad: tiempo de respuesta a transacciones read-write write. Se manejan datos actuales muy detallados. Estables y de larga vida útil. Sistema orientado a la Decisión: Prioridad: expresividad y eficiencia en consultas complejas. Datos actuales+históricos resumidos. En constante evolución.
Conclusión. n. Motivaciones Se trata de sistemas con objetivos diferentes. Se construyen para ser eficientes en sus objetivos. No es posible usarlos para las tareas de otro.
Sistemas de Data Warehousing Abordan la problemática planteada: Generar Información n para toma de decisiones. siguiendo los principios: Construir Información n desde datos de la empresa. Integrar diferentes fuentes de datos. Ofrecer al usuario final mecanismos flexibles para el acceso a la información: n: Pre-programada. Libre, exploratoria. A través s de los objetos de su negocio. Observando los datos en formatos especializados.
Estructura de Sistemas de DW Pacientes Patología - Construcción interactiva. - Agregación/Desagregación. M E T A D A T A Fecha Analisis Multidimensional (OLAP) Consultas y reportes complejos Data Warehouse Herramientas ETL Búsqueda de correlaciones entre datos. Data Mining Herramientas de exploración y análisis Carga automatizada. Control de Calidad de Datos. Integración de BDs. Históricos Archivos BD-Rel BD-Geo BD-Texto... Bases de datos fuentes
Estructura de Sistemas de DW Las Bases de Datos Fuente. Almacenan datos brutos para construir la información. Pueden ser heterogéneas neas. Almacenan ítems de datos detallados. El Data Warehouse. Base (o bases) de datos con el conjunto de información n requerida para toma de decisiones. Incluye tablas con valores tomados de las BD Fuente así como con valores calculados.
Estructura de Sistemas de DW Herr. de Extracción n y Transformación n de datos (ETL). Construyen el DW, transformando datos en BD Fuente. Deben resolver problemas técnicos importantes: Acceso a sistemas heterogéneos neos. Ejecución de consultas complejas. Operación n de carga global, combinando el conjunto de las operaciones. La Calidad de los Datos. Es s un aspecto fundamental credibilidad sistema. Se basa en: La consistencia y corrección n clásica de datos. Noción n de PertinenciaP y Relevancia de los datos.
Estructura de Sistemas de DW Herramientas de acceso a Información. n. Usadas para explorar la información. n. Tipos de herramientas: Planillas electrónicas. Reportes y consultas interactivas. OLAP (On-Line Analytic Processing): Representan datos como Dimensiones y Medidas. Data Mining: Descubrimiento de correlaciones y patrones en datos.
Propiedades de los Sist. DW Un Sistema de DW debería a : Acceder a Bases Fuentes heterogéneas y multiplataforma. Soportar múltiples m tipos de usuarios. Funcionar en forma independiente a los Sistemas de Producción. Soportar configuraciones en red. Ofrecer Interfaces a usuario avanzadas. Soportar Diccionarios de Datos y Metadata.
Interfaces avanzadas a usuario Interfaces a usuario especializadas. Por qué? Optimizar el tiempo del usuario. Principio: A cada tipo de usuario o aplicación n se le ofrece la interfaz más m s adecuada.
Espacio de Metadata OLAP MDD/DBs DW Metadata BD-Fuentes Directorio Metadata/Repository
Organización n de los Sist. DW Cómo se organizan los sistemas DW en la organización n? DW a nivel de la organización n (o conjunto de áreas). Almacena información n con alcance global. Información n integrada y limpia de la organización. n. Centraliza la carga (y controles) desde bases fuentes. Data Marts por área o aplicación. Resuelven requerimientos concretos de áreas o aplicaciones. Basado en datos del DW. Tiene administración n y evolución n relativamente autónoma. P.ej. : Gestión n de Farmacia, Análisis de casos ingresados.
Organización n de los Sist. DW Cómo se organizan los sistemas DW en la organización n? Interfaz usuario Data Marts MOLAP... ROLAP Tecnologías de extracción y almacenamiento de info. DW global ETL BDs Fuentes
Usando el Sistema de DW Cómo se usa un Sistema de DW? A través s de herramientas de exploración n y análisis de información: n: BDs Escritorio. Planillas Electrónicas. Herramientas de consulta y reportes. OLAPs. Herramientas Estadísticas sticas y de Data Mining. Modelización de Negocios y Simulación.
Usando el Sistema de DW Pacientes Patología - Construcción interactiva. - Agregación/Desagregación. M E T A D A T A Fecha Analisis Multidimensional (OLAP) Consultas y reportes complejos Data Warehouse Herramientas ETL Búsqueda de correlaciones entre datos. Data Mining Herramientas de exploración y análisis Carga automatizada. Control de Calidad de Datos. Integración de BDs. Históricos Archivos BD-Rel BD-Geo BD-Texto... Bases de datos fuentes
Herramientas de Consultas y Funcionalidades base: Reportes Construir fácilmente f consultas/reportes complejos. Muy buenos para construir reportes no previstos. Incorporan lenguajes para manejo de datos. Incluyen funciones de todo tipo. Ofrecen diferentes niveles de complejidad orientada a diferentes tipos de usuario: Construcción n de reporte complejo desde cero. Construcción n de reporte en base a moldes. Ejecución n de reportes con variables a llenar. Ejecución n fija de reporte.
Funcionalidades base: OLAPs Permiten consultar datos : Interactivamente y en forma eficiente. Usando mecanismos comprensibles para usuarios. Una consulta corresponde a cruzar dimensiones y elegir la medida en el cruzamiento. Funcionalidades adicionales: Visualización n gráfica. Operaciones en línea. l Funcionalidades de herramientas: Integración n con BDs Relacionales. Integración n con herramientas de escritorio y otros sistemas.
Motivaciones: Modelos OLAP (o multidimensionales) Facilitar y optimizar la realización n de consultas de tipo cruzamientos. Representar los datos en forma más m s cercana a la intuición n del usuario. Principios generales: La información n se representa como: cuadros de doble o triple entrada. cubos de "n" dimensiones. Una BD-MD incluye varias dimensiones.
Modelos OLAP : Ejemplo Análisis de ventas de autos Tabla: MODELO COLOR VOLUME -Ventas MINI VAN BLUE 6 MINI VAN RED 5 MINI VAN WHITE 4 SPORTS COUPE BLUE 3 SPORTS COUPE RED 5 SPORTS COUPE WHITE 5 SEDAN BLUE 4 SEDAN RED 3 SEDAN WHITE 2 Cuadro: M O D E L O Mini Van Coupe Sedan 6 5 4 3 5 5 4 3 2 Blue Red White COLOR
Modelos OLAP : Ejemplo Agregando una 3a. dimensión: n: M O D E L O Mini Van Coupe Sedan Carr Gleason Clyde VENDEDOR Blue Red White COLOR
Modelos OLAP : Ejemplo Agregando una 4a. dimensión: n: M O D E L O Mini Van Coupe Sedan Blue Red White Color Carr Gleason Clyde... Mini Van Coupe Sedan Blue Red White Color Carr Gleason Clyde VENDEDOR Enero... Diciembre
Modelos OLAP Los Modelos OLAP constan de: Dimensiones: Dimensiones en el hipercubo. Macro-objetos objetos del problema. Criterios de análisis de los datos. Medidas: Valores en los cruzamientos de las dimensiones. Datos asociados a relaciones entre los objetos del problema. Valores o Indicadores a analizar.
Jerarquías: as: Dimensiones Los valores se organizan en jerarquías as (categorías). as). Dimensión: Vendedores REGION Midwest CIUDAD Chicago St. Louis Gary VENDEDOR Clyde Gleason Carr Levi Lucas Bolton
Operaciones: Roll-up Consolidación n (Roll-Up). Calcula las medidas en función n de agrupamientos. 10 5 15 Mini Van Coupe Roll-up (Suma) Sobre Vendedor Mini Van Coupe Sedan Carr Gleason Clyde Sedan Chicago St.Louis Blue Red White White Red Blue
Operaciones Multidimensionales Resumen: Slice. Dice. Selecciona dimensiones (y medidas) de trabajo. Selecciona valores en las dimensiones. Rotación. Selecciona el orden de visualización n de las dimensiones. Drill-up/ up/drill-down. Selecciona un nivel de agregación n superior para una o más m dimensiones.
Data Mining Objetivos: Explorar BDs buscando relaciones desconocidas entre los datos. Por ejemplo: Relaciones entre enfermedades y decesos. Algunas candidatas a nuevas causas de decesos. Otras podrían ser datos erróneos. Qué incluye? Un conjunto muy amplio y heterogéneo de técnicas t y herramientas.
Data Mining Los programas de Data Mining: Analizan un conjunto de datos y generan Modelos. Reglas. Árboles de Decisión. Clusters. Ecuaciones. Pueden estudiar varias dimensiones de datos simultáneamente y descubrir los que tienen comportamiento especial. La iniciativa es del algoritmo y no del usuario.
Factores de éxito Un proyecto DW se considera exitoso si: Integra información n heterogénea. De diferentes tipos. De diferentes orígenes. Hace visible y manejable la información útil. Incluye datos de calidad validada. Ofrece acceso directo a usuarios. La cantidad de usuarios y de acceso aumenta.
Se debe evitar: Errores a evitar Establecer expectativas demasiados altas. Cargar el DW con todo lo disponible. Elegir un DW manager sin orientación n al negocio. Diseñar el DW igual que un sistema de producción. Ignorar fuentes de datos externas. Ignorar la evolutividad del sistema.
Beneficios esperables Se obtiene: Acceso interactivo e inmediato a información estratégica de un área de negocios. Permite toma de decisiones basadas en datos objetivos. Los beneficios aumentan : cuanto más m s importantes son las decisiones. cuanto más m s crítico es el factor tiempo. Capitalización n de datos en bases heterogéneas: Archivos, dbf,, etc.
Conclusiones Los Sistemas de DW resultan un aporte importante para la toma de decisiones: Acercan la información n al usuario. Los Sistemas DW permiten revalorizar los datos en la empresa: Integran datos en diferentes formatos. Los Sistemas DW no son productos monolíticos sino composición n de soluciones técnicas. t Construcción n del Diccionario de Datos, Diseño o de Base de Datos, Conectividad, Control de calidad de datos, etc.
Tendencias y Perspectivas Área en evolución: Sistemas, Metodologías, etc. Acceso a Sistemas DW por Web. Tanto por Internet como Intranet. Integración n de información n heterogénea: Geográfica, Texto, Imágenes.
Muchas gracias