FUNDAMENTOS DE DATA WAREHOUSE



Documentos relacionados
MOLAP REALIZADO POR: JOSE E. TABOADA RENNA

Capítulo 2 Tecnología data warehouse

LOS CINCO GRADOS DE MADUREZ DE UN PROYECTO BI

Oracle vs Oracle por Rodolfo Yglesias Setiembre 2008

FUENTES SECUNDARIAS INTERNAS

3.3.3 Tecnologías Mercados Datos

ANEXO A - Plan de Proyecto EDT de la solución EDT GENERAL DEL PROYECTO1

Tecnologías de Información y Comunicación II CLASE 10

Capítulo 5. Cliente-Servidor.

IDEA DE NEGOCIO EDUGER LOGISTIC GERMAN EDUARDO BALSERO MORALES PROFESOR: GERARDO ANDRES ARCOS CELIS

Business Intelligence

Mejores prácticas para el éxito de un sistema de información. Uno de los problemas de información dentro de las empresas es contar con datos

Sistemas de Información 12/13 La organización de datos e información

App para realizar consultas al Sistema de Información Estadística de Castilla y León

DATA WAREHOUSE DATA WAREHOUSE

REGISTRO DE EMPRESAS Y PERSONAS BASE DE INFORMACIÓN DE CLIENTES & CONTACTOS

Día :00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida

Unidad 1. Fundamentos en Gestión de Riesgos

Elementos requeridos para crearlos (ejemplo: el compilador)

Sistemas de Gestión de Calidad. Control documental

El almacén de indicadores de proceso de negocio en ejecución

Gestión de la Configuración

LA LOGÍSTICA COMO FUENTE DE VENTAJAS COMPETITIVAS

Parte I: Introducción

Destino Perú. En la búsqueda de nuevas oportunidades. Experiencias de Internacionalización

CAPITULO 4. Requerimientos, Análisis y Diseño. El presente capítulo explica los pasos que se realizaron antes de implementar

GUÍA TÉCNICA PARA LA DEFINICIÓN DE COMPROMISOS DE CALIDAD Y SUS INDICADORES

Facultad de Ciencias Económicas. Departamento de Sistemas. Asignatura: INTELIGENCIA DE NEGOCIOS. Plan 1997

Almacén de datos - concepto. Arquitectura de un sistema de almacén de datos

REGISTRO DE PEDIDOS DE CLIENTES MÓDULO DE TOMA DE PEDIDOS E INTEGRACIÓN CON ERP

CRM. Customer Relationship Management Sistema de Gestión Inteligente de Mercadeo y Ventas. Sistema de Gestión Inteligente de Mercadeo y Ventas

UNIVERSIDAD DE SANTIAGO DE CHILE INGENIERIA COMERCIAL APLICACIÓN COMPUTACIONAL I INTELIGENCIA DE NEGOCIOS

Base de datos relacional

Contact Center Comunicación multicanal integrada

DATA WAREHOUSE PARA LA PRESTACIÓN DEL SERVICIO PÚBLICO DE INFORMACIÓN ESTADÍSTICA

BUSINESS INTELLIGENCE

Ciclo de vida y Metodologías para el desarrollo de SW Definición de la metodología

APOYO PARA LA TOMA DE DECISIONES

Administración por Procesos contra Funciones

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

Data Warehousing - Marco Conceptual

Tecnologías de la Información en la Gestión Empresarial

DISEÑO E IMPLEMENTACIÓN DE SOLUCIONES BUSINESS INTELLIGENCE CON SQL SERVER 2012

DE VIDA PARA EL DESARROLLO DE SISTEMAS

Introducción. Componentes de un SI. Sistema de Información:

Resumen General del Manual de Organización y Funciones

Capítulo 2. Planteamiento del problema. Capítulo 2 Planteamiento del problema

Administración Logística de Materiales

activuspaper Text Mining and BI Abstract

REPOSITORIO COR O P R OR O A R T A I T VO V

Ventajas del software del SIGOB para las instituciones


Sistemas de Información Geográficos (SIG o GIS)

Bechtle Solutions Servicios Profesionales

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA

CAPÍTULO 2 DATA WAREHOUSES

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

Maxpho Commerce 11. Gestión CSV. Fecha: 20 Septiembre 2011 Versión : 1.1 Autor: Maxpho Ltd

LOGISTICA D E COMPRAS

Sistema de análisis de información. Resumen de metodología técnica

e-commerce, es hacer comercio utilizando la red. Es el acto de comprar y vender en y por medio de la red.

Definición. Data Warehousing: almacenamiento, transformación y distribución de datos útiles para los responsables de tomar decisiones 9/29/2006 4

Data Mining Técnicas y herramientas

CAPÍTULO 4. EL EXPLORADOR DE WINDOWS XP

OUTSOURCING, INSOURCING, OFFSHORING OUTSOURCING. También conocido como subcontratación, administración adelgazada o empresas

1.1 EL ESTUDIO TÉCNICO

Para poder controlar se tiene que medir! Por qué desarrollar una cultura de la medición en la empresa?

MANUAL COPIAS DE SEGURIDAD

Está creado como un organizador y gestor de tareas personalizables para generar equipos de alto desempeño en diferentes rubros de empresas.

Estos documentos estarán dirigidos a todas las personas que pertenezcan a equipos de implementación de Oracle BI, incluyendo a:

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

BearSoft. SitodeCloud. Rafael Rios Bascón Web: Móvil:

Soporte y mantenimiento de base de datos y aplicativos

MANUAL DE USUARIO APLICACIÓN SYSACTIVOS

INTELIGENCIA DE NEGOCIOS

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

Presentación de Pyramid Data Warehouse

retos LA ACTUALIDAD LA SOLUCIÓN

INTELIGENCIA DE NEGOCIOS. Business Intelligence. Alumno: Toledo Paucar Jorge

GESTIÓN DOCUMENTAL PARA EL SISTEMA DE CALIDAD

Control del Stock, aprovisionamiento y distribución a tiendas.

IAP ENTORNOS INFORMATIZADOS CON SISTEMAS DE BASES DE DATOS

LINEAMIENTOS ESTÁNDARES APLICATIVOS DE VIRTUALIZACIÓN

Construcción de cubos OLAP utilizando Business Intelligence Development Studio

Business Intelligence

GUIA SOBRE LOS REQUISITOS DE LA DOCUMENTACION DE ISO 9000:2000

IMPACTO DEL DESARROLLO TECNOLOGICO EN LA AUDITORIA

Guía de uso del Cloud Datacenter de acens

EL MARKETING RELACIONAL Y NUEVAS TENDENCIAS DE MARKETING

Selenne Business Intelligence QUÉ ES BUSINESS INTELLIGENCE?

UN PASEO POR BUSISNESS INTELLIGENCE

SISTEMA DE GESTIÓN DE INCIDENCIAS Y REQUERIMIENTOS MESA DE AYUDA SINAT MANUAL DE USUARIO

LiLa Portal Guía para profesores

5 formas de mejorar su negocio con COMPUTACIÓN EN LA NUBE

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

Master en Gestion de la Calidad

MANUAL DE USUARIO SISTEMA DE ALMACEN DIF SONORA

CRM C U S T O M E R R E L A T I O N S H I P M A N A G E M E N T G E S T I Ó N D E L A R E L A C I Ó N C O N L O S C L I E N T E S

Tecnologías Aplicadas a Business Intelligence Proyecto Práctico

Transcripción:

FUNDAMENTOS DE DATA WAREHOUSE 1. Qué es Data Warehouse? El Data Warehouse es una tecnología para el manejo de la información construido sobre la base de optimizar el uso y análisis de la misma utilizado por las organizaciones para adaptarse a los vertiginosos cambios en los mercados. Su función esencial es ser la base de un sistema de información gerencial, es decir, debe cumplir el rol de integrador de información proveniente de fuentes funcionalmente distintas (Bases Corporativas, Bases propias, de Sistemas Externos, etc.) y brindar una visión integrada de dicha información, especialmente enfocada hacia la toma de decisiones por parte del personal jerárquico de la organización. Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar información de una o más fuentes distintas, para luego procesarla permitiendo su análisis desde infinidad de perspectivas y con grandes velocidades de respuesta. Es un sitio donde se almacena de manera integrada toda la información resultante de la operatoria diaria de la organización. Además, se almacenan datos estratégicos y tácticos con el objetivo de obtener información estratégica y táctica que pueden ser de gran ayuda para aplicar sobre las mismas técnicas de análisis de datos encaminadas a obtener información oculta (Data Mining). Esta información incluye movimientos que modifican el estado del negocio, cualquier interacción que se tenga con los clientes y proveedores, y cualquier dato adicional que ayude a comprender la evolución del negocio. Esta tecnología ayuda a la organización a responder preguntas esenciales para la toma de decisiones que le permitan obtener ventajas competitivas y mejorar su posición en el mercado en el que operan. Algunas de las preguntas podrían ser: Cuál es el perfil de mis clientes? Cómo es su comportamiento? Cuál es la rentabilidad que me deja? Cuál es el riesgo que corro con él? Qué servicios y productos utiliza y cómo puedo incrementarlos? Etc.

2. Características de un Data Warehouse. Integrado. Los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La información suele estructurarse también en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios. La integración de datos se muestra de muchas maneras: en convenciones de nombres consistentes, en la medida uniforme de variables, en la codificación de estructuras consistentes, en atributos físicos de los datos consistentes, fuentes múltiples y otros. En la siguiente imagen podemos ver cómo se maneja la información en distintas aplicaciones y lo que buscamos con la integración seria escoger de todas un estándar de información para que uniformice los datos y se introduzcan al repositorio

Temático. Sólo los datos necesarios para el proceso de generación del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una única tabla del datawarehouse. De esta forma, las peticiones de información sobre clientes serán más fáciles de responder dado que toda la información reside en el mismo lugar. En la siguiente imagen se muestra cómo se maneja un sistema de información orientada a sus aplicaciones y otra temática una diferencia importante entre estas está en la interrelación de la información. Los datos operacionales (aplicaciones) mantienen una relación continua entre dos o más tablas basadas en una regla comercial. Las del data warehouse miden espectros de tiempo y las relaciones encontradas en la data warehouse (podremos indagar en toda la información pasada relacionada entre todas las aplicaciones).

De tiempo variante. El tiempo es parte implícita de la información contenida en un datawarehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la información almacenada en el datawarehouse sirve, entre otras cosas, para realizar análisis de tendencias. Por lo tanto, el datawarehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones. Los datos históricos son de poco uso en el procedimiento operacional. La información del depósito por el contrario, debe incluir los datos históricos para usarse en la identificación y evaluación de tendencias. 1. La más simple es que la información representa los datos sobre un horizonte largo de tiempo - desde cinco a diez años. El horizonte de tiempo representado para el ambiente operacional es mucho más corto - desde valores actuales hasta sesenta a noventa días. Las aplicaciones que tienen un buen rendimiento y están disponibles para el procesamiento de transacciones, deben llevar una cantidad mínima de datos si tienen cualquier grado de flexibilidad. Por ello, las aplicaciones operacionales tienen un corto horizonte de tiempo, debido al diseño de aplicaciones rígidas. 2. La segunda manera en la que se muestra el tiempo variante en el data warehouse está en la estructura clave. Cada estructura clave en el data warehouse contiene, implícita o explícitamente, un elemento de tiempo como día, semana, mes, etc. El elemento de tiempo está casi siempre al pie de la clave concatenada, encontrada en el data warehouse. En ocasiones, el elemento de tiempo existirá implícitamente, como el caso en que un archivo completo se duplica al final del mes, o al cuarto.

3. La tercera manera en que aparece el tiempo variante es cuando la información del data warehouse, una vez registrada correctamente, no puede ser actualizada. La información del data warehouse es, para todos los propósitos prácticos, una serie larga de "snapshots" (vistas instantáneas). Por supuesto, si los snapshots de los datos se han tomado incorrectamente, entonces pueden ser cambiados. Asumiendo que los snapshots se han tomado adecuadamente, ellos no son alterados una vez hechos. En algunos casos puede ser no ético, e incluso ilegal, alterar los snapshots en el data warehouse. Los datos operacionales, siendo requeridos a partir del momento de acceso, pueden actualizarse de acuerdo a la necesidad. No Volátil. El almacén de información de un datawarehouse existe para ser leído, pero no modificado. La información es por tanto permanente, significando la actualización del datawarehouse la incorporación de los últimos valores que tomaron las distintas variables contenidas en él sin ningún tipo de acción sobre lo que ya existía. La información es útil sólo cuando es estable. Los datos operacionales cambian sobre una base momento a momento. La perspectiva más grande, esencial la manipulación básica de los datos que ocurre en el data warehouse es mucho más simple. Hay dos únicos tipos de operaciones: la carga inicial de datos y el acceso a los mismos. No hay actualización de datos (en el sentido general de actualización) en el depósito, como una parte normal de procesamiento. Hay algunas consecuencias muy importantes de esta diferencia básica, entre el procesamiento operacional y del data warehouse. En el nivel de diseño, la necesidad de ser precavido para actualizar las anomalías no es un factor en el data warehouse, ya que no se hace la actualización de datos. Esto significa que en el nivel físico de diseño, se pueden tomar libertades para optimizar el acceso a los datos, particularmente al usar la normalización y de normalización física. Como se puede observar en la imagen en la base de datos operacional la actualización (actualizar, borrar y modificar) se hace regularmente, mientras en el data warehouse sea una sola actualización esto hace que cuando tengamos que tomar una decisión con esta información tengamos seguridad de esta.

3. Ventajas de un Data Warehouse Datawarehouse proporciona una información de gestión accesible, correcta, uniforme y actualizada. Proporciona un menor coste en la toma de decisiones, una mayor flexibilidad ante el entorno, un mejor servicio al cliente y permite el rediseño de los procesos. Entre las ventajas tenemos: - Proporciona información clave para la toma de decisiones empresariales. - Mejora la calidad de las decisiones tomadas. - Especialmente útil para el medio y largo plazo. - Son sistemas relativamente sencillos de instalar si las fuentes de datos y los objetivos están claros. - Muy útiles para el almacenamiento de análisis y consultas de históricos. - Proporciona un gran poder de procesamiento de información. - Permite una mayor flexibilidad y rapidez en el acceso a la información. - Facilita la toma de decisiones en los negocios. - Las empresas obtienen un aumento de la productividad. - Proporciona una comunicación fiable entre todos los departamentos de la empresa. - Mejora las relaciones con los proveedores y los clientes.

- Permite conocer qué está pasando en el negocio, es decir, estar siempre enterado de los buenos y malos resultados. - Transforma los datos en información y la información en conocimiento - Permite hacer planes de forma más efectiva. - Reduce los tiempos de respuesta y los costes de operación. 4. Desventajas de un Data Warehouse Las empresas que utilizan data warehouse son fundamentalmente aquellas que manejan grandes volúmenes de datos relativos a clientes, compras, marketing, transacciones, operaciones, como lo son las empresas de telecomunicaciones, transporte, Turismo, fabricación de bienes de consumo masivo etc. Entre las desventajas tenemos: - No es muy útil para la toma de decisiones en tiempo real debido al largo tiempo de procesamiento que puede requerir. En cualquier caso la tendencia de los productos actuales (junto con los avances del hardware) es la de solventar este problema convirtiendo la desventaja en una ventaja. - Requiere de continua limpieza, transformación e integración de datos. - Mantenimiento. - En un proceso de implantación puede encontrarse dificultades ante los diferentes objetivos que pretende una organización. - Una vez implementado puede ser complicado añadir nuevas fuentes de datos. - Requieren una revisión del modelo de datos, objetos, transacciones y además del almacenamiento. - Tienen un diseño complejo y multidisciplinar. - Requieren una reestructuración de los sistemas operacionales. - Tienen un alto coste. - Requieren sistemas, aplicaciones y almacenamiento específico 5. Estructura de un Data Warehouse En la estructura de un data warehouse encontraremos 4 niveles de esquematización los cuales forman la metadata, estos niveles se diferencian x el nivel de síntesis o depuracion de información requerida por la empresa que lo usa y son:

Detalle de datos antiguos ( históricos). Es aquella que se almacena sobre alguna forma de almacenamiento masivo. No es frecuentemente accesada y se almacena a un nivel de detalle, consistente con los datos detallados actuales. Mientras no sea prioritario el almacenamiento en un medio de almacenaje alterno, a causa del gran volumen de datos unido al acceso no frecuente de los mismos, es poco usual utilizar el disco como medio de almacenamiento. Detalle de datos actuales. En gran parte, el interés más importante radica en el detalle de los datos actuales, debido a que: Estos datos reflejan las ocurrencias más recientes, las cuales son de gran interés Son voluminosos, ya que se almacenan al más bajo nivel de granularidad (no están procesados). Casi siempre se almacena en disco, al cual se tiene fácil acceso, aunque su administración sea costosa y compleja Datos ligeramente resumidos. Es aquella que proviene desde un bajo nivel de detalle encontrado al nivel de detalle actual. Este nivel el data warehouse casi siempre se almacena en disco. Los puntos en los que se basa el diseñador para construirlo son: Que la unidad de tiempo se encuentre sobre la esquematización hecha. Qué contenidos (atributos) tendrá la data ligeramente resumida. Datos completamente resumidos. El siguiente nivel de datos encontrado en el data warehouse es el de los datos completamente resumidos. Estos datos son compactos y fácilmente accesibles por lo general son indicadores que son usados con más frecuencia para el análisis gerencial.

Metadata. El componente final del data warehouse es el de la metadata. De muchas maneras la metadata se sitúa en una dimensión diferente al de otros datos del data warehouse, debido a que su contenido no es tomado directamente desde el ambiente operacional. La metadata juega un rol especial y muy importante en el data warehouse y es usada como: Un directorio para ayudar al analista a ubicar los contenidos del data warehouse. Una guía para el mapping de datos de cómo se transforma, del ambiente operacional al de data warehouse. Una guía de los algoritmos usados para la esquematización entre el detalle de datos actual, con los datos ligeramente resumidos y éstos, con los datos completamente resumidos, etc. La metadata juega un papel mucho más importante en un ambiente data warehousing que en un operacional clásico. A fin de recordar los diferentes niveles de los datos encontrados en el data warehouse, considere el ejemplo mostrado en la Figura.

El detalle de ventas antiguas son las que se encuentran antes de 1992. Todos los detalles de ventas desde 1982 (o cuando el diseñador inició la colección de los archivos) son almacenados en el nivel de detalle de datos más antiguo. El detalle actual contiene información desde 1992 a 1993 (suponiendo que 1993 es el año actual). En general, el detalle de ventas no se ubica en el nivel de detalle actual hasta que haya pasado, por lo menos, veinticuatro horas desde que la información de ventas llegue a estar disponible en el ambiente operacional. En otras palabras, habría un retraso de tiempo de por lo menos veinticuatro horas, entre el tiempo en que en el ambiente operacional se haya hecho un nuevo ingreso de la venta y el momento cuando la información de la venta haya ingresado al data warehouse. El detalle de las ventas son resumidas semanalmente por línea de subproducto y por región, para producir un almacenamiento de datos ligeramente resumidos. El detalle de ventas semanal es adicionalmente resumido en forma mensual, según una gama de líneas, para producir los datos completamente resumidos. La metadata contiene (al menos): La estructura de los datos Los algoritmos usados para la esquematización El mapping desde el ambiente operacional al data warehouse La información adicional que no se esquematiza es almacenada en el data warehouse. En muchas ocasiones, allí se hará el análisis y se producirá un tipo u otro de resumen. El único tipo de esquematización que se almacena permanentemente en el data warehouse, es el de los datos que son usados frecuentemente. En otras palabras, si un analista produce un resumen que tiene una probabilidad muy baja de ser usado nuevamente, entonces la esquematización no es almacenada en el data warehouse.

6. Flujo de datos de un Data Warehouse El DW posee un flujo de datos estándar y generalizado, el cual puede apreciarse mejor en la siguiente figura. Cuando la información ingresa al depósito de datos se almacena a nivel de Detalle de datos actuales. Los datos permanecerán allí hasta que ocurra alguno de los tres eventos siguientes: Sean borrados del depósito de datos. Sean resumidos, ya sea a nivel de Datos ligeramente resumidos o a nivel de Datos altamente resumidos. Sean archivados a nivel de Detalle de datos históricos. 7. Redundancia de un Data Warehouse Debido a que el DW recibe información histórica de diferentes fuentes, sencillamente se podría suponer que existe una repetición de datos masiva entre el ambiente DW y el operacional. Por supuesto, este razonamiento es superficial y erróneo, de hecho, hay una mínima redundancia de datos entre ambos ambientes. Para entender claramente lo antes expuesto, se debe considerar lo siguiente:

Los datos del ambiente operacional se filtran antes de pertenecer al DW. Existen muchos datos que nunca ingresarán, ya que no conforman información necesaria o suficientemente relevante para la toma de decisiones. El horizonte de tiempo es muy diferente entre los dos ambientes. El almacén de datos contiene un resumen de la información que no se encuentra en el ambiente operacional. Los datos experimentan una considerable transformación, antes de ser cargados al DW. La mayor parte de los datos se alteran significativamente al ser seleccionados, consolidados y movidos al depósito. En vista de estos factores, se puede afirmar que, la redundancia encontrada al cotejar los datos de ambos ambientes es mínima, ya que generalmente resulta en un porcentaje menor del 1%. 8. Arquitectura de un Data Warehouse En este punto y teniendo en cuenta que ya se han detallado claramente las características generales del Data Warehousing, se definirán y describirán todos los componentes que intervienen en su arquitectura o ambiente. A través del siguiente gráfico se explicitará la estructura del Data Warehousing: Tal y como se puede apreciar, el ambiente está formado por diversos elementos que interactúan entre sí y que cumplen una función específica dentro del sistema.

Básicamente, la forma de operar del esquema superior se resume de la siguiente manera: Los datos son extraídos desde aplicaciones, bases de datos, archivos, etc. Esta información generalmente reside en diferentes tipos de sistemas, orígenes y arquitecturas y tienen formatos muy variados. Los datos son integrados, transformados y limpiados, para luego ser cargados en el DW. Principalmente, la información del DW se estructura en cubos multidimensionales, ya que estos preparan esta información para responder a consultas dinámicas con una buena performance. Pero también pueden utilizarse otros tipos de estructuras de datos para representar la información del DW, como por ejemplo Business Models. L@s usuari@s acceden a los cubos multidimensionales, Business Models (u otro tipo de estructura de datos) del DW utilizando diversas herramientas de consulta, exploración, análisis, reportes, etc. 9. Data Mart Un Datamart es una base de datos departamental, especializada en el almacenamiento de los datos de un área de negocio específica. Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento. Un datamart puede ser alimentado desde los datos de un datawarehouse, o integrar por si mismo un compendio de distintas fuentes de información.

Por tanto, para crear el datamart de un área funcional de la empresa es preciso encontrar la estructura óptima para el análisis de su información, estructura que puede estar montada sobre una base de datos OLTP, como el propio datawarehouse, o sobre una base de datos OLAP. La designación de una u otra dependerá de los datos, los requisitos y las características específicas de cada departamento. De esta forma se pueden plantear dos tipos de datamarts: Datamart OLAP. Se basan en los populares cubos OLAP, que se construyen agregando, según los requisitos de cada área o departamento, las dimensiones y los indicadores necesarios de cada cubo relacional. El modo de creación, explotación y mantenimiento de los cubos OLAP es muy heterogéneo, en función de la herramienta final que se utilice. Datamart OLTP. Pueden basarse en un simple extracto del datawarehouse, no obstante, lo común es introducir mejoras en su rendimiento (las agregaciones y los filtrados suelen ser las operaciones más usuales) aprovechando las características particulares de cada área de la empresa. Las estructuras más comunes en este sentido son las tablas report, que vienen a ser fact-tables reducidas (que a gregan las dimensiones oportunas), y las vistas materializadas, que se construyen con la misma estructura que las anteriores, pero con el objetivo de explotar la reescritura de queries (aunque sólo es posibles en algunos SGBD avanzados, como Oracle). Los datamarts que están dotados con estas estructuras óptimas de análisis presentan las siguientes ventajas: Poco volumen de datos Mayor rapidez de consulta Consultas SQL y/o MDX sencillas Validación directa de la información Facilidad para la historización de los datos De acuerdo a las operaciones que se deseen o requieran desarrollar, los datamarts pueden adoptar las siguientes arquitecturas: Top-Down: primero se define el data warehouse y luego se desarrollan, construyen y cargan los DM a partir del mismo. En la siguiente figura se encuentra detallada esta arquitectura:

Como se puede apreciar, el DW es cargado a través de procesos ETL y luego este alimenta a los diferentes DM, cada uno de los cuales recibirá los datos que correspondan al tema o departamento que traten. Esta forma de implementación cuenta con la ventaja de no tener que incurrir en complicadas sincronizaciones de hechos, pero requiere una gran inversión y una gran cantidad de tiempo de construcción. Bottom-Up: en esta arquitectura, se definen previamente los DM y luego se integran en un DW centralizado. La siguiente figura presenta esta implementación. Los DM se cargan a través de procesos ETL, los cuales suministrarán la información adecuada a cada uno de ellos. En muchas ocasiones, los DM son implementados sin que exista el DW, ya que tienen sus mismas características pero con la particularidad de que están enfocados en un tema específico. Luego de que hayan sido creados y cargados todos los DM, se procederá a su integración con el depósito. La ventaja que trae aparejada este modelo es que cada DM se crea y pone en funcionamiento en un corto lapso de tiempo y se puede tener una pequeña solución a un costo no tan elevado. Luego que todos los DM estén puestos en marcha, se puede decidir si

construir el DW o no. El mayor inconveniente está dado en tener que sincronizar los hechos al momento de la consolidación en el depósito. 10. Bases de datos OLAP vs OLTP OLAP - On-Line Analytical Processing. Los sistemas OLAP son bases de datos orientadas al procesamiento analítico. Este análisis suele implicar, generalmente, la lectura de grandes cantidades de datos para llegar a extraer algún tipo de información útil: tendencias de ventas, patrones de comportamiento de los consumidores, elaboración de informes complejos etc. Este sistema es típico de los datamarts. El acceso a los datos suele ser de sólo lectura. La acción más común es la consulta, con muy pocas inserciones, actualizaciones o eliminaciones. Los datos se estructuran según las áreas de negocio, y los formatos de los datos están integrados de manera uniforme en toda la organización. El historial de datos es a largo plazo, normalmente de dos a cinco años. Las bases de datos OLAP se suelen alimentar de información procedente de los sistemas operacionales existentes, mediante un proceso de extracción, transformación y carga (ETL). OLTP - On-Line Transactional Processing. Los sistemas OLTP son bases de datos orientadas al procesamiento de transacciones. Una transacción genera un proceso atómico (que debe ser validado con un commit, o invalidado con un rollback), y que puede involucrar operaciones de inserción, modificación y borrado de datos. El proceso transaccional es típico de las bases de datos operacionales. El acceso a los datos está optimizado para tareas frecuentes de lectura y escritura. (Por ejemplo, la enorme cantidad de transacciones que tienen que soportar las BD de bancos o hipermercados diariamente). Los datos se estructuran según el nivel aplicación (programa de gestión a medida, ERP o CRM implantado, sistema de información departamental...). Los formatos de los datos no son necesariamente uniformes en los diferentes departamentos (es común la falta de compatibilidad y la existencia de islas de datos).

El historial de datos suele limitarse a los datos actuales o recientes. Definición Objetivos Alineación de datos Integración de datos Historia Acceso y manipulación de datos Patrones de Uso Perfil de Usuario OLAP Procesamiento Analítico en Línea - Asistir en el análisis del negocio - Identificando tendencias, comparando periodos, - Gestiones, mercados, índices mediante el almacenamiento de datos. - Están alineados por dimensión - Los datos son organizados definiendo dimensiones del negocio. - Se focaliza en el cumplimiento de requerimientos del análisis del negocio. - Los datos deben ser integrados. - Son conocidos como datos derivados o DSS, dado que provienen de sistemas transaccionales y sistemas de archivos maestros. Almacenan tanta historia como sea necesario para el análisis del negocio, son guardados por 2 a 5 años, retienen valores para cada periodo en la Base de Datos. - Tienen una carga y acceso masivo de datos, la carga y refresco es batch (bulk copy). - La validación de datos se realiza antes o después de la carga, se realizan sentencias de Select sobre varios registros y tablas. - Patrón de uso liviano con picos de uso eventuales en el tiempo. - Los picos de uso suceden diario o semanal El perfil de usuario corresponde a la comunidad gerencial para la toma de decisiones. OLTP Procesamiento de Transacciones En Línea - Asistir a aplicaciones específicas. - Mantener integridad de los datos - Están alineados por aplicación. - Se focaliza en el cumplimiento de requerimientos de una aplicación especial o una tarea específica. - Los datos no están integrados. - Son calificados como datos primitivos, operacionales. - Son estructurados independientemente uno de otros. - Son almacenados en diferentes formatos de archivos. - Pueden residir en diferentes plataformas de hardware o RDBMS. Retienen datos para 60 o 90 días después son resguardados por administradores de B.D en almacenamientos secundarios. - Realizan manipulación de datos registro por registro con inserts, updates y deletes. - Necesitan rutinas de validación y transacciones a nivel de registro. - Patrón de uso constante - Requiere grandes cantidades de recursos consumiendo solo el tiempo referido a la transacción. El perfil de usuario corresponde a los que interactúan con dichos sistemas, puesto que es la comunidad operativa.

11. Fundamentos de Data Mining El datamining (minería de datos), es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto. Básicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales. De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación que surge entre la información y ese modelo represente un valor agregado, entonces nos referimos al conocimiento. Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior, el proceso común a todos ellos se suele componer de cuatro etapas principales:

Determinación de los objetivos. Trata de la delimitación de los objetivos que el cliente desea bajo la orientación del especialista en data mining. Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining. Determinación del modelo. Se comienza realizando unos análisis estadísticos de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Según los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial. Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones. Carga de trabajo en las fases de un proyecto de datamining En resumen, el datamining se presenta como una tecnología emergente, con varias ventajas: por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. Además, no hay duda de que trabajar con esta tecnología implica cuidar un sinnúmero de detalles debido a que el producto final involucra "toma de decisiones".