FUNDAMENTOS DE INTELIGENCIA DE NEGOCIOS Estructura de contenidos INTRODUCCIÓN... 3 1. INTELIGENCIA DE NEGOCIOS... 3 1.1. La implementación de un esquema de BI permite:... 4 1.2. Selección de Indicadores:... 5 1.3. Las 4 P de BI:... 6 2. MINERÍA DE DATOS (DATA MINING)... 6 3. BODEGA DE DATOS... 7 4. ARQUITECTURA DE UNA BASE DE DATOS EN INTELIGENCIA DE NEGOCIOS... 8 4.1. Nivel operacional... 8 4.2. Bodega de datos o DWH... 9 4.3. Nivel departamental (Data Marts)... 9 4.4. Nivel individual... 9 4.5. Cubos Multidimencionales OLAP... 10 4.5.1.... 10 4.5.2. Modelos utilizados para construcción... 11 5. ARQUITECTURA FUNCIONAL DE UN ALMACEN DE DATOS... 14
Mapa conceptual FUNDAMENTOS DE INTELIGENCIA DE NEGOCIOS 2
INTRODUCCIÓN La utilización de los datos en las organizaciones como elemento que facilita la toma de decisiones, involucra el conocimiento del funcionamiento actual y la anticipación de acontecimientos futuros. Alrededor de este tema hay toda una serie de estrategias y herramientas las cuales a partir del análisis de datos existentes, generan conocimiento que permite apoyar las decisiones empresariales. Este es el campo de acción de la Inteligencia de Negocios. La Inteligencia de Negocios se centra en el manejo de grandes volúmenes de información provenientes de las diferentes áreas de la empresa, a esta información se le aplican metodologías y herramientas para que sea posible analizar el entorno organizacional determinando fortalezas y debilidades para así establecer estrategias y el descubrimiento de nuevas oportunidades. 1. INTELIGENCIA DE NEGOCIOS. Inteligencia de negocios o BI (del inglés business intelligence) es el conjunto de estrategias y herramientas para la administración y creación de conocimiento mediante el análisis de la información de una organización para facilitar la toma de decisiones empresariales, predicciones y perfiles futuras. En 1958 Hans Peter Luhn habla por primera vez sobre inteligencia de negocios, entendida como la interrelación de hechos orientados al desarrollo de una meta. Anteriormente las empresas generaban datos y con mucho esfuerzo generaban conocimientos sobre estos, debido a que no contaban con recursos computacionales, dificultando el análisis de los datos por la carencia de herramientas que permitieran la toma de decisiones a largo plazo y las decisiones a corto plazo se toman por intuición. 3
La inteligencia de negocios permite la toma de decisión en los niveles estratégicos, tácticos u operativos, extrayendo datos para analizarlos, generar reportes y realizar análisis cruzados por medio del análisis multidimensional. Howard Dresner en 1985, puso el acrónimo de BI (Business Intelligence), como el conjunto de métodos, herramientas y procedimientos para la toma de decisiones, basados en hechos. En la actualidad BI, incluye una amplia gama de metodologías, aplicaciones y tecnologías, que permiten extraer de diversas fuentes, plataformas y estructuras para transformarlas y analizarlas: datos, transacciones e información son convertidas en conocimientos para soporte en la toma de decisiones. 1.1. La implementación de un esquema de BI permite: Información correcta en el momento adecuado, almacenada en un único lugar y disponible en tiempo real. Evaluación de distintos escenarios que permiten analizar situaciones que puedan afectar al negocio. La información va mas allá de los reportes, incluyendo indicadores que me permitan medir el desempeño del negocio. Permite agrupar información de diferentes áreas para establecer, modificar y ajustar políticas, procesos y procedimientos. Gran capacidad de reacción ante amenaza y vulnerabilidades del negocio, actuando o anticipándose a éstos. Capacidad de retroalimentación con respecto a hechos sucedidos para reevaluar políticas y objetivos del negocio. 4
Datos Retroalimentación Información Planes de acción Conocimiento Reglas 1.2. Selección de Indicadores: Para generar el concepto de BI es importante entender cuál es el flujo de información en la empresa y cuáles son los procesos involucrados en el requerimiento de información. Por eso es necesario preguntarse: Qué información se necesita? Para qué se quiere la información? A quien va dirigida la información? 5
1.3. Las 4 P de BI: PLAN: curso de acción conscientemente determinado POSICIÓN: un medio para ubicar a la organización (nicho, rentas, dominio) PATRÓN: es un modelo que implica consistencia PERSPECTIVA: una manera particular de percibir el mundo (concepto, cultura, ideología) 2. MINERÍA DE DATOS (DATA MINING) Es un proceso de descubrimiento y análisis de relación de patrones y tendencias en grandes volúmenes de datos para la generación de conocimiento. Entendimiento de la Idea Entendimiento de los Datos Preparación de los Datos Implementación Datos Modelamiento Evaluación 6
Los sistemas de base de datos dan soporte a los procesos básicos de la organización, una vez realizada esta labor la organización requiere información más allá de lo que ofrecen los reportes; de esta necesidad, surgen herramientas para la toma de decisiones (DSS Decision Support System), tales como: EIS, OLAP y otras herramientas de la minería de datos. Las Herramientas OLAP (On Line Analytical Processing) actúan sobre sistemas de información (transaccional o bodega de datos), permitiendo hacer agregaciones y combinaciones de datos complejos para realizar análisis estratégico, basados en sistemas o interfaces multidimensionales de forma matricial, permitiendo facilidades para manejar y transformar los datos que producen otros datos (metadatos). Las herramientas de minería de datos permiten extraer patrones, tendencias para predecir comportamientos futuros. 3. BODEGA DE DATOS. Un bodega de datos (Bodega de datos, DataWareHouse), es el sistema de información central de datos orientado al dominio, no volátil, integrado y variante en el tiempo, procedente de diversos sistemas de información que generan la materia prima a granel (SAP, CRM, ERP, OLTP). La información en el bodega de datos sirve para realizar minería de datos (Data mining), utilizando herramientas de procesamiento analítico en línea y análisis multidimensional (OLAP) y Sistemas para el apoyo en la toma de decisiones (DSS). Los almacenes de datos pueden estar conformados por centros de acopios intermedios o data marts que se especializan en un área de la organización y son sistemas orientados a la consulta. Una bodega de datos debe ser: Temático: Los datos se almacenan por su naturaleza (área, tema, dependencia, etc.) para facilitar su entendimiento por parte de los usuarios finales. Integrado: Todos las dependencias de la organización envían su 7
información en diferente nivel de detalle pero de forma tal que es altamente consistente. No volátil: La información es permanente, solo se realizan dos tipos de operaciones: Carga de los objetos (información) y su consulta. Histórico: Esta conformado por una serie de instantáneas de la situación de la organización para realizar una línea base para el análisis y la realización de perfiles, comportamientos y predicciones con respecto a la información almacenada. 4. ARQUITECTURA DE UNA BASE DE DATOS EN INTELIGENCIA DE NEGOCIOS 4.1. Nivel operacional Son los datos primitivos de los sistemas de información que son creados y actualizados transaccionalmente. Datos operacionales Almacén de datos Nivel departamental Aplicaciones de usuario DATA MART SGBD Nivel individual OLAP Carga de datos Transformadores de datos Minería de datos 8
4.2. Bodega de datos o DWH Almacenan los datos primitivos cargados en el DWH con un mediano o alto grado de resumen para generar datos derivados y apoyar la toma de decisiones. 4.3. Nivel departamental (Data Marts) Tienen datos primitivos con un mediano grado de resumen, procedentes de sistemas de información y fuentes de información. En los Data Marts: los usuarios son limitados (servidores dedicados), están asignados a un área específica del negocio, tienen un propósito, y una función de apoyo a la organización. 4.4. Nivel individual Contienen pocos datos y son generados mediante algoritmos Heurísticos, procesos estadísticos de la información de los almacenes de datos para la toma de decisiones (Regresiones, series temporales, análisis discriminantes, métodos bayesianos, algoritmos genéticos, arboles de decisión y redes neuronales en otros), realización de perfiles, comportamientos y predicciones. La diferencia entre la arquitectura de una bodega de datos y una base de datos OLTP estándar, es que en una estructura de bodega de datos las tablas están desnormalizadas entre variables y dimensiones. Un sistema OLTP debe dar una respuesta a cada pregunta con respeto al funcionamiento de la empresa. 9
4.5. Cubos Multidimencionales OLAP Iserra Bolsos Hello Manillas Zapatos Hello Balacas 3 2 01/09/2011 01/10/2011 01/11/2011 Éxito Carulla 1 Olímpica SAO 4 Clientes 8 Productos 5 6 7 Fechas 1. Cuántos pares de zapatos Hello se vendieron a almacenes Éxito? 2. Cuántos productos se vendieron en total a Iserra el 1 de octubre de 2011? 3. Cuántos pares de zapatos Hello se vendieron a Iserra el 1 de octubre de 2011? 4. Cuántos bolsos Hello se vendieron a Olímpica? 5. Cuántos bolsos Hello se vendieron en total el 1 de noviembre? 6. Cuántos zapatos Hello se vendieron en total? 7. Cuántos productos se vendieron en total? 8. Cuántos productos se vendieron en total el 1 de noviembre de 2011? Las herramientas especializadas como hojas de cálculos dinámicas, tablas dinámicas son utilizadas para consultar un cubo permitiendo al usuario realizar operaciones (cruces, filtrados, organización, totales), de forma más fácil. 4.5.1. Un cubo está conformado por dimensiones que son atributos relativos a las variables, son las perspectivas de análisis de las variables que forman parte de las dimensiones y son necesarias para la presentación de los datos a los usuarios para cada uno de los registros de la tabla de hechos. 10
4.5.2. Modelos utilizados para construcción * Esquema estrella (Star schema) TABLA DE HECHOS El Esquema de estrella es la arquitectura más simple en una bodega de datos, consiste en una tabla de Variables (Hechos) rodeada por para poder utilizarla con una herramienta de consultas OLAP. La llave primaria de una tabla de hechos es el conjunto de atributos primos que corresponden a las dimensiones. 11
* Esquema en copos de nieve (bola de nieve) TABLA DE HECHOS Las tablas de dimensiones representan las relaciones normalizadas (3NF) y forman parte de un modelo relacional de base de datos. El uso más común del esquema en bola de nieve es cuando las tablas de dimensiones son muy grandes o complejas y es dependiente de otra dimensión y no de la tabla de hecho como tal. 12
* Esquema de constelación de hechos (fact constellation schema) HECHOS A HECHOS B Un modelo tipo constelación se realiza cuando existe más de una tabla de hecho y estas pueden compartir sus dimensiones entre sí. 13
5. ARQUITECTURA FUNCIONAL DE UN ALMACEN DE DATOS INTELIGENCIA MINERÍA DE DATOS DATAWAREHOUSE CONOCIMIENTO CUBOS OLAP ROLAP MOLAP OLAP ROLAP MOLAP INFORMACIÓN OPERACIÓN CONSTRUCCIÓN CUBOS ODS LIMPIEZA OPERACIÓN HERRAMIENTAS ETL OLAP STAGING AREA DATOS REPOSITORIO DE DATOS OLTP OLTP Repositorio de Datos OLTP: Es el nivel inferior de la pirámide y corresponde a las bases de datos de la organización con estructura orientada a las transacciones. Aquí se encuentran todos los datos con los que se va a trabajar. Operaciones con Herramientas ETL OLAP: Aquí se encuentran las herramientas para la realización de operaciones ETL y a nivel funcional constituyen la STAGING AREA (área temporal de procesos) que corresponde a un área de almacenamiento que permite temporalmente la extracción, transformación, limpieza y mapeo de los datos a cargar en la bodega de datos 14
Operaciones de construcción de Cubos: Aquí se integran los datos del nivel OLTP y el nivel OLAP, a nivel funcional se denomina ODS (OPERATIONAL DATA STORE) o Almacén Operacional De Datos, el cual representa el contenedor de datos activos que ayudan al soporte de toma de decisiones y a la operación. Los cubos OLAP - ROLAP - MOLAP: Son cubos multidimensionales, y dependiendo del tipo de almacenamiento de datos se pueden clasificar en ROLAP si sus datos son almacenados en un motor relacional, o MOLAP en el caso en que se almacene en una base de datos multidimensional. Herramientas de Minería de Datos: Ayudan a extraer información a partir de patrones, la herramienta más común utilizada en la minería de datos es el proceso denominado Descubrimiento de Conocimiento en Bases de datos (KDD). 15
GLOSARIO DWH: (Data WareHouse). Bodega de Datos. Es un conjunto de datos integrados sobre los cuales se soportan procesos de toma de decisiones para grandes volúmenes de datos. ETL: (Extraction, Transformation and Load). Corresponde a los procesos de: Extracción: Aquí se identifican las fuentes y la información requerida por el almacén de datos (BD, archivos planos, aplicaciones no relacionales, etc.). Transformación: Una vez se selecciona la información a ser cargada al almacén, ésta se debe tratar para evitar que la migración no interrumpan su carga; por ejemplo: tipos de datos, formatos de fecha, caracteres especiales no visibles (cambios de línea, chr(10),chr(13)), caracteres de comillas sencillas y otros. Carga: Después de determinar las fuentes de información, las transformaciones y limpieza de la información extraída, se procede a determinar la fuente destino y el mapeo entre la estructura origen y la destino para realizar la carga de los datos extraídos KDD: (Knowledge Discovery from Databases). Descubrimiento de Conocimiento en Bases de Datos cuyo objetivo es encontrar conocimiento útil, válido, relevante y nuevo sobre una determinada actividad mediante algoritmos, para grandes volúmenes de datos. ODS: (OPERATIONAL DATA STORE) o Almacén Operacional De Datos 16
BIBLIOGRAFÍA Kimball, R., & Ross, M. (2002). The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (Second Edition ed.). (R. Elliott, Ed.) John Wiley and Sons, Inc. Pérez López, C., & Santín González, D. (2007). Minería de Datos, Técnicas y Herramientas. Madrid: Thomson Ediciones Paraninfo, S.A. Scheps, S. (2008). Business Intelligence For Dummies. Indianapolis: Wiley Publishing, Inc. 17
Control de documento Construcción Objeto de Aprendizaje Fundamentos de Inteligencia de Negocios Desarrollador de contenido Experto temático Asesor pedagógico Producción Multimedia Programador Líder expertos temáticos Líder línea de producción José Fernando Galindo Rafael Neftalí Lizcano Reyes Luis Fernando Botero Mendoza Victor Hugo Tabares Daniel Eduardo Martínez Ana Yaqueline Chavarro Parra Santiago Lozada Garcés 18