METODOLOGÍA PARA EL DESARROLLO DE UN SISTEMA DE INTELIGENCIA DE NEGOCIOS BASADA EN EL PROCESO UNIFICADO EDWAR JAVIER HERRERA OSORIO

Tamaño: px
Comenzar la demostración a partir de la página:

Download "METODOLOGÍA PARA EL DESARROLLO DE UN SISTEMA DE INTELIGENCIA DE NEGOCIOS BASADA EN EL PROCESO UNIFICADO EDWAR JAVIER HERRERA OSORIO"

Transcripción

1 METODOLOGÍA PARA EL DESARROLLO DE UN SISTEMA DE INTELIGENCIA DE NEGOCIOS BASADA EN EL PROCESO UNIFICADO EDWAR JAVIER HERRERA OSORIO Universidad Nacional de Colombia Facultad de ingeniería, Departamento de ingeniería de sistemas e industrial Bogotá, Colombia 2011

2

3 METODOLOGÍA PARA EL DESARROLLO DE UN SISTEMA DE INTELIGENCIA DE NEGOCIOS BASADA EN EL PROCESO UNIFICADO EDWAR JAVIER HERRERA OSORIO Tesis o trabajo de investigación presentada(o) como requisito parcial para optar al título de: Magíster en Ingeniería de sistemas y Computación Directora: Elizabeth León Guzmán Ph. D. en Ciencias de la Computación Línea de Investigación: Sistemas de información Grupo de Investigación: MIDAS: Grupo de Investigación en Minería de Datos Universidad Nacional de Colombia Facultad de ingeniería, Departamento de ingeniería de sistemas e industrial Bogotá, Colombia Año

4

5 Agradecimientos a Dios, a mi esposa y a mi familia en especial a mi madre y hermano. También a la Universidad Nacional de Colombia y a la Universidad Antonio Nariño por su apoyo para el desarrollo y exposición de esta metodología a nivel nacional e internacional. A la profesora Elizabeth León por su dedicación y motivación permanente para desarrollo de esta tesis.

6

7 Resumen y Abstract VII Resumen Todo sistema de inteligencia de negocios se compone por dos procesos [13], la integración (bodega de datos) y el análisis de los datos (OLAP o técnicas de minería de datos). En la integración de datos se desarrolla el modelo conceptual, lógico y físico de la bodega de datos. Estos se logran siguiendo varias metodologías [1, 5, 7, 44 y 45]. Una de estas es el proceso de ingeniería para la bodega de datos [24] (en inglés: Data Warehouse Engineering Process DWEP), la cual se basa en el proceso unificado de desarrollo de software, su objetivo es acometer el diseño de todas las fases y aspectos relevantes de la bodega de datos, incluyendo el análisis de las fuentes de datos, los procesos ETL y sus propios esquemas. Dado que la bodega de datos es un repositorio de datos históricos libre de errores, la idea es realizar su análisis. Esto permite proponer una metodología para el desarrollo de los sistemas de inteligencia de negocios denominada BIEP (en ingles Business Intelligence Engineering Process). Como parte del proceso de control y verificación de los resultados, se desarrolló un prototipo de software CASE basado en la metodología BIEP. Su entorno de desarrollo fue Eclipse Galileo 2010 por medio de perfiles UML y de sus paquetes de modelamiento: Eclipse Modeling Framework (EMF) y Graphical Modeling Framework (GMF), que permite diseñar de manera integrada la bodega y el análisis de datos. Para la validación de la metodología se llevó a cabo un caso de estudio en el préstamo de libros de la biblioteca central de la universidad Antonio Nariño. Palabras clave: Proceso unificado, Bodega de datos, Minería de datos, inteligencia de negocios, Proceso de ingeniería en inteligencia de negocios, perfiles UML.

8 VIII Título de la tesis o trabajo de investigación Abstract A business intelligence system is composed of two process [13], integration (data warehouse) and analysis of data (OLAP or data mining technique (DM)). In the data integration model is developed conceptual, logical and physical data warehouse. These are achieved by following various methodologies [1, 5, 7, 44 and 45]. One of these is data warehouse engineering process (DWEP) [24], which is based on the unified process for software development, its objective is to undertake the design of all phases and relevant aspects of the data warehouse, including analysis of the data sources, ETL processes and their own schemes. Since the data warehouse is a repository of historical data free of errors, the idea is to perform analysis. This allows us to propose a methodology development of business intelligence process engineering (BIEP). As part of process control and verification of the results, we developed a software prototype based on the methodology BIEP. This development environment was Eclipse Galileo 2010 through UML profiles and their modeling packages: Eclipse Modeling Framework (EMF) and Graphical Modeling Framework (GMF), which allows an integrated design the winery and the data analysis. In addition, implement the profile data warehouse conceptual scheme (DWCS) in the software "Visual Paradigm for UML 8.1 Enterprise Edition", validating that this can be used on tools that support MOF. To validate the methodology, development a case study in the loan books of the central library of the University Antonio Nariño. Keywords: unified process (UP), data warehouse (DW), data mining (DM), business intelligence (BI), Data Warehouse Engineering Process (DWEP), Business Intelligence Engineering Process (BIEP), UML profile.

9 Contenido IX Contenido Pág. Resumen... VII Lista de figuras... XII Lista de tablas... XV Introducción Capítulo 1 (Estado del Arte) Proceso de Inteligencia de Negocios Integración de fuentes de datos Análisis de datos Problemas en el proceso de inteligencia de negocios Lenguaje de Modelado Unificado U.M.L Metodologías para el modelamiento de bodegas de datos basada en el proceso unificado Fases de la metodología DWEP y UP Flujos de trabajo aplicados al proceso DWEP Impacto del DWEP Metodologías para el proceso de análisis de datos Metodología aplicada a OLAP Metodología para la aplicación en Minería de Datos Minería de datos sobre DW basada en UML Reglas de Asociación Clasificación Agrupamiento Análisis de Tiempo RESUMEN DEL CAPITULO Capítulo 2 (Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP)) Elementos de una metodología de inteligencia negocios Desarrollo de la metodología Fases y flujos de trabajo de BIEP Modelos de BIEP Diagramas de BIEP Perfiles de UML aplicados a la metodología BIEP Pasos para aplicar BIEP Perfiles de UML aplicados a BIEP... 40

10 X Título de la tesis o trabajo de investigación Perfil UML para la bodega de datos Perfil UML para el proceso ETL Perfil UML despliegue Perfil UML para el proceso de análisis, selección y transformación de datos Perfil UML de reglas de asociación Perfil UML de Clasificación Perfil UML para Agrupamiento Perfil UML de Serie de Tiempo Perfil UML de Caso de uso Perfil UML Cubo Dimensional Flujos de trabajo de BIEP Requerimientos Análisis Diseño Implementación Preparación, Modelado y evaluación Despliegue Pruebas Mantenimiento Revisión post-desarrollo VENTAJAS DE BIEP RESUMEN DEL CAPITULO Capítulo 3 (APLICACIÓN Y VALIDACIÓN DE LA METODOLOGÍA BIEP ) Prototipo de Software CASE BIEP Implementación de los Perfiles Generación del Modelo de Objetos Elementos básicos para aplicar diagramas de BIEP Caso de estudio: Biblioteca central de la universidad Antonio Nariño U.A.N Descripción de la Universidad Antonio Nariño y de la Biblioteca Flujos de trabajo Requerimiento Análisis Diseño Implementación Preparación, modelado, evaluación y despliegue Modelo OLAP Preparación de los datos para el proceso de minería de datos Regla de Asociación Clasificación Agrupamiento Pruebas Mantenimiento Implementación de BIEP en otras herramientas UML Resumen Capítulo Conclusiones y recomendaciones Conclusiones Recomendaciones

11 Contenido XI Anexo A: Casos de uso en formato extendido del caso de estudio A1. Casos de Uso A2. Documento visión Anexo B: Manual de usuario del prototipo de SW BIEP B.1 Proceso General B2. Diagrama de casos de uso B3. Diagrama: SCS Y SLS B4.Diagramas: SLOS y DWOS B5. Diagramas: SPS y DWSP B6. Diagramas: DWCS y DWLS B7.Diagrama DATA MAPING B8. Diagrama de análisis, selección y transformación de datos en el proceso de minería de datos B9. Diagrama de agrupamiento en el proceso de minería de datos B10. Diagrama de reglas de asociación en el proceso de minería de datos B11. Diagrama de clasificación en el proceso de minería de datos B12. Diagrama DWAS B13. Diagrama ETL B14. IMPLEMENTACION DEL PROTOTIPO DE SW BIEP B15. Perfil de técnica de minería de datos de reglas de asociación (MDRA) B16. Perfil de técnica de minería de datos de clasificación (MDCL) B17. Perfil de análisis, selección y transformación de datos para minería de datos (DMSEL) B18. Perfil de técnica de minería de datos de agrupamiento (DMCLUS) B19. Perfil para técnica OLAP (OLAPACT) B20. Perfil proceso ETL (ETLPROCESS) B21. Perfil secuencia en la bodega de datos (DWSS) B22. Perfil modelo conceptual y lógico de la bodega de datos (DWCS) B23. Perfil diseño del cubo dimensional (DATACUBE) B24. Perfil diseño físico de la bodega de datos (SPS_DWPS) B25. Perfil diseño de los casos de uso (DWEPCASEUSE) Bibliografía

12 Contenido XII Lista de figuras Pág. Figura 1-1: Crecimiento e inversiones en herramientas de BI... 8 Figura 1-2: Proceso de inteligencia de Negocios... 9 Figura 1-3: Proceso de inteligencia de Negocios Figura 1-4: Proceso descubrimiento de conocimiento en BD Figura 1-5: Diagrama de UML Figura 1-6: (a) Proceso Unificado y (b) DWEP Figura 1-7: Sistema OLAP Figura 1-8: Metodología para minería de datos a) CRISP-DM b)semma Figura 1-9: Modelos CWM para el proceso de Minería de Datos Figura 1-10: Modelos CWM para reglas de asociación Figura 1-11: Metamodelo CWM para reglas de Clasificación Figura 1-12: Metamodelo CWM para Agrupamiento Figura 1-13: Perfil UML serie de tiempo Figura 2-1: Elementos para el desarrollo de un sistema de inteligencia de negocios Figura 2-2: Fases y flujos de trabajo de la metodología propuesta (BIEP) Figura 2-3: Modelos (BIEP) Figura 2-4: Diagrama de actividades con los principales pasos de BIEP Figura 2-5: Perfil UML DW Figura 2-6: Perfil UML ETL Figura 2-7: Perfil UML despliegue Figura 2-8: Perfil UML proceso de análisis, selección y transformación de datos Figura 2-9: Perfil UML Regla de Asociación Figura 2-10: Perfil UML Clasificación Figura 2-11: Perfil UML agrupamiento Figura 2-12: Perfil UML análisis de serie temporales Figura 2-13: Perfil UML caso de usos

13 Contenido XIII Figura 2-14: Perfil UML cubo dimensional Figura 2-15: Diagramas de casos de Uso DWEP Figura 2-16: Diagramas Esquema conceptual de fuente Figura 2-17: Esquema conceptual de objetos en origen de datos Figura 2-18: Esquema Lógico de fuente de datos Figura 2-19: Esquema Lógico de comunicación de la fuente de datos Figura 2-20: Esquema físico de las fuentes de datos Figura 2-21: Niveles del esquema conceptual de la bodega de datos Figura 2-22: Esquema de mapeo nivel Figura Esquema de estados de máquina en la bodega de datos Figura 2-24: Esquema de actividades de la bodega de datos Figura 2-25: Esquema lógico de la bodega de datos Figura 2-26: Esquema lógico de objeto de la bodega de datos Figura 2-27: Esquema físico de la bodega de datos Figura 2-28: Proceso ETL Figura 2-29: Esquema de secuencia de la bodega de datos Figura 2-30: Diagrama de transporte de integración Figura 2-31: Diagrama de transporte de optimizado Figura 2-32: Diagrama del Cubo OLAP Figura 2-33: Esquema de paquetes de análisis, selección y transformación Figura Esquema de minería de datos con reglas de asociación Figura 2-35: Esquema de minería de datos con clasificación Figura 2-36: Esquema de minería de datos por agrupamiento Figura 2-37: Esquema de minería de datos por series de tiempo Figura 2-38: Esquema físico del cliente Figura 3-1: Modelo de objetos Figura 3-2: Modelo de Casos de Uso del préstamo de la biblioteca Figura 3-3: SCS del préstamo de la biblioteca Figura 3-4: SCOS del préstamo de la biblioteca Figura 3-5: SLS del préstamo de la biblioteca Figura 3-6: Esquema físico del servidor para el préstamo de la biblioteca Figura 3-7: Esquema conceptual de la bodega de datos del préstamo de la biblioteca 95 lustración 3-8: Diagrama de Mapeo del préstamo de la biblioteca... 96

14 XIV Título de la tesis o trabajo de investigación Figura 3-9: Esquema de secuencia de la bodega de datos para el préstamo de la biblioteca...98 Figura 3-10: DWSMS del préstamo de la biblioteca Figura 3-11: DWAS del préstamo de la biblioteca Figura 3-12: Esquema lógico de la DW para el préstamo de libro Figura 3-13: DWLOS del préstamo de la biblioteca Figura 3-14: Esquema físico de la bodega de datos Figura 3-15: Proceso ETL Figura 3-16: Servicio de integración de SQL SERVER 2005 aplicado a la biblioteca Figura 3-17: Servicio de análisis de SQL SERVER 2005 aplicado a la biblioteca Figura 3-18: Indicadores claves de gestión dados al proceso de préstamo de libros 104 Figura 3-19: Diseño de los reportes basada en cada KPI al proceso de préstamo de libros..104 Figura 3-20: Despliegue Reportes basada en cada KPI al proceso de préstamo de libros 105 Figura 3-21: Esquema de paquetes de análisis, selección y transformación aplicados al proceso de préstamo de libros Figura 3-22: DMRA del préstamo de la biblioteca Figura 3-23: DMCLS del préstamo de la biblioteca Figura 3-24: DMCLU del préstamo de la biblioteca Figura 3-25: Gráfico de codo Figura 3-26: Perfil UML para bodega de datos en Visual Paradigm Figura 3-27: Diagrama DWCS del caso de estudio de la biblioteca en Visual Paradigm

15 Contenido XV Lista de tablas Pág. Tabla 1-1: Modelos Multidimensionales Tabla 1-2: Diagramas empleados en DWEP Tabla 2-1: Diagramas empleados en BIEP Tabla 2-2: Estereotipos proceso ETL Tabla 2-3: Estereotipos de atributos para el análisis, selección transformación de datos 73 Tabla 2-4: Estereotipos de atributos reglas de asociación Tabla 2-5: Estereotipos de atributos clasificación Tabla 2-6: Estereotipos de atributos por agrupamiento Tabla 2-7: Formato de pruebas BIEP Tabla 3-1: Matriz de confución Tabla 3-2: Matriz de confusión por las salas Generales Tabla 3-3: Matriz de confusión por las salas Especializadas Tabla 3-4: Matriz de confusión por días de préstamo con árboles Tabla 3-5: Matriz de confusión Naive Bayes sala general y especializada Tabla 3-6: Matriz de confusión Naive Bayes por sala general Tabla 3-7: Matriz de confusión Naive Bayes por sala especializada Tabla 3-8: Matriz de confusión Naive Bayes por días prestados Tabla 3-9: Agrupamiento por medio del algoritmo K medoids Tabla 3-10: Cluster por medio de asociación de atributos Tabla 3-11: asos de pruebas biblioteca central uan...119

16

17 Introducción Un sistema de inteligencia de negocios se compone por dos elementos [28], la integración y el análisis de los datos. El análisis se puede dar por dos procedimientos diferentes, el primero, conformados por medio de consultas simples y reportes, caracterizados por informes predefinidos y análisis de información mediante técnicas procesamiento analítico en línea (en inglés: Online Analytical Processing OLAP) y, el segundo, mediante técnicas de minería de datos (en inglés: Data Mining) que permiten encontrar comportamientos en conjuntos de datos analizados, para realizar clasificaciones o predicciones, generar información para los EIS (Executive Information Systems), DSS (Decision Support Systems, Sistemas de ayuda a la toma de decisiones) ó BSC (cuadro de mandos integral). Los problemas más frecuente donde fallan los proyectos de inteligencia de negocios son: la recolección de requerimientos, el análisis y diseño [34], debido a que no se encuentra una metodología estándar para su desarrollo. Se ha realizado una metodología denominada proceso de ingeniería para la bodega de datos (DWEP) basada en el proceso unificado (UP) [24], la cual abarca los flujos de trabajo de requerimientos, análisis, diseño, pruebas, mantenimiento y revisiones posteriores al desarrollo, para la integración de datos. En el componente del proceso de minería de datos la comunidad europea ha propuesto el desarrollo del modelo Cross- Industry Standard Process for Data Mining CRISP-DM [11], el cual da un conjunto de fases, pero no se especifica los diagramas para su modelamiento. El objetivo principal de este trabajo de investigación es la construcción de una metodología para el desarrollo de sistemas de inteligencia de negocios basada en el proceso unificado, la cual se denominará: Proceso de Ingeniería a la Inteligencia de Negocios (en inglés: Business Intelligence Engineering Process BIEP).

18 2 Introducción BIEP será una metodología de diseño global que integra todas las fases de diseño en un sistema de inteligencia de negocios, inicia en el análisis de las fuentes de datos operacionales hasta la implementación, incluyendo la definición de los procesos ETL, los requisitos de usuario y el análisis de datos por medio de técnicas de minería de datos y OLAP. MOTIVACIÓN Dada la importancia de los sistemas de inteligencia de negocios, se han creado diversas soluciones a los problemas de recolección, análisis, diseño y construcción. En el proceso de integración de datos se han desarrollado diversos modelos [1, 5, 7, 20, 24, 44 y 45], que presentan un gran nivel de expresividad (estructural, dinámico y gráfico), sin embargo, en la gran mayoría no se realizan el análisis de datos [44]. La metodología DWEP [24 y 44] es uno de los trabajos que presentan la integración de datos por medio de proceso unificado, dando un estándar para el desarrollo de la bodega de datos y el análisis de datos por medio de OLAP. De otro lado, encontramos otros trabajos de investigación que han propuesto otras metodologías para el análisis de datos basadas en: OLAP [19 y 36], CRISP-DM [11 y 39] y SEMMA [37], no obstante, estás no toman en cuenta la integración de datos, dejando los sistemas de inteligencia de negocios fragmentados en diversas soluciones. Recientemente se desarrolló un trabajo doctoral titulado Un conjunto de perfiles de UML para el modelado conceptual de técnicas de minería de datos sobre almacenes de datos [47] que reúne el modelado conceptual de las siguientes técnicas de minería: clasificación, agrupamiento, reglas de asociación y series de tiempo. Dando una aproximación al desarrollo de un sistema de inteligencia de negocios. Considerando los anteriores problemas y consciente de la importancia de los sistemas de inteligencia de negocios, en el presente trabajo de investigación se definió: diseñar una metodología que abarque el desarrollo de los sistemas de inteligencia de negocios, comenzando con la integración de datos y termina con el análisis de datos por medio de OLAP y minería de datos basada en el proceso unificado de software.

19 Introducción 3 OBJETIVO GENERAL Y OBJETIVOS ESPECÍFICOS Objetivo General: Desarrollar una metodología para el desarrollo de un proceso de negocios basada en el proceso unificado. inteligencia de Objetivos específicos: Actualizar la metodología DWEP a la versión más reciente del UML. Crear y/o adaptar una metodología para el proceso de ingeniería en la aplicación de minería de datos y extender la de OLAP dada en el DWEP. Integrar la metodología del proceso de ingeniería para la bodega de datos, OLAP y minería de datos en un prototipo de software. Validar la metodología del proceso de ingeniería de inteligencia de negocios a un caso real. METODOLOGÍA La propuesta metodológica para el desarrollo de esta tesis esta soportada en la realización de cuatro etapas que serán ejecutadas en estricto orden. En la primera etapa se realizará la actualización del DWEP a la versión UML 2.1.1, la segunda etapa se creará y/o adaptará una metodología para el proceso de minería de datos (DMEP), en la tercera etapa se hará la unión de la DWEP y DMEP para generar la metodología del proceso de inteligencia de negocios (BIEP). Finalmente en la cuarta etapa se encuentra la validación de la metodología BIEP.

20 4 Introducción Etapa 1: Actualización de DWEP a versión UML 2.1.1: DWEP se basa en el proceso unificado y en UML versión 1.4. La versión UML 2.3 ha proporcionado una mayor cantidad de artefactos para un mejor modelamiento, los cuales resultan útiles para una mejor funcionalidad de DWEP. En esta etapa se hará una inspección al estándar UML versión 2.3 donde se planea la actualización de los diagramas de clases, casos de uso y de despliegue, y la utilización de los diagrama de estados, componentes, interactivos, acciones y composición de estructura. Etapa 2: Generación y/o adaptación de una metodología para el proceso de análisis minería de datos (DMEP) en versión UML 2.3: Dado que se ha planteado la metodología CRISP-DM [14-15] como un estándar para el proceso de minería de datos en esta etapa se planea la adaptación de esta metodología al proceso unificado, generando los artefactos necesarios basados en UML versión 2.3. Etapa 3: Integración de la metodología DWEP y DMEP: Para cumplir esta integración se debe realizar previamente la etapa 1 y 2, pues el resultado de cada una de ellas permitirá contar con la generación de la metodología DWEP y DMEP, las cuales deben cumplir las misma fases y flujos de trabajo, bajo el supuesto basado en el proceso unificado, con lo cual podrán integrarse en una única metodología basada en el proceso de inteligencia de negocios (BIEP). Etapa 4: Validación del BIEP: Una vez obtenida la metodología BIEP se pretende validar por medio de un caso de la vida real, para esta etapa, se realizará, tomando el préstamo de libros en la biblioteca central de la universidad Antonio Nariño. APORTES Se han obtenido avances parciales en desarrollo de esta tesis, los cuales fueron presentados en las siguientes conferencias: (i) DWEP with UML 2.1.1, Encuentro Nacional de investigadores de Postgrado ENIP 2009, Universidad Nacional de Colombia, Bogotá (Colombia), ISBN

21 Introducción 5 (ii) Data Warehouse Engineering Process (DWEP) with UML A Case Study: Central library of UAN, The 5th Conference of the Euro-American Association on Telematics and Information Systems EATIS Artículo invitado. Ciudad de Panamá (Panamá), ISBN ORGANIZACIÓN DEL DOCUMENTO El presente documento aborda de manera inicial en el capítulo I los antecedentes y conceptos básicos sobre los que se basaron las presentes investigaciones; de manera subsiguiente en el capítulo II se hablará sobre la metodología para el desarrollo de sistemas de inteligencia de negocios (BIEP) y finalmente en el capítulo III se demostrará la validación del de la metodología BIEP con un caso de estudio aplicado a la biblioteca central de la universidad Antonio Nariño.

22

23 1. Capítulo 1 (Estado del Arte) Este capítulo presenta el estado actual en el desarrollo de los sistemas de inteligencia de negocios. Se describe que es un sistema de inteligencia de negocios, su crecimiento desde 1993 al 2007, los componentes del sistema de inteligencia de negocios: integración de las fuentes y análisis de datos mediante técnicas OLAP y de minería de datos, y se revisan los principales problemas en la ejecución en el desarrollo de los sistemas de inteligencia de negocios. Se revisan las metodologías propuestas actualmente para cada unos de los componentes. Iniciando por el UML como lenguaje de unificado de modelamiento, un lenguaje gráfico para construir, documentar, visualizar y especificar un sistema de software. Luego se estudia la metodología para el desarrollo de la integración de las fuentes de datos basada en el proceso unificado DWEP. Se analizan sus fases, flujos de trabajo e impacto. Además se examinan las metodologías para OLAP y minería de datos basadas en el proceso unificado, las que se destacan una extensión del DWEP para los cubos dimensionales y los diagramas de técnicas de minería de datos basadas en el Common Warehouse Metamodel (CWM). Por último se presenta el resumen del capítulo. 1.1 Proceso de Inteligencia de Negocios El término inteligencia de negocios (en inglés Business Intelligence B.I.) según Howard Dresner, en el año de 1989, la definió como: un conjunto de conceptos y métodos para mejorar el proceso de decisión utilizando un sistema de soporte basado en hechos... 1 [13], Por ende describe un grupo de procesos orientados a la toma de decisiones más acertadas y estratégicas para el desarrollo de un negocio, partiendo para ello del análisis de la información que se produce al interior del ente económico. 1 DRESNER, Howard. Gartner Group, Howard Dresner Biography. {En línea}, {8 de marzo de 2009} disponible en: (http://www.gartner.com/ research/fellows/asset_79427_1175.jsp).

24 8 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) En este contexto, la inteligencia de negocios se define como el proceso de análisis de los bienes o datos acumulados en la empresa, con el fin de extraer cierta inteligencia o conocimiento de estos. Según Data Warehouse Institute, la inteligencia de negocios es la combinación de tecnología, herramientas y procesos que me permiten transformar mis datos almacenados en información, esta información en conocimiento y este conocimiento dirigido a un plan o una estrategia comercial. La inteligencia de negocios debe ser parte de la estrategia empresarial, esta le permite optimizar la utilización de recursos, monitorear el cumplimiento de los objetivos de la empresa y la capacidad de tomar buenas decisiones para así obtener mejores resultados... 2 [12]. Las herramientas de inteligencia de negocios crecen a una tasa anual del 11.5%, y gastos de inversión a más de 7 billones de dólares [26, 34]. En la figura 1-1, se observa el crecimiento e inversión en herramientas de inteligencia de negocios, lo que evidencia su potencialidad y el papel que está asumiendo en el desarrollo económico en las organizaciones, De allí la importancia de profundizar en su estudio ya sea desde la academia misma o directamente por los industriales. Figura 1-1: Crecimiento e inversiones en herramientas de BI Fuente Nigel Pendse: The dramatic consolidation in 2007 makes market shares much harder to calculate 3 2 Data Warehousing Institute. {En línea}, {8 de marzo de 2009} disponible en: (http://www.tdwi.org/. 2002). 3 PENDSE, Nigel, The dramatic consolidation in 2007 makes market shares much harder to calculate. {En línea}, {8 de marzo de 2009} disponible en: (http://www.olapreport.com/market.htm).

25 Capítulo 1 9 La implementación de un sistema de inteligencia de negocios requiere de dos (2) procesos: integración de fuentes de datos y análisis de datos [12, 23, 28 y 38]. En la figura 1-2, se pueden observar estos procesos y sus componentes. Figura 1-2: Proceso de inteligencia de Negocios Fuente. Ralph Kimball y Margy RossNigel Pendse. The Data Warehouse Toolkit Integración de fuentes de datos. Es el proceso donde se pretende realizar la combinación de las diferentes fuentes de datos de una organización por medio del proceso de extracción, transformación y carga (ETL) [23], cuyo resultado es una bodega de datos (en inglés: Data Warehouse DW). Cuando la bodega es específica de un departamento o dependencia de la organización, se denomina Data Mart [23]. Para Kimball [23], el proceso de integración de fuentes de datos es sinónimo a todos los componentes que conforman una bodega de datos. Bodegas de datos: Bill Inmon definió bodega de datos como: una colección de datos integrados orientados a temas, integrados, no-volátiles y variables en el tiempo, organizados para soportar necesidades empresariales 5 [21] y para Ralph Kimball:...una colección de datos en forma de una base de datos que guarda y ordena 4 KIMBALL, Ralf y ROSS, Margy. Kimball and M. Ross, The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling. Wiley, ISBN: Pag 7. 5 INMON, William Harvey, Building the data warehouse. Wiley, quinta edición, 2005., paginas 576. ISBN: Pag. 15

26 10 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) información que se extrae directamente de los sistemas operacionales (ventas, producción, finanzas, marketing, etc.) y de datos externos 6 [23]. La bodega de datos se puede interpretar como una base de datos que organiza y almacena una colección de información derivada directamente de los sistemas operacionales y de algunos datos externos [23]. Esta información se estructura siguiendo el paradigma multidimensional (MD) [23]: hechos y dimensiones. Un hecho representa medidas interesantes del proceso de negocio que se pretende analizar, mientras que las dimensiones representan un contexto para analizar dichas medidas. Modelos multidimensionales. En la actualidad, se han presentado varios modelos multidimensionales. Por su amplio uso se destaca los modelos: Kimball [23], Multidimensional/ER (Sapia) [5], Estrella/ER (Tryfona) [7], GOLD (Trujillo) [24, 44 y 45], Husemann [20] y YAM2 [1]. Los modelos multidimensionales de la bodega de datos [20] al igual que en el desarrollo de bases de datos [4], se estructura en una serie de pasos que incluyen los tres niveles: conceptual, lógico y físico. Nivel Conceptual: Se representa las interacciones entre las entidades y relaciones o por medio del lenguaje de definición de objetos (en inglés: Object Definition Language ODL). Este nivel está más cerca de los problemas del mundo real que a la solución, en este es donde el usuario representa sus ideas. Nivel Lógico: Es este nivel se utiliza el modelo relacional para el diseño de las tablas de hechos, dimensiones y su interacción, definición del proceso extracción, transformación y carga (E.T.L) y el proceso de mapeo entre la fuente de datos y la bodega de datos. 6 KIMBALL, Ralf y ROSS, Margy. Kimball and M. Ross, The Data Warehouse Toolkit: The complete Guide to Dimensional Modeling. Wiley, ISBN: pag. 28

27 Capítulo 1 11 Nivel Físico: En este modelo se escribe el código para la generación de las tablas de hechos, dimensiones, definición de las reglas de integridad y consultas Modelo Dimensional [23]. Para realizar una comparación de los modelos multidimensionales se tuvo en cuenta los siguientes niveles: (i) Nivel general: donde se revisa si el modelo es conceptual (C), lógico (L) y/o físico (F). (ii) Nivel estructura: donde se revisa el comportamiento detallado de las dimensiones y las tablas de hecho. (iii) Nivel dinámico: donde se revisa la facilidad de realizar de la generación de los requerimientos de usuario, operaciones OLAP y el modelado del sistema. Y (iv) Nivel de notación grafica: donde se aprecia si se implementación sobre herramientas comerciales. Como se observa en la tabla 1-1. Tabla 1-1: Modelos Multidimensionales Análisis de datos. Es el proceso que permite habilitar componentes, administrar consultas, monitorear procesos, cálculos, métricas, entre otros. Se realiza por medio de dos procesos

28 12 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) diferentes: (i) el primero, conformado por consultas simples y reportes, las cuales se caracterizan porque presentan informes predefinidos y análisis de información mediante técnicas OLAP (en inglés Online Analytical Processing) y, (ii) el segundo, mediante técnicas de minería de datos (DM en inglés Data Mining) que permiten encontrar comportamientos en conjuntos de datos analizados, para realizar clasificaciones o predicciones, o generar información para los EIS (Executive Information Systems), DSS (Decision Support Systems, Sistemas de ayuda a la toma de decisiones) ó el BSC (cuadro de mandos integral). Procesamiento analítico en línea OLAP Codd [9] 1993, definió: OLAP es un tipo de procesamiento de datos que se caracteriza, entre otras cosas, por permitir el análisis multidimensional de datos 7. Dicho análisis se basa en modelar la información en forma de medidas, hechos y dimensiones [2]. Las medidas son los valores de un dato en particular, las dimensiones son las descripciones de las características que definen dicho dato y los hechos son la definición de una o más medidas para una combinación particular de dimensiones [2 y 8]. El modelo se representa vectorialmente: los hechos se ubican lógicamente en una celda que queda en la intersección de ciertas coordenadas según el modelo de coordenadas (x, y, z,...), donde cada una de las coordenadas de la celda representa una dimensión. Esto es conocido como análisis multidimensional y para materializarlo en una base de datos, se usa la correspondencia entre los elementos del modelo (hechos y coordenadas) en la bodega de datos (tabla de hechos y las dimensiones). En la figura 1-3, se observa un cubo dimensional, donde las dimensiones se representan por medio de coordenadas. El cruce de las uniones de estas dimensiones simboliza los hechos y cada hechos está compuesto por medidas. Para poder realizar OLAP, se hace necesario realizar las siguientes funcionalidades: declaración de dimensiones y jerarquías, óptima indexación de los datos y definición de operaciones predefinidas de navegación en las dimensiones y de agrupación de medidas. 7 CODD, Edgar et al. Providing OLAP to user-analysts: An IT mandate. E.F. Codd and Associates, {En línea}, {8 de marzo de 2009} disponible en: (http://www.minet.uni-jena.de/dbis/lehre/ ss2005/sem_dwh/lit/cod93.pdf).

29 Capítulo 1 13 Las principales operaciones definidas en OLAP son: slice, dice, rotation, drill-down, drillup, roll-up, drill-across y drill-through[20]. Figura 1-3: Proceso de inteligencia de Negocios Minería de datos: La minería de datos (en Inglés: data mining DM) es un proceso que consigue conocimiento partiendo de un conjunto amplio de datos, a los cuales se le aplica métodos para obtener patrones o tendencia nuevas, generando nuevos conocimientos. DM reúne varias áreas: estadística, inteligencia artificial, computación gráfica, bases de datos, y el procesamiento masivo. Fayyad [16] definió minería de datos como: un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos 8. La Minería de Datos es un proceso completo de descubrimiento de conocimiento que involucra varios pasos [27]. En la figura 1-4, se observa las diferentes tareas: (i) Entendimiento del dominio de aplicación, el conocimiento relevante a utilizar y las metas del usuario. (ii) Selección de un conjunto de datos en donde realizar el proceso de descubrimiento. (iii) Limpieza y reprocesamiento y limpieza de los datos, diseñando una estrategia adecuada para manejar ruido, valores incompletos, valores fuera de rango y 8 FAYYAD, Usama, PIATESTSKY-SHAPIRO, Gregory, y SMYTH Padhraic, From Data Mining to Knowledge Discovery in Databases, American Association for Artificial Intelligence pag Pag. 38

30 14 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) valores inconsistentes. (iv) Selección de la tarea de descubrimiento a realizar: clasificación, agrupamiento, reglas de asociación, entre otras. Además la selección de algoritmos a aplicar. (v) Transformación de los datos al formato requerido por el algoritmo especifico de explotación de datos (vi) Encontrar patrones y modelos interesantes. (vii) Evaluación de los patrones descubiertos y presentación de los mismos mediante técnicas de visualización. (viii) Utilización del conocimiento descubierto, ya sea incorporándolo dentro de un sistema o simplemente para almacenarlo y reportarlo a las personas interesadas. Figura 1-4: Proceso descubrimiento de conocimiento en BD Fuente. Morales, Eduardo, Descubrimiento de Conocimiento en Bases de Datos Problemas en el proceso de inteligencia de negocios En diversos informes indican [25, 35] que entre el 40% y el 50% de los procesos de inteligencia de negocios fallan o son abandonados. Según lo observado por parte de Larry Poole [35] esta situación se presenta por: 9 MORALES, Eduardo, Descubrimiento de Conocimiento en Bases de Datos. {En línea}, {9 de junio de 2008} disponible en: (http://dns1.mor.itesm.mx/ ~emorales/cursos/kdd03/principal.html).

31 Capítulo 1 15 (i) Carencia de un líder que entienda el valor del proyecto y esté dispuesto a apoyarlo asignando los recursos apropiados y a enfocarse de modo que tenga éxito. (ii) Los requisitos son pobres ya que no se involucran a los usuarios en las discusiones para asegurar que se está planeando construir realmente algo que se necesita y que va a utilizar. (iii) Los diseños son pobres debido a que los requisitos son deficientes y el tiempo de modelado es limitado. (iv) Carencia del entrenamiento a usuarios finales para el uso adecuado de la solución para llevar a buen término la implantación del proyecto. (v) En las organizaciones se cree a menudo que con la solución inicial se termina el proyecto descuidando su mantenimiento o crecimiento, ya que ella puede involucrar más partes de la organización, y esto se puede hacer por medio de diversos data mart hasta generar una única bodega de datos [23]. (vi) Otro de los problemas escoger inadecuadamente la herramientas a utilizar, en el mercado hay un gran número de ellas y sus características y precios varían, lo que hace necesario realizar una adecuada valoración para saber escoger cuál se ajusta más en la implementación. Es importante entender las necesidades de usuarios y seleccionar la herramienta que faciliten el desarrollo de las aplicaciones previstas 10 [10]. (vii) Muchos proyectos arrancan pensando en una solución final pero sin saber la cantidad de tiempo y trabajo que requieran, o si su solución es compleja. 10 Custer consortiwn, 41% HAVE EXPERIENCED DATA WAREHOUSE PROJECT FAILURES. {En línea}, {8 de marzo de 2009} disponible en: (http://www.cutter.com/research/2003/ edge html)

32 16 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Después de la utilización de la solución por parte de los usuarios, puede ocurrir que la solución no cumple con sus objetivos y se deje de usar o puede cumplir las expectativas y querer que sus funcionalidades aumente. En ambos casos, se necesita de constante revisiones de los logros, realizando las modificaciones y mejoras necesarias de modo que todos sus usuarios quieran utilizarlo. 1.2 Lenguaje de Modelado Unificado U.M.L. UML es un lenguaje gráfico para construir, documentar, visualizar y especificar un sistema de software. En la actualidad la versión más reciente del UML es 2.3 [30] publicada en mayo de UML 2.3 está dividido en dos especificaciones: Secciónestructura y Superestructura. La especificación de la Secciónestructura define el lenguaje de construcciones básicas (core y profile), y se complementa con la superestructura, esta es la definición formal de los elementos del UML, es utilizada por los desarrolladores de aplicación. UML 2.3 posee dos grupos de diagramas: diagrama de estructura y diagramas de comportamiento. Diagramas de estructura: Muestran la estructura estática del sistema, sus partes de abstracción y los diferentes niveles de implementación, además la interrelación entre sí. Los elementos de un diagrama de la estructura representan los conceptos significativos de un sistema, y pueden incluir niveles de abstracción del mundo real y los conceptos de aplicación. Los diagramas propuestos son: Diagrama de clases, diagramas de objetos, diagramas de paquetes, diagramas de componentes, diagrama de estructuras compuestas, diagrama de perfiles y diagrama de despliegue. Diagramas de comportamiento: En estos diagramas se observa el comportamiento dinámico de los objetos en un sistema, que puede ser descrito como una serie de cambios en el sistema a lo largo de la línea de tiempo. Los diagramas propuestos son: Diagrama de casos de uso, diagrama de actividad, diagrama de estados de máquina, y diagramas de interacción.

33 Capítulo 1 17 En la figura 1-5 se observan todos los diagramas de estructura y de comportamiento aplicados al UML 2.3 Figura 1-5: Diagrama de UML Metodologías para el modelamiento de bodegas de datos basada en el proceso unificado. Lujan en su tesis doctoral [24] presenta un proceso de ingeniería para el desarrollo de bodegas de datos (en inglés: Data Warehouse Engineering Process DWEP). DWEP es una metodología que permite modelar todos los aspectos fundamentales en los modelos de datos (lógico conceptual y físico) de las DW. DWEP está basado en el proceso unificado (en inglés: Unified Process UP).

34 18 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) El proceso unificado [22] es un estándar aceptado en el ámbito científico e industrial para el desarrollo de software y sus principales características son: Es iterativo e incremental, Se basa en cuatro fases de desarrollo y cinco flujos de trabajo. Está basado en componentes. Utiliza el UML para expresar gráficamente todos los esquemas de un sistema software [3, 6 y 30]. Está dirigido por casos de uso, es centrado en la arquitectura. El DWEP mantiene las cuatro fases del proceso unificado (UP) [22, 24 y 44]: Inicio, elaboración, construcción y transición. En la figura 1-6, se presentan gráficamente la relación existente entre los flujos de trabajo y las fases tanto del UP y del DWEP. Figura 1-6: (a) Proceso Unificado y (b) DWEP

35 Capítulo 1 19 Fuente. Jacobson, Ivar; Booch, Grady; Rumbaugh, James. El proceso unificado de desarrollo de software. 11 / S. Lujan, Data WareHouse Desig with UML, PHD. Thesis Fases de la metodología DWEP y UP. Fase de inicio: El objetivo de esta fase es desarrollar el análisis del proyecto para justificar su puesta en marcha. Para lograrlo se realiza una descripción general del proyecto, una planeación basada en interacciones de las fases subsiguientes, en la que se detectan los riesgos críticos y se establece la funcionalidad básica del software con una descripción de la arquitectura propuesta. Fase de elaboración: Una vez finalizada la fase de inicio, se forma una arquitectura sólida para la construcción del software, para lo cual se establece la base lógica de la aplicación con los casos de uso definitivos y los artefactos del sistema que lo componen, mitigando el riesgo tecnológico de la exploración del lenguaje de programación en cuanto a interfaz de usuario se refiere. Para esto, se efectúa la primera iteración con un prototipo funcional para la realización de pruebas de software y la definición del modelo para la implementación de la interfaz de usuario. Fase de construcción: Se inicia a partir de la línea base de arquitectura que se especificó en la fase de elaboración, y su finalidad es desarrollar un producto listo para la operación inicial en el entorno del usuario final. Fase de transición: Una vez que el proyecto entra en la fase de transición, el sistema ha alcanzado la capacidad operativa inicial. En la fase de transición se busca implantar el producto en su entorno de operación. 11 JACOBSON, Ivan; BOOCH, Grady; RUMBAUGH, James. El proceso unificado de desarrollo de software., Addison Wesley. Madrid, ES p. Pag LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pag 37

36 20 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Flujos de trabajo aplicados al proceso DWEP En términos generales para el UP y el DWEP un flujo de trabajo es un conjunto de actividades realizadas en un área determinada cuyo resultado es la construcción de artefactos (un texto, un diagrama, una página Web, código en lenguaje de programación, etc.). En el caso de DWEP, como se ve en la tabla 1-2, se emplean 15 artefactos basados en los diagrama de casos de uso, diagrama de clases, diagrama de componentes, y diagrama de despliegue. Tabla 1-2: Diagramas empleados en DWEP Fuente.S. Lujan, Data WareHouse Desig with UML, PHD. Thesis 13 Requerimiento: Durante este flujo de trabajo, los usuarios finales especifican las medidas y agregaciones más interesantes, el análisis dimensional, consultas usadas para la generación de reportes periódicos y frecuencia de la actualización de los datos. El DWEP plantea la utilización del modelo de casos de uso. Análisis: El objetivo de este flujo de trabajo es mejorar la estructura y los requisitos obtenidos en la etapa de requerimientos. En esta etapa se documentan los sistemas operaciones preexistentes que alimentan la bodega de datos. DWEP propone el uso esquema conceptual de orígenes de datos (en inglés Source Conceptual Schema SCS), esquema lógico de orígenes de datos (en inglés Source Logical Schema SLS), y el esquema físico de orígenes de datos (en inglés Source Physical Schema SPS). 13 LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pag 35

37 Capítulo 1 21 Diseño: Al final de este flujo de trabajo, se define la estructura de la bodega de datos, esto es, su modelo conceptual. DWEP propone el uso de los diagramas Esquema conceptual de la bodega de datos (en inglés Data Warehouse Conceptual Schema DWCS), El esquema cliente conceptual (en inglés Client Conceptual Schema CCS), y el mapeo de datos (en inglés Data Mapping DM). El DM muestra la relación entre SCS y DWCS además entre DWCS y el CCS. Implementación: Durante este flujo de trabajo, la bodega de datos se construye: Se desarrolla su estructura física, empieza el proceso de recepción de datos por parte de los sistemas de operaciones, se afina para un funcionamiento optimizado, entre otras tareas. El DWEP utiliza los siguientes artefactos: El esquema lógico de la bodega de datos (en inglés Data Warehouse Logical Schema DWLS), el esquema físico de la bodega de datos (en inglés Data Warehouse Physical Schema DWPS), el esquema lógico del cliente (en inglés Client Logical Schema CLS), el esquema físico del cliente (en inglés Client Physical Schema CPS), y el proceso extracción, transformación y carga de datos (ETL). Pruebas: El objetivo de este trabajo es verificar que la aplicación funcione correctamente. Concretamente, los efectos de las pruebas son los siguientes: Planificar las pruebas necesarias, diseñar y aplicar las pruebas mediante la creación de casos de prueba y realizar las pruebas y analizar los resultados de cada prueba. Mantenimiento: A diferencia de la mayoría de los sistemas, la bodega de datos es un proceso que se retroalimenta constantemente. El objetivo de este flujo de trabajo es definir la actualización y carga de los procesos necesarios para mantener la bodega de datos. Este flujo de trabajo comienza cuando se construye la bodega de datos y es entregada a los usuarios finales, pero no tiene una fecha de finalización. Durante este trabajo, los usuarios finales pueden tener nuevas necesidades, lo que desencadena el comienzo de una nueva iteración con los requisitos de flujo de trabajo. Revisiones post desarrollo: Esto no es un flujo de trabajo de las actividades de desarrollo, sino un proceso de revisión para la mejora de proyectos a futuro. Si hacemos un seguimiento del tiempo y esfuerzo invertido en cada fase es útil en la estimación de tiempo y en las necesidades para generar desarrollos futuros.

38 22 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Impacto del DWEP. El DWEP se implementó como un mecanismo para resolver el siguiente problema: Se requiere construir un DW en el sistema de venta al por menor de una empresa. Se consideró una pequeña parte de la DW, donde el objetivo tabla de hechos debe contener sólo las ventas trimestrales de los productos pertenecientes a la categoría de equipo, mientras que el resto de los productos que se descartan [24]. Al aplicar esta metodología se encontraron las siguientes ventajas: Integridad del diseño de la bodega de datos, al abarcar una serie de modelos basados en los paquetes de UML. Trazabilidad del diseño de la bodega de datos, desde el modelo conceptual hasta el físico. El aprendizaje se simplifica gracias al empleo de un lenguaje de modelado estándar como es UML. Reducción de los costos de desarrollo, abordando en fases iníciales aspectos de la implementación que pueden incurrir en un aumento de los costos del proyecto de bodegas de datos si se modifican en fases posteriores. Diferentes niveles de abstracción, al proporcionar varios niveles de detalles sobre el mismo diagrama. Se puede analizar que las ventajas obtenidas de aplicar el DWEP subsanan algunas problemáticas en la construcción de la bodega de datos como las presentadas en la sección 2.1.3, en el proceso de integración de datos. 14 LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pag. 101.

39 Capítulo Metodologías para el proceso de análisis de datos. El proceso de análisis de datos se puede realizar por medio de procesos OLAP y/o minería de datos. En la actualidad la mayoría de organizaciones finalizan su proceso en OLAP debido al tiempo, consecución de expertos para el análisis de datos y los costos que generan el proceso de minería de datos Metodología aplicada a OLAP Los sistemas OLAP se divide en tres módulos operacionales [36]: interface gráfica de usuario (GUI), procesamiento lógico analítico y procesamiento lógico del dato. En la figura 1-7 se observa que bodega de datos es independiente al sistema OLAP. De lo anterior se colige que los sistemas OLAP son un modelo para el desarrollo de software que cumplen con las fases de análisis, diseño, construcción e implementación. Figura 1-7: Sistema OLAP Fuente. Coronel Crockett Rob, Database Systems, Cengage Learning EMEA ROB, Peter y CORONEL, Carlos, Database Systems: Design, Implementation and Management, Cengage Learning EMEA, Quinta edición, ISBN: x. Pag 18.

40 24 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) En la etapa de análisis se definen las necesidades del usuario para la generación de los diversos reportes basado en el cubo dimensional. En la etapa de diseño se realiza la transformación y consolidación de los datos para la generación del reporte. En la etapa de construcción se genera el código fuente del reporte por medio del lenguaje SQL o en su extensión (MDX). En la etapa de implementación; el programa se ejecuta en un ambiente de un servidor OLAP para la generación del reporte Metodología para la aplicación en Minería de Datos La minería de datos constituye un paso más en el análisis de los datos de la organización para apoyar la toma de decisiones. No se trata de una técnica que sustituya el análisis OLAP sino que lo complementa, permitiendo realizar estudios más avanzados de los datos y extraer más información de ellos. La metodología más utilizada en la minería de datos es la propuesta por la comunidad europea Cross-Industry Standard Process for Data Mining (CRISP-DM) [11 y 39], cuyo objetivo es fomentar la interoperabilidad de las herramientas utilizadas en el proceso de minería de datos para reducir sus costos, tiempo y aprendizaje. En la figura 1-8 a, se observa este proceso el cual se desarrolla en forma cíclica con retroalimentaciones en seis (6) fases: comprensión del negocio, comprensión de los datos, preparación de datos, modelamiento, evaluación y despliegue. Otra metodología que ha tenido gran aceptación en el proceso de minería de datos es SEMMA desarrollada por SAS Institute [37], siendo definida como el proceso de selección, exploración y modelado de grandes cantidades de datos para descubrir patrones de negocio desconocidos. En figura 1-8b se observa las cinco (5) fases de esta metodología: muestreo, exploración, modificación, modelización y estimación.

41 Capítulo 1 25 Figura 1-8: Metodología para minería de datos a) CRISP-DM b)semma Fuente. P. Chapman et al., CRISP-DM 1.0: Step-by-step data mining guide / SAS Enterprise Miner. 1.5 Minería de datos sobre DW basada en UML Zubcoff en el 2009 [47] en su tesis doctoral presenta cómo se pueden desarrollar perfiles de UML [17 y 18] al proceso de bodega de datos basado en el Common Warehouse Metamodel (CWM) [29]. La especificación del Common Warehouse Metamodel (CWM) [29] contiene las directivas necesarias para poder almacenar la meta-información de cualquier modelo multidimensional y OLAP mediante un formato estándar y fácilmente intercambiable. CWM fue concebido por la OMG como un estándar demasiado general que asegura un amplio consenso para su utilización por la comunidad científica e industrial. Por lo tanto todos los elementos representados adolecen algunas características básicas en el modelado multidimensional. Cualquier extensión del CWM se puede representar mediante el XMI Metadata Interchange (XMI) [32] para obtener finalmente documentos XML. Así, dichas extensiones nos permitirán asegurar la interoperabilidad con el resto de soluciones informáticas.

42 26 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) CWM [29] ofrece además un meta modelo para el proceso de minería de datos el cual brinda cinco meta modelos aplicados a las diversas técnicas de minería de datos: Reglas de asociación, agrupamiento, importancia del atributo, clasificación y aproximación, en la figura 1-9 observamos el core de minería de datos y las asociaciones con los paquetes de reglas de asociación, agrupamiento, clasificación, atributo importante y aproximación. Figura 1-9: Modelos CWM para el proceso de Minería de Datos. Fuente. Common Warehouse Metamodel (CWM) Specification, OMG, Reglas de Asociación Este paquete contiene el meta modelo que representa las construcciones para los conjuntos de ítems frecuentes, reglas de asociación y los algoritmos de secuencia. Este meta modelo se observa en la figura 1-10 la clase FrequentItemSetFunction-Settings donde se coloca el soporte mínimo y el tamaño máximo del conjunto, en la clase AssociationRulesFunctionsSetting se afina el modelo donde se puede ajustar la confianza mínima y la longitud máxima de la regla. La clase MiningFunctionSettings se especializa en el análisis de los datos. 16 Object Management Group (OMG). Common Warehouse Metamodel (CWM) Specification vertions 1.1. {En línea}, {5 de marzo de 2010} disponible en: (http://www.cwm.org).

43 Capítulo 1 27 Figura 1-10: Modelos CWM para reglas de asociación. Fuente. Common Warehouse Metamodel (CWM) Specification, OMG, Clasificación El CWM se ofrece un conjunto de estándares para este modelo, donde se representa la función de clasificación, modelos y configuraciones. En la figura 1-11 se puede ver una clase principal (ClassificationFunctionSettings) con un único atributo definido como costmatrix (matriz de coste) que permite almacenar los valores de significación y probabilidad para dicha matriz. CWM no define específicamente ningún otro atributo para modelar parámetros de minería con clasificación. La propuesta CWM está enfocada al modelado de los resultados de la tarea de clasificación dado que la matriz de costo hace referencia solo a resultados de clasificación. 17 Object Management Group (OMG). Common Warehouse Metamodel (CWM) Specification vertions 1.1. {En línea}, {5 de marzo de 2010} disponible en: (http://www.cwm.org).

44 28 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Figura 1-11: Metamodelo CWM para reglas de Clasificación Fuente. Common Warehouse Metamodel (CWM) Specification, OMG, Agrupamiento Respecto a las técnicas de agrupamiento, CWM propone un meta modelo con más nivel de detalle que en el resto de la norma técnicas. En la figura 1-12 se pueden observar las clases que definen los ajustes para realizar el agrupamiento el cual se basa de funciones de agregación y el atributo de agrupamiento. Figura 1-12: Metamodelo CWM para Agrupamiento 18 Object Management Group (OMG). Common Warehouse Metamodel (CWM) Specification vertions 1.1. {En línea}, {5 de marzo de 2010} disponible en: (http://www.cwm.org).

45 Capítulo 1 29 Fuente. Common Warehouse Metamodel (CWM) Specification, OMG, Análisis de Tiempo CWM no propone ninguna herramienta para modelar el análisis de series temporales específicamente. Zubcoff en el 2009 [47] propuso un modelo el cual incluye los siguientes parámetros para evaluarla: período, número de períodos, ventana bajo análisis, soporte mínimo, tratamiento de valores ausentes y restricción de valores. En la figura 1-13 el perfil UML aplicado a las series de tiempo. Figura 1-13: Perfil UML serie de tiempo Fuente. Zubcoff Vallejo, Un conjunto de perfiles de UML para el Modelado conceptual de técnicas de minería de datos sobre almacenes de datos, Ibid., 20 ZUBCOFF, José. Un conjunto de perfiles de UML para el Modelado conceptual de técnicas de minería de datos sobre almacenes de datos, 2009, páginas: 226. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos. Pag 126.

46 30 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) RESUMEN DEL CAPITULO En este capítulo se presentó el estado actual de los sistemas de inteligencia de negocios. Estos se componen de dos elementos: la integración de datos y el análisis de datos. En el componente de integración de datos se construye la bodega de datos o los data mart y para el análisis de datos se realizan por medio de técnica de minería de datos y OLAP. Se encuentran una cantidad de metodologías de para el diseño conceptual de la bodega de datos como son: modelo Multidimensional/ER (Sapia) [5], modelo Estrella/ER (Tryfona) [7], modelo GOLD (Trujillo) [45], modelo Husemann [20], modelo YAM2 [1] y DWEP [24 y 44]. De estas se destaca el DWEP ya que es una metodología basada en el proceso unificado y en lenguaje unificado de modelamiento (UML). DWEP aplica las cuatro (4) las fases del proceso unificado y siete (7) flujos del trabajo. Cada flujo de trabajo tiene un modelo de artefactos asociados (diagramas del UML). Por ende esta metodología ofrece quince (15) diagramas para el análisis, diseño, construcción, implementación, pruebas y análisis de post desarrollo de la bodega de datos. En el componente de análisis de datos por medio de OLAP se divide en tres módulos operacionales [36]: interface grafica de usuario (GUI), procesamiento lógico analítico y procesamiento lógico del dato. Por último en las técnicas de minería de datos se destacan: Cross-Industry Standard Process for Data Mining (CRISP-DM) [11 y 39], proceso de minería de datos es SEMMA desarrollada por SAS Institute [37] y por último encontramos una propuesta dada por el doctor Zubcoff en el 2009 [47] en donde se presenta como se pueden desarrollar perfiles de UML al proceso de bodega de datos basado en el Common Warehouse Metamodel (CWM).

47 2. Capítulo 2 (Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP)) En este capítulo se propone una metodología para el desarrollo de un sistema de inteligencia de negocios en el que confluya la integración y el análisis de datos. Esta metodología llamada proceso de ingeniería de inteligencia de negocios (en inglés: Business Intelligence Engineering Process - BIEP -) está compuesta por dos elementos: (i) fases y (ii) flujos de trabajo, transversales a los elementos que componen un sistema de inteligencia de negocios. BIEP se basa en el proceso unificado, en la metodología DWEP [24 y 44], en el diagrama de cubo dimensional [33] y en los diagramas propuestos de Zubcoff [47] sobre el proceso de descubrimiento (o extracción) de conocimiento en bases de datos (en inglés: Knowledge Discovery in Databases KDD)[16] en modelos multidimensionales y bodegas de datos El presente capítulo se aborda de manera inicial los elementos de una metodología de inteligencia de negocios ( Sección 2.1.); de manera subsiguiente se expondrá la metodología de inteligencia de negocios basada en el proceso unificado, la cual se componen por flujos de trabajo y fases, modelos, diagramas y perfiles de UML ( Sección 2.2.); luego se discutirá todos los perfiles UML asociados al BIEP ( Sección 2.3.); en seguida se presentarán los flujos de trabajo del BIEP ( Sección 2.4.); por último se efectuará un resumen del capítulo ( Sección 2.5.).

48 32 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) 2.1 Elementos de una metodología de inteligencia negocios. A través de la presente metodología se busca el desarrollo un sistema de inteligencia de negocios basada en el proceso unificado de software (UP) denominada: proceso de ingeniería de inteligencia de negocio (BIEP). Esta nueva metodología tiene un enfoque estructurado para el desarrollo de cada uno de los elementos de integración, análisis y despliegue de datos, cuyo propósito será facilitar la producción de sistemas de inteligencia de negocios, incluyendo: modelo del sistema, notaciones, reglas de sugerencia de diseño y guías de proceso. Estos elementos se presentan en la figura 2-1. Figura 2-1: negocios. Elementos para el desarrollo de un sistema de inteligencia de En el elemento de integración de los datos se desarrollan los modelos conceptual, lógico y físico de la bodega de datos. Para estos fines, BIEP toma como base la metodología de proceso de ingeniería para el desarrollo de bodegas de datos (en inglés: Data Warehouse Engineering Process DWEP) [24 y 44] la cual se basa en el proceso unificado (UP) [22], considerando que se trata de unos de los más modernos e importantes desarrollos en la materia.

49 Capítulo 2 33 El análisis de datos se realiza por medio de técnicas OLAP y/o de minería de datos (en inglés: data mining DM). Respecto a OLAP, en orden a modelar los cubos dimensionales, se utilizará una metodología extendida del DWEP, [33] basada en perfiles de UML. Para la técnica de minería de datos se adicionaron dos flujos de trabajo basados en la metodología CRISP-DM 1.0 [11 y 39] y se incorporan los diagramas conceptuales propuestos de Zubcoff [47]. El despliegue se basa en los diagramas CCS, CLS y CPS de DWEP, los cuales, también son perfiles de UML basados en los diagramas de clases y de despliegue. Es de advertir que este componente depende del entorno final de uso del sistema de inteligencia de negocios, razón por la cual, los diagramas están íntimamente vinculados con la herramienta de despliegue que se utilice en cada caso. 2.2 Desarrollo de la metodología Para el desarrollo de un sistema de inteligencia de negocios su metodología puede ser considerada una instancia del proceso unificado (UP), como la metodología DWEP es para la bodega de datos. Por esta razón, BIEP se basa en el proceso unificado, heredando de éste las siguientes características: se basa en casos de usos, su arquitectura es centralizada, y sus procesos son iterativos e incrementales. El proceso unificado (UP) [22] es un estándar en la industria en el procesos de ingeniería de software, el cual se componen de fases y flujos de trabajo. Cada flujo de trabajo referencia uno o varios modelos y cada modelo proviene de un diagrama UML. Este rasgo también será heredado por BIEP, contando con cuatro (4) fases, nueve (9) flujos de trabajo, diez (10) modelos y veintisiete (27) diagramas, los cuales se basan en nueve (9) perfiles de UML, como se explicará a continuación.

50 34 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Fases y flujos de trabajo de BIEP Las fases de BIEP parten del inicio del proceso de desarrollo del sistema de inteligencia de negocios y concluye con la transacción, esto es, la entrega de dicho sistema. A su vez, los flujos de trabajos buscan describir las actividades a desarrollar para alcanzar el citado desarrollo. En la figura 2-2, se presenta las fases y flujos de trabajo de la metodología BIEP. En la parte superior se observa las cuatros (4) fases y en la parte izquierda se observan los nueve (9) flujos de trabajo. Figura 2-2: Fases y flujos de trabajo de la metodología propuesta (BIEP) Se tiene, entonces, que BIEP sigue las mismas fases desarrolladas en el proceso unificado [28] y en DWEP [24 y 44], a saber: Fase de Inicio: se define cuáles serán los límites y alcances del proyecto de inteligencia de negocios y se desarrolla el caso del negocio. Su finalidad es la generación de una visión global del proyecto. Fase de elaboración: se pretende realizar el plan del proyecto, el rasgo específico y la línea base de arquitectura, cuya suma dará lugar a la arquitectura base. Fase de construcción: se desarrolla el proyecto y su meta es dar un producto inicial.

51 Capítulo 2 35 Fase de transición: busca implantar el proyecto en su entorno de operación con todos los usuarios y su propósito es entregar la versión final a los usuarios. BIEP contiene nueve (9) flujos de trabajo, cinco (5) provienen del proceso unificado: requerimiento, análisis, diseño, implementación y pruebas. Dos (2) del DWEP [23 y 44]: mantenimiento y revisiones post desarrollo. Adicionalmente, se proponen dos (2) nuevos flujos de trabajo basados en la metodología CRISP-DM: Preparación modelado y evaluación y despliegue. Cada uno de esto flujos de trabajo se estudiarán en la sección Modelos de BIEP BIEP aplica diez (10) modelos, cada uno basado en flujos de trabajo, los cuales son: Modelos de casos de uso: describe la funcionalidad propuesta del nuevo sistema de inteligencia de negocios. Un caso de uso representa una unidad discreta de interacción entre un usuario (humano o máquina) y el sistema, siendo una unidad de trabajo significativo. Modelo de análisis: consiste en una jerarquía de paquetes, que son abstracciones de subsistemas o capas de diseño. Los paquetes contienen clases del análisis de las fuentes de datos que poblarán las tablas en la bodega de datos y realizaciones de casos de uso. Modelo de diseño: describe como los casos de uso influyen en el sistema de inteligencia de negocios. Se realiza el modelo conceptual de la bodega de datos. Cada parte de la bodega representa una abstracción con una correspondencia en la implementación. Modelo de implementación: realiza los modelos lógicos y físicos de la bodega de datos y la organización de los componentes. Se compone de un sistema de implementación (constelaciones), el que a su vez consta de varios subsistemas

52 36 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) (estrellas o copos de nieve). Cada sistema o subsistema consta de tablas de hechos y dimensiones. Modelo OLAP: permite el análisis multidimensional de la bodega de datos y, a través de ellos, se revisan los requerimientos del usuario para la generación de los reportes que sean requeridos. Modelo de minería de datos: describe el análisis de los datos almacenados en la bodega. Para estos fines, a los datos se les aplica una selección y se transforman de acuerdo a las necesidades de las técnicas de minería de datos a aplicar. Modelo de despliegue: describe como se reparte la funcionalidad entre los nodos físicos. Los nodos pueden ser de dos clases: (i) procesadores o recursos de hardware, o (ii) de comunicación, cuya finalidad es permitir la relación entre los primeros y describir la configuración de la red (intranet, bus, entre otros). La funcionalidad de un nodo depende de los componentes que en él estén. Modelo de pruebas: específica cómo son las pruebas de integración y de sistema para los elementos desplegados. Pueden probarse también componentes como manuales de usuario o técnicos. Modelo de mantenimiento: define la periodicidad de actualización de la tabla de hecho y dimensiones de la bodega de datos. Así mismo, realiza el análisis de los informes obtenidos en el modelo OLAP y de minería de datos. Modelo de revisión post desarrollo: sirve para establecer la revisión del proyecto para implementaciones o ampliaciones del sistema de inteligencia de negocios. En la figura 2-3, se presenta los modelos de la metodología BIEP con respecto a las fases y flujos de trabajo. La ubicación de cada modelo indica la fase y el flujo de trabajo donde se desarrolla.

53 Capítulo 2 37 Figura 2-3: Modelos (BIEP) Fases / Flujos de trabajo Requerimientos Análisis Diseño Implementación Preparacion, modelado y evaluacion Despliegue Pruebas Manteniento Revisión post - Desarrollo Inicio Elaboración Construcción Transición Modelos de casos de uso Modelos de análisis Modelos de diseño Modelos OLAP Modelos de implementación Modelo de minería de datos Modelos de despliegue Modelos de prueba Modelos de mantenimiento Modelos post desarrollo Diagramas de BIEP Los modelos de BIEP son asociados a veintisiete (27) diagramas distribuidos de la siguiente forma: Integración: Doce (12) diagramas provenientes de la metodología de DWEP. Seis (6) nuevos diagramas generados por la última versión del UML 2.3. Análisis de datos: Un (1) diagrama para el modelamiento del cubo. Un (1) diagrama para la preparación, selección y transformación de datos del proceso de minería de datos. Cuatro (4) diagramas conceptuales para las técnicas de minería de datos: reglas de asociación, clasificación, agrupamiento y series de tiempo.

54 38 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Despliegue: Tres (3) diagramas de despliegue de datos provenientes de DWEP. Cada uno de estos diagramas se explican en detalle en la sección: Perfiles de UML aplicados a la metodología BIEP La semántica de UML 2.x viene descrita por su meta-modelo, que es expresado en MOF [42]. Para diseñar los diagramas de la metodología BIEP no se quiere modificar la semántica de UML, sino particularizar algunos de sus conceptos. De hecho, UML incluye un mecanismo de extensión en el propio lenguaje que permite definir lenguajes de modelado que son derivados de UML. De forma más precisa, el paquete de profile de UML 2.x define una serie de mecanismos para extender y adaptar las meta-clases de otro metamodelo a las necesidades concretas de dominio del proyecto. En la siguiente sección profundizamos sobre los perfiles que se desarrollan en BIEP Pasos para aplicar BIEP Los principales pasos de la metodología BIEP se pueden observar por medio un diagrama de actividades de UML 2.3. En la figura 2-4, se observa que el diagrama se ha dividido verticalmente en dos partes (swimlanes) de acuerdo a quién guía las actividades descritas: Usuarios finales del BIEP (los usuarios finales orientan el trabajo de los diseñadores y administradores del proceso de inteligencia de negocios).

55 Capítulo 2 39 Figura 2-4: Diagrama de actividades con los principales pasos de BIEP Usuarios Finales Diseñadores y administradores Definir los objetivos del Negocio Definir los objectivos de Minería de datos Determinar los requerimientos iniciales (Casos de Uso) Requerimiento Identificación de las fuente de datos(scs, SCOS ) Análisis Revisión del esquema lógico de las fuentes de datos (SLS y SLCS) Mapeo de datos Diseño conceptual de la bodega de datos (DWCS y DWOCS) Diseño secuencias de la bodega de datos (DWSS) Proceso ETL Diseño Diseño estado de maquinas de la bodega de datos (DWSMS) Diseño actividades de la bodega de datos (DWAS) Diseño logico de la bodega de datos (DWLS) Desarollo físico de la bodega de datos (DWPS) Implementación Generación reporte OLAP Análisis, selección y transformación de datos Técnica de Minería de datos (DMAR, DWCLS, DMCS, DMTSS) Preparado, modelado y evaluación Informes de despliegue conceptuales (CCS) Proceso de exportacion (Exporting) Diseño lógico del despliegue(cls) Despliegue Despliegue del informe (CPS)

56 40 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Diseñadores y administradores del BIEP (no necesitan de la participación de los usuarios finales, ya que disponen de toda la información necesaria para realizar su labor). Las actividades se han dividido en seis (6) grupos, considerando el flujo de trabajo del BIEP: requerimiento, análisis, diseño, implementación, modelado y despliegue. Cada actividad se explica en detalle la sección 3.4. Por último, las transiciones de cada grupo definen el orden secuencial de las actividades a considerar en el desarrollo de un sistema de inteligencia de negocios y también indican el empleo de información procedente de otra. 2.3 Perfiles de UML aplicados a BIEP Como se mencionó en la sección 3.2.4, los perfiles de UML nos ayudan a particularizar algunos de sus conceptos de acuerdo a las necesidades concretas del dominio del proyecto. Los diagramas de BIEP provienen de particularizar los diagramas de clases, despliegue, objetos, casos de uso, secuencia, comunicación y estados de máquinas de la versión del UML Perfil UML para la bodega de datos Este perfil sirve para el modelo conceptual y lógico de la bodega de datos. En la figura 2-5 se ve el modelo1 es importado de la metaclase paquetes y de él se extienden los elementos del diagrama estrella y copo de nieve. En el modelo2 es importado de la metaclase class y de él se extienden las dimensiones, las tablas de hechos y la base de todos los atributos de todas las tablas.

57 Capítulo 2 41 La metaclase Association es importado de la metaclase Association y en ella se extiende el estereotipo Rollup. El Property es importado de la metaclase Property y de él se extienden las propiedades de los atributos: medida, descriptor, estereotipo, elemento de una tabla de hechos o elemento de las dimensiones. Figura 2-5: Perfil UML DW

58 42 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Perfil UML para el proceso ETL Este perfil sirve al desarrollo del proceso de carga, extracción y transformación de datos entre la bodega de datos y las fuentes de datos. Este perfil, se realiza mediante metaclase ETLProcess la cual es importada de la metaclase Class y de éste se extienden los elementos del proceso ETL: carga, enlace (JOIN), datos incorrectos, filtros, conversiones, tablas de hecho, bases de datos, archivos, dimensiones, espacios temporales y envolturas. La figura 2-6 representa el mapeo al lenguaje UML de los elementos del proceso de extracción, transformación y carga desde las fuentes de datos hasta la bodega de datos. Figura 2-6: Perfil UML ETL

59 Capítulo Perfil UML despliegue Este perfil se utiliza para el despliegue físico de la bodega de datos y de las fuentes de datos, así como para el proceso de transporte de información entre ambos. Se realiza mediante la metaclase device la cual es importada de la metaclase device, a partir de ella, se extiende al estereotipo del tipo físico de equipo: servidor, cliente y discos duros. En el servidor encontramos los atributos de: sistema operativo, software, unidad central de procesamiento (CPU), memoria y en el tamaño de los discos duros. Además en el cliente de los datos del servidor se adiciona el navegador. Mediante la metaclase artifact la cual se importa de la metaclase artifact, de esta se extiende los estereotipos que posee un equipo como son sistema operativo, espacio de tabla y si es servidor de base de datos. En la figura 2-7, representa el mapeo al lenguaje UML de los elementos del dominio descritos en el despliegue para las bases de datos y bodegas de datos con todos sus elementos. Figura 2-7: Perfil UML despliegue

60 44 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Perfil UML para el proceso de análisis, selección y transformación de datos. Este perfil se utiliza para desarrollar todos los procesos de análisis, selección y transformación de atributos previos a realizar el modelo de minería de datos. Se realiza mediante la metaclase Property importado de la metaclase property, de la metaclase se extiende los siguientes elementos: análisis y exploración, selección y transformación de datos. Cada uno de estos elementos tiene un conjunto de estereotipos heredados para realizar su realiza su tarea así: El análisis y exploración de datos tienen: histogramas, dispersión y gráficos de bloques. En la selección se encuentran datos con: ruido, completos, incompleto e inconsistentes. En la transformación se encuentran: normalización (minmax, decimal, z-score) y reducción de datos (agrupamiento y discretización). En la figura 2-8 representa el mapeo al lenguaje UML de los elementos del proceso de análisis, selección y transformación de datos aplicado desde la bodega de datos hasta la técnica de minería de datos.

61 Capítulo 2 45 Figura 2-8: Perfil UML proceso de análisis, selección y transformación de datos Perfil UML de reglas de asociación Este perfil sirve para la generación del modelo de las reglas de asociación aplicado a la bodega de datos. Se realiza mediante la metaclase class importado de la metaclase class, de ella se extiende los siguientes elementos: Modelo de reglas de asociación, configuración del modelo y resultados del modelo. En el estereotipo de configuración reglas de asociación se debe considerar los parámetros que los ajustan. Los parámetros específicos que controlan el conjunto de ítems frecuentes son el soporte mínimo (MinSupport) y la confianza mínima (MinConf) que la regla debe satisfacer, el máximo número de registros del conjunto de datos (MaxItemSetSize - MISS) y el número máximo de predicados o el número máximo de apariciones de un atributo en el cuerpo de una regla (MaxNumberOfPredicates - MNOP).

62 46 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) La figura 2-9, muestra el mapeo de los elementos previamente descritos para reglas de asociación al lenguaje UML. Los atributos Caso, Entrada y Predicción son elementos que especifican el estereotipo llamada ModeloRA. Todos los parámetros utilizados para controlar el proceso de búsqueda de reglas de asociación especifican la clase configra de la Figura. Las reglas de asociación tienen un antecedente (cuerpo o parte izquierda de la regla) especificado como (cuerpo) y un consecuente (cabecera o parte derecha de la regla) especificado como (cabeza). El primero contiene el/los atributo/s de entrada, el segundo contiene el/los atributos de predicción observados en el conjunto agrupado de datos. Cada regla tiene un (soporte) y una (confianza). De esta manera definimos una clase que contiene los patrones que definen las reglas de asociación, esta clase definida como (ResultadosRA) contiene los cuatro atributos previamente mencionados. Figura 2-9: Perfil UML Regla de Asociación Perfil UML de Clasificación Este perfil se utiliza para la aplicación del modelo de clasificación aplicado a la bodega de datos. En las técnicas de clasificación el analista debe seleccionar los atributos que

63 Capítulo 2 47 formarán parte del análisis. Estos atributos pueden tener básicamente dos roles: de Entrada y de Predicción. El modelo multidimensional presenta de una manera cercana al analista todos los atributos disponibles, sus relaciones y su estructura jerárquica. Dado que el algoritmo usará cada elemento seleccionado como entrada como un candidato para fragmentar el atributo a predecir se debe tener en cuenta por ejemplo los atributos que estén correlacionados. Esto, en un modelo multidimensional es un proceso muy intuitivo dado que los atributos que estén dentro de una misma dimensión pero a distinto nivel jerárquico estarán correlacionados. El resultado será que estos atributos correlacionados estarán presentes en las primeras ramas del árbol de clasificación y pierde interés el patrón encontrado. Por tanto se debe evitar utilizar atributos de una misma dimensión como Entrada y como Predicción. La figura 2-10, representa el mapeo al lenguaje UML de los elementos del dominio descritos para minería de datos con clasificación. El proceso de poda del árbol es el que, en definitiva, da forma al árbol. Este proceso se lleva a cabo automáticamente ajustando algunos parámetros del algoritmo. Figura 2-10: Perfil UML Clasificación

64 48 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Perfil UML para Agrupamiento Este sirve para la aplicación del modelo de agrupamiento aplicado a la bodega de datos. Para el dominio específico de minería con agrupamiento, se han definido cuatro estereotipos: Agrupamiento (la generalización de los algoritmos de agrupamiento incluidos sus parámetros), Entrada (atributos de entrada de la técnica de minería que referencian datos multidimensionales), Caso (los atributos utilizados como caso) y el Atributo abstracto (atributos de minería de datos que hacen referencia a datos multidimensionales). Los atributos de entrada y caso son implementados en el perfil especializando el estereotipo Atributo y utilizando la definición etiquetada referencia para enlazar con los datos multidimensionales asociados. El algoritmo se ha definido por medio del estereotipo agrupamiento extendiendo la metaclase de UML InstanceSpecification y el estereotipo de la metaclase class configrationsetting que modela los parámetros de agrupamiento. En la figura 2-11 representa el mapeo al lenguaje UML de los elementos del dominio descritos para minería de datos con agrupación. Figura 2-11: Perfil UML agrupamiento

65 Capítulo Perfil UML de Serie de Tiempo Este perfil sirve para la aplicación del modelo de serie de tiempo aplicado a la bodega de datos. La Figura 2-12 define los estereotipos y las metaclases extendidas para el modelado multidimensional de un modo visual como cajas etiquetadas con estereotipo y metaclase, respectivamente. Los conceptos multidimensionales como hechos, dimensiones y jerarquías de agregación son traducidos a la metaclase de UML Class definiendo los estereotipos Fact, Dimension y Base. En este caso, la metaclase Class es el concepto más cercano para el modelado de estos elementos dado que especifica objetos como abstracciones estructurales de las entidades del dominio. Además, este perfil también permite representar datos multidimensionales como las medidas (estereotipo FactAttribute) o descripciones de los niveles de jerarquía, como son los atributos de dimensión (DimensionAttribute) o los identificadores de los objetos (OID). Estos elementos se traducen a la metaclase de UML Property que típicamente modela atributos de otras metaclases. Figura 2-12: Perfil UML análisis de serie temporales Fuente. José Jacobo Zubcoff Vallejo, Un conjunto de perfiles de UML para el Modelado conceptual de técnicas de minería de datos sobre almacenes de datos, 2009, Universidad de Alicante ZUBCOFF, José. Un conjunto de perfiles de UML para el Modelado conceptual de técnicas de minería de datos sobre almacenes de datos, 2009, páginas: 226. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos.

66 50 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Perfil UML de Caso de uso Este perfil se utiliza para la aplicación del proceso de requerimientos. La Figura 2-13 define los estereotipos y las metaclases extendidas para el proceso de requerimientos. Este perfil permite representar los actores que se involucran en el los sistemas de inteligencia de negocios: Usuarios finales y diseñadores y administradores. Figura 2-13: Perfil UML caso de usos Perfil UML Cubo Dimensional Este perfil se utiliza para la aplicación del proceso de la generación del cubo dimensional. La Figura 2-14, define la metaclase Action extendida de la clase Opaque Action y en los estereotipos se definen todas las operaciones que se realizan en el cubo: Slice, push, dice, pull, roll up, drill down, query, set, dril across y dril anyway.

67 Capítulo 2 51 Figura 2-14: Perfil UML cubo dimensional 2.4 Flujos de trabajo de BIEP Como se indicó en precedencia, BIEP tiene nueve (9) flujos de trabajos, los cuales utilizan veintisiete (27) diagramas para desarrollar el sistema de inteligencia de negocios. Para estos fines, la mayoría de los referidos flujos toman los perfiles explicados en la sección anterior para sus esquemas o diagramas. En la tabla 2-1, se observan todos los diagramas que componen la metodología BIEP, a saber:

68 52 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Tabla 2-1: Diagramas empleados en BIEP 22 Fuente (S) Integración Bodega de Datos(DW) Personalización M odelado Cliente (c) DWCS (Clases) DMASTS(Clases) SCS (Clases) DWSS (Secuencia) DMARS(Clases) DWSMS (Máquina de Conceptual SCOS (Objetos) DM (Clases) DM (Clases) DMTSS (Clases) CCS (Clases) estados) Lógico Físico SLS (Clases) SLCS (Comunicación) SPS (Comp & Despliegue) ETL (Clases) Transportation Diagram (Despliegue) DWLOS (Objectos) DWAS (Actividad) DWLS (Clases) Data Cube (Actividad) DWPS (Comp & Depliegue) Exporting (Clases) Transportation (Dspliegue) Process DMCLS(Clases) DMCLUS(Clases)) CWM Diagram DMX- JDM- SQL/MM CLS (Clases) CPS (Comp & Depliegue) Los esquemas que están en negrilla son adicionados al DWEP, con la finalidad de incorporarlo a la metodología BIEP: Esquema conceptual de objetos en origen de datos (en inglés: Source Conceptual Object Schema SCOS) Esquema de comunicación de la fuente de datos (en inglés: Source Logical Communications Schema SLCS). Esquema de secuencia de la bodega de datos (en inglés: Data Warehouse sequence Schema DWSS). Esquema de estados de máquinas de la bodega de datos (DWSMS). Esquema de actividad de la bodega de datos (DWAS). Esquema lógico de objetos de la bodega de datos (DWLOS). Esquema de cubo de datos (Data Cube). 22 En negrilla los diagramas adicionados al DWEP

69 Capítulo 2 53 Esquema de análisis, selección y transformación del proceso de minería de datos (DMASTS). Esquema de minería de datos con reglas de asociación. Esquema de minería de datos con clasificación (DMCS). Esquema de minería de datos por agrupación (DMCLS). Esquema de minería de datos por serie de tiempo (DMTSS). Los anteriores diagramas se aplican de acuerdo con el diagrama de actividades del BIEP (Figura 17) y nos ofrecen las siguientes ventajas: Mejor nivel de expresión en el modelamiento conceptual, lógico y físico del proceso de inteligencia de negocios. Permite capturar un comportamiento del sistema más grande. Cuenta con más elementos de expresión, en tanto proviene del MOF [31]. Hace más fácil la extensión Requerimientos El resultado final de este flujo de trabajo es conocer los requerimientos del proceso de Inteligencia de negocios. Para el efecto, los usuarios finales deben especificar las medidas más interesantes y agregaciones, las dimensiones de análisis, las consultas para generar informes periódicos, la frecuencia de actualización de los datos, entre otros factores.

70 54 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Para este flujo, BIEP, utiliza del modelo de casos de uso, el cual brinda una forma más rápida de obtenerlas siguientes actividades, como se indicó en la figura 2-4: Establecer los objetivos del negocio. Consiste en entender completamente lo que el cliente realmente quiere lograr, desde el punto de vista del negocio en función de las necesidades y expectativas. Dejar de hacer esta tarea significa hacer un gran esfuerzo para producir una respuesta correcta a preguntas equivocadas. Comprender el sistema de funciones existente. Definir los requisitos y las funciones deseadas para el sistema de inteligencia de negocios que se está creando. Definir en términos técnicos los objetivos del proyecto de minería de datos a partir de los objetivos del negocio. Consiste en convertir preguntas de negocio en objetivos de minería de datos especificando el tipo de problema de minería de datos. Una vez que se conoce el objetivo del negocio, la información que genera y los procesos involucrados, se selecciona las variables o datos que nos permitirán tomar las decisiones adecuadas. Se debe tener claro si los datos nos permitirán evaluar a la organización y tomar decisiones para mejorar la competitividad del negocio, la mayoría de las variables seleccionadas permiten evaluar la productividad, costos y desempeño de las operaciones internas del negocio. Las variables e indicadores seleccionados (Key Performace Indicator) deben permitir tomar decisiones a nivel operativo, a nivel gerencial y a nivel directivo. La frecuencia de obtención de los indicadores e información operativa es mucho mayor que la frecuencia de información de tipo gerencial o directiva. Para fines prácticos, en la figura 2-15, se observa el diagrama de casos de uso aplicado a un caso hipotético (Sales Manager), basado en el perfil de UML de casos de uso. En la parte izquierda se visualiza el diagrama de caso de uso, en la parte derecha se observa el formato de caso de uso extendido. Es de advertir que los requerimientos que permitieron llegar al diagrama están enunciados en el numeral del Capítulo 1. En el capítulo III se mostrará un caso de estudio con la aplicación de la metodología. Los

71 Capítulo 2 55 elementos para este diagrama son: el actor, el caso de uso y las relaciones entre ellos. Al final sale un caso de uso en formato extendido. Figura 2-15: Diagramas de casos de Uso DWEP Análisis El objetivo de este flujo de trabajo es el refinamiento y estructuración de los requerimientos dados en la etapa anterior. El refinamiento se logra siguiendo las líneas que deben tener los casos de uso obtenidos (independencia de entre los casos de uso, descripción por medio del lenguaje del cliente y la funcionalidad intuitiva) [22]. En el análisis se puede estructurar los requisitos de manera que facilite la compresión, preparación y modificación. En éste flujo de trabajo se realiza las siguientes tareas: Recopilación inicial de datos y revisión de las fuentes de datos. Descripción de los datos.

72 56 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Exploración de los datos. Verificación de calidad de datos. En esta etapa se documentan los sistemas de operaciones preexistentes que van a alimentan la bodega de datos. Para esto BIEP sugiere el uso de los siguientes diagramas: Esquema conceptual de origen de datos (en inglés: Source Conceptual Schema SCS): Este diagrama proviene del DWEP, utiliza el perfil UML para el modelo conceptual y lógico de la Bodega de datos, y su objetivo es conocer que datos están disponibles para alimentar la bodega de datos. Constituye una extensión del diagrama de clases y da una visión del modelo Entidad - Relación (E-R) del origen de fuentes de datos. Adicionalmente, en este esquema se observan las entidades como clases y las relaciones como asociaciones entre clases. En la figura 2-16, se observa la aplicación de este diagrama a un almacén, compuesto por cuatro (4) clases provenientes de cuatro (4) tablas, siguiendo las líneas con las cuales se construyó el ejemplo en la figura Figura 2-16: Diagramas Esquema conceptual de fuente Fuente.S. Lujan, Data WareHouse Desig with UML, PHD. Thesis LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pág. 102

73 Capítulo 2 57 Esquema conceptual de objetos en origen de datos (en inglés: Source Conceptual Object Schema SCOS): este diagrama está basado en el diagrama de objetos y es una instancia del esquema conceptual de orígenes de datos (SCS). Su función es facilitar la exploración de ejemplos del "mundo real" por medios de objetos y las relaciones entre ellos. Continuando con el ejemplo, en la figura 2-17, se observa una instancia aplicada al esquema conceptual de origen de datos, en la cual se visualizan dos órdenes de compra (001 y 002) provenientes del mismos consumidor, con los productos adquiridos. Figura 2-17: Esquema conceptual de objetos en origen de datos TV:Products Miami:Cities Sony:Customer 001:Orders Radio:Products Play Statio TV2:Products 002:Orders Radio2:Products Esquema Lógico de fuente de datos (en inglés: Source Logical Schema SLS): este diagrama proviene del DWEP, utiliza el perfil UML para el modelo conceptual y lógico de la bodega de datos, da una la estructura de la fuentes de datos con base del modelo relacional, en donde se representa las tablas y vistas como una clase y las relaciones como asociaciones.

74 58 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Siguiendo con el ejemplo del almacén, en la figura 2-18, se observa este esquema cada entidad se representa por medio de una clase y cada relación por medio de una asociación, la multiplicidad se especifica por medio de la asociación entre clases. Figura 2-18: Esquema Lógico de fuente de datos Fuente.S. Lujan, Data WareHouse Desig with UML, PHD. Thesis 24 Esquema de comunicación de la fuente de datos (en inglés: Source Logical Communications Schema SLCS): este diagrama es una extensión del diagrama de comunicaciones del UML. Se utiliza para explorar la naturaleza dinámica de la fuente de datos. Este diagrama da la visión del flujo de mensajes entre los objetos de la fuente de datos, y también implica a las asociaciones de base (relaciones) entre las tablas y vistas. Este diagrama nos brinda las siguientes características: Proporciona una visión panorámica de una colección de objetos de colaborar, en particular en un entorno de tiempo real. 24 LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pág. 44

75 Capítulo 2 59 En la asignación de tareas que se deben realizar en la fuente de datos mediante la exploración de los aspectos del comportamiento del sistema. Modelo de lógico de la fuente de datos, en particular una que interactúa con un gran número de otros objetos. Explorar el papel que los objetos toman dentro de un sistema, así como las distintas relaciones en las que participan. Frente al caso enunciado anteriormente, en la figura 2-19, observamos las actividades que realiza entre los diferentes objetos en las diversas tablas de las fuentes de datos. Figura 2-19: Esquema Lógico de comunicación de la fuente de datos 1.: Realizar compra Carlos Perez:Customers 001:Invoice 4: Compra Realizada 2.: Seleccionar Productos 3: Producto Disponible TV:Products Esquema físico de las fuentes de datos (en inglés: Source Physical Schema SPS): este diagrama proviene del DWEP. Utiliza el perfil UML despliegue, define la estructura física de las fuentes de datos que van a alimentan la bodega de datos. Siguiendo el supuesto fáctico, en la figura 2-20, se observa cómo se encuentra físicamente la base de datos transaccional de la fuente de datos en un almacén.

76 60 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Figura 2-20: Esquema físico de las fuentes de datos Fuente. S. Lujan, Data WareHouse Desig with UML, PHD. Thesis 25 Una vez realizado el análisis de las fuentes de datos, se procede a seleccionar las tablas candidatas con los respectivos campos que deben alimentar la bodega de datos, dando una visión clara para el logro del objetivo del proceso de inteligencia de negocios Diseño El objetivo principal de este flujo es el diseño conceptual de la bodega de datos además se realiza un primer proceso de selección, limpieza, construcción, integración y formateo de datos de los datos que se deben mapear entre la bodega de datos y la fuente de datos. Para lograr estas actividades BIEP sugiere en este flujo, los siguientes diagramas: Esquema conceptual de la bodega de datos (en inglés: Data Warehouse Conceptual Schema DWCS): este diagrama proviene del DWEP, utiliza el perfil UML 25 LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, Departamento de software y sistemas computacionales. Pág. 44

77 Capítulo 2 61 para el modelo conceptual y lógico de la bodega de datos, permite representar las principales propiedades multidimensionales a un nivel conceptual, como son las relaciones muchos-a-muchos entre hechos y dimensiones, las dimensiones degeneradas, las jerarquías múltiples y de camino alternativo, entre otras. Con el uso de los paquetes de UML se permite modelar bodegas de datos grandes y complejas. Además en este diagrama se especifica que tipo implementación que debe ser la bodega de datos (ROLAP, MOLAP, HOLAP). Figura 2-21: Niveles del esquema conceptual de la bodega de datos Fuente. S. Lujan, Data WareHouse Desig with UML, PHD. Thesis 26 Este diagrama propone el uso de tres niveles: Nivel 1: Definición del modelo: un paquete representa un esquema estrella de un modelo multidimensional. En este nivel, una dependencia entre dos paquetes indica que los esquemas estrella comparten al menos una dimensión y conforman una constelación. 26 LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pág. 102

78 62 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Nivel 2: Definición de un esquema estrella: Un paquete representa un hecho o una dimensión de un esquema estrella. En este nivel, una dependencia entre dos paquetes de dimensión indica que las dimensiones comparten al menos un nivel en sus correspondientes jerarquías. Nivel 3: Definición de un hecho o dimensión. Se compone de un conjunto de clases que representan los niveles jerárquicos en un paquete de dimensión o el esquema estrella completo en el caso de un paquete de hecho. Frente al caso enunciado en la sección en la figura 2-21, se observa los tres niveles del diagrama de diseño conceptual de la bodega de datos y su aplicación a un almacén. Esquema de mapeo de datos (en inglés: Data Mapping DM): este diagrama proviene del DWEP, utiliza el perfil UML para el proceso ETL. Este diagrama es adaptado para representar el flujo de datos, con varios niveles de detalle en la bodega de datos. Para capturar las interconexiones entre los distintos elementos de diseño, en términos de los datos, empleamos la noción de mapeo. Un mapeo se define mediante tres elementos lógicos: El proveedor: una entidad (esquema, tabla o atributo) responsable de generar los datos que posteriormente se propagan. El consumidor: que recibe los datos del proveedor. El emparejamiento: que define la forma en la cual el mapeo se realiza, incluyendo cualquier tipo de transformación o filtrado. Siguiendo con el ejemplo del almacén, en la figura 2-22, se observa el mapeo nivel 3, entre la tabla de la fuente de datos y el espacio intermedio de la bodega de datos.

79 Capítulo 2 63 Figura 2-22: Esquema de mapeo nivel 3 Fuente. S. Lujan, Data WareHouse Desig with UML, PHD. Thesis 27 Este diagrama propone el uso de cuatro niveles: Nivel de base de datos (o Nivel 0). En este nivel, cada esquema de la bodega de datos se representa mediante un paquete. Los mapeos entre los diferentes esquemas se modelan en un único paquete de mapeo, que encapsula todos los detalles. Nivel de flujo de datos (o Nivel 1). Este nivel describe las relaciones de datos a nivel individual entre las fuentes de datos hacia los respectivos destinos de la bodega de datos mediante un único paquete. Nivel de tabla (o Nivel 2). Este nivel describe las relaciones de datos en el nivel de tablas tanto de la fuente de datos, espacio temporal y la bodega de datos, se detalla todas las transformaciones intermedias que tienen lugar durante ese flujo. 27 LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, Departamento de software y sistemas computacionales. Pág. 108

80 64 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Nivel de atributo (o Nivel 3). En este nivel, el diagrama de mapeo de datos captura los mapeos existentes a nivel de atributo. Esquema de estados de máquina en la bodega de datos (en inglés: Data Warehouse State Machine Schema DWMSS), es basado del diagrama de estados de máquina, representan al comportamiento dinámico de una entidad en base a su respuesta a los acontecimientos, mostrando cómo la entidad reacciona ante los eventos diversos en función de su estado actual. De acuerdo con el ejemplo de la sección 1.3.3, en la figura 2-23, se presenta los estados para hacer el proceso de mapeo del espacio temporal con la tabla proveedor, pasando por el espacio temporal de la bodega de datos. Figura Esquema de estados de máquina en la bodega de datos ExtraerDatos do / Conectarse a la BD1 do / Conectarse a la BD2 do / Conectarse a los archivos do / Extraer datos de acuerdos a criterios TranformarDatos do / Agregacion do / Mezclas do / Join do / filtros do / errores do / Subrogar CargarDatos do / RevisarDatoTDW do / Insertar do / Actualizar do / Borrar Esquema de actividades de la bodega de datos (en inglés: Data Warehouse Activity Schema DWAS) [41] Es basado en el diagrama de actividades, este diagrama es el equivalente de diagramas de flujo de datos en el desarrollo estructurado de la bodega de datos. Siguiendo con el ejemplo, en la figura 2-24, se ve las actividades que se deben realizar en el efecto de las promociones en las ventas.

81 Capítulo 2 65 Figura 2-24: Esquema de actividades de la bodega de datos Fuente. Veronika Stefanov, Beate List, Birgit Korherr. Extending UML 2 Activity Diagrams with Business Intelligence Objects Implementación Durante este flujo de trabajo, la bodega de datos se construye: La estructura física de la bodega de datos se construyen, empiezan a recibir datos de los sistemas operaciones, se afina para un funcionamiento optimizado, entre otras tareas. Para cumplir estas tareas, BIEP utiliza los siguientes artefactos: Esquema lógico de la bodega de datos (en inglés: Data Warehouse Logical Schema DWLS): este diagrama proviene del DWEP, utiliza el perfil UML para el modelo conceptual y lógico de la bodega de datos. Este describe los tipos de datos físicos a diseñar en la bodega de datos tanto en las tablas de hecho como en las dimensiones. Siguiendo el supuesto fáctico, en la figura 2-25, se observa el diagrama lógico de la bodega de datos de ventas además se puede expresar las operaciones y de arquitectura ROLAP. 28 STEFANOV, Veronika, LIST Beate y KORHERR List, Extending UML 2 Activity Diagrams withc Business Intelligence Objects. {En línea}, {5 mayo de 2008} disponible en: (www.wit.at/people/korherr/publications/dawak2005.pdf). Pág. 9

82 66 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Figura 2-25: Esquema lógico de la bodega de datos Fuente. S. Lujan, Data WareHouse Desig with UML, PHD. Thesis 29 Esquema lógico de objetos la bodega de datos (en inglés: Data Warehouse Logical Object Schema DWLOS), basado en el diagrama de objetos, Este diagrama es una instancia del DWLS, el cual facilita la exploración de ejemplos del "mundo real" por medios de objetos y las relaciones entre ellos. De acuerdo con el ejemplo anterior, en la figura 2-26, se observa una instancia aplicada a la bodega de datos del almacén. Figura 2-26: Esquema lógico de objeto de la bodega de datos Jorge:SalesPerson 1:AutoSale :Time IBC:Customers 29 LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pág.165

83 Capítulo 2 67 Esquema físico de la bodega de datos (en inglés: Data Warehouse Physical Schema DWPS), este diagrama proviene del DWEP, utiliza el perfil UML despliegue. Define la estructura física de la bodega de datos. Siguiendo el supuesto fáctico de la sección 1.3.3, en la figura 2-27, se observa el despliegue de la bodega de datos de ventas. Figura 2-27: Esquema físico de la bodega de datos Fuente.S. Lujan, Data WareHouse Desig with UML, PHD. Thesis 30 Proceso de ETL (en inglés: ETL Process), este diagrama proviene del DWEP, utiliza el perfil UML para el proceso ETL. Este proporciona los mecanismos necesarios para especificar las operaciones típicas de los procesos ETL de acuerdo a la tabla 2-2. Un proceso ETL se define combinando los distintos mecanismos. De acuerdo del ejemplo del almacén, en la figura 2-28, se observa el proceso ETL de entre la fuente de datos y las tablas de la bodega de datos (dimensiones y tabla de hecho). 30 LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pág.170.

84 68 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Tabla 2-2: Estereotipos proceso ETL Estereotipos aplicados al proceso ETL Filtro Datos Incorrectos Join Log Mezcla Llave Subrogada Conversión Agregación Envoltura Carga Espacio Temporal Base de datos Archivo Tabla de Hecho Dimensión Figura 2-28: Proceso ETL Fuente. S. Lujan, Data WareHouse Desig with UML, PHD. Thesis LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pág.140.

85 Capítulo 2 69 Esquema de secuencia de la bodega de datos (en inglés: Data Warehouse sequence Schema DWSS): se basa en el diagrama de secuencias, permite validar y dar contenido a la lógica y la integridad de un escenario de uso. Además Explorar su diseño debido a que proporcionan un camino para que den un paso visualmente a través de la invocación de las operaciones definidas en la bodega de datos. Nos permite modelar en el tiempo los diversos procesos de la bodega de datos. Siguiendo de acuerdo con el ejemplo, en la figura 2-29, podemos observar el diagrama de secuencia del administrador del sistema con la carga de la fuente de datos de la tabla proveedor a la dimensión de proveedor de la bodega de datos, pasando por el espacio temporal de almacenamiento. Este diagrama es nuevo para el DWEP. Figura 2-29: Esquema de secuencia de la bodega de datos Diagramas de transporte de integración (en inglés: Integration Transportation Diagrams ITD), este diagrama proviene del DWEP. Se basa de los perfiles UML para el proceso ETL y el despliegue. Define la estructura física de los procesos ETL empleados en la carga de datos en la bodega de datos desde las fuentes de origen de datos. Se emplea para establecer la relación entre el diagrama anterior y el siguiente. De acuerdo con el ejemplo anterior, en la figura 2-30, se observa el diagrama de transporte de integración desde las fuentes de datos al servidor que realiza el proceso ETL.

86 70 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Figura 2-30: Diagrama de transporte de integración Fuente. S. Lujan, Data WareHouse Desig with UML, PHD. Thesis 32 Diagrama de transporte de optimizado (en inglés: Customization Transportation Diagram CTD): proviene del DWEP, se basa de los perfiles UML para el proceso ETL y el despliegue. Define los procesos de exportación físicos desde el almacén de datos hacia las estructuras empleadas por los clientes. Se emplea para establecer la relación entre el diagrama anterior y el siguiente. Siguiendo el supuesto fáctico, en la figura 44, se muestra el diagrama de transporte personalizado, en este se da la salida desde la bodega de datos a los clientes. Figura 2-31: Diagrama de transporte de optimizado Fuente. S. Lujan, Data WareHouse Desig with UML, PHD. Thesis LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pág Ibíd., Pág. 170.

87 Capítulo Preparación, Modelado y evaluación En este flujo se retroalimenta de la bodega de datos y se da el inicio a la generación de una técnica de análisis de datos por medio de técnicas OLAP o técnicas de minería de datos. Para logara estas tareas, BIEP recomienda para el análisis por medio de técnicas OLAP el siguiente diagrama: Diagrama de cubo dimensional (en inglés: Data cube diagrams DCD) [33] está basado del en el diagrama de actividades, este permite desarrollar todas las operaciones que se realizan en el cubo dimensional aplicando los indicadores encontrados en el flujo de trabajo de requerimientos. Frente al caso enunciado con anterioridad, en la figura 2-32, se ve las actividades que se deben realizar en el almacén para realizar las operaciones en el cubo como son drill, unión y roll up. Figura 2-32: Diagrama del Cubo OLAP Fuente. J Pardillo, Mo Golfarelli, S Rizzi y J Trujillo, Visial Modelling of data warehosing flows with UML Profile 34 Para el proceso de minería de datos la metodología BIEP recomienda los siguientes diagramas: 34 PARDILLO, Jesús, GOLFARELLI, Matteo, RIZZI, Stefano y TRUJILLO, Juan, Visual Modelling of data warehosing flows with UML Profile. Pág. 3

88 72 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Diagrama de minería de datos para el análisis, selección transformación de datos (en inglés: Data Mining Analysis, selection, Transform schema DMASTS): utiliza el perfil UML para el proceso de análisis, selección y transformación de datos. Es el encargado de revisa los datos provenientes de la bodega de datos realizando las etapas de: selección, limpieza, transformación y reducción de datos. Con el uso de los paquetes de UML se permite modelar cada etapa por separado permitiendo tener dos niveles de expresión de este diagrama: Nivel 1: Definición de la etapas: un paquete representa una etapa previa a cada técnica de minería de datos. Nivel 2: Definición del análisis de datos: se importa el diagrama lógico de la bodega de datos (DWLS) y según la técnica de minería de datos se les aplica a los datos la diferentes tareas. En la figura 2-33, se observa los paquetes aplicados al proceso del préstamo de un libro en una biblioteca, en la parte inferior se encuentra el nivel 2 donde se observa cómo están los datos en la tabla de hechos en el paquete de selección. Figura 2-33: Esquema de paquetes de análisis, selección y transformación.

89 Capítulo 2 73 En cada paquete (nivel 1) se puede realizar las tareas en el paquete de análisis se selecciona al atributo: histogramas, gráfico de cajas y dispersión. En el paquete de selección se puede ala atributo colocar como proviene de la bodega de datos: completo, incompleto, con ruido, e inconsistente. En el paquete de transformación al atributo se le puede seleccionar: normalización o reducción. En este diagrama los estereotipos aplicados a cada atributo se observa de acuerdo tabla 6. Tabla 2-3: Estereotipos de atributos para el análisis, selección transformación de datos Estereotipos de Atributos para el análisis Histogramas Dispersión Grafico de cajas Estereotipos de Atributos para la selección Datos Completos Datos Ruido Datos incompletos Datos inconsistentes Estereotipos de Atributos para Transformación (Reducción de datos) Agrupamiento Discretización Selección Estereotipos de Atributos para Transformación (Normalización) Min Max Decimal Z store El modelamiento de datos es un proceso iterativo donde se puede dar en forma descriptiva (reglas de asociación y agrupamiento) o predictiva (clasificación y series de tiempo), para esto se incorpora al BIEP los modelos planteados de minería de datos por el doctor Zubcoff basados en el CWM.

90 74 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Esquema de minería de datos con reglas de asociación (en inglés: Data Mining association rule schema DMARS), utiliza el perfil UML de reglas de asociación. En la técnica de reglas de asociación se busca las relaciones entre ítems en un conjunto de datos. El objetivo de las reglas de asociación es encontrar asociaciones o correlaciones entre los elementos u objetos de bases de datos transaccionales, relacionales o bodegas de datos. Las reglas de asociación se miden en términos de soporte y confianza. El soporte determina como es aplicable la regla y la confianza determina la frecuencia de del ítem en Y aparece en la transacción que contiene X. Un caso es el permite saber cómo se van a agrupar los datos bajo análisis. Desde el punto de vista multidimensional el caso puede ser cualquier atributo de una dimensión dado que estos agrupan las medidas de la tabla de hechos. Los atributos de entrada al algoritmo permiten la generación del conjunto de ítems frecuentes. Además sirven para el estudio de las relaciones con el atributo seleccionado como predicción [47]. En la figura 2-34, se observa la aplicación de reglas de asociación al caso del almacén, de acuerdo al enunciado de la sección En el diagrama lógico de la bodega de datos se selecciona el caso, y los atributos de entrada y predicción de acuerdo al algoritmo. Este esquema utiliza los estereotipos mostrados en la tabla 2.4. Tabla 2-4: Estereotipos de atributos reglas de asociación Estereotipos de Atributos para reglas de asociación Entrada Caso Predicción

91 Capítulo 2 75 Figura Esquema de minería de datos con reglas de asociación Fuente. José Jacobo Zubcoff Vallejo, Un conjunto de perfiles de UML para el Modelado conceptual de técnicas de minería de datos sobre almacenes de datos, 2009, Universidad de Alicante. 35 Esquema de minería de datos con clasificación (en inglés: Data Mining classification schema DMCS): utiliza el perfil UML de clasificación. En la técnica de clasificación el analista de los datos debe seleccionar los atributos. Estos atributos pueden tener básicamente dos roles: de entrada y de predicción. El modelo multidimensional presenta de una manera cercana al analista todos los atributos disponibles, sus relaciones y su estructura jerárquica. Dado que el algoritmo usará cada elemento seleccionado como entrada como un candidato para particionar el atributo a predecir se debe tener en cuenta que los atributos que estén correlacionados. Si se escoge atributos de una de misma dimensión como entrada y predicción el resultado será que estos atributos correlacionados estarán presentes en las primeras ramas del árbol de clasificación y pierde interés el patrón encontrado. El analista debe tener en cuenta cuál es el atributo por el que se agrupará el conjunto de datos [47]. 35 ZUBCOFF, José. Un conjunto de perfiles de UML para el Modelado conceptual de técnicas de minería de datos sobre almacenes de datos, 2009, páginas: 226. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos. Pág. 68.

92 76 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) En la figura 2-35, observamos la aplicación clasificación en un caso enunciado en por Zubcoff 36 sobre la captura de peces. Figura 2-35: Esquema de minería de datos con clasificación Fuente. José Jacobo Zubcoff Vallejo, Un conjunto de perfiles de UML para el Modelado conceptual de técnicas de minería de datos sobre almacenes de datos, 2009, Universidad de Alicante 37 Este esquema utiliza los estereotipos mostrados en la tabla 2-5. Tabla 2-5: Estereotipos de atributos clasificación Estereotipos de Atributos para reglas de asociación Entrada Caso Predicción 36 ZUBCOFF, José. Un conjunto de perfiles de UML para el Modelado conceptual de técnicas de minería de datos sobre almacenes de datos, 2009, páginas: 226. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos. Pág Ibíd. Pág. 98.

93 Capítulo 2 77 Esquema de minería de datos por agrupamiento (en inglés: Data Mining clustering schema DMCLS), utiliza el perfil UML para Agrupamiento. Las técnicas de minería de datos con agrupamiento pueden ser fácilmente aplicadas para descubrir grupos con comportamientos similares en base al hecho bajo estudio, a lo largo de las distintas dimensiones y a cualquier nivel de sus jerarquías. Dadas las características de las técnicas de agrupamiento, cuyos atributos son todos de entrada, no requieren que exista un atributo de predicción como en otras técnicas de minería de datos. Por tanto, los elementos que definen un modelo conceptual de agrupamiento pueden ser de dos tipos: Caso o Entrada. El primero sirve para definir el nivel de detalle en el análisis, y el segundo simplemente define los atributos que participan en el proceso de agrupamiento [47]. En la figura 2-36 observamos la aplicación de la técnica de agrupamiento al caso del almacén de acuerdo con lo enunciado por Zubcoff 38. Este esquema utiliza los estereotipos mostrados en la tabla 2-6. Tabla 2-6: Estereotipos de atributos por agrupamiento Estereotipos de Atributos para reglas de asociación Entrada Caso 38 ZUBCOFF, José. Un conjunto de perfiles de UML para el Modelado conceptual de técnicas de minería de datos sobre almacenes de datos, 2009, páginas: 226. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos. Pág. 116.

94 78 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Figura 2-36: Esquema de minería de datos por agrupamiento Fuente. José Jacobo Zubcoff Vallejo, Un conjunto de perfiles de UML para el Modelado conceptual de técnicas de minería de datos sobre almacenes de datos, 2009, Universidad de Alicante 39 Esquema de minería de datos por series de tiempo (en inglés: Data Mining time series schema DMTSS), es basado en el diagrama de clases. Esta técnica permite descubrir patrones o tendencias a lo largo del tiempo y así proporcionar conocimiento del sistema subyacente, utilizándose ampliamente en distintos campos de la ciencia y también en la empresa cuando se necesita anticipar o predecir los valores futuros de una variable. Los objetivos de este tipo de análisis son: (i) identificar la naturaleza del fenómeno representado por la serie temporal y (ii) predecir los valores futuros de la variable temporal. Ambos requieren la identificación de patrones de la serie temporal observada. Por ello, el tiempo es un atributo presente en cada modelo de análisis, identificando la serie temporal incluso a diferentes escalas (días, semanas, meses, etc.).[47] 39 ZUBCOFF, José. Un conjunto de perfiles de UML para el Modelado conceptual de técnicas de minería de datos sobre almacenes de datos, 2009, páginas: 226. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos. Pág. 116.

95 Capítulo 2 79 En la figura 2-37, observamos la aplicación de series de tiempo al de captura de peces de acuerdo con el problema dado por Zubcoff 40. Figura 2-37: Esquema de minería de datos por series de tiempo Fuente. José Jacobo Zubcoff Vallejo, Un conjunto de perfiles de UML para el Modelado conceptual de técnicas de minería de datos sobre almacenes de datos, 2009, Universidad de Alicante Despliegue En este flujo de trabajo se determina la forma en que los resultados deben ser utilizados. En esta actividad se obtiene: Planificación de despliegue. Planificación de la monitorización y del mantenimiento. 40 ZUBCOFF, José. Un conjunto de perfiles de UML para el Modelado conceptual de técnicas de minería de datos sobre almacenes de datos, 2009, páginas: 226. Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos. Pág Ibíd. Pág. 135.

96 80 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Generación de informe final. Revisión del proyecto. BIEP propone para este flujo de trabajo los siguientes diagramas: Esquema conceptual del cliente (en inglés: Client Conceptual Schema CCS), este diagrama proviene del DWEP, este diagrama es una extensión del diagrama de clase. Representa la forma visual dada por el cliente para visualizar los datos, este proceso se desarrolla por parte del desarrollador del proceso de inteligencia de negocios y el usuario final, en la actualidad las herramientas case permiten que el usuario final modele estos informes con diversas formas. Esquema lógico del cliente (en inglés: Client Logical Schema CLS), este diagrama proviene del DWEP, se basa en el diagrama de clases, este selecciona los datos lógicos a modelar y se da los diversos parámetros que se deben entregar los reportes o informes que deben arrojar del proceso de análisis de los datos al usuario final. Esquema físico del cliente (en inglés: Client Physical Schema CPS), este diagrama proviene del DWEP, utiliza el perfil UML despliegue. Define la estructura física de las estructuras concretas que son empleadas por los clientes para acceder a la bodega de datos de datos. Frente al caso enunciado en la sección 1.3.3, en la figura 2-38, se observa el entorno del cliente donde se va a visualizar los reportes dados por la técnica de análisis de datos.

97 Capítulo 2 81 Figura 2-38: Esquema físico del cliente Fuente. S. Lujan, Data WareHouse Desig with UML, PHD. Thesis Pruebas El objetivo de este trabajo es verificar que la aplicación funcione correctamente. Más concretamente, los efectos de las pruebas son los siguientes: Planificar las pruebas necesarias. Diseñar e implementar las pruebas mediante la creación de casos de prueba. Realizar las pruebas y analizar los resultados de cada prueba. Revisar el proceso. Establecimiento de los siguientes pasos o acciones. Para este flujo BIEP sugiere el uso del formato de la tabla 2-7 donde se observe el nombre del caso de uso, el responsable, el propósito y la historia del seguimiento del caso y el número de ciclos. 42 LUJAN, Sergio. Data WareHouse Desig with UML, Tesis Doctoral., Universidad de Alicante, 2005.Departamento de software y sistemas computacionales. Pág.170.

98 82 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Tabla 2-7: Formato de pruebas BIEP FORMATO DE PRUEBAS BIEP V 1.0 Nombre de la bodega de datos Nombre del caso uso Responsable Proposito DISEÑO DE PUEBA EJECUCION CICLO ID PRUEBA FECHA PRECONDICIONES ESCENARIO PASOS POSCONDICIONES FECHA RESULTADO Mantenimiento A diferencia de la mayoría de los sistemas, el proceso de inteligencia de negocios es un proceso que se retroalimenta constantemente. El objetivo de este flujo de trabajo es definir la actualización y carga de los procesos necesarios para mantener este proceso. Este flujo de trabajo comienza cuando se construye la el proceso de inteligencia de negocios y es entregado a los usuarios finales, pero no tiene una fecha de finalización. Durante este trabajo, los usuarios finales pueden tener nuevas necesidades, tales como las nuevas consultas, lo que desencadena el comienzo de una nueva iteración con los requisitos de flujo de trabajo Revisión post-desarrollo Esto no es un flujo de trabajo del esfuerzo de desarrollo, sino un proceso de revisión para mejorar los proyectos futuros. Miramos hacia atrás en el desarrollo del BI, revisar la documentación, y tratar de identificar oportunidades de mejora y los éxitos más importantes que deben tenerse en cuenta. Si hacemos un seguimiento del tiempo y el esfuerzo empleados en cada fase, esta información puede ser útil en la estimación de tiempo y las necesidades de personal para proyectos futuros.

99 Capítulo VENTAJAS DE BIEP Esta metodología da unas ventajas sobre las metodologías expuesta en la tabla 1. Estas son: Definición del proceso de inteligencia de negocios en los niveles conceptual, lógico y físico. Definición una notación gráfica basada en un leguaje de modelado unificado (UML 2.3). Definición de multi-estrellas, esto permite el uso compartido de dimensiones. Definición de tabla de hecho. En este permite la definición de las medidas atómicas, derivadas y aditivas. Además permite la degeneración de ella Definición de dimensiones. En ellas se permite desarrollar las jerarquías y su categorización. Por último BIEP permite el manejo de la técnica de análisis de datos por medio de técnicas de minería de datos y técnicas OLAP. 2.6 RESUMEN DEL CAPITULO En este capítulo se propuso y presentó BIEP una metodología para el desarrollo de sistemas de inteligencia de negocios basada en el proceso unificado de software. Llamada BIEP, esta metodología se compone de cuatro (4) fases y nueve (9) flujos de trabajo. Las cuatro (4) fases de esta metodología son: inicio, elaboración, construcción y transición, éstas se ejecutan en forma iterativa e incremental. En las fases inicio y

100 84 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) elaboración se realizan las actividades de desarrollo, y en las fases construcción y transición se comete la construcción y el paso a la producción del proyecto. Los nueve (9) flujos de trabajo de BIEP son: requerimientos, análisis, diseño, implementación, preparación, modelado y evaluación, despliegue, pruebas, mantenimiento y revisión post desarrollo. Los cuales se despliegan en una o en varias fases. El cruce entre las fases y los flujos de trabajo generan los siguientes diez (10) modelos (figura 16): casos de uso, análisis, diseño, implementación, OLAP, minería de datos, despliegue, pruebas, mantenimiento y revisiones post desarrollo. Esta metodología se observa como un diagrama de actividades de UML (figura 17), lo cual le da una ventaja, ya que se siguen los pasos de ejecución. En cada actividad se observa los diagramas que se deben usar. Cada modelo se representa por perfiles de UML, los cuales son particularización de los diagramas de UML. Esta metodología desarrolló nueve (9) perfiles basados en los diagramas de clases, objetos, despliegue, casos de uso, secuencia y maquina de estado. Estos son: casos de uso, bodega de datos, proceso ETL, despliegue, proceso de análisis, selección y transformación de datos, reglas de asociación, clasificación, agrupamiento y análisis de serie de tiempo. De éstos se extiende los veintisiete (27) diagramas, que están distribuidos de la siguiente forma: integración: dieciocho (18) diagramas, análisis de datos: seis (6) diagramas y despliegue: tres (3) diagramas. Esta metodología nos brinda apoyo en la definición clara de las dimisiones y tabla de hechos, por medio de una notación gráfica basada lenguaje de modelado unificado (UML).

101 3. Capítulo 3 (APLICACIÓN Y VALIDACIÓN DE LA METODOLOGÍA BIEP ) En este capítulo se mostrará la metodología BIEP aplicada a un caso, en orden a validarla, para lo cual se escogió la biblioteca central de la universidad Antonio Nariño. Para la aplicación de BIEP fue necesario desarrollar un prototipo de software CASE, siguiendo los pasos enunciados en la figura 2-4 supra, el cual permite implementar todos los modelos, perfiles y diagramas de la metodología. Lo anterior permitirá mostrar que, el sistema de inteligencia de negocios, puede ser desarrollado a partir del prototipo aplicado al caso. 3.1 Prototipo de Software CASE BIEP En primer lugar, para la aplicación de la metodología BIEP se desarrolló un prototipo de software basado en perfiles de UML y en diagramas propuestos en las secciones 3.3 y 3.4. Para estos fines, BIEP se basó en UML 2.3, el cual permite implementar cualquier herramienta CASE que soporte el metamodelo MOF [31]. Para el efecto, se utilizó la herramienta Eclipse Galileo 2010 [15], en su versión de modelamiento, en cuanto ésta ofrece las siguientes características: Construcción de entornos de desarrollo integrados (En Inglés: integrated development environment IDE), desarrollado en código abierto, el cual permite el desarrollo de aplicaciones en Java (en inglés: Java Development Tools). Además ofrece mecanismos para integrar otras aplicaciones, esto es, tiene el atributo denominado plug-ins. Cuenta con la herramienta Eclipse Modeling Framework (EMF) [42], la cual soporta el modelamiento estructurado y facilita la generación de código para la

102 86 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) construcción de otras aplicaciones basadas en modelos de datos estructurales. Desde la especificación del modelo en XML, EMF da las herramientas y soporte en tiempo de ejecución, produciendo el conjunto de clases de Java del modelo. Este conjunto de clases adaptadas permite una vista y edición de comandos basados en modelo. EMF es una implementación en Eclipse del meta modelo Meta-Object Facility MOF. Permite la utilización de la herramienta Graphical Modeling Framework (GMF) [14], la cual genera el modelo en un editor gráfico basado en EMF y GEF. Un rasgo importante de GMF es la definición de diferentes dominios y aplicaciones, permitiendo modelar separadamente los componentes gráficos que corresponde a cada uno de los elementos del dominio y definir la herramienta de paleta, donde cada herramienta corresponde a una primitiva. Para completar el proceso para la generación grafica del editor del dominio, GMF da una definición para el mapeo de cada primitiva asociada con el componente de modelo, con el editor gráfico y éste genera automáticamente el modelo. Facilita la definición de perfiles UML, especificándose de forma más clara las relaciones que pueden darse entre los elementos del modelo y el uso de las meta clases de un metamodelo dentro del perfil. Por las anteriores razones, se determinó hacer la validación en ECLIPSE Galileo 2010, para lo cual se le implementaron los perfiles y los modelos de la metodología BIEP. Es de aclarar que se puede implementar BIEP desde la versión ECLIPSE Ganymede o superior, debido a que tiene implementado las herramientas de modelado basado en UML Implementación de los Perfiles Como parte fundamental del prototipo de software, es menester que los perfiles de la metodología BIEP, definidos en la sección 3.3, se encuentren implementados. Esto se

103 Capítulo 3 87 logra en Eclipse, teniendo cargados los módulos UML2 y sus dependencias, labor que se hace marcando las opciones adecuadas en Software Update del menú Ayuda. A continuación se debe crear un proyecto de modelado y en él se crean los diagramas de definición de perfiles. Los siguientes diagramas son los creados basados en los perfiles de la metodología BIEP: DMCLUS.umlprofile: Perfil UML para la técnica de minería de datos de agrupamiento. DMSEL.umlprofile: Perfil UML para el proceso de análisis, selección y transformación de datos DWCS.umlprofile: Perfil UML de la bodega de datos. DWEPCasoUso.umlprofile: Perfil UML para los casos de uso. DWSTS.umlprofile: Perfil UML para la técnica de minería de datos de serie de tiempo. ETLProcess.umlprofile: Perfil UML para el proceso de extracción, carga y transformación de datos (ETL) MDCl.umlprofile: Perfil UML para la técnica de minería de datos de clasificación. MDRA.umlprofile: Perfil UML para la técnica de minería de datos para las reglas de asociación. SPS_DWPS.umlprofile: Perfil UML para el despliegue físico de la bodega de datos, las fuentes de datos y el cliente.

104 88 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) OLAPACT.umlprofile: Perfil UML para el manejo del cubo dimensional. DATACUBE.umlprofile: Perfil UML para el manejo de Las operaciones en el cubo dimensional. Estos perfiles se pueden importar y ser usados sin necesidad de volverlos a definir en cualquier herramienta CASE que soporte MOF. En los anexos B y D de este documento, se encuentra el manual de usuario para la utilización de estos perfiles y se explica cómo se realizo la implementación de cada uno, respectivamente Generación del Modelo de Objetos Sea lo primero indicar que, como el programa Eclipse Galileo 2010 no tiene implementado el diagrama de objetos de UML, este modelo se desarrolló por medio de EMF y GMF. En la figura 52 se observa el modelo basado en MOF, para lo cual deben darse los elementos que son aplicables al diagrama de de objetos: la relación, los atributos, y el vínculo entre ellos. Para ver detalle de la generación consultar el anexo B14. infra. Figura 3-1: Modelo de objetos

105 Capítulo Elementos básicos para aplicar diagramas de BIEP Para aplicar la metodología en Eclipse Galileo 2010, se debe crear un proyecto de modelado, en el se establecen los diagrama de UML 2.3 que se desea utilizar, por ejemplo, para la creación del esquema lógico de la bodega de datos se crea un diagrama de clase. Luego se adicionan las diferentes clases que representan las dimensiones y las tablas de hecho. Posteriormente se incorpora el perfil al diagrama de clases y se le aplica el estereotipo a la clase según corresponda (dimensión o tabla de hecho). Esto se puede ver en el anexo B para todos los diagramas de la metodología. 3.2 Caso de estudio: Biblioteca central de la universidad Antonio Nariño U.A.N Descripción de la Universidad Antonio Nariño y de la Biblioteca La Universidad Antonio Nariño tiene más de 32 años en el país y fue fundada con el fin de ofrecer un espacio educativo profesional para el desarrollo integral de los estudiantes y contribuir al bienestar social de la comunidad. Con más de treinta y sietes (37) sedes a nivel nacional, es una de las universidades con más estudiantes en Colombia, por ende sus bibliotecas deben contar con un gran volumen de libros, revistas, diarios y publicaciones que estén a disposición de sus usuarios. La biblioteca central se encuentra ubicada en la sede principal de la Universidad y ofrece varios servicios para el bienestar de los estudiantes y del público en general, tales como el préstamo de libros, servicio de hemeroteca y acceso a bases de datos de otras

106 90 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) instituciones gracias a los acuerdos firmados por las directivas, el primero de los servicios el más importante. El volumen de los préstamos es cercano a los registros por año, considerando a todos los usuarios y sedes. Sin embargo, los datos que se tendrán en cuenta para la presente validación, serán aproximadamente registros, correspondientes a los préstamos efectuados en el primer semestre del año 2008 y todo el año del 2007, en la sede central de la biblioteca Flujos de trabajo El objetivo del sistema de inteligencia de negocios para la biblioteca central de la universidad Antonio Nariño, es obtener el diseño conceptual, lógico y físico de la bodega de datos. Además realizar el diseño conceptual del análisis de datos OLAP y de minería de datos para el proceso préstamo de libros Requerimiento Con el objeto de lograr un flujo de trabajo que nos muestre la visión para la construcción de la bodega de datos y las técnicas de análisis de datos para la biblioteca central de la universidad Antonio Nariño, se realizaron las siguientes actividades: Visitas a la biblioteca central de la Universidad Antonio Nariño. Generación de los diagramas de casos de uso con base a la información suministrada por los encargados y usuario de la biblioteca (Figura 3-2). Generación del formato extendido de los casos de uso (Anexo A). De este análisis, se desprende la necesidad de realizar el sistema de inteligencia de negocios asociado al proceso de préstamo de libros, cuyo documento final se incluye como Anexo A, en donde se encuentra: posicionamiento, descripción de participantes en

107 Capítulo 3 91 el proyecto y usuarios, descripción global del producto, otros requisitos del producto y la documentación requerida, lo cual permitió la definición del objetivo del negocio y de los requisitos y las funciones deseadas para el sistema de inteligencia de negocios. Para el este proyecto se tuvieron en cuenta los siguientes indicadores claves del negocio (KPI): Superación del préstamo diario de material bibliográfico. Formula: Se realiza por proyección un préstamo mayor a 200 elementos de material bibliográfico diario. Superación del préstamo mensual de material bibliográfico. Formula: Se realiza por proyección un préstamo mayor a 3000 elementos de material bibliográfico al mes. Préstamo por cada material bibliográfico al año. Formula: Días de préstamos del material bibliográfico > 100 al año. Valor de la multa por periodo mes. Formula: Suma de las multa por mes <$ Se trazó como objetivo de la minería de de datos la aplicación de las siguientes técnicas: reglas de asociación, agrupamiento y clasificación sobre toda la tabla de hechos, para la generación de nuevo conocimiento. En la figura 3-2 se observan los casos de usos aplicados al préstamo de libros en la biblioteca central. En la parte izquierda se encuentra el usuario final y en la parte derecha el caso de uso de préstamo de libros. A partir del mismo se extiende el préstamo de sala, fecha, ISBN, título, departamento y combinación de los diferentes prestamos.

108 92 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Figura 3-2: Modelo de Casos de Uso del préstamo de la biblioteca Análisis En este flujo de trabajo se realizó el análisis de las fuentes de datos que poblarán la bodega de datos de la biblioteca para lo cual se realizaron los siguientes diagramas: SCS, SCOS, SLS y SPS. En las fuentes de datos se encontraron dos bases de datos cuyo sistema manejador es MySQL, las cuales están compuestas de 70 tablas y 6 vistas. Siguiendo con los requerimientos sobre el préstamo de libros, se consideran las tablas de este proceso para el diseño de la bodega de datos, a saber: prestamo, det_prestamo, tipo_prestamo, libro, sala, editorial, usuario, programa, descripcion_pretamo, descripcion_editorial, descripcion_autor y facultad, obteniendo las siguientes estadísticas: Total de Registros Tamaño de los datos en disco duro 101 MB. En la figura 3-3 se observa el diagrama conceptual de las fuentes de datos SCS, el cual es una representación del diagrama E-R de las fuentes de datos en un diagrama de clases. Así se expresan las ocho entidades (prestamo, det_prestamo, tipo_prestamo, libro, sala, editorial, usuario, programa y facultad.): ocho clases y sus relaciones como asociaciones, lo que explica la multiplicidad entre las entidades en el caso de estudio Préstamos de libros.

109 Capítulo 3 93 Figura 3-3: SCS del préstamo de la biblioteca En la figura 3-4 se observa el diagrama conceptual de objetos de las fuentes de datos SCOS, el cual es una instancia del SCS. A título de ejemplo, en el préstamo número 1000, del día 5/5/2010, se muestra el detalle del préstamo: libro The data Warehouse Toolkitt, con sus respectivos autores y editorial. Figura 3-4: SCOS del préstamo de la biblioteca

110 94 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) En la figura 3-5 se observa el diagrama lógico de la fuente de datos SLS, el cual representa el diagrama relacional de la fuente de datos de la biblioteca central. Se encuentran once (11) tablas, las cuales representan en once (11) clases y la relación de asociación entre las entidades. Figura 3-5: SLS del préstamo de la biblioteca En la figura 3-6 se muestra el diagrama físico de la fuente de datos SPS, incluyendo los elementos físicos de la biblioteca central, en particular, que cada servidor contiene en hardware un procesador Core Dual de 2 GHZ, memoria 4 GHZ, sistema operativo Windows 2003 server, 2 discos duros de 250 GB cada uno. En el primero se encuentra instalado el sistema operativo, y en el segundo almacena la estructura de la base de datos en un motor de bases de datos MySQL 5.0. Figura 3-6: Esquema físico del servidor para el préstamo de la biblioteca

111 Capítulo Diseño El Objetivo de este flujo de trabajo es dar una visión y revisar los requerimientos para entender y desarrollar apropiadamente la bodega de datos de la biblioteca central de la universidad Antonio Nariño. Para estos fines, se desarrollaron los siguientes diagramas: esquema conceptual de la bodega de datos (DWCS), diagrama de mapeo de datos (DM), esquema de secuencias de la bodega Datos (DWSS), esquema de estados de máquinas de la bodega de datos (DWSMS) y esquema de actividad de la bodega de datos (DWAS). En la figura 3-7 se muestra el esquema conceptual de la bodega de datos (DWCS), dividido en varios niveles. En el nivel 0 está el diagrama estrella del préstamo de libros de la biblioteca. En el nivel 1 se tienen los elementos básicos de la estrella tabla de hecho (préstamo) y las diferentes dimensiones (tiempo, usuario, libro, facultad, sala y programa). En el nivel 2 se adicionan los elementos bases de cada dimensión y de la tabla de hecho. Figura 3-7: biblioteca Esquema conceptual de la bodega de datos del préstamo de la Nivel 0 Nivel 1

112 96 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Nivel 2 En la figura 3-8 se observa el diagrama de mapeo (Data Mapping), el cual contiene diversos niveles: lustración 3-8: Diagrama de Mapeo del préstamo de la biblioteca Nivel 0 Nivel 1 Nivel 2

113 Capítulo 3 97 En el nivel 0 está una visión general del mapeo de los diferentes atributos que se extrajeron desde la fuente de datos hasta la carga de la bodega de datos. En la metodología de Kimball se propone el uso de espacios temporales de almacenamiento, para realizar todo el proceso de transformación de los datos, recomendación que fue acatada en el caso de la biblioteca, por mostrar resultados benéficos para el mapeo. En el nivel 1 se tienen todos los mapeos y elementos disponibles, los cuales, en el caso en estudio fueron las fuentes de datos, el espacio de almacenamiento temporal y la bodega de datos. En el nivel 2 encontramos el mapeo de cada atributo entre la fuente de datos y el espacio temporal, lo cual brindó una visión sobre las posibles transformaciones que se deben dar para su correcta carga. En la figura 3-9 se observa el esquema de secuencia de la bodega de datos (DWSS), Este nos brinda los pasos que se realizaran entre la fuente de datos de la biblioteca y la bodega de datos del préstamo del libro. Además, presenta las secuencias que se deben seguir en el proceso ETL, basado en el análisis del diagrama de mapeo de datos. De acuerdo a lo anterior, en el caso en estudio, la tabla autor de la fuente de datos pasa al espacio temporal y, a partir de éste, a la dimensión autor. Cada mensaje tiene su respuesta para saber si se realizo adecuadamente el proceso, en caso de fallo envía el mensaje al archivo de eventos.

114 98 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Figura 3-9: biblioteca Esquema de secuencia de la bodega de datos para el préstamo de la En la figura 3-10 se muestra el esquema de diagrama de estados de máquinas para la bodega de datos (DWSMS), que, en el caso de estudio, modela el comportamiento que se debe seguir en el proceso ETL en todas las dimensiones, especificando la secuencia de eventos que atraviesa durante este proceso. Para el efecto, primero se debe realizar la apertura de la fuente de datos de la biblioteca y, con posterioridad, leer y extraer los datos de la base de datos de cada tabla. Estos datos hay que transformarlos de acuerdo con el diagrama de mapeo y cargarlos en el espacio temporal, concluyendo con la extracción de los datos y cargándolos en la bodega de datos. Figura 3-10: DWSMS del préstamo de la biblioteca ExtraerDatos do / Conectarse a la BD1 do / Conectarse a la BD2 do / Conectarse a los archivos do / Extraer datos de acuerdos a criterios TranformarDatos do / Agregacion do / Mezclas do / Join do / filtros do / errores do / Subrogar CargarDatos do / RevisarDatoTDW do / Insertar do / Actualizar do / Borrar En la figura 3-11 se utiliza el esquema de actividades de la bodega de datos (DWAS) para mostrar el flujo de trabajo desde el punto de inicio hasta el punto final, detallando las

115 Capítulo 3 99 rutas de decisiones que existen en el progreso de eventos contenidos en la actividad. En el préstamo de la biblioteca se evidencian las actividades que deben realizarse para la generación del cubo OLAP: primero se debe realizar el análisis del préstamo, luego realizar la selección por medio del libro o del usuario y por último se realiza el análisis OLAP. Figura 3-11: DWAS del préstamo de la biblioteca Implementación Para este flujo de trabajo se planeó y se ejecutó: El modelo lógico y físico de la bodega de datos para la biblioteca central de la universidad Antonio Nariño, siguiendo el modelo conceptual planteado en el flujo de trabajo anterior. El proceso de extracción, transformación y carga de datos (ETL) desde las fuentes hasta la bodega. Se desarrollaron para el caso de estudio los siguientes diagramas: esquema lógico de la bodega de datos (DWLS), esquema lógico de objetos de la bodega de datos (DWLOS), esquema físico de la bodega de datos, proceso ETL, diagramas de transporte y esquema físico del cliente.

116 100 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) En la figura 3-12 se presenta el modelo lógico de la bodega de datos (DWLS), el cual enseña el diagrama estrella para la biblioteca central basado del diagrama conceptual de la bodega de datos. Para el caso de estudio se representa las dimensiones (tiempo, usuario, facultad, autor y sala) y tablas de hechos (préstamo del libro). Cada tabla de hecho y las diferentes dimensiones se representan por medio de clases con sus respectivos atributos y con el tipo de dato que almacena en la bodega de datos. Las relaciones se representan como asociaciones entre las dimisiones y la tabla de hecho. Figura 3-12: Esquema lógico de la DW para el préstamo de libro En la figura 3-13 se observa el esquema lógico de objetos de la bodega de datos (DWLOS), el cual constituye una instancia del esquema lógico de la bodega de datos para el préstamo de libros. A título de ejemplo, se toma el préstamo No en la bodega de datos, mostrando en la tabla de hechos el número de días del préstamo, los días del préstamo, la cantidad de libros y las multas. Así mismo, en las dimensiones, se encuentran los diferentes objetos.

117 Capítulo Figura 3-13: DWLOS del préstamo de la biblioteca En la figura 3-14 se muestra el diagrama físico para la bodega de datos para el préstamo de libros (DWPS), evidenciando, en la parte izquierda, el servidor que va soportar la bodega datos, el cual cuenta con un procesador Core Duo de 2 GHZ, 4GB en memoria RAM y dos (2) discos duros cada uno con 250 GB de capacidad de almacenamiento. En disco uno almacena el sistema operativo y el software SQL SERVER 2008, y en el disco dos almacena los datos físico de la bodega de datos. En la parte derecha encontramos los diagramas físicos de los clientes (CPS), representando las diferentes conexiones con la bodega de datos (diagramas de transporte), las cuales, en el caso de estudio, se realizaron con la conexión directa de SQL Server. Figura 3-14: Esquema físico de la bodega de datos.

118 102 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Para realizar la extracción, transformación y carga de datos desde las fuentes de datos y la bodega de datos, se tomó el diagrama de ETL, logrando, de esta forma, ampliar el diagrama de mapeo (figura 38). Este diagrama, como se observa en la figura 3-15, permite colocar los elementos necesarios para realizar los pasos necesarios para especificar las operaciones típicas de acuerdo a la tabla 2-2. Figura 3-15: Proceso ETL Preparación, modelado, evaluación y despliegue En este flujo de trabajo se realizó, en primer lugar, el modelo OLAP, en orden a obtener los indicadores claves del negocio. En segundo lugar, se realizó la preparación, modelo y evaluación, de acuerdo al modelo de minería de datos a utilizar. Así mismo, se efectuó el despliegue de acuerdo con los servidores y la arquitectura que el cliente tenía disponible para la biblioteca central. Para el efecto, se realizaron los siguientes diagramas: esquema de paquetes de análisis selección y transformación, minería de datos para el análisis, cubo dimensional, minería de datos de reglas de asociación DMRAS, minería de datos de clasificación DMCLS y minería de datos de agrupamiento DMCLUS.

119 Capítulo Modelo OLAP El modelo de cubos dimensionales se implemento sobre SQL Server 2005, obteniendo el diagrama del proceso ETL que se muestra en la figura 66, el cual permitió la extracción, carga y transformación, desde la fuente de datos a la bodega de datos, como se puede observa en la figura Figura 3-16: Servicio de integración de SQL SERVER 2005 aplicado a la biblioteca. Para el modelado del cubo se implementó el esquema lógico obtenido de la figura 3-12, empleando para ello el servicio de análisis del SQL Server 2005, como se observa en la figura 3-17, donde se observa el origen de datos y la conformación del cubo dimensional con sus dimensiones y tabla de hecho. Figura 3-17: Servicio de análisis de SQL SERVER 2005 aplicado a la biblioteca.

120 104 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) En la figura 3-18 se observa el cubo implementado en SQL Server 2005, con los cuatros (4) indicadores obtenidos en la etapa de requerimientos y especificando cada uno de ellos. Figura 3-18: Indicadores claves de gestión dados al proceso de préstamo de libros El desarrollo de los reporte se realizó por medio del servicio de reportes de SQL 2005, el cual permite generar repites asociados a cada KPI implementados en el cubo dimensional, como se observa en la figura En este se especifica la fuente de datos y el diseño de cada reporte. Figura 3-19: Diseño de los reportes basada en cada KPI al proceso de préstamo de libros

121 Capítulo Para su despliegue se utiliza el componente que se le instala al servidor Web de Microsoft (IIS), permitiendo la carga de cada reporte en ambiente Web. En la figura 3-20 se evidencian dos (2) de los reportes aplicados a cada KPI. Figura 3-20: Despliegue Reportes basada en cada KPI al proceso de préstamo de libros Preparación de los datos para el proceso de minería de datos Para el proceso de minería de datos se requiriere el análisis, selección y transformación proveniente de la bodega de datos y de acuerdo con el algoritmo seleccionado. En la figura 3-21 se presenta, en el nivel 1, el esquema de paquetes desde la bodega de datos realizando el análisis, selección y transformación para luego aplicar la técnica de minería de datos del caso de estudio; y en el nivel 2 el proceso de DMSELECCION de la tabla de hecho de préstamo, esto es, la forma en que se encuentran los datos (completos, incompletos, con ruido entre otros).

122 106 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Figura 3-21: Esquema de paquetes de análisis, selección y transformación aplicados al proceso de préstamo de libros. Nivel 1 Nivel Regla de Asociación Las reglas de asociación permiten descubrir relaciones o correlaciones interesantes en grandes cantidades de datos, con la finalidad de establecer patrones en forma de regla que representen las asociaciones encontradas. En la figura 3-22 se observa el esquema de minería de datos de reglas de asociación (DMRA) y la clase configuración, en la cual se realizan los ajustes del modelo de minería de datos, a saber: el máximo soporte, mínima confianza, número máximo de ítems en un conjunto frecuente, entre otros. Es de mencionar que, la selección de los atributos, se realiza de acuerdo con los parámetros requeridos de acuerdo al algoritmo en la clase selección DW. Para el despliegue y evaluación de resultados se utilizó el motor de bases de bases MS SQL Server 2005, y para su análisis y modelado WEKA, aplicando los siguientes pasos: (i) por medio de un soporte del 20% y una confianza > 80% para obtener las reglas más fuertes; y (ii) con un soporte del 10% y una confianza > 60% para determinar la totalidad de las reglas aplicadas a este proceso.

123 Capítulo Figura 3-22: DMRA del préstamo de la biblioteca Para aplicar el algoritmo a priori se necesita que todos los atributos sean de tipo nominal, razón por la cual al subconjunto hay que aplicarle un filtro para convertir el atributo ubicación. En atención a la cantidad de registros de la bodega de datos (aproximadamente de 50000), el tiempo de análisis es cercano a las cuatro horas para cada proceso y permitió obtener las siguientes reglas: (i) El proceso de Soporte del 20% y confianza del 80% permitió obtener un total de 11 reglas: Si la ubicación es 2 ==> la descripción del tipo Préstamo es Domicilio conf:(1). Si el nombre del programa es Derecho ==> la descripción tipo Préstamo es Domicilio conf:(1)

124 108 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Si la ubicación es 2 y el nombre del programa es derecho ==> la descripción del tipo de préstamo es domicilio conf:(1). Si la facultad es derecho ==> la descripción de tipo préstamo es domicilio conf:(0.99). Si la ubicación es 9 ==> descripción de tipo préstamo es domicilio conf:(0.99). Ubicación es 8 ==>la descripción de tipo préstamo es domicilio conf:(0.97). Si la ubicación es 2 ==> el nombre de programa es derecho conf:(0.93). Si la ubicación =2 ==> la descripción de tipo préstamo es Domicilio nombre del programa es derecho conf:(0.93). Si el nombre de programa es derecho ==> su ubicación es 2 conf:(0.92). Si la descripción de tipo préstamo es domicilio y el nombre del programa es derecho ==> ubicación es 2 conf:(0.92). Si el nombre programa es derecho ==> la descripción del tipo préstamo es domicilio y su ubicación es 2(0.92) (ii) En el proceso de Soporte del 10% y confianza del 60% se obtuvieron un total de 50 reglas, de las cuales las más importantes son: Si la asignatura del libro es democracia==> Nombre del programa del libro es derecho [Conf 100%]. Si el mes del préstamo es mayo ==> Tipo de préstamo = domicilio [Conf 100%].

125 Capítulo Si nombre del programa del alumno es derecho y Mes de Préstamo = Febrero ==> Nombre del programa del libro = derecho [Conf 87%]. Si nombre del programa de libro es economía ==> Tipo de préstamo es domicilio [Conf 99%]. Si la ubicación del libro es 2 ==> Tipo de préstamo = domicilio [Conf 99%] Clasificación La minería de datos con la técnica de clasificación permite describir el comportamiento de una variable dependiente y predecir su estado en función de otras características. En general esta técnica se utiliza para conocer cómo pueden clasificarse los datos, que atributos son los que tienen mayor influencia en la variable dependiente y cuáles son las clases correspondientes. En la figura 3-23 se observa el esquema de minería de datos aplicado al proceso de clasificación (DMCLS), al igual que el de reglas de asociación, teniendo en cuenta el módulo de configuración que permite seleccionar el algoritmo de clasificación, número máximo de hojas, número máximo de entrada, entre otros. Para su despliegue se trabajaron varios algoritmos de clasificación, estos fueron: los árboles de decisión (J48), Naive Bayes, Redes Neuronales y NBTrees probados sobre la herramienta WEKA, todos ellos se con una muestra de 6000 registros y evaluados a través de la técnica de cross validation con 10 folds. Se realizó la clasificación jerárquica dado la poca cantidad de ejemplos que contenían las salas diferentes a la 2, 8 y 9, para lo cual se consideraron las salas de consulta general (G) que contienen las salas 7, 8, 9 y de consulta especializada (E) que contienen las

126 110 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) salas 2, 4, 6, 19, 18, luego se procedió a aplicar técnicas de clasificación detallando cada una de las clases. Figura 3-23: DMCLS del préstamo de la biblioteca Además se tomaron como atributo de clasificación: los días de préstamo y la asignatura. Para el algoritmo J48 se seleccionó por clase el atributo de ubicación y después de realizado el entrenamiento se obtuvo la matriz de confusión, como se aprecia en la tabla 3-1, con un número de valores correctamente clasificados correspondiente al 92.76%, y un porcentaje error del 7.23%. Tabla 3-1: Matriz de confución En el caso más específico primero se analizan todas las salas generales y se encuentran la matriz de confusión de la tabla 3-2. Con posterioridad, se consideran las salas especializadas como se muestra en la tabla 3-3.

127 Capítulo Tabla 3-2: Matriz de confusión por las salas Generales Tabla 3-3: Matriz de confusión por las salas Especializadas Analizando este atributo, a la luz del número de días prestados, nos muestra el resultado que se incluye en la tabla 3-4, donde el J48 solo clasifica los resultados en una sola clase. Es de mencionar que el algoritmo clasificó correctamente el % e incorrectamente %. Analizando este atributo con la asignatura, se observa que el sistema no permite generar el árbol, sino que muestra un error de memoria en tanto efectuó un subconjunto de 600 registros y arrojó un árbol con 12000, lo que permite concluir que este atributo no se puede usar para la clasificación. Al aplicar el algoritmo Naive Bayes, el cual, valga decirlo, es un clasificador de tipo probabilístico y basado en el teorema de Bayes, se mostró una alta eficiencia clasificatoria, como se ve en la tabla 15.

128 112 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Tabla 3-4: Matriz de confusión por días de préstamo con árboles. classified as a b c d e f g h i j k l m n o p q r s t u v w a = b = c = d = e = f = g = h = i = j = k = l = m = n = o = p = q = r = s = t = u = v = w = Tabla 3-5: Matriz de confusión Naive Bayes sala general y especializada. Es el clasificador computacional más rápido y arrojó un correcta clasificación del 92.63%, con un error del 7.37%, por lo que es muy próximo al árbol de decisión. En las tablas 3-6 y 3-7 se visualiza la distribución por sala general y especifica. Tabla 3-6: Matriz de confusión Naive Bayes por sala general

129 Capítulo Tabla 3-7: Matriz de confusión Naive Bayes por sala especializada Realizando el análisis por el atributo días prestados da como resultado lo mostrado en la tabla 3-8, el sistema clasificó correctamente el % e incorrectamente el % Tabla 3-8: Matriz de confusión Naive Bayes por días prestados

130 114 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Agrupamiento El agrupamiento puede considerarse como la técnica de aprendizaje no supervisado más importante para encontrar patrones de comportamiento similares, Para el caso de estudio se utilizó el esquema de minería de datos para agrupamiento (DMCLUS), En la figura 3-24 se observa el modelo agrupamiento aplicado a la biblioteca y en la clase configuración se determina el número de cluster, datos de entrada, entre otros. Para el despliegue del caso de estudio a la biblioteca se aplicó la técnica de los k-medios con la herramienta WEKA, en razón del gran número de datos analizados. Para el efecto, se consideró una muestra de 5000 registros y, en atención a que la escala de los datos es categórica, el resultado de los clústeres es en términos de la moda. Figura 3-24: DMCLU del préstamo de la biblioteca

131 Capítulo El primer paso al aplicar la técnica fue determinar el número de clusters a considerar, para lo cual se realizaron 20 experimentos con diferente cantidad de clusters en un rango entre 2 y 20. En cada experimento se modificó la semilla con valores entre 10 y Se calculó el promedio de la suma de los cuadrados de los errores en cada experimento y con estos resultados se obtuvo el grafico de codo de la figura Figura 3-25: Gráfico de codo Diagrama de codo Error cuadrático Cluster Se realizó el análisis de la grafica tomándose 6 clusters como el número más apropiado para realizar el análisis detallado de los cluster. El resultado obtenido se puede ver la tabla 3-9. Tabla 3-9: Agrupamiento por medio del algoritmo K medoids Cluster No de instancia % de conjunto

132 116 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) El resultado de estos cluster, según la moda resultante y considerando los atributos nombre programa alumno, descripción préstamo, autor, nombre programa, título del libro y autor fueron los siguientes: Clúster 0 Clúster 1 Clúster 2

133 Capítulo Clúster 3 Clúster 4 Clúster 5 En la tabla 3-10 podemos ver la asociación de cada cluster con el atributo de clase de nuestro conjunto de datos (atributo ubicación y facultad solicitante).

134 118 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Tabla 3-10: Cluster por medio de asociación de atributos Cluster No de instancia % de conjunto Como se puede apreciar, los clusters 1 y 2 están relacionados con la sala 9, el clúster 3 con la sala 2 y los clusters 0 y 5 con la sala Pruebas Para este caso de estudio se realizaron varias etapas de validación en el sistema de inteligencia de negocios. En el componente de integración de datos se realizaron las pruebas de análisis de la fuente de datos, proceso de extracción carga y transformación entre la fuente de datos y el espacio temporal, y el espacio temporal y la bodega de datos. Luego se validó la carga de la tabla de hechos y las dimensiones. En el componente de análisis de datos se probó la generación del cubo dimensional y sus operaciones. Además se generaron los modelos de minería de datos basados en reglas de asociación, clasificación y agrupamiento. Los resultados fueron revisados y validados por parte de los administradores de la biblioteca. Por último, los modelos fueron validados y verificados por el experto de los datos para ser utilizados en el despliegue, como se enseña en la tabla 3-11.

135 Capítulo Tabla 3-11: casos de pruebas biblioteca central uan Nombre del casos de uso Prestamo del libro Proposito Responsable Edwar Javier Herrera Osorio Realizar la bodega de datos del Prestamo del libro Diseño casos de pruebas Ejecución ciclo 1 ID_CP FECHA PRECONDICIONES ESCENARIO PASOS POSCONDICIONES FECHA RESULTADOS CP_01 02/06/2010 Ninguna Selección de la muestra para el Selección de los datos análisis de datos. para la bodega de datos 02/06/2010 Pasó El espacio temporal Extracion carga y transformación de la bodega sin Carga del espacio 02/06/2010 de la fuente de datos al espacio datos, Motor servicio temporal temporal CP_02 de integración activo 02/06/2010 Pasó CP_03 CP_04 CP_05 CP_06 CP_07 02/06/2010 Motor servicio de integración activo Motor servicio de integración activo, 02/06/2010 Fecha de inicio y fin no nula Motor servicio de 02/06/2010 integración activo, el total de dias es > 0 Motor servicio de 02/06/2010 integración activo tablas de hechos y 09/06/2010 dimensiones alimentadas Extracion carga y transformación de la fuente de datos al espacio temporal La tabla de hecho es alimentada con el cálculo el total de días del préstamo del libro. La tabla de hecho es alimentada con el cálculo el total del valor de la multa. La tabla de hecho es alimentada con el cálculo del total libros Carga de la bodega de datos (Tablas de hechos y dimensiones) realiza la operación de fecha fin - fecha inicio correctamente realiza la operación de calcúlo multa realiza el conteo del prestamo Generación del cubo dimensional Cubo dimensional CP_08 09/06/2010 Cubo dimensional Análisis por técnica de minería de datos por reglas de asociación CP_09 16/06/2010 Cubo dimensional Análisis por técnica de minería de datos por clasificación CP_10 23/06/2010 Cubo dimensional Análisis por técnica de minería de datos por agrupamiento CP_11 Modelos de mineria 30/06/2010 de datos Bodega de Datos de la Biblioteca Central de la universidad Antonio Nariño Prestamo del libro Validacion por parte del experto de los datos Reglas de asociación Modelo de clasificación Los modelos de agrupamiento Generación correcta 02/06/2010 Pasó 02/06/2010 Pasó 02/06/2010 Pasó 02/06/2010 Pasó 09/06/2010 Pasó 09/06/2010 Pasó 16/06/2010 Pasó 23/06/2010 Pasó 30/06/2010 Pasó La aplicación de la metodología BIEP, en el caso en estudio, nos muestra su efectividad como mecanismo para la toma de decisiones, en tanto nos brinda los insumos informativos necesarios para el efecto. Así, considerando los resultados del análisis, se tiene que es necesario contar con mayor número de los libros que tienen mayor solicitud, como se muestra en los clusters 0 a 4. Adicionalmente, es claro que en la carrera de derecho los estudiantes acostumbran a solicitar mayor veces libros para su préstamo, por lo que es claro que en esta carrera debe tenerse un mayor número de textos, de suerte que supla los requerimientos de los estudiantes, y se garantice así la finalidad de la Universidad, como es servir de instrumento para la formación integral. Luego, en caso de requerir el cambio de libros por cambio de edición, será indispensable destinar mayores recursos a satisfacer las áreas anotadas en precedencia. Así mismo,

136 120 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) en el evento de que se quiera mejorar la atención de los estudiantes, es procedente comprar los libros de mayor demanda, garantizando así su disponibilidad en toda ocasión, considerando el volumen en que participa cada carrera sobre el total. Es de advertir que, estas conclusiones, fueron confirmada por los responsables del préstamo de libros en la biblioteca, quienes, en atención a su experiencia, ratificaron la necesidad de que exista mayor disponibilidad de material bibliográfico para los estudiantes de derecho y respecto a los textos referidos en el análisis realizado Mantenimiento Esta actividad se usa para definir nuevos requerimientos y aumentar su cantidad de despliegue. Esta etapa se realiza permanente y da comienzo a un nuevo proceso aplicando la metodología BIEP. 3.3 Implementación de BIEP en otras herramientas UML Para validar la utilización de los perfiles de UML de BIEP, se implemento el perfil DWCS en la herramienta Visual Paradigm for UML 8.1 Enterprise Edition la cual soporta UML 2.3 y permite definir los perfiles [46]. En la figura 77 observamos la implementación del perfil UML para la bodega de datos (DWCS) definido en el capítulo

137 Capítulo Figura 3-26: Perfil UML para bodega de datos en Visual Paradigm Para validar este perfil se implementó el esquema conceptual de la bodega de datos (DWCS) para el caso práctico de la biblioteca en sus tres niveles, como se muestra en la figura Figura 3-27: Diagrama DWCS del caso de estudio de la biblioteca en Visual Paradigm. Nivel 0 Nivel 1

138 122 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Nivel 2 Se observa, entonces, que la metodología BIEP se puede implementar en cualquier herramienta con soporte MOF, en cuanto esta es basada en el proceso unificado y en los perfiles UML 2.x, dándole una amplia utilización y estandarización para el desarrollo de sistemas de inteligencia de negocios. 3.4 Resumen Capítulo En este capítulo se hizo una descripción de la forma en que se diseñó y se desarrolló el prototipo de software para la aplicación de la metodología BIEP, basada en los perfiles y modelos planteados en el capítulo III. El desarrollo se hizo teniendo en cuenta las características básicas para su implementación y se consolidó en una plataforma de software libre: Eclipse Galileo Para la validación de BIEP se realizó el análisis de préstamo de los libros en la biblioteca central de la universidad Antonio Nariño. Se siguió el diagrama de actividades propuesto para el desarrollo de la metodología (figura 16). Se plasmó el modelo conceptual, lógico y físico para la bodega de datos para el préstamo de los libros realizados por parte de la biblioteca central. Además, se realizó el diseño conceptual OLAP y de técnicas de minería de datos para el análisis de datos.

139 Capítulo Estos modelos y esquemas dieron las bases para la implementación de la bodega de datos en un servidor Windows 2003 Server, con motor de base de datos SQL Server Para efectuar el proceso ETL se realizo por medio del servicio de integración que se encuentra inmerso en SQL Server versión estándar o superior y la validación por medio del caso de prueba. El proceso OLAP se desarrolló sobre el de servicio de análisis dado por SQL Server, generando un cubo dimensional. Con ello y por medio del servicio de reportes, se efectuaron los reportes de cada uno de los KPI y las consultas solicitadas por los usuarios finales, para ser visualizados por medio del componente adicionado al IIS de Microsoft. El proceso de análisis de datos por medio de técnica de minería de datos se realizó en la herramienta WEKA, donde se obtuvieron las reglas de asociación, las clases y agrupación de acuerdo con los algoritmos aplicados. Por último, se implementó el perfil UML DWCS de BIEP sobre el software Visual Paradigm for UML 8.1 Enterprise Edition la cual soporta UML 2.3 y permite definir perfiles UML, mostrando que BIEP se puede fácilmente implementar sobre cualquier herramienta que soporte MOF.

140

141 4. Conclusiones y recomendaciones 4.1 Conclusiones La investigación adelantada en la presente trabajo tesis ha tenido como objetivo proponer una metodología para el desarrollo de los sistemas de inteligencia negocios basada en el proceso unificado de software, denomina BIEP. Esta metodología desarrolló un conjunto de perfiles UML y modelos para la integración, análisis y despliegue de los datos, los cuales han sido implementados en una herramienta que permite dar soporte a las distintas fases y flujos de trabajo. El aprendizaje de BIEP se simplifica gracias al empleo de un lenguaje de modelado estándar (UML), además se ha dado una serie de pasos que guían su aplicación. Después de la explicación teórica de BIEP y de su validación en un caso en concreto, es posible concluir que esta tesis es un aporte al área de la inteligencia de negocios, por cuanto: Se efectuó una revisión del estado del arte sobre la integración, análisis y despliegue de los sistemas de inteligencia de negocios, actualizando los existentes con los últimos desarrollos en la materia y trayendo la discusión al contexto colombiano.

142 126 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Se proponen nuevos esquemas para el modelado conceptual y lógico para los sistemas de inteligencia de negocios, lo cual facilitará la actividad de las personas interesadas en su aplicación. Se actualizaron e integraron los perfiles y modelos propuestos en la metodología DWEP [24], así como los modelos conceptuales para el diseño de las diversas técnicas de minería de datos [47]. Se extendió el UML con perfiles específicos para el dominio de integración análisis y despliegue en los sistemas de inteligencia de negocios. Se desarrolló de un prototipo de software en forma de plug-in, el cual puede ser utilizado desde la versión Eclipse Ganymede o superior, para el desarrollo de la metodología BIEP, lo que garantiza su disponibilidad y la utilización abierta. Se implementó el perfil DWCS sobre un software comercial, mostrando que es posible que se implemente la metodología sobre herramientas que soporte MOF, aunque no se descarta la necesidad de efectuar validaciones adicionales con otros sistemas comerciales. Se validó la metodología mediante el desarrollo del sistema de inteligencia de negocios aplicado a la biblioteca central de la Universidad Antonio Nariño, para lo cual se desarrolló el proceso de integración de datos (bodega de datos) y el de análisis de datos por medio de técnica OLAP y de minería de datos, labor que finalmente fue confrontada frente a la opinión de los expertos encargados de la biblioteca. 4.2 Recomendaciones Este trabajo se puede continuar en diferentes líneas de investigación, ampliando su impacto y dándole nuevas áreas de desarrollo y mejoras, por lo que es posible que varios de los trabajos existentes sean estudiados a la luz de la presente metodología, lo cual podría evidencia su efectividad y mejora frente a los modelos existentes con antelación.

143 Conclusiones 127 A continuación se establece una lista de posibles trabajos futuros que pueden ser realizados: Una nueva versión del prototipo de software que genere automática el código para ser ejecutado en diversas herramientas de inteligencia de negocios. Validación y actualización de la metodología BIEP en el desarrollo de otros sistemas de inteligencia de negocios. Incorporar en el modelo de minería de datos herramientas de modelado conceptual para de técnicas de aprendizaje automático (machine learning) y reconocimiento de patrones (pattern recognition o matching). Realizar las métricas de calidad en el modelado en las técnicas de minería de datos. Ampliar el modelo a diseño de modelos geográficos (Bodegas de datos y minería a datos espaciales).

144

145 Anexo A: Casos de uso en formato extendido del caso de estudio A1. Casos de Uso Lista de diagramas: Nombre: Diagrama Requerimiento Casos Uso Diagrama: Diagrama Requerimiento Casos Uso formato extendido préstamo del libro Prestamo por fecha Prestamo por No Topografico Prestamos por salas <<extend>> <<extend>> <<extend>> Prestamos Libros <<extend>> Prestamo por tiulo de libro Administrador de la biblioteca <<extend>> <<extend>> Prestamo por facultad Prestamo por fecha, No topografico, titulo, salas, facultad Lista de actores: Nombre:

146 130 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Administrador de la biblioteca Lista de casos de uso Nombre Préstamo por título de libro Préstamo por facultad Préstamo por fecha Préstamo por fecha, ISBN, titulo, salas, facultad Préstamo por ISBN Préstamos Libros Préstamos por salas Caso de Uso: Préstamo por título de libro Nombre Préstamo por título de libro Pre-condición del Caso de Uso: Préstamo por título de libro Este proceso se realiza cada mes, trimestre, semestre y anual. El último día de cada mes. Paso de acciones del caso de uso: préstamo por título de libro

147 Anexo A. Casos de uso en formato extendido del caso de estudio y documento visión 131 Este caso de uso inicializa cuando el administrador de la biblioteca selecciona los libros prestados para ser analizados por título. La Bodega de datos determina el total de días del préstamo del libro por categorías, por medio de las dimensiones fecha, título. Post-condición del caso de uso: Préstamo por título de libro Se adiciona en la tabla de hecho préstamo de libro como puede ser actualizado Caso de Uso: Préstamo por facultad Nombre Préstamo por facultad Pre-condición de Caso de Uso: Préstamo por facultad Este proceso se realiza cada mes, trimestre, semestre y anual. El último día de cada mes. Paso de acciones del Caso de Uso: Préstamo por facultad Este caso de uso inicializa cuando el administrador de la biblioteca selecciona los libros prestados para ser analizados por facultad.

148 132 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) La Bodega de datos determina el total de días del préstamo del libro por categorías, por medio de las dimensiones fecha, la facultad solicitante del libro y del estudiante que solito el libro Post-condición de Caso de Uso: Préstamo por facultad Se adiciona en la tabla de hecho préstamo de libro para ser actualizado Caso de Uso: Préstamo por fecha Nombre Préstamo por fecha Pre-condición de Caso de Uso: Préstamo por fecha Este proceso se realiza cada mes, trimestre, semestre y anual. El último día de cada mes. Paso de acciones del caso de uso: Préstamo por fecha Se adiciona en la tabla de hecho préstamo de libro como puede ser actualizado por fecha. Este caso de uso inicializa cuando el administrador de la biblioteca selecciona los libros prestados para ser analizados

149 Anexo A. Casos de uso en formato extendido del caso de estudio y documento visión 133 La Bodega de datos determina el total de días del préstamo del libro por categorías, por medio de las dimensiones fecha. Post-condición de Caso de Uso: Préstamo por fecha Se adiciona en la tabla de hecho préstamo de libro para ser actualizado Caso de Uso: Préstamo por fecha, No topográfico, titulo, salas, facultad Nombre Préstamo por fecha, No topográfico, titulo, salas, facultad Pre-condición de Caso de Uso: Préstamo por fecha, No topográfico, titulo, salas, facultad Este proceso se realiza cada mes, trimestre, semestre y anual. El último día de cada mes. Paso de acciones del Caso de Uso: Préstamo por fecha, No topográfico, titulo, salas, facultad Este caso de uso inicializa cuando el administrador de la biblioteca selecciona los libros prestados para ser analizados por todos los criterios

150 134 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) La Bodega de datos determina el total de días del préstamo del libro por categorías, por medio de las dimensiones fecha, No topográfico, título, sala donde se ubica el libro, y la facultad solicitante del libro y del estudiante que solito el libro Post-condición de Caso de Uso: Préstamo por fecha, No topográfico, titulo, salas, facultad Se adiciona en la tabla de hecho préstamo de libro para ser actualizado Caso de Uso: Préstamo por No Topográfico Nombre Préstamo por No Topográfico Pre-condición de Caso de Uso: Préstamo por No Topográfico Este proceso se realiza cada mes, trimestre, semestre y anual. El último día de cada mes. Paso de acciones del caso de uso: Préstamo por No Topográfico Este caso de uso inicializa cuando el administrador de la biblioteca selecciona los libros prestados para ser analizados.

151 Anexo A. Casos de uso en formato extendido del caso de estudio y documento visión 135 La Bodega de datos determina el total de días del préstamo del libro por categorías, por medio de las dimensiones fecha, No topográfico. Post-condición de Caso de Uso: Préstamo por No Topográfico Se adiciona en la tabla de hecho préstamo de libro para ser actualizado Caso de Uso: Préstamos Libros Nombre Préstamos Libros Pre-condición de Caso de Uso: Préstamos Libros Este proceso se realiza cada mes, trimestre, semestre y anual. El último día de cada mes. Paso de acciones del Caso de Uso: Préstamos Libros Este caso de uso inicializa cuando el administrador de la biblioteca selecciona los libros prestados para ser analizados La Bodega de datos determina el total de días del préstamo del libro por categorías.

152 136 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Post-condición de Caso de Uso: Préstamos Libros Se adiciona en la tabla de hecho préstamo de libro para ser actualizado Caso de Uso: Préstamos por salas Nombre Préstamos por salas Pre-condición de Caso de Uso: Préstamos por salas Este proceso se realiza cada mes, trimestre, semestre y anual. El último día de cada mes. Paso de acciones del caso de uso: Préstamos por salas Se adiciona en la tabla de hecho préstamo de libro para ser actualizado. Este caso de uso inicializa cuando el administrador de la biblioteca selecciona los libros prestados para ser analizados La Bodega de datos determina el total de días del préstamo del libro por categorías, por medio de las dimensiones fecha, sala donde se ubica el libro.

153 Anexo A. Casos de uso en formato extendido del caso de estudio y documento visión 137 Post-condición de Caso de Uso: Préstamos por salas Se adiciona en la tabla de hecho préstamo de libro para ser actualizado A2. Documento visión Historial de Revisiones Fecha Versión Descripción Autor 01/02/ Propuesta inicial del documento Visión con las primeras capturas de requisitos funcionales del sistema. 02/02/ Versión 1.0 en estado de complementación para su aprobación. 03/02/ Versión 1.0 para la aprobación al final de la fase de inicio 16/03/ Versión 2.0 tras el fin de la fase de elaboración a falta de revisión por los usuarios finales de la Biblioteca 25/03/ Versión 2.0 modificada en la primera iteración de construcción. Pendiente revisión de usuarios finales de la Biblioteca. 25/04/ Versión modificada en la segunda iteración de construcción. Pendiente de revisión de usuarios finales de la Biblioteca. 02/06/ Versión revisada para la segunda iteración de construcción. Pendiente de validación usuarios finales de la biblioteca. Edwar Javier Herrera Osorio Edwar Javier Herrera Osorio Edwar Javier Herrera Osorio Edwar Javier Herrera Osorio Edwar Javier Herrera Osorio Edwar Javier Herrera Osorio Edwar Javier Herrera Osorio

154 138 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) INTRODUCCION Propósito El propósito de éste documento es recoger, analizar y definir las necesidades de alto nivel y las características del sistema de inteligencia de negocios de la biblioteca central de la universidad Antonio Nariño. El documento se centra en la funcionalidad requerida por los participantes en el proyecto y los usuarios finales. Esta funcionalidad se basa principalmente en el préstamo de libro que realiza la biblioteca central en sus diferentes salas. Los detalles de cómo el sistema cubre los requerimientos se pueden observar en la especificación de los casos de uso. Alcance El documento Visión se ocupa, como ya se ha apuntado, del sistema de inteligencia de negocios de la biblioteca central de la universidad Antonio Nariño. Dicho sistema será desarrollado por el Ing. Edwar Javier Herrera Osorio. El sistema permitirá a los encargados de la biblioteca tener la información y generación de informes relativo al préstamo de libros de la biblioteca central de la universidad Antonio Nariño. Referencias Diagrama de casos de uso. POSICIONAMIENTO Oportunidad de negocios Este sistema permitirá a la universidad llevar el control de todas sus actividades del préstamo del libro, lo cual supondrá un acceso rápido y sencillo a los datos. Además, los datos accedidos estarán actualizados cada semana, lo cual es un factor muy importante para poder llevar un control del préstamo de los libros.

155 Anexo A. Casos de uso en formato extendido del caso de estudio y documento visión 139 Sentencia que define el problema El problema de afecta a El impacto asociado es Una solución adecuada sería Realizar los informes y análisis de información sobre los préstamos de libros. Sugerir libros basado en los préstamos solicitados por los usuarios. Encontrar patrones entre las diversas dimensiones del conjunto de datos de la biblioteca para sugerir préstamos de libros. Usuarios que solicitan el préstamo de la biblioteca, Coordinador de la biblioteca, Decanos de cada facultad. Almacenar toda la información referente al préstamo de libro en una bodega de datos y realizar los reportes por medio de técnica OLAP y de minería de datos. Realizar la bodega de datos, usando una red local con una bodega de datos accesible desde los distintos nodos de la red y generar interfaces amigables y sencillas para alimentar la bodega de datos de los sistemas transaccionales y la generación de los reportes. Sentencia que define la posición del producto

156 140 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Para Usuarios que solicitan el préstamo de la biblioteca, Coordinador de la biblioteca, Decanos de cada facultad. Quienes El nombre del producto Que no como Nuestro producto Realizan los préstamos de los libros de biblioteca central. Es una herramienta software. Almacena la información necesaria para gestionar una empresa de distribución. El sistema actual. Permite gestionar las distintas actividades de la empresa mediante una interfaz gráfica sencilla y amigable. Además proporciona un acceso rápido y actualizado a la información desde cualquier punto que tenga acceso a la base de datos. DESCRIPCION DE PARTICIPANTES EN EL PROYECTO Y USUARIOS Para proveer de una forma efectiva productos y servicios que se ajusten a las necesidades de los usuarios, es necesario identificar e involucrar a todos los participantes en el proyecto como parte del proceso de modelado de requerimientos. También es necesario identificar a los usuarios del sistema y asegurarse de que el conjunto de participantes en el proyecto los representa adecuadamente. Esta sección muestra un perfil de los participantes y de los usuarios involucrados en el proyecto, así como los problemas más importantes que éstos perciben para enfocar la solución propuesta hacia ellos. No describe sus requisitos específicos ya que éstos se capturan mediante otro artefacto. En lugar de esto proporciona la justificación de por qué estos requisitos son necesarios. Resumen de Participantes

157 Anexo A. Casos de uso en formato extendido del caso de estudio y documento visión 141 Nombre Descripción Responsabilidades Edwar Javier Herrera Osorio Coordinador de la Biblioteca Representa a todos los usuarios posibles del sistema. Seguimiento del desarrollo del proyecto. Aprueba requisitos y funcionalidades Resumen de Usuarios Nombre Descripción Participante Usuario final de la biblioteca. Solicita el préstamo de los libros. Biblioteca Coordinador de la Biblioteca Realizar el control y auditoria de en el préstamo de libros de la universidad Biblioteca ENTORNOS DE USUARIO Los usuarios entrarán al sistema identificándose sobre un ordenador con un sistema operativo Windows XP o superior y tras este paso entrarán a la parte de aplicación diseñada para cada uno según su papel en la empresa. Este sistema es similar a cualquier aplicación Windows y por tanto los usuarios estarán familiarizados con su entorno. Los informes y reportes serán generados en ambientes WEB. Perfil de los Participantes Representante del área técnica y sistemas de información

158 142 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Representante Tipo Responsabilida des Criterio de Éxito Grado de participación Comentarios Edwar Javier Herrera Osorio Experto de Sistemas. Encargado de mostrar las necesidades de cada usuario del sistema. Además, lleva a cabo un seguimiento del desarrollo del proyecto y aprobación de los requisitos y funcionalidades del sistema A definir por el cliente Revisión de requerimientos, estructura del sistema Ninguno Perfiles de Usuario Coordinador de la biblioteca Representante Descripción Tipo Responsabilida des Criterio de Éxito Grado de participación Comentarios Biblioteca Coordinador de la biblioteca. Gurú. Responsable del préstamo y administración de la biblioteca central de la UAN. A definir por el cliente A definir por el cliente Ninguno

159 Anexo A. Casos de uso en formato extendido del caso de estudio y documento visión 143 Usuarios del sistema Representante Tipo Responsabilida des Criterio de Éxito Grado de participación Comentarios Biblioteca Usuario del sistema. Realizar los préstamos de los libros. A definir por el cliente A definir por el cliente Ninguno. DESCRIPCION GLOBAL DEL PRODUCTO Perspectiva del producto El producto a desarrollar es un sistema de inteligencia de negocios para la biblioteca central de la universidad Antonio Nariño. Resumen de características A continuación se mostrará un listado con los beneficios que obtendrá el cliente a partir del producto: Beneficio del cliente Generación de reportes OLAP basado en la bodega de datos Sugerir libros basado en los préstamos solicitados por los usuarios. Características que lo apoyan Aplicación web del cubo dimensional. Sistema siguiere los libros basado en el préstamo de libro al usuario. Encontrar patrones entre las diversas Encuentra los patrones de préstamos de

160 144 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) dimensiones del conjunto de datos de la biblioteca para sugerir préstamos de libros. la bodega de datos. Suposiciones y dependencias A definir por el cliente Costo y precio Costos Financieros Tiempo de Duración: 48 Semanas Fecha Inicio: 1 de Junio de 2009 Fecha finalización: 17 mayo de 2010 Costos Recursos Humanos Horas proyectadas Valor Hora Fuentes de Finaciación Costo Total Director 48 Horas $ UNAL * $ Investigador 1920 Horas $ Estudiante $ Subtotal $ Costos Tecnológicos Fuentes Finaciación de Costo Total Computadores Estudiante $ Subtotal $ Costos Administrativos Servicios Públicos Estudiante $ Papelería Estudiante $

161 Anexo A. Casos de uso en formato extendido del caso de estudio y documento visión 145 Subtotal $ Subtotal costos Proyecto $ Factor de administración 25% $ Costo total proyecto $ * Los costos ocasionados por el tiempo del director y el asesor ya están incluidos dentro de las actividades normales que desempeñan los profesores dentro de la universidad. OTROS REQUISITOS DEL PRODUCTO Estándares Aplicables Basado en la metodología BIEP Requisitos de Sistema Se debe ejecutar en plataformas en ambientes WEB Requisitos de Entorno Múltiples usuarios. C6.4 Requisitos de Documentación C6.4.1 Manual de Usuario Anexo B C6.4.2 Guías de Instalación, Configuración, y Archivo Léame Anexo B

162

163 Anexo B: Manual de usuario del prototipo de SW BIEP En este anexo se presenta el manual de usuario para el uso de los perfiles implementados para la aplicación de la metodología BIEP. Se ha utilizado Eclipse 2010 aunque funciona desde la versión Ganymene, en un entorno de desarrollo ampliamente conocido y que permite incorporar nuevos elementos adicionales o módulos (plug-ins) para adaptarse a dominios específicos de BIEP. GUIA DE USO BIEP se basa del proceso unificado y este utiliza perfiles del UML. B.1 Proceso General Para su uso en todos los diagramas utilizados en BIEP se debe seguir el siguiente proceso general: 1. En este caso iniciamos la versión eclipse de modelamiento. Una vez inicializado, creamos un nuevo proyecto. Este proyecto tiene la siguiente estructura: src, model y meta-inf. Figura 1. Creación proyecto eclipse.

164 148 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) 2. Nos ubicamos en la carpeta model y en esta ubicamos los siguiente archivos: Datacube.umlprofile, DMCLUS.umlprofile, DMSEL.umlprofile, dwcs.umlprofile, DWEPCasoUso.umlprofile, DWSS.umlprofile, ETLProcess.umlprofile, MDCl.umlprofile, MDRA.umlprofile, olapact.umlprofile, SPS_DWPS.umlprofile. 3. Creamos en la carpeta model una subcarpeta llamada Iconos y copiamos los iconos ubicados en el paquete de instalación que viene en el CD. En la figura 2 observamos cómo debe quedar esta estructura Figura 2. Estructura para funcionar BIEP

165 Anexo B. Manual de usuario del prototipo de SW BIEP y manual técnico Una vez creado esta estructura ya se pueden crear los 28 diagramas aplicados a BIEP. 5. Para todos los diagramas seleccionamos, hacemos un clic secundario en la carpeta model, seleccionamos New/Other como se puede ver en la figura 3. Figura 3. Estructura para funcionar BIEP 6. Luego seleccionamos UML 2.1 Diagrams y seleccionamos el tipo diagrama que necesitamos de acuerdo a la figura 4. Figura 4. Diagrama de UML en Eclipse

166 150 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) 7. En caso que se necesite seleccionar un perfil de UML el diagrama, realizamos clic secundario sobre el área de trabajo como se observa en la figura 5 y se selecciona el perfil deseado. Figura 5. Aplicar un perfil a un diagrama de UML en Eclipse 8. Por último a cada elemento del diagrama se le aplica el perfil deseado en la figura 6 se observa este procedimiento. Figura 6. Aplicar estereotipo a un elemento en un diagrama de UML en Eclipse

167 Anexo B. Manual de usuario del prototipo de SW BIEP y manual técnico 151 B2. Diagrama de casos de uso BIEP inicia su proceso con el desarrollo de los casos de uso para su creación. El proceso es el siguiente: 1. Arrancando del proceso general se selecciona Use Case Diagrams 2. Luego se procede a crear el diagrama, en la figura 8 observamos el caso de uso. Figura 8. Diagrama de caso de uso B3. Diagrama: SCS Y SLS El proceso es el siguiente: 1. Arrancando del proceso general se selecciona Class Diagrams 2. Luego se procede a crear el diagrama, en la figura 9 observamos diagrama de clase.

168 152 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Figura 9. SCS B4.Diagramas: SLOS y DWOS Estos diagramas son instancia de las clases para estos se realiza el siguiente proceso: 1. Arrancando del proceso general se selecciona ODDW Diagrams, En la figura 10 se observa la creación de este diagrama. Figura 10. ODDW Diagrams 2. Luego se procede a crear el diagrama, en la figura 11 observamos el DWLOS. Figura 11. ODDW Diagrams

169 Anexo B. Manual de usuario del prototipo de SW BIEP y manual técnico 153 B5. Diagramas: SPS y DWSP El proceso es el siguiente: 1. Arrancando del proceso general se selecciona Deployment Diagrams 2. Luego se procede a crear el diagrama, en la figura 12 observamos diagrama de despliegue y aplicamos el perfil para este diagrama y aplicamos el estereotipo a cada elemento en este caso seleccionamos el perfil SPS_DWSP Figura 12. SPS

170 154 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) B6. Diagramas: DWCS y DWLS El proceso es el siguiente: 1. Arrancando del proceso general se selecciona Class Diagrams 2. Luego se procede a crear el diagrama, en la figura 13 observamos diagrama de clases y aplicamos el perfil para este diagrama y aplicamos el estereotipo a cada elemento en este caso seleccionamos el perfil DWCS Figura 13. DWLS B7.Diagrama DATA MAPING El proceso es el siguiente: 1. Arrancando del proceso general se selecciona Class Diagrams

171 Anexo B. Manual de usuario del prototipo de SW BIEP y manual técnico Luego se procede a crear el diagrama, en la figura 14 observamos diagrama de clase y aplicamos el perfil para este diagrama y aplicamos el estereotipo a cada elemento en este caso seleccionamos el perfil ETLProcess Figura 14. Data Maping B8. Diagrama de análisis, selección y transformación de datos en el proceso de minería de datos El proceso es el siguiente: 1. Arrancando del proceso general se selecciona Class Diagrams 2. Luego se procede a crear el diagrama, en la figura 15 observamos diagrama de clase y aplicamos el perfil para este diagrama y aplicamos el estereotipo a cada elemento en este caso seleccionamos el perfil DMSEL Figura 15. Diagrama de selección de datos en el proceso de minería de datos

172 156 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) B9. Diagrama de agrupamiento en el proceso de minería de datos El proceso es el siguiente: 1. Arrancando del proceso general se selecciona Class Diagrams 2. Luego se procede a crear el diagrama, en la figura 16 observamos diagrama de clase y aplicamos el perfil para este diagrama y aplicamos el estereotipo a cada elemento en este caso seleccionamos el perfil DMSCLUS Figura 16. Diagrama de agrupamiento en el proceso de minería de datos B10. Diagrama de reglas de asociación en el proceso de minería de datos El proceso es el siguiente: 1. Arrancando del proceso general se selecciona Class Diagrams 2. Luego se procede a crear el diagrama, en la figura 17 observamos diagrama de clase y aplicamos el perfil para este diagrama y aplicamos el estereotipo a cada elemento en este caso seleccionamos el perfil DMSRAS

173 Anexo B. Manual de usuario del prototipo de SW BIEP y manual técnico 157 Figura 17. Diagrama de reglas de asociación en el proceso de minería de datos B11. Diagrama de clasificación en el proceso de minería de datos El proceso es el siguiente: 1. Arrancando del proceso general se selecciona Class Diagrams 2. Luego se procede a crear el diagrama, en la figura 18 observamos diagrama de clase y aplicamos el perfil para este diagrama y aplicamos el estereotipo a cada elemento en este caso seleccionamos el perfil DMCLS

174 158 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Figura 18. Diagrama de clasificación en el proceso de minería de datos B12. Diagrama DWAS El proceso es el siguiente: 1. Arrancando del proceso general se selecciona Activity Diagrams 2. Luego se procede a crear el diagrama, en la figura 19 observamos diagrama de actividad. Figura 19. DWAS

175 Anexo B. Manual de usuario del prototipo de SW BIEP y manual técnico 159 B13. Diagrama ETL El proceso es el siguiente: 1. Arrancando del proceso general se selecciona Class Diagrams 2. Luego se procede a crear el diagrama, en la figura 19 observamos diagrama de clase y aplicamos el perfil para este diagrama y aplicamos el estereotipo a cada elemento en este caso seleccionamos el perfil ETLProcess Figura 19. Diagrama ETL

176 160 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) B14. IMPLEMENTACION DEL PROTOTIPO DE SW BIEP En este anexo se presenta la implementación de los perfiles y modelos para BIEP. Se ha utilizado Eclipse que proporciona un entorno de modelado que está integrado en la herramienta Eclipse Modeling Framework (EMF) (The Eclipse Foundation 2009), y que constituye el núcleo de una herramienta de gestión de modelos. EMF es un entorno de modelado que permite la generación de código, para construir herramientas y otras aplicaciones basados en un modelo de datos estructurado. EMF es una implementación en Eclipse de Meta-Object Facility (MOF) que es un metalenguaje o metamodelo. Actualmente existe el módulo necesario para implementar los diagramas con UML 2.0 en Eclipse denominando UML2. UML permite ser extendido mediante perfiles para especializar el modelo genérico propio de UML. Dichas extensiones de UML se pueden implementar en Eclipse como plug-ins. Esta es la forma en que se ha implementado la herramienta para el diseño de los diversos diagramas que soportan la metodología BIEP. Se han creado el plug-in que da soporte desde la etapa de requerimientos hasta el producto final de proceso de inteligencia de negocios. Este prototipo de software se integra dentro del marco de Eclipse como un módulo implementado sobre los plug-ins de EMF y UML2. Los plug-in desarrollados para la metodología BIEP denominados: MDRA, MDCL, DMSL, DMCLUS, OLAPACT, ETLPROCESS, DWSS, DWCS, DATACUBE, SPS_DWPS y DWEPCasoUso. En la Figura 20 los perfiles definidos están marcados en azul y sus dependencias con negro. A continuación se describen la implementación de cada uno de los perfile. B15. Perfil de técnica de minería de datos de reglas de asociación (MDRA) Este perfil se utiliza para realizar la técnica de minería de datos por clasificación sobre un modelo de análisis, selección y transformación de datos. Los elementos que incorpora el perfil denominado MDRA son: estereotipos de clase ConfigRA, ResultRA, MinigRA, MiningAttribute, Case, in y prediction. La figura 21

177 Anexo B. Manual de usuario del prototipo de SW BIEP y manual técnico 161 muestra los elementos que componen el perfil para las reglas de asociación. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en árbol de Eclipse. Para simplificar la vista y así poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Por ejemplo se pueden ver desplegados los atributos del estereotipo de clase ConfigRA: máximo de soporte, filtros entre otros. Figura 20. Perfiles UML BIEP Figura 21. Perfil MDRA

178 162 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) B16. Perfil de técnica de minería de datos de clasificación (MDCL) Este perfil se utiliza para realizar la técnica de minería de datos por clasificación sobre un modelo de análisis, selección y transformación de datos. Los elementos que incorpora el perfil denominado MDCL son: estereotipos de clase: MiningAttribute, MiningClassification, ConfigurationSetting, Case, In Prediction, ModelClassification, Resultclassifications. La Figura 22 se observa los elementos que componen el perfil para clasificación. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en árbol de Eclipse. Para simplificar la vista y así poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Figura 22. Estructura para funcionar BIEP B17. Perfil de análisis, selección y transformación de datos para minería de datos (DMSEL) Este perfil se utiliza para realizar el análisis, selección y transformación de un modelo multidimensional y aplicar la técnica de minería de datos deseada. Los elementos que incorpora el perfil denominado DMSEL son: estereotipos de clase: Histograma, Dispersion, GrafBox, Analisi_Explora entre otros. La Figura 23 se observa los elementos que componen el perfil para análisis, selección y transformación de datos para aplicar la técnica de minería de datos. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en árbol de Eclipse. Para

179 Anexo B. Manual de usuario del prototipo de SW BIEP y manual técnico 163 simplificar la vista y así poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Figura 23. Perfil DMSEL B18. Perfil de técnica de minería de datos de agrupamiento (DMCLUS) Este perfil se utiliza para realizar la técnica de minería de datos por agrupamiento sobre un modelo de análisis, selección y transformación de datos. Los elementos que incorpora el perfil denominado DMCLUS son: estereotipos de clase: Clustering, Attribute, in, case entre otros. La Figura 24 se observa los elementos que componen el perfil para realizar agrupamiento. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en árbol de Eclipse. Para simplificar la vista y así poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados.

180 164 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Figura 24. Perfil DMCLUS B19. Perfil para técnica OLAP (OLAPACT) Este perfil se utiliza para realizar la técnica de minería de datos por agrupamiento sobre un modelo de análisis, selección y transformación de datos. Los elementos que incorpora el perfil denominado OLAPACT son las operaciones básicas que se realizan sobre el cubo OLAP: slice by, roll up, entre otros. La Figura 25 se observa los elementos que componen el perfil para realizar la técnica OLAP. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en árbol de Eclipse. Para simplificar la vista y así poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Figura 25. Perfil OLAP

181 Anexo B. Manual de usuario del prototipo de SW BIEP y manual técnico 165 B20. Perfil proceso ETL (ETLPROCESS) Este perfil se utiliza para realizar el proceso de extracción, transformación y carga de la bodega de datos. Los elementos que incorpora el perfil denominado ETLPROCESS son: dim, fact, filter, log, join entre otros. La Figura 26 se observa los elementos que componen el perfil para realizar el proceso ETL. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en árbol de Eclipse. Para simplificar la vista y así poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Figura 26. Perfil ETLProcess B21. Perfil secuencia en la bodega de datos (DWSS) Este perfil se utiliza para realizar el proceso de secuencia de la bodega de datos. Los elementos que incorpora el perfil denominado DWSS son: tableds, FileDS, TableDW, entre otros. La Figura 27 se observa los elementos que componen el perfil para realizar la secuencia en la bodega de datos. Los atributos de los estereotipos

182 166 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) creados aparecen desplegados en el panel principal del editor en árbol de Eclipse. Para simplificar la vista y así poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Figura 27. Perfil DWSS B22. Perfil modelo conceptual y lógico de la bodega de datos (DWCS) Este perfil se utiliza para realizar el diseño conceptual y lógico de la bodega de datos. Los elementos que incorpora el perfil denominado DWCS son: paqueteestrella, paquetefact, dimentions, entre otros. La Figura 28 se observa los elementos que componen el perfil para realizar el modelo conceptual y lógico. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en árbol de Eclipse. Para simplificar la vista y así poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Figura 28. Perfil DWCS

183 Anexo B. Manual de usuario del prototipo de SW BIEP y manual técnico 167 B23. Perfil diseño del cubo dimensional (DATACUBE) Este perfil se utiliza para realizar el diseño conceptual del cubo dimensional. Los elementos que incorpora el perfil denominado DataCube son: Cell, Axis, CellMember, entre otros. La Figura 29 se observa los elementos que componen el perfil para realizar el cubo dimensional. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en árbol de Eclipse. Para simplificar la vista y así poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Figura 29. Perfil DataCube B24. Perfil diseño físico de la bodega de datos (SPS_DWPS) Este perfil se utiliza para realizar el diseño físico de la fuente de datos y de la bodega de datos. Los elementos que incorpora el perfil denominado SPS_DWPS son: Server, Client, disk, entre otros. La Figura 30 se observa los elementos que componen el perfil para realizar el diseño físico. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en árbol de Eclipse. Para simplificar la vista y así poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados.

184 168 Metodología para el desarrollo de un sistema de inteligencia de negocios (BIEP) Figura 30. Perfil SPS_DWSP B25. Perfil diseño de los casos de uso (DWEPCASEUSE) Este perfil se utiliza para realizar los requerimientos en la bodega de datos. Los elementos que incorpora el perfil denominado DWEPCASEUSE son: UsuariosFinales y AdministradoresDW. La Figura 31 se observa los elementos que componen el perfil para realizar el diseño de los casos de uso. Los atributos de los estereotipos creados aparecen desplegados en el panel principal del editor en árbol de Eclipse. Para simplificar la vista y así poder mostrar todos los estereotipos no se han desplegado todas las propiedades de todos los estereotipos creados. Figura 31. Perfil DWEPCASEUSE

Diseño de un Almacén de datos basado en Data Warehouse Engineering Process (DWEP) y HEFESTO

Diseño de un Almacén de datos basado en Data Warehouse Engineering Process (DWEP) y HEFESTO Diseño de un Almacén de datos basado en Data Warehouse Engineering Process (DWEP) y HEFESTO Castelán García Leopoldo, Ocharán Hernández Jorge Octavio Maestría en Ingeniería de Software, Facultad de Estadística

Más detalles

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN.

CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. SISTEMA EDUCATIVO inmoley.com DE FORMACIÓN CONTINUA PARA PROFESIONALES INMOBILIARIOS. CURSO/GUÍA PRÁCTICA GESTIÓN EMPRESARIAL DE LA INFORMACIÓN. Business Intelligence. Data Mining. PARTE PRIMERA Qué es

Más detalles

Ingeniería de Software con UML Unified Modeling Language Lenguaje Unificado de Modelado

Ingeniería de Software con UML Unified Modeling Language Lenguaje Unificado de Modelado Ingeniería de Software con UML Unified Modeling Language Lenguaje Unificado de Modelado 1. Introducción Unified Modeling Languaje Fuente: Booch- Jacobson-Rumbauch y diversos sitios Internet, entre otros:

Más detalles

DESARROLLO E IMPLANTANCIÓN DE UN SISTEMA ACADEMICO PARA EL ICM

DESARROLLO E IMPLANTANCIÓN DE UN SISTEMA ACADEMICO PARA EL ICM DESARROLLO E IMPLANTANCIÓN DE UN SISTEMA ACADEMICO PARA EL ICM Sergio Bauz Olvera 1, Washington Jama 2 1 Ingeniero en Estadística e Informática 2003 2 Director de Tesis de Grado, Ing. Washington Jama.

Más detalles

v.1.0 Clase 1 Docente: Gustavo Valencia Zapata

v.1.0 Clase 1 Docente: Gustavo Valencia Zapata v.1.0 Clase 1 Docente: Gustavo Valencia Zapata Temas Clase 1: Introducción a la Inteligencia de Negocios Hitos y personajes Arquitectura de BI Evolución de la Información Inteligencia de Negocios (BI)

Más detalles

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA

SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA SISTEMAS DE INFORMACION GERENCIAL LIC.PATRICIA PALACIOS ZULETA Qué es inteligencia de negocios? (BI) Business Intelligence es la habilidad para transformar los datos en información, y la información en

Más detalles

La Necesidad de Modelar. Diseño de Software Avanzado Departamento de Informática

La Necesidad de Modelar. Diseño de Software Avanzado Departamento de Informática La Necesidad de Modelar Analogía Arquitectónica Tiene sentido poner ladrillos sin hacer antes los planos? El modelo, los planos, ayuda a afrontar la complejidad del proyecto. Cuál es el lenguaje adecuado

Más detalles

Metodología de Ingeniería del Software para el desarrollo y mantenimiento de sistemas de información del Gobierno de Extremadura

Metodología de Ingeniería del Software para el desarrollo y mantenimiento de sistemas de información del Gobierno de Extremadura Metodología de Ingeniería del Software para el desarrollo y mantenimiento de sistemas de información del Gobierno de Extremadura Página 1 de 23 Índice del Documento 1.- Introducción... Página 4 2.- Propuesta

Más detalles

Programación orientada a

Programación orientada a Programación orientada a objetos con Java Pedro Corcuera Dpto. Matemática Aplicada y Ciencias de la Computación Universidad de Cantabria corcuerp@unican.es Objetivos Presentar los conceptos de la programación

Más detalles

SET (Software Engineering Tutor). Una herramienta para la construcción guiada de modelos de dominio

SET (Software Engineering Tutor). Una herramienta para la construcción guiada de modelos de dominio SET (Software Engineering Tutor). Una herramienta para la construcción guiada de modelos de dominio Arturo Cepeda Pérez, Sergio Bravo Martín, Francisco José García Peñalvo Universidad de Salamanca, Facultad

Más detalles

Inteligencia de Negocios Introducción. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS

Inteligencia de Negocios Introducción. Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Inteligencia de Negocios Introducción Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Agenda 1.Introducción 2.Definición 3.ETL 4.Bodega de Datos 5.Data Mart

Más detalles

El Proceso Unificado de Desarrollo de Software

El Proceso Unificado de Desarrollo de Software El Proceso de Desarrollo de Software Ciclos de vida Métodos de desarrollo de software El Proceso Unificado de Desarrollo de Software 1 Fases principales del desarrollo de software Captura de requisitos:

Más detalles

Licencia GNU FDL. Detalle del cambio. Ing. Bernabeu Ricardo Dario, Ing. García Mattío Mariano Alberto. Versión incial. 05/11/2009

Licencia GNU FDL. Detalle del cambio. Ing. Bernabeu Ricardo Dario, Ing. García Mattío Mariano Alberto. Versión incial. 05/11/2009 Licencia GNU FDL Copyright 2009 Ing. Bernabeu Ricardo Dario, Ing. García Mattío Mariano Alberto. Se otorga permiso para copiar, distribuir y/o modificar este documento bajo los términos de la Licencia

Más detalles

Botón menú Objetivo de la Minería de datos.

Botón menú Objetivo de la Minería de datos. Titulo de Tutorial: Minería de Datos N2 Botón menú: Introducción. Las instituciones y empresas privadas coleccionan bastante información (ventas, clientes, cobros, pacientes, tratamientos, estudiantes,

Más detalles

Gerencia de Procesos de Negocio (Business Process Management, BPM). Lic. Patricia Palacios Zuleta

Gerencia de Procesos de Negocio (Business Process Management, BPM). Lic. Patricia Palacios Zuleta Gerencia de Procesos de Negocio (Business Process Management, BPM). Lic. Patricia Palacios Zuleta (Business Process Management, BPM). La Gerencia de los Procesos del Negocio: Se define como: "integración

Más detalles

Alicia Iriberri Dirección de Tecnologías de Información. I.- Definición del foco estratégico

Alicia Iriberri Dirección de Tecnologías de Información. I.- Definición del foco estratégico Alicia Iriberri Dirección de Tecnologías de Información I.- Definición del foco estratégico II.- Establecimiento de mediciones a través del Balanced Scorecard (Tablero de Comando) III.- Despliegue del

Más detalles

BUSINESS INTELLIGENCE SYSTEMS (BIS)

BUSINESS INTELLIGENCE SYSTEMS (BIS) SEMINARIO BUSINESS INTELLIGENCE SYSTEMS (BIS) Una nueva filosofía de Management cuyo objetivo consiste en... Capturar, diseminar y reusar el conocimiento disperso que poseen las organizaciones y que junto

Más detalles

Cátedra: BI Business Intelligence. Asignatura BI Business Intelligence Ciclo Lectivo 2012 Vigencia del Ciclo lectivo 2012.

Cátedra: BI Business Intelligence. Asignatura BI Business Intelligence Ciclo Lectivo 2012 Vigencia del Ciclo lectivo 2012. Asignatura BI Business Intelligence Ciclo Lectivo 2012 Vigencia del Ciclo lectivo 2012 programa Plan 2008 Área Complementaria Carga horaria semanal Anual/ cuatrimestral Coordinador de Cátedra Objetivos

Más detalles

Rational Unified Process (RUP)

Rational Unified Process (RUP) Rational Unified Process (RUP) Este documento presenta un resumen de Rational Unified Process (RUP). Se describe la historia de la metodología, características principales y estructura del proceso. RUP

Más detalles

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP

Minería de Datos JESÚS ANTONIO GONZÁLEZ BERNAL. Universidad UPP Universidad Politécnica de Puebla UPP JESÚS ANTONIO GONZÁLEZ BERNAL 1 2 Evolución de la Tecnología BD 1960 s y antes Creación de las BD en archivos primitivos 1970 s hasta principios de los 1980 s BD Jerárquicas

Más detalles

Módulo Minería de Datos

Módulo Minería de Datos Módulo Minería de Datos Diplomado Por Elizabeth León Guzmán, Ph.D. Profesora Ingeniería de Sistemas Grupo de Investigación MIDAS Análsis Dimensional OLAP On-Line Analytical Processing Estructura del Proceso

Más detalles

INTELIGENCIA DE NEGOCIOS

INTELIGENCIA DE NEGOCIOS INTELIGENCIA DE NEGOCIOS En tiempos de incertidumbre financiera, la toma de decisiones basada en información es crucial para sobrevivir en el mundo de los negocios. Empresas de todas las industrias dependen

Más detalles

LOS CINCO GRADOS DE MADUREZ DE UN PROYECTO BI

LOS CINCO GRADOS DE MADUREZ DE UN PROYECTO BI LOS CINCO GRADOS DE MADUREZ DE UN PROYECTO BI INTRODUCCIÓN Se habla en multitud de ocasiones de Business Intelligence, pero qué es realmente? Estoy implementando en mi organización procesos de Business

Más detalles

El almacén de indicadores de proceso de negocio en ejecución

El almacén de indicadores de proceso de negocio en ejecución X Congreso de Ingeniería de Organización Valencia, 7 y 8 de septiembre de 2006 El almacén de indicadores de proceso de negocio en ejecución Andrés Boza García 1, Angel Ortiz Bas 1, Llanos Cuenca Gonzalez

Más detalles

Enterprise Architect y UML Basic

Enterprise Architect y UML Basic Enterprise Architect y UML Basic Diciembre 2008 Carlos Alexander Zuluaga Agenda Presentación del curso. Introducción a Enterprise Architect. Exploración del modelo de ejemplo. Introducción a UML. Definición

Más detalles

Sistema de análisis de información. Resumen de metodología técnica

Sistema de análisis de información. Resumen de metodología técnica Sistema de análisis de información Resumen de metodología técnica Tabla de Contenidos 1Arquitectura general de una solución de BI y DW...4 2Orígenes y extracción de datos...5 2.1Procesos de extracción...5

Más detalles

SQL Server Business Intelligence parte 1

SQL Server Business Intelligence parte 1 SQL Server Business Intelligence parte 1 Business Intelligence es una de las tecnologías de base de datos más llamativas de los últimos años y un campo donde Microsoft ha formado su camino a través de

Más detalles

PONTIFICIA UNIVERSIDAD CATÓLICA DEL ECUADOR FACULTAD DE INGENIERÍA ESCUELA DE SISTEMAS DISERTACIÓN DE TESIS PREVIO A LA OBTENCIÓN DEL TÍTULO DE

PONTIFICIA UNIVERSIDAD CATÓLICA DEL ECUADOR FACULTAD DE INGENIERÍA ESCUELA DE SISTEMAS DISERTACIÓN DE TESIS PREVIO A LA OBTENCIÓN DEL TÍTULO DE PONTIFICIA UNIVERSIDAD CATÓLICA DEL ECUADOR FACULTAD DE INGENIERÍA ESCUELA DE SISTEMAS DISERTACIÓN DE TESIS PREVIO A LA OBTENCIÓN DEL TÍTULO DE INGENIERO EN SISTEMAS GUÍA PARA IMPLEMENTAR UNA SOLUCION

Más detalles

SQL SERVER 2008 R2 BI 07/07/2010 BUSINESS INTELLIGENCE

SQL SERVER 2008 R2 BI 07/07/2010 BUSINESS INTELLIGENCE Todo en la vida comienza con código VII Encuentro Desarrolladores Microsoft BUSINESS INTELLIGENCE Ana María Bisbé York Servicios Profesionales VII Encuentro Desarrolladores Microsoft Todo en la vida comienza

Más detalles

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre:

DES: Programa(s) Educativo(s): Tipo de materia: Clave de la materia: Semestre: : : lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. lemas propios de la. 12 6 lemas propios de la. 12 6 lemas propios de la.

Más detalles

2796 Designing an Analysis Solution Architecture Using Microsoft SQL Server 2005 Analysis Services

2796 Designing an Analysis Solution Architecture Using Microsoft SQL Server 2005 Analysis Services 2796 Designing an Analysis Solution Architecture Using Microsoft SQL Server 2005 Analysis Services Introducción El propósito de este curso de tres días impartido por instructor es de enseñar profesionales

Más detalles

UML El Lenguaje de Modelado Unificado. Maestría en Ingeniería de Software

UML El Lenguaje de Modelado Unificado. Maestría en Ingeniería de Software UML El Lenguaje de Modelado Unificado Maestría en Ingeniería de Software Agenda Model Driven Architecture (MDA) Unified Model Language (UML) Object Constraint Language (OCL) Patrones Conclusiones Contenido

Más detalles

1 GLOSARIO. Actor: Es un consumidor (usa) del servicio (persona, sistema o servicio).

1 GLOSARIO. Actor: Es un consumidor (usa) del servicio (persona, sistema o servicio). 1 GLOSARIO A continuación se definen, en orden alfabético, los conceptos básicos que se han abordado a lo largo del desarrollo de la metodología para la gestión de requisitos bajo la Arquitectura Orientada

Más detalles

SISTEMA DE INFORMACION DE GESTION DE TARJETAS DE CREDITO USANDO DATA MART E INTELIGENCIA DE NEGOCIOS PARA EL AREA COMERCIAL DEL BANCO RIPLEY PERU

SISTEMA DE INFORMACION DE GESTION DE TARJETAS DE CREDITO USANDO DATA MART E INTELIGENCIA DE NEGOCIOS PARA EL AREA COMERCIAL DEL BANCO RIPLEY PERU SISTEMA DE INFORMACION DE GESTION DE TARJETAS DE CREDITO USANDO DATA MART E INTELIGENCIA DE NEGOCIOS PARA EL AREA COMERCIAL DEL BANCO RIPLEY PERU AGENDA INTRODUCCION PLANTEAMIENTO METODOLOGICO ANTECEDENTES

Más detalles

CAPÍTULO 2 DATA WAREHOUSES

CAPÍTULO 2 DATA WAREHOUSES CAPÍTULO 2 DATA WAREHOUSES Un Data Warehouse (DW) es un gran repositorio lógico de datos que permite el acceso y la manipulación flexible de grandes volúmenes de información provenientes tanto de transacciones

Más detalles

Cuáles son algunos de los padecimientos que enfrentan las empresas hoy día?

Cuáles son algunos de los padecimientos que enfrentan las empresas hoy día? Qué es Inteligencia de Negocios? Una interesante definición para inteligencia de negocios o BI, por sus siglas en inglés, según el Data Warehouse Institute, lo define como la combinación de tecnología,

Más detalles

Curso: El Proceso de Desarrollo de Software

Curso: El Proceso de Desarrollo de Software Curso: El Proceso de Desarrollo de Software EL PROCESO DE DESARROLLO DE SOFTWARE... 1 OBJETIVO...1 CONTENIDO...1 BIBLIOGRAFÍA...4 DOCENTE...4 MODALIDAD DEL DESARROLLO...4 El proceso de Desarrollo de Software

Más detalles

SÍLABO DEL CURSO DE INTELIGENCIA DE NEGOCIOS

SÍLABO DEL CURSO DE INTELIGENCIA DE NEGOCIOS SÍLABO DEL CURSO DE INTELIGENCIA DE NEGOCIOS I. INFORMACIÓN GENERAL 1.1. Facultad : Ingeniería 1.2. Carrera Profesional : Ingeniería en Sistemas Computacionales 1.3. Departamento ------------------------------

Más detalles

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMÉRICA) SYLLABO

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMÉRICA) SYLLABO UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMÉRICA) FACULTAD DE INGENIERIA DE SISTEMAS E INFORMATICA Escuela Académico Profesional de Ingeniería de Sistemas 1. ESPECIFICACIONES

Más detalles

Ingeniería de Software

Ingeniería de Software Ingeniería de Software MSDN Ingeniería de Software...1 Ingeniería del Software_/_ Ingeniería y Programación...1 Análisis de Requerimientos...2 Especificación...3 Diseño...4 Desarrollo en Equipo...5 Mantenimiento...6

Más detalles

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003

MINERÍA DE DATOS. Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE. Octubre - 2003 MINERÍA DE DATOS Teleprocesos y Sistemas Distribuidos Licenciatura en Sistemas de Información FACENA - UNNE Octubre - 2003 CONTENIDO Qué es Data Warehousing Data Warehouse Objetivos del Data Warehouse

Más detalles

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net

Proyecto técnico MINERÍA DE DATOS. Febrero 2014. www.osona-respon.net info@osona-respon.net Proyecto técnico MINERÍA DE DATOS Febrero 2014 www.osona-respon.net info@osona-respon.net 0. Índice 0. ÍNDICE 1. INTRODUCCIÓN... 2 2. LOS DATOS OCULTOS... 3 2.1. Origen de la información... 3 2.2. Data

Más detalles

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda

Inteligencia en Redes de Comunicaciones. Tema 7 Minería de Datos. Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda Inteligencia en Redes de Comunicaciones Tema 7 Minería de Datos Julio Villena Román, Raquel M. Crespo García, José Jesús García Rueda {jvillena, rcrespo, rueda}@it.uc3m.es Índice Definición y conceptos

Más detalles

Clase 1 Módulo: Data Warehouse & Datamart Docente: Gustavo Valencia Zapata

Clase 1 Módulo: Data Warehouse & Datamart  Docente: Gustavo Valencia Zapata v.1.0 Clase 1 Docente: Gustavo Valencia Zapata Temas Clase 1: El Rol de TI en BI BI Retos de TI en BI Evolución de la Información Arquitectura de BI Referencias www.gustavovalencia.com Evolución de la

Más detalles

BPMN vs UML. Los Requerimientos y el Modelo del Negocio. Autor: Norberto Figuerola

BPMN vs UML. Los Requerimientos y el Modelo del Negocio. Autor: Norberto Figuerola BPMN vs UML Autor: Norberto Figuerola Los Requerimientos y el Modelo del Negocio Normalmente, siempre que iniciamos un esfuerzo de desarrollo de software éste tiene como objetivo automatizar procesos del

Más detalles

Wonder OLAP Server solución OLAP de libre disposición.

Wonder OLAP Server solución OLAP de libre disposición. Wonder OLAP Server solución OLAP de libre disposición. Autores: Ing. Sandro Martínez Folgoso, Ing. Jorge Recio Capote e Ing. Eduardo Rodríguez Reyes. Departamento de Computación, Universidad de Camagüey,

Más detalles

Facultad de Ingeniería y Tecnología Informática Licenciatura en Sistemas de Información Plan: 2012 Ciclo: 2014 Programa Analítico Base de Datos II

Facultad de Ingeniería y Tecnología Informática Licenciatura en Sistemas de Información Plan: 2012 Ciclo: 2014 Programa Analítico Base de Datos II 1. OBJETIVOS: Lograr que los alumnos conozcan los componentes y la arquitectura de las bases de datos relacionales. Brindar un curso internacionalmente actualizado respecto del ámbito académico, así como

Más detalles

Interacción Persona - Ordenador

Interacción Persona - Ordenador Interacción Persona - Ordenador Diseño de la interfaz en la Ingeniería del Software Dr. Pedro Latorre Dra. Sandra Baldassarri Dra. Eva Cerezo Ingeniería del Software Ingeniería del Software: Definición

Más detalles

DESARROLLO DE UNA APLICACIÓN DE BUSINESS INTELLIGENCE (BI) PARA LA EMPRESA EMPAQPLAST

DESARROLLO DE UNA APLICACIÓN DE BUSINESS INTELLIGENCE (BI) PARA LA EMPRESA EMPAQPLAST DESARROLLO DE UNA APLICACIÓN DE BUSINESS INTELLIGENCE (BI) PARA LA EMPRESA EMPAQPLAST Byron Alejandro Boada Vargas-Machuca, Alvaro Arturo Tituaña Burgos, Ing. Lorena Duque, Ing. Patricio Reyes. RESUMEN

Más detalles

Introducción a la Minería de Datos (Data Mining)

Introducción a la Minería de Datos (Data Mining) a la Minería de Datos (Data Mining) IT-Nova Facultad de Ingeniería Informática y Telecomunicaciones Iván Amón Uribe, MSc Minería de Datos Diapositivas basadas parcialmente en material de Inteligencia Analítica

Más detalles

Oracle Business Intelligence Suite Standard Edition One. Antonio Akiyama (antonio.akiyama@gbsperu.net) Consultor Senior Business Intelligence

Oracle Business Intelligence Suite Standard Edition One. Antonio Akiyama (antonio.akiyama@gbsperu.net) Consultor Senior Business Intelligence Oracle Business Intelligence Suite Standard Edition One Antonio Akiyama (antonio.akiyama@gbsperu.net) Consultor Senior Business Intelligence Desafíos actuales Visibilidad y Transparencia Rentabilidad,

Más detalles

Business Intelligence

Business Intelligence Business Intelligence Curso 2012-2013 Departamento de Lenguajes y Sistemas Informáticos II http://www.kybele.es ISI/SI - 1 Introducción Nuestra misión: Hacer inteligente el negocio Buenos días. Soy Negocio.

Más detalles

Conciencia Tecnológica ISSN: 1405-5597 contec@mail.ita.mx Instituto Tecnológico de Aguascalientes México

Conciencia Tecnológica ISSN: 1405-5597 contec@mail.ita.mx Instituto Tecnológico de Aguascalientes México Conciencia Tecnológica ISSN: 1405-5597 contec@mail.ita.mx Instituto Tecnológico de Aguascalientes México García Merayo, Félix; Luna Ramírez, Enrique El proceso Data Warehousing y los meta datos Conciencia

Más detalles

SÍLABO. : Electivo : Ingeniería de Sistemas : IS0806. : VIII Ciclo : 2 de Teoría y 2 de Práctica : 03 : Ninguno

SÍLABO. : Electivo : Ingeniería de Sistemas : IS0806. : VIII Ciclo : 2 de Teoría y 2 de Práctica : 03 : Ninguno SÍLABO I. DATOS GENERALES 1.1. Nombre de la Asignatura 1.2. Carácter 1.3. Carrera Profesional 1.4. Código 1.5. Semestre Académico : 2014-I 1.6. Ciclo Académico 1.7. Horas de Clase 1.8. Créditos 1.9. Pre

Más detalles

Business Intelligence

Business Intelligence Business Intelligence Metodología > 1 Implantación tecnológica de un balanced scorecard Precio 1.000 Este curso introduce al alumno en la metodología de BSC y su implantación tecnológica para el seguimiento

Más detalles

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos

Artículos de Minería de Datos de Dataprix Introducción a la minería de datos Published on Dataprix (http://www.dataprix.com) Principal > Artículos de Minería de Datos de Dataprix By Dataprix Created 26/12/2009-17:13 Artículos de Minería de Datos de Dataprix Introducción a la minería

Más detalles

Data Warehousing - Marco Conceptual

Data Warehousing - Marco Conceptual Data Warehousing - Marco Conceptual Carlos Espinoza C.* Introducción Los data warehouses se presentan como herramientas de alta tecnología que permiten a los usuarios de negocios entender las relaciones

Más detalles

Revista Cubana de Ciencias Informáticas ISSN: 1994-1536 rcci@uci.cu Universidad de las Ciencias Informáticas Cuba

Revista Cubana de Ciencias Informáticas ISSN: 1994-1536 rcci@uci.cu Universidad de las Ciencias Informáticas Cuba ISSN: 1994-1536 Universidad de las Ciencias Informáticas Cuba García Izquierdo, Malena; Macías Martínez, Manuel Diseño del repositorio de datos para la sala situacional de un sistema de gestión penitenciaria

Más detalles

: COMPUTACIÓN E INFORMATICA : Ingeniería de Software Ingeniería de Redes y Comunicaciones : Análisis y Diseño de Sistemas : T-INF107

: COMPUTACIÓN E INFORMATICA : Ingeniería de Software Ingeniería de Redes y Comunicaciones : Análisis y Diseño de Sistemas : T-INF107 I. DATOS INFORMATIVOS Carrera Especialidad Curso Código Ciclo : Tercero Requisitos Duración Horas Semana : 06 horas Versión : v.0110 II. SUMILLA: : COMPUTACIÓN E INFORMATICA : Ingeniería de Software Ingeniería

Más detalles

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata

v.1.0 Clase 5 Docente: Gustavo Valencia Zapata v.1.0 Clase 5 Docente: Gustavo Valencia Zapata Temas Clase 5: Conceptos de Minería de Datos Herramientas de DM Referencias Minería de datos Proceso de DM www.gustavovalencia.com Minería de datos La minería

Más detalles

SCOPE PLANNING IN SOFTWARE PROJECTS PLANIFICACIÓN DEL ALCANCE EN PROYECTOS DE SOFTWARE

SCOPE PLANNING IN SOFTWARE PROJECTS PLANIFICACIÓN DEL ALCANCE EN PROYECTOS DE SOFTWARE Recibido: 23 de febrero de 2011 Aceptado: 29 de marzo de 2011 SCOPE PLANNING IN SOFTWARE PROJECTS PLANIFICACIÓN DEL ALCANCE EN PROYECTOS DE SOFTWARE MSc. Ailin Orjuela, MSc. Luis Alberto Esteban, MSc.

Más detalles

UNIVERSIDAD CENTRAL DE VENEZUELA FACULTAD DE CIENCIAS COORDINACIÓN DE EXTENSIÓN

UNIVERSIDAD CENTRAL DE VENEZUELA FACULTAD DE CIENCIAS COORDINACIÓN DE EXTENSIÓN UNIVERSIDAD CENTRAL DE VENEZUELA FACULTAD DE CIENCIAS COORDINACIÓN DE EXTENSIÓN PROPUESTA PARA INTRODUCIR CURSOS DE EXTENSIÓN, DIPLOMADOS, SERVICIOS Y ACTUALIZACIONES TÉCNICAS Y PROFESIONALES Nombre (s)

Más detalles

"Módulo OOWS para StarUML" INTRODUCCIÓN

Módulo OOWS para StarUML INTRODUCCIÓN UNA HERRAMIENTA PARA DIAGRAMAS OOWS: "Módulo OOWS para StarUML" Richard Medina Z. Universidad de Concepción, Chile INTRODUCCIÓN Una herramienta CASE (Computer Aided Software Engineering,

Más detalles

El Proceso Unificado

El Proceso Unificado El Proceso Unificado de Desarrollo de Software Prof. Gustavo J. Sabio Alcance de la presentación QA Entradas Proceso de desarrollo Salida equipo Cliente sistemas Cliente necesidades actividades varias

Más detalles

http://www.cem.itesm.mx/extension/ms

http://www.cem.itesm.mx/extension/ms Diplomado Programación orientada a objetos con Java y UML Las empresas necesitan contar con sistemas de información modernos, ágiles y de calidad para alcanzar sus objetivos y ser cada vez más competitivos

Más detalles

BASES DE DATOS. Ivon Tarazona Oriana Gomez

BASES DE DATOS. Ivon Tarazona Oriana Gomez BASES DE DATOS Ivon Tarazona Oriana Gomez Introducción Introducción Ventajas e (Unified Modeling Language) Es un lenguaje usado para especificar, visualizar y documentar los diferentes aspectos relativos

Más detalles

Desafíos de gestionar proyectos de analítica de negocios

Desafíos de gestionar proyectos de analítica de negocios Desafíos de gestionar proyectos de analítica de negocios Desafíos de gestionar proyectos de analítica de negocios Tipología de proyectos BA Complejidad de proyectos BA Proyectos BA versus tradicionales

Más detalles

HADES: Hidrocarburos Análisis de Datos de Estaciones de Servicio

HADES: Hidrocarburos Análisis de Datos de Estaciones de Servicio Hidrocarburos: Análisis de Pablo Burgos Casado (Jefe de Área Desarrollo (SGTIC - MITYC)) María Teresa Simino Rueda Rubén Pérez Gómez Israel Santos Montero María Ángeles Rodelgo Sanchez 1. INTRODUCCIÓN

Más detalles

Por qué DW y DM? Data Warehouse and Data Mining. Información en las empresas. Data Warehouse

Por qué DW y DM? Data Warehouse and Data Mining. Información en las empresas. Data Warehouse Data Warehouse and Data Mining José A. Royo http://www.cps.unizar.es/~jaroyo email: joalroyo@unizar.es Departamento de Informática e Ingeniería de Sistemas Por qué DW y DM? Mayor poder de procesamiento

Más detalles

Sistemas de Información para la Gestión. UNIDAD 2: RECURSOS DE TI Información y Aplicaciones

Sistemas de Información para la Gestión. UNIDAD 2: RECURSOS DE TI Información y Aplicaciones UNIDAD 2: RECURSOS DE TI Información y Aplicaciones UNIDAD 2: RECURSOS DE TI Información y Aplicaciones 1. La Información: Propiedades de la Información. Sistemas de Información. Bases de Datos. 2. Administración

Más detalles

cilred.com CICLO DE VIDA DEL SOFTWARE & METODOLOGIAS DE DESARROLLO DE SOFTWARE ING. EDUARDO CRUZ ROMERO eduar14_cr@hotmail.com cilred.

cilred.com CICLO DE VIDA DEL SOFTWARE & METODOLOGIAS DE DESARROLLO DE SOFTWARE ING. EDUARDO CRUZ ROMERO eduar14_cr@hotmail.com cilred. cilred.com CICLO DE VIDA DEL SOFTWARE & METODOLOGIAS DE DESARROLLO DE SOFTWARE ING. EDUARDO CRUZ ROMERO eduar14_cr@hotmail.com cilred.com CICLO DE VIDA DEL SOFTWARE Para apreciar un poco más el problema

Más detalles

Los futuros desafíos de la Inteligencia de Negocios. Richard Weber Departamento de Ingeniería Industrial Universidad de Chile rweber@dii.uchile.

Los futuros desafíos de la Inteligencia de Negocios. Richard Weber Departamento de Ingeniería Industrial Universidad de Chile rweber@dii.uchile. Los futuros desafíos de la Inteligencia de Negocios Richard Weber Departamento de Ingeniería Industrial Universidad de Chile rweber@dii.uchile.cl El Vértigo de la Inteligencia de Negocios CRM: Customer

Más detalles

Ingeniería de Software I

Ingeniería de Software I Ingeniería de Software I Agenda Objetivo. Unidades de aprendizaje. Formas de evaluación. Bibliografía. 2 Datos del profesor Correo electrónico: egonzalez@upemor.edu.mx Asesorías Jueves de 11:00 a 13:00

Más detalles

Transformación de modelos en el proceso de obtención de Modelos Conceptuales partiendo de BPMN

Transformación de modelos en el proceso de obtención de Modelos Conceptuales partiendo de BPMN Transformación de modelos en el proceso de obtención de Modelos Conceptuales partiendo de BPMN Fernández Taurant, Juan Pablo Marciszack, Marcelo Martín Universidad Tecnológica Nacional, Facultad Regional

Más detalles

CURSO INTRODUCCIÓN A BUSINESS INTELLIGENCE

CURSO INTRODUCCIÓN A BUSINESS INTELLIGENCE CURSO INTRODUCCIÓN A BUSINESS INTELLIGENCE Ponente: Ibertia Fecha: del 19 al 23 de octubre Horario: 17:00 a 21:00 Nº horas: 20 Lugar: Centro Nacional de Formación en Nuevas Tecnologías de La Rioja- Think

Más detalles

Sistemas de Información II. Introducción al Proceso Unificado de Desarrollo de Software. Autor: Ing. Silverio Bonilla 1

Sistemas de Información II. Introducción al Proceso Unificado de Desarrollo de Software. Autor: Ing. Silverio Bonilla 1 Introducción al Proceso Unificado de Desarrollo de Software Autor: Ing. Silverio Bonilla 1 James Rumbaugh et al. Concepto de Método Una metodología de ingeniería del software es un proceso para producir

Más detalles

Definición del modelo del negocio y del dominio utilizando Razonamiento Basado en Casos.

Definición del modelo del negocio y del dominio utilizando Razonamiento Basado en Casos. Definición del modelo del negocio y del dominio utilizando Razonamiento Basado en Casos. Autora: MSc. Martha D. Delgado Dapena. Centro de Estudios de Ingeniería de Sistemas. e-mail: marta@ceis.ispjae.edu.cu

Más detalles

ANEXO A - Plan de Proyecto. 1. - EDT de la solución EDT GENERAL DEL PROYECTO1

ANEXO A - Plan de Proyecto. 1. - EDT de la solución EDT GENERAL DEL PROYECTO1 ANEXO A - Plan de Proyecto 1. - EDT de la solución EDT GENERAL DEL PROYECTO1 2.- Diagrama de Gantt de la Solución DIAGRAMA DE GANTT- FASE INICIAL DOCUMENTACION Y ANALISIS2 DIAGRAMA DE GANTT- FASE FINAL

Más detalles

Diseño de almacén de datos para el análisis eficiente de la información de incidentes informáticos y mantenimientos.

Diseño de almacén de datos para el análisis eficiente de la información de incidentes informáticos y mantenimientos. Diseño de almacén de datos para el análisis eficiente de la información de incidentes informáticos y mantenimientos. Ing. Corso Cynthia, Ing. Luque Claudio, Ing. Ciceri Leonardo, Sr Donnet Matías Grupo

Más detalles

LINEAMIENTOS GENERALES PARA LA IMPLEMENTACIÓN DE PROCESOS ELECTRÓNICOS

LINEAMIENTOS GENERALES PARA LA IMPLEMENTACIÓN DE PROCESOS ELECTRÓNICOS LINEAMIENTOS GENERALES PARA LA IMPLEMENTACIÓN DE PROCESOS LINEAMIENTOS GENERALES PARA LA IMPLEMENTACIÓN DE PROCESOS Ministerio de Tecnologías de la Información y las Comunicaciones Programa de Gobierno

Más detalles

Sistemas de Data Warehousing

Sistemas de Data Warehousing Federación Médica del Interior (FEMI) Sociedad Uruguaya de Informática en la Salud (SUIS) Información en Salud Edición 2009 Sistemas de Data Warehousing Dr. Ing. Adriana Marotta (In.Co - F.Ing - UDELAR)

Más detalles

Tema 5: El Lenguaje Unificado de Modelado. Departamento de Lenguajes y Sistemas Informáticos II www.kybele.urjc.es

Tema 5: El Lenguaje Unificado de Modelado. Departamento de Lenguajes y Sistemas Informáticos II www.kybele.urjc.es Tema 5: El Lenguaje Unificado de Modelado Departamento de Lenguajes y Sistemas Informáticos II Contenidos Introducción Diagramas de UML Modelado de la parte estática Modelado de la parte dinámica Las 4+1

Más detalles

Programa Internacional Business Intelligence

Programa Internacional Business Intelligence Fecha de inicio: 18 de junio de 2012 Programa Internacional Business Intelligence En un ambiente globalizado y de alta competitividad entre las empresas, la adecuada administración del capital intelectual

Más detalles

Business Intelligence: Competir con Información

Business Intelligence: Competir con Información Business Intelligence: Competir con Información Reus, 16 de Noviembre de 2011 Página 1 Página 2 Sumario Sistemas de Información - Introducción Introducción Business Intelligence Datawarehouse OLAP Data

Más detalles

SpagoBI Open Source Business Intelligence

SpagoBI Open Source Business Intelligence SpagoBI Open Source Business Intelligence La plataforma SpagoBI Open Source Business Intelligence Conceptos Inteligencia empresarial (Business Intelligence) es un agregado de aplicaciones y herramientas

Más detalles

Perfil UML para el desarrollo de aplicaciones WAP

Perfil UML para el desarrollo de aplicaciones WAP Perfil UML para el desarrollo de aplicaciones WAP Ricardo Soto D., Mauricio Camara J. Escuela de Ingeniería Informática, Pontificia Universidad Católica de Valparaíso, Chile E-mail: ricardo.soto@ucv.cl,

Más detalles

INTELIGENCIA DE NEGOCIOS CON SQL SERVER 2008 R2

INTELIGENCIA DE NEGOCIOS CON SQL SERVER 2008 R2 Programa de Capacitación y Certificación. INTELIGENCIA DE NEGOCIOS CON SQL SERVER 2008 R2 Contenido PERFIL DE UN ESPECIALISTA EN BASES DE DATOS.... 3 6231. MANTENIENDO UNA BASE DE DATOS DE SQL SERVER 2008

Más detalles

Definición. Data Warehousing: almacenamiento, transformación y distribución de datos útiles para los responsables de tomar decisiones 9/29/2006 4

Definición. Data Warehousing: almacenamiento, transformación y distribución de datos útiles para los responsables de tomar decisiones 9/29/2006 4 Definición Data Warehousing: almacenamiento, transformación y distribución de datos útiles para los responsables de tomar decisiones 9/29/2006 4 Definición (cont.) Un Data Warehouse es una colección de

Más detalles

Visión global del KDD

Visión global del KDD Visión global del KDD Series Temporales Máster en Computación Universitat Politècnica de Catalunya Dra. Alicia Troncoso Lora 1 Introducción Desarrollo tecnológico Almacenamiento masivo de información Aprovechamiento

Más detalles

09/01/2009. Diseño e implementación de Datawarehouse con Analysis Services Universidad de Guadalajara. Mario Octavio II Muñoz Camacho

09/01/2009. Diseño e implementación de Datawarehouse con Analysis Services Universidad de Guadalajara. Mario Octavio II Muñoz Camacho 09/01/2009 Diseño e implementación de Datawarehouse con Analysis Services Universidad de Guadalajara Mario Octavio II Muñoz Camacho Diseño e implementación de Datawarehouse con Analysis Services Objetivo.

Más detalles

La Inteligencia de Negocios: Etapas del proceso

La Inteligencia de Negocios: Etapas del proceso Resumen La Inteligencia de Negocios: Etapas del proceso La explotación y el aprovechamiento del conocimiento generado en las organizaciones se convierten en la ventaja competitiva, factor diferenciador

Más detalles

ARQUITECTURA DE UNA BODEGA DE DATOS

ARQUITECTURA DE UNA BODEGA DE DATOS ARQUITECTURA DE UNA BODEGA DE DATOS Estructura de contenidos INTRODUCCIÓN... 3 1. ARQUITECTURA DE UNA BODEGA DE DATOS... 3 1.1 PROPIEDADES... 3 1.2 ARQUITECTURA DE UNA CAPA... 4 1.3 ARQUITECTURA DE DOS

Más detalles

MODELO DIMENSIONAL DE BODEGAS DE DATOS ADAPTABLE A EMPRESAS MIPYMES DE VENTAS AL DETAL

MODELO DIMENSIONAL DE BODEGAS DE DATOS ADAPTABLE A EMPRESAS MIPYMES DE VENTAS AL DETAL MODELO DIMENSIONAL DE BODEGAS DE DATOS ADAPTABLE A EMPRESAS MIPYMES DE VENTAS AL DETAL 1 Ing. Ingrid Paola Solano Benítez¹ Mg. Martha Eliana Mendoza Becerra² ¹ Docente Tiempo Completo, Facultad de Ingeniería,

Más detalles

PROGRAMA FORMATIVO Administración de Business Intelligence y Datawarehousing

PROGRAMA FORMATIVO Administración de Business Intelligence y Datawarehousing PROGRAMA FORMATIVO Administración de Business Intelligence y Datawarehousing Julio 2014 DATOS GENERALES DE LA ESPECIALIDAD 1. Familia Profesional: INFORMÁTICA Y COMUNICACIONES Área Profesional: DESARROLLO

Más detalles

Diagramas de mapeo de atributos para el diseño de almacenes de datos con UML *

Diagramas de mapeo de atributos para el diseño de almacenes de datos con UML * Diagramas de mapeo de atributos para el diseño de almacenes de datos con UML * Sergio Luján-Mora 1, Juan Trujillo 1, and Panos Vassiliadis 2 1 Dept. de Lenguajes y Sistemas Informáticos Universidad de

Más detalles

Business Intelligence (Inteligencia de Negocios) Bases de Datos Masivas (11088) Universidad Nacional de Luján

Business Intelligence (Inteligencia de Negocios) Bases de Datos Masivas (11088) Universidad Nacional de Luján Business Intelligence (Inteligencia de Negocios) Bases de Datos Masivas (11088) Universidad Nacional de Luján Qué es Business Intelligence (BI)? Se entiende por Business Intelligence al conjunto de metodologías,

Más detalles

UNIVERSIDAD NACIONAL DE INGENIERÍA CENTRO DE EXTENSIÓN Y PROYECCIÓN SOCIAL

UNIVERSIDAD NACIONAL DE INGENIERÍA CENTRO DE EXTENSIÓN Y PROYECCIÓN SOCIAL UNIVERSIDAD NACIONAL DE INGENIERÍA CENTRO DE EXTENSIÓN Y PROYECCIÓN SOCIAL AREA DE CURSOS DE ESPECIALIZACIÓN EN TECNOLOGÍAS DE LA INFORMACIÓN TALLER DE INVESTIGACION EN INTELIGENCIA DE NEGOCIOS CON LA

Más detalles