Diseño y Construcción de Data Warehouse Instalación de las Herramientas Edición 2018 Diseño y Construcción de Data Warehouse - Edición 2018 1
Índice ÍNDICE...2 1 INTRODUCCIÓN...3 2 BASE DE DATOS...4 2.1 PostgreSQL...4 2.2 PostGIS...4 3 SISTEMA DE DATA WAREHOUSE...5 3.1 Pentaho Business Intelligence...5 3.1.1 Plataforma Business Intelligence...6 3.1.2 ETL: Herramienta de Extracción, Transformación y Carga...8 3.1.3 Servidor OLAP...9 3.1.4 Herramienta de Diseño de Reportes...10 3.1.5 Análisis OLAP...11 4 REFERENCIAS...13 Diseño y Construcción de Data Warehouse - Edición 2018 2
1 Introducción Este documento pretende ser una guía para la instalación de las herramientas a utilizar en el proyecto del curso. Las herramientas propuestas son las que se presentan a continuación: Base de Datos: PostgreSQL PostGIS Sistema de Data Warehouse: Pentaho: o Plataforma Business Intelligence: Pentaho BI Analytic o Procesos de Extracción, Transformación y Carga: Data Integration, también conocido como Kettle o Procesos de Extracción, Transformación y Carga de datos espaciales: GeoKettle o Servidor OLAP: Mondrian y la herramienta gráfica para el diseño de Schemas, Schema Workbench o Análisis OLAP: JPivot y Saiku o Diseño de Reportes: Pentaho Report Designer o Diseño de componentes Dashboard: Community Dashboard Editor Las herramientas propuestas para el Sistema de Data Warehouse son productos pertenecientes al proyecto Pentaho Business Intelligence [1]. La integración de dichas herramientas se muestra en la Figura 1. Figura 1. Integración de las herramientas utilizadas en el Proyecto del Curso Diseño y Construcción de Data Warehouse - Edición 2018 3
2 Base de Datos 2.1 PostgreSQL Se utilizará la versión 10 de PostgreSQL disponible para descargar en [2]. 2.2 PostGIS PostGIS [3] es una extensión que convierte el sistema de base de datos PostgreSQL en una base de datos espacial. La combinación de ambos permite el almacenamiento, gestión y mantenimiento de datos espaciales. Una vez instalado PostgreSQL ejecutar, desde la barra de Inicio, Application Stack Builder ubicado debajo de la carpeta PostgreSQL10. Desde ahí, se debe seleccionar la versión 10 de PostgreSQL (en caso de tener más de una versión instalada) y posteriormente se debe seleccionar el ítem Spacial Extensions, como se muestra en la Figura 2. Figura2. Instalación de la extensión PostGIS. Diseño y Construcción de Data Warehouse - Edición 2018 4
3 Sistema de Data Warehouse A continuación se muestra cómo instalar todas las herramientas necesarias para el desarrollo de un Sistema de Data Warehousing. 3.1 Pentaho Business Intelligence Todos los productos de Pentaho están desarrollados en Java, por lo tanto, para trabajar con ellos, es necesario instalar el Java Development Kit también conocido como el JDK. La versión 8 del mismo puede ser descargada en [4]. Tener en cuenta que la versión 8 de Pentaho no funcionará con versiones superiores del JDK. En caso de ser necesario, se debe agregar la variable de entorno JAVA_HOME, como se muestra en la Figura 3, con el valor correspondiente al directorio de instalación del JDK. Las variables de entorno en Windows10 son configurables en Panel de Control -> Sistema y Seguridad -> Sistema -> Configuración Avanzada -> Variables de Entorno. Figura 3. Variables de Entorno Diseño y Construcción de Data Warehouse - Edición 2018 5
3.1.1 Plataforma Business Intelligence Se sugiere utilizar la versión 8.0 de Pentaho BI, disponible en [1], pero el estudiante podrá seleccionar la de su interés, teniendo en cuenta que se deben obtener todos los resultados esperados. INSTALACIÓN La instalación consiste simplemente en ejecutar el archivo descargado: pentahoserver-ce-8.0.0.0-28.exe. Es recomendable que el directorio de instalación sea el siguiente: Para Windows: C:\Program Files\Pentaho8 Para Linux: /opt/pentaho8 En el resto del documento la carpeta C:\Program Files\Pentaho8\pentaho-server será referenciada como Pentaho Home. SERVIDOR El servidor de Pentaho se puede iniciar y detener manualmente mediante los script start-pentaho.bat y stop-pentaho.bat respectivamente. Para su ejecución, se recomienda crear un acceso directo a dichos archivos. Estos scripts se encuentran en el Pentaho Home. El servidor está pre-configurado para correr sobre el contenedor de Apache Tomcat, el cual se encuentra en el directorio TOMCAT dentro del Pentaho Home. Por defecto, el Tomcat trabaja sobre el puerto 8080, por lo que, cuando se inicie el servidor de Pentaho, el mismo será accesible localmente a través de la página http://localhost:8080/pentaho. En la Figura 4 se presenta la pantalla de inicio de Pentaho. Tener en cuenta que si el puerto 8080 está ocupado, se deberá utilizar otro, por ejemplo 9080 y en este caso se accederá a través de la página http://localhost:9080/pentaho. Se puede ingresar como usuario evaluador, para esto, basta seleccionar uno de los dos usuarios que se ofrece en la pantalla: Administrador o usuario de negocio, El administrador tiene usuario y clave admin y password respectivamente. El usuario de negocio tiene usuario y clave Suzy y password respectivamente. Luego del login como usuario Administrador, se muestra la página de bienvenida que se presenta en la Figura 5. Diseño y Construcción de Data Warehouse - Edición 2018 6
Figura 4. Pantalla de inicio de Pentaho. Figura 5. Página de bienvenida de Pentaho para el usuario Administrador. CONEXIÓN A LA BD Para definir conexiones de datos para el servidor Pentaho es necesario especificar una nueva fuente de datos. Para esto, se deben seleccionar los ítems del menú como se muestra en la Figura 6. Una vez ubicado en el Data Source Wizard, se debe agregar una nueva conexión, especificando nombre y tipo de fuente de datos como se muestra en la Figura 7. Una guía sobre cómo crear una nueva conexión de datos puede ser encontrada en [5]. Diseño y Construcción de Data Warehouse - Edición 2018 7
Figura 6. Definición de un Data Source. Figura 7. Nueva conexión. 3.1.2 ETL: Herramienta de Extracción, Transformación y Carga La herramienta proporcionada por Pentaho para los procesos de extracción, transformación y carga es DATA INTEGRATION, también llamado Kettle, del cual utilizaremos la versión 8.0 disponible en [6]. La instalación consiste simplemente en descomprimir el archivo descargado pdi-ce-8.0.0.0-28.zip, el cual contiene una carpeta llamada data-integration, y ubicarla en el directorio de instalación que se desee. Es recomendable utilizar el mismo directorio de Diseño y Construcción de Data Warehouse - Edición 2018 8
instalación que el servidor (C:\Program Files\Pentaho8), de esta forma, todos los productos de Pentaho se encuentran en un mismo directorio. Kettle [7] es una aplicación de escritorio y se inicia mediante el archivo Spoon. Spoon.bat para Windows y Spoon.sh para Linux, ubicado en la carpeta dataintegration. Para su ejecución, se recomienda crear un acceso directo a dicho archivo. Una vez iniciado se muestra la página de bienvenida que se presenta en la Figura 8. Figura 8. Página de inicio de Kettle. Por otro lado, Si bien Kettle permite manipular Shapefiles, también contamos con la herramienta GeoKettle para una manipulación más amplia de datos espaciales. La documentación de GeoKettle está disponible en [8], para quienes deseen y/o necesiten utilizarlo. 3.1.3 Servidor OLAP El servidor OLAP que ofrece Pentaho es el Mondrian [9], el cual ya viene incluido en la instalación de la plataforma BI. Se trata de un servidor del tipo ROLAP. Los modelos multidimensionales que son interpretados por el Mondrian consisten en archivos XML denominados Schemas, los cuales deben tener un formato determinado. En ellos se definen los cubos, dimensiones, niveles, jerarquías, etc. sobre los que se trabajará y realizarán los diferentes análisis. La especificación detallada sobre el diseño y estructura que deben tener los Schemas se encuentra en [10]. Existe una herramienta gráfica para el diseño de Schemas denominada Schema Workbench [11] [12]. La instalación consiste simplemente en descomprimir el archivo psw-ce-8.0.0.0-28.zip, que se puede descargar en [13]. Este archivo Diseño y Construcción de Data Warehouse - Edición 2018 9
contiene una carpeta llamada schema-workbench, la cual se puede ubicar en el directorio de instalación que se desee. Es recomendable utilizar el mismo directorio de instalación que el servidor (C:\Program Files\Pentaho8), de esta forma, todos los productos de Pentaho se encuentran en un mismo directorio. Se trata de una aplicación de escritorio y se inicia mediante el archivo workbench.bat para Windows y workbench.sh, los cuales están ubicados en la carpeta schema-workbench. Para facilitar su ejecución, se recomienda crear un acceso directo a dicho archivo. En la Figura 9 se muestra la pantalla de inicio de la herramienta Schema Workbench. Figura 9. Pantalla de inicio de Schema-workbench. 3.1.4 Herramienta de Diseño de Reportes Para el diseño de reportes se utilizará la herramienta Pentaho Report Designer [14]. La instalación consiste simplemente en descomprimir el archivo prd-ce- 8.0.0.0-28.zip, descargado en [15], el cual contiene una carpeta llamada reportdesigner. Esta carpeta debe ubicarse en el directorio de instalación que desee. Es recomendable utilizar el mismo directorio de instalación que el servidor (C:\Program Files\Pentaho8), de esta forma, todos los productos de Pentaho se encuentran en un mismo directorio. Se trata de una aplicación de escritorio y se inicia mediante el archivo report-designer.bat para Windows y reportdesigner.sh, los cuales están ubicados en la carpeta report-designer. Para facilitar su ejecución, se recomienda crear un acceso directo a dicho archivo. En Diseño y Construcción de Data Warehouse - Edición 2018 10
la Figura 10 se muestra la pantalla de inicio de la herramienta Report Designer. Por otro lado, en [16] se presenta una guía sobre cómo crear la conexión a una fuente de datos a la hora de generar un reporte. Figura 10. Pantalla de inicio de la herramienta Report Designer. 3.1.5 Análisis OLAP Pentaho cuenta con un componente para hacer consultas OLAP, llamado JPivot, que viene incluido en la instalación de la plataforma BI, el mismo ya no es mantenido y se prevé que sea removido en futuras versiones. En la Figura 11 se muestra como acceder a la herramienta jpivot. Figura 11. jpivot en el menú de la Plataforma BI. Diseño y Construcción de Data Warehouse - Edición 2018 11
Por otro lado, Saiku es una herramienta OLAP que permite realizar análisis de forma rápida e intuitiva. A pesar de ser un proyecto independiente, esta herramienta puede ser integrada a Pentaho en forma de plugin, el cual está disponible para descargar en [17], actualmente en la versión 3.15, seleccionando el ítem Saiku Analytics. Para instalar el plugin de Saiku, una vez descargado el archivo saiku-pluginp7-3.15.zip, simplemente hay que descomprimirlo y colocar la carpeta saiku en el directorio <Pentaho Home>/pentaho-solutions/system. Luego, al iniciar el servidor e ingresar al sistema, aparecerá el ícono de Saiku en la barra de herramientas, como se observa en la Figura 12. Figura 12. Saiku en la barra de herramientas de Pentaho. Se debe tener en cuenta que para poder integrar Saiku es necesario contar con una licencia. Para esto, se debe Acceder al sitio web Meteorite Consulting s license [18] y presionar Sign up para obtener una cuenta gratis. Una vez que la cuenta ha sido validada, es necesario loguearse en el sistema y hacer click en el botón CREATE NEW LICENSE. El tipo de la licencia debe ser seteado como COMMUNITY EDITION. Luego se debe hacer click en el botón SAVE y la página se modificará mostrando un link a Download License. Se debe hacer click en el link y el archivo con la licencia se descargará. El archivo debe ser renombrado a license.lic y luego debe ser copiado en la carpeta C:\Program Files\pentaho8\pentahoserver\pentaho-solutions\system\saiku. Finalmente, se debe reiniciar Pentaho. Diseño y Construcción de Data Warehouse - Edición 2018 12
4 Referencias El último acceso de todas las referencias fue realizado en Abril de 2018. [1] Pentaho Business Intelligence: https://sourceforge.net/projects/pentaho/files/pentaho%208.0/server/ [2] PostgreSQL: https://www.postgresql.org/download/ [3] PostGIS: https://postgis.net/docs/manual-dev/postgis-es.html [4] Java Development Kit versión 8: http://www.oracle.com/technetwork/java/javase/downloads/jdk8- downloads-2133151.html [5] Data Source: https://help.pentaho.com/documentation/7.1/0h0/specify_data_connectio ns_for_the_pentaho_server/define_data_connections_for_the_pentaho_server [6] Kettle: https://sourceforge.net/projects/pentaho/files/latest/download?source=files [7] Kettle Tutorial: https://help.pentaho.com/documentation/8.0/setup/evaluation/tutorials/0 C0 [8] GeoKettle: http://www.spatialytics.org/projects/geokettle/# [9] Documentación Mondrian: http://mondrian.pentaho.com/documentation/olap.php [10] Schemas Mondrian: http://mondrian.pentaho.com/documentation/schema.php [11] Schema Workbench: https://mondrian.pentaho.com/documentation/workbench.php [12] Documentación Schema Workbench: https://help.pentaho.com/documentation/8.0/products/schema_workbench [13] Documentación Schema Workbench: https://sourceforge.net/projects/pentaho/files/pentaho%208.0/client-tools/ [14] Documentación Pentaho Report Designer: Diseño y Construcción de Data Warehouse - Edición 2018 13
https://wiki.pentaho.com/display/reporting/pentaho+reporting+- +User+Guide+for+Report+Designer [15] Pentaho Report Designer: https://sourceforge.net/projects/pentaho/files/pentaho%208.0/clienttools/prd-ce-8.0.0.0-28.zip/download [16] Data Source - Pentaho Report Designer: https://wiki.pentaho.com/display/reporting/4.+data+sources [17] Saiku Analytics: http://www.pentaho.com/marketplace/ [18] http://licensing.meteorite.bi/login Diseño y Construcción de Data Warehouse - Edición 2018 14