Manipulación de datos con Kettle Ing. Marcos Pierri SIU-Datawarehouse dw@siu.edu.ar 1
Contenido Qué es Kettle? Para qué sirve? Principales características Instalación Ejemplos de uso - DEMO 2
Qué es Kettle? Herramienta de ETL (extracción, transformación y carga) Open Source. Creado por Matt Casters - @mattcasters Adquirido por Pentaho en 2006. Actualmente se llama Pentaho Data Integration (PDI). Desarrollado integramente en Java. Licencia GNU LGPL. Última versión estable 4.1.0 (30-11-2010). Versión en desarrollo 4.2.0-RC1 (01-07-2011). 3
Para qué sirve? Integración de datos Carga de datawarehouses y datamarts Limpieza de datos (data cleansing) Análisis y perfilado de datos (data profiling) Migración de datos entre Bases de datos Exportar datos de Bases de datos a archivos planos Etc, etc... 4
Principales características GUI muy avanzada. Soporte para gran cantidad de fuentes de información. Basado en dos tipos de objetos diferentes: Transformaciones Trabajos Las T&T utilizan un lenguaje descriptivo (XML). Cuenta con herramientas y utilidades para crear, administrar y ejecutar T&T. Permite extender las funcionalidad mediante el desarrollo de Plugins propios. 5
GUI muy avanzada 6
Fuentes de información Bases de datos (+40): - PostgreSQL - MySql - Informix - dbase III, IV o 5 - Firebird SQL - IBM DB2 - MS SQL Server - MS Access - Oracle - SAP ERP System - Teradata - LucidDB - Hypersonic - Apache Derby - etc, etc... Excel Salesforce Xml Txt / CSV Google Analytics RSS Web services 7
Transformaciones Orientación a los Datos. Representa una tarea ETL. Es una colección de pasos. Cada paso es una operación particular sobre datos. Los pasos se conectan entre sí a través de saltos, que indica cual será el flujo de los datos. Los pasos trabajan de manera simultánea y asincrónica. 8
Trabajos Orientación a la Tarea y a los Datos. Usualmente un Trabajo se compone de una o más Transformaciones/Trabajos, que serán ejecutadas secuencialmente. La ejecución de cada Entrada de Trabajo presenta una salida de status, que puede ser analizada para la realización de diferentes acciones. 9
Herramientas y utilidades para crear, administrar y ejecutar T&T Spoon: IDE gráfico para crear T&T. Kitchen: herramienta de línea de comandos para ejecutar Trabajos. Pan: herramienta de línea de comandos para ejecutar Transformaciones. Carte: servidor liviano para ejecutar T&T en host remotos. 10
Instalación Pre-requisitos - JRE (o JDK) 5.x o superior. Descarga - http://sourceforge.net/projects/pentaho/files/ - Carpeta Data Integration - Versión 4.1.0 106.5 MB - Versión 4.2.0-RC1 225.3 MB 11
Después de descomprimir el archivo - Ejecutar spoon.sh (Linux) o spoon.bat (Windows) 12
Pantalla de Bienvenida 13
Ejemplos de uso - DEMO Los ejemplos fueron extraidos del libro Pentaho Data Integration 4 Cookbook María C. Roldán. (http://www.packtpub.com/support) 01 - leer un archivo txt. 02 - escribir un archivo txt. 03 - leyendo un archivo simple XML. 04 - leyendo un archivo excel. 05 - generando datos de ejemplo para testeo. 06 - cargando datos desde txt en una base postgresql. 07 - leyendo datos desde una base postgresql y exportarlos a un txt. 08 - programando una funcionalidad a medida. 09 - enviando e-mails con archivos adjuntos. 10 - copiando o moviendo uno a más archivos. 14
Libros - Información Pentaho Solutions - Roland Bouman, Jos van Dongen Wiley - ISBN:978-0-470-48432-6 Pentaho 3.2 Data Integration: Beginner's Guide - María Carina Roldán - Packt Publishing - ISBN:1847199542 Pentaho Kettle Solutions - Matt Casters, Roland Bouman, Jos van Dongen Wiley - ISBN:978-0-470-63517-9 Pentaho Data Integration 4 Cookbook - Adrián Sergio Pulvirenti, María Carina Roldán - Pack Publishing - ISBN: 9781-84951-524-5 Wiki SIU Pentaho: http://repositorio.siu.edu.ar/trac/dw_pentaho/wiki/wikistart Foro SIU Comunidad: http://comunidad.siu.edu.ar/index.php?board=49.0 --------------------------------------------------------------------------------------------------------------Sitio de PDI - Kettle: http://kettle.pentaho.com/ Foros Pentaho: http://forums.pentaho.com/ 15
Preguntas? 16
Muchas Gracias!!! Más información: www.siu.edu.ar dw@siu.edu.ar 17