DENODO SCHEDULER 4.5 GUÍA DEL ADMINISTRADOR



Documentos relacionados
Manual de instalación Actualizador masivo de Stocks y Precios

GESTIÓN DOCUMENTAL PARA EL SISTEMA DE CALIDAD

DENODO ARACNE 4.0 GUÍA DEL ADMINISTRADOR

UAM MANUAL DE EMPRESA. Universidad Autónoma de Madrid

Oficina Online. Manual del administrador

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

Traslado de Copias y Presentación de Escritos. Manual de Usuario V.3.1

Edición de Ofertas Excel Manual de Usuario

Acronis License Server. Guía del usuario

FOROS. Manual de Usuario

COPIAS DE SEGURIDAD AUTOMÁTICAS DE DIRECCIONES CALLEÇPAÑA

UNIDESYS UNIVERSAL BUSINESS SYSTEMS INSTALACIÓN NUEVO PUESTO DE TRABAJO

GUIA COMPLEMENTARIA PARA EL USUARIO DE AUTOAUDIT. Versión N 02 Fecha: 2011-Febrero Apartado: Archivos Anexos ARCHIVOS ANEXOS

Instalación. Interfaz gráfico. Programación de Backups. Anexo I: Gestión de la seguridad. Manual de Usuario de Backup Online 1/21.

Soluciones Informáticas para la Gestión de la Calidad c/vicente Aleixandre nº 10 4º H, A CORUÑA Telf: / info@spuch.

Manual de usuario Versión: 1.3 Edición: 05/02/2015 1

GUÍA PARA LA INSTALACIÓN DE MOODLE EN UN COMPUTADOR PERSONAL QUE USA EL SISTEMA OPERATIVO MS. WINDOWS

Accede a su DISCO Virtual del mismo modo como lo Hace a su disco duro, a través de:

Requisitos técnicos para la instalación. Arquitectura Hardware Arquitectura Software. Instrucciones de instalación GONG-R

Aplicateca. Manual de Usuario: Ilion Factura Electrónica. Espíritu de Servicio

Guías _SGO. Gestione administradores, usuarios y grupos de su empresa. Sistema de Gestión Online

SMS Gestión. manual de uso

Manual de Usuario de la Herramienta SICRES-Tester. SIR Sistema de Interconexión de Registros. Tipo de documento. Fecha de entrega 08/04/2014

ICARO MANUAL DE LA EMPRESA

GedicoPDA: software de preventa

CONVERSOR LIBROS DE REGISTRO (IVA IGIC) Agencia Tributaria DEPARTAMENTO DE INFORMÁTICA TRIBUTARIA

Portal Del Emisor MANUAL DEL USUARIO. Plataforma de Facturación Electrónica

Manual de usuario administrador. Correo Exchange Administrado

Gestión de Ficheros en ruralvía Recibos

Eurowin 8.0 SQL. Manual de la FIRMA DIGITALIZADA

Manual de Formulario. C/ Salado, 11. Local Sevilla

Consultoría, Análisis, Desarrollo y Mantenimiento de Software. Guía de Usuario V2.1. Junio 2.004

Manual del Alumno de la plataforma de e-learning.

PANEL DE CONTROL (Zona de Administración) MANUAL DE USO Por conexanet. Revisión 1.1 Fecha

Acronis Backup & Recovery 11 Guía de inicio rápido

Es el listado de los productos que están ofertados en la página.

Person IP CRM Manual MOBILE

AGREGAR COMPONENTES ADICIONALES DE WINDOWS

Toda base de datos relacional se basa en dos objetos

SERVICIO CREA TU WEB TELEFÓNICA NET. (Manual de usuario)

MANUAL ECOMMERCE 2.0

SRM RELACIÓN CON LOS PROVEEDORES MANUAL DEL SUMINISTRADOR. Junio Versión 2

Adelacu Ltda. Fono Graballo+ Agosto de Graballo+ - Descripción funcional - 1 -

MANUAL APLICACIÓN. SOFTWARE GESTIÓN DE CLÍNICAS DENTALES

ACCESO AL SERVIDOR EXCHANGE MEDIANTE OWA

REDES DE ÁREA LOCAL. APLICACIONES Y SERVICIOS EN WINDOWS

Índice general. pág. 2

Certificado Cumplimiento de Obligaciones en línea.

Internet Information Server

Guía de instalación y configuración de IBM SPSS Modeler Social Network Analysis 16

MANUAL DE AYUDA TAREA PROGRAMADA COPIAS DE SEGURIDAD

Manual CMS Mobincube

Instalación y Registro Versiones Educativas 2013

MANUAL DE USO DE LA APLICACIÓN

Manual de usuario del Centro de Control

Manual de Panel de Control de Hosting Compartido

comunicaciones IP al servicio de su empresa configuración de clientes de correo para Hosted Exchange

Notas para la instalación de un lector de tarjetas inteligentes.

Instrucciones de instalación de IBM SPSS Modeler (licencia de usuario autorizado)

MANUAL DEL USUARIO: EDITOR E-COMMERCE

Documentación Técnica Conector

Plataforma e-ducativa Aragonesa. Manual de Administración. Bitácora

La pestaña Inicio contiene las operaciones más comunes sobre copiar, cortar y pegar, además de las operaciones de Fuente, Párrafo, Estilo y Edición.

Guía Rápida de Inicio

Administración Local Soluciones

Manual: Gestor de contenidos e-gim cms. 6 abril 2010

Acronis Backup & Recovery 10 Advanced Editions. Guía rápida de inicio

Windows Server 2012: Infraestructura de Escritorio Virtual

Ajustes del Curso en egela (Moodle 2.5)

MANUAL DE USUARIO FACTURACIÓN ELECTRÓNICA

Tabla de contenido. Avenida El Dorado Nº Bogotá Colombia T T

INSTALACIÓ N A3ERP. Informática para empresas INTRODUCCIÓN CONSIDERACIONES GENERALES DE LA INSTALACIÓN PAQUETES DE INSTALACIÓN PREDEFINIDOS

PLATAFORMA DE VISADO TELEMÁTICO.

Roles y Características

Contenido. cursos.cl / Teléfono:

Guía de Instalación para clientes de WebAdmin

MANUAL DE USUARIO DESKTOP

Manual de software. Dynamic Cloud. 10/2014 MS-Dynamic_Cloud v1.2

WINDOWS : COPIAS DE SEGURIDAD

Figura No. IV-111. Página No. 125

GENERACIÓN DE TRANSFERENCIAS

Manual de Integración CubeCart

Para poder instalar el producto, tendremos que obtener el instalador apropiado para nuestro entorno hardware y software.

PRESENTACIÓN DEL PRODUCTO

GUÍA BÁSICA USUARIO MOODLE 2.6

Comisión Nacional de Bancos y Seguros

Especificaciones funcionales para el acceso al RAI por Web

Guía del usuario. Centro de facturación de UPS

Formas de llevar a cabo un backup de una base de datos MySQL

30 de Mayo de

CIF-KM. GUÍA DE LOS PRIMEROS PASOS

COMPROBACIONES BÁSICAS PARA EL USO DE FIRMA EN EL RTC

SISTEMA DE GESTIÓN DE INCIDENCIAS Y REQUERIMIENTOS MESA DE AYUDA SINAT MANUAL DE USUARIO

Outlook Connector Manual

SERVICIOS PARA EL DISEÑO E IMPLEMENTACIÓN DEL PROGRAMA INTEGRAL DE TRANSFORMACIÓN DIGITAL DE LA PROVINCIA DE LUGO: TRANSFORM@TIC

Manual de NetBeans y XAMPP

MANUAL DE USUARIO. Webservice simple para la exportación rápida de información proveniente de una base de datos. Versión 0,1,1

PRIMEROS PASOS EN DELTA

GuÍa rápida de uso. westlaw chile

Transcripción:

DENODO SCHEDULER 4.5 GUÍA DEL ADMINISTRADOR Update 2 (18 Dic, 2008)

NOTA Este documento es confidencial y propiedad de denodo technologies (en adelante denodo). Ninguna de las partes del documento puede ser copiada, fotografiada, fotocopiada, transmitida electrónicamente, almacenada en un sistema de gestión documental o reproducida mediante cualquier otro mecanismo sin la autorización previa o por escrito de denodo. copyright 2008 Queda prohibida la reproducción total o parcial de este documento sin la autorización por escrito de denodo technologies

ÍNDICE PREFACIO...I ALCANCE...I QUIÉN DEBERÍA USAR ESTE MANUAL...I RESUMEN DE CONTENIDOS...I 1 INTRODUCCIÓN... 1 2 ARQUITECTURA GENERAL... 2 3 INSTALACIÓN Y EJECUCIÓN... 5 4 ADMINISTRACIÓN... 6 4.1 AUTENTICACIÓN... 6 4.2 CONFIGURACIÓN DEL SERVIDOR... 6 4.2.1 Autenticación... 7 4.2.2 Puertos... 7 4.2.3 Servidor de Correo Saliente... 7 4.2.4 Hilos de Ejecución... 7 4.2.5 Plugins y Adaptadores JDBC... 8 4.3 CONFIGURACIÓN DE LOGS... 8 5 CREACIÓN Y PLANIFICACIÓN DE TAREAS... 10 5.1 TAREAS ACTIVAS... 10 5.2 AÑADIR DATA SOURCES... 11 5.2.1 Data Sources ARN... 12 5.2.2 Data Sources ARN-Index... 12 5.2.3 Data Sources CSV... 12 5.2.4 Data Sources ITP... 12 5.2.5 Data Sources JDBC... 13 5.2.6 Data Sources VDP... 14 5.3 SECUENCIAS DE FILTRO... 14 5.3.1 Filtro Booleano de Contenido... 15 5.3.2 Filtro de Extracción de Contenido (HTML, PDF, Word, Excel, PowerPoint, XML, EML, Texto)... 18 5.3.3 Filtro de Agregación de Campo... 18 5.3.4 Filtro de Generación de Resumen... 19 5.3.5 Filtro de Generación de Título... 19 5.3.6 Filtros de Unicidad y de Normalización de URLs... 19 5.3.7 Filtro de Extracción de Contenido Útil Web... 21 5.4 CONFIGURACIÓN DE NUEVAS TAREAS... 21 5.4.1 Estructura general de una tarea... 21 5.4.2 Sección de Extracción de Tareas de Tipo Aracne... 22 5.4.3 Sección de Extracción VDP... 26 5.4.4 Sección de Extracción ITP... 28 5.4.5 Sección de Extracción JDBC... 29 5.4.6 Esquema de Datos Generado por los Diferentes Tipos de Tareas de Extracción... 29 5.4.7 Tareas de Mantenimiento de Índices Aracne... 30 5.4.8 Sección de Post-Procesamiento (Filtros / Exportadores)... 31 5.4.9 Sección de Manejadores... 32 5.4.10 Sección de Planificación Temporal de la Tarea... 33

6 API DESARROLLADOR... 35 6.1 API CLIENTE... 35 6.1.1 Planificador... 35 6.2 EXTENSIONES (PLUGINS)... 36 6.2.1 Filtros... 37 6.2.2 Exportadores... 38 6.2.3 Manejadores de Resultados... 38 6.2.4 Crawlers Custom de Aracne... 38 7 APÉNDICES... 40 7.1 SINTAXIS DE LA FUNCIÓN DATEFORMAT... 40 7.2 EXPRESIONES REGULARES PARA FILTROS... 40 7.3 DRIVERS JDBC... 41 7.4 USO DE LOS SCRIPTS IMPORT / EXPORT PARA BACKUP... 42 BIBLIOGRAFÍA... 44

ÍNDICE DE FIGURAS Figura 1 Arquitectura de Denodo Scheduler... 3

ÍNDICE DE TABLAS Tabla 1 Metacaracteres... 41 Tabla 2 Drivers JDBC... 41 Tabla 3 Drivers IBM, MySQL, Microsoft y Sybase... 42

PREFACIO ALCANCE Este documento presenta el sistema de planificación temporal de tareas de la Plataforma Denodo. QUIÉN DEBERÍA USAR ESTE MANUAL Este documento está dirigido a administradores que pretendan instalar, configurar y/o utilizar Denodo Scheduler para la planificación temporal de tareas de extracción de datos procedentes de la Web, Bases de datos, sistemas de ficheros, servidores de correo electrónico, etc. RESUMEN DE CONTENIDOS Más concretamente, en este documento se describen: Los procedimientos de instalación del Software Denodo Scheduler. Configuración del sistema para su posterior utilización. Operación del sistema utilizando su herramienta de administración Web. Extensión de las funcionalidades del sistema utilizando la API Denodo Scheduler para automatizar el acceso al sistema o para incluir nuevos componentes. Prefacio i

1 INTRODUCCIÓN La suite de productos de Denodo Technologies proporciona funcionalidades avanzadas para la planificación temporal de tareas de integración de información procedente de fuentes dispersas, heterogéneas y que, posiblemente, presentan un bajo nivel de estructuración. Denodo Scheduler permite planificar y ejecutar tareas de extracción e integración de datos, definidas sobre los diferentes módulos de la Plataforma Denodo. En combinación con Denodo Scheduler, los módulos de la Plataforma Denodo proporcionan funcionalidades como las siguientes: Virtual DataPort. Planificación de cualquier tarea que involucre la obtención de información procedente de varias fuentes dispersas y heterogéneas, combinando dicha información y exportándola a diferentes tipos de repositorios. También puede ser utilizado para precargar datos de forma periódica en la caché de Virtual DataPort. Ver [VDP] para más detalle. ITPilot. Automatización periódica de extracción y almacenamiento de datos web o planificación temporal de tareas de automatización web. Ver [ITP] para más detalle. Aracne. Planificación de tareas de crawling, filtrado e indexación de información no estructurada de la web, repositorios de documentos, servidores de correo electrónico, sitios RSS, etc. Ver [ARN] para más detalle. Entre las principales características de Denodo Scheduler se encuentran: Planificación flexible de tareas batch sobre los diferentes componentes de la Plataforma Denodo: DataPort, ITPilot y/o Aracne. Generación de informes detallados del resultado de la ejecución de tareas, incluyendo información detallada de errores. Los informes pueden ser enviados por correo electrónico a las direcciones que hayan sido configuradas. Los resultados obtenidos por una tarea pueden exportarse a un fichero CSV, a una base de datos o a un índice. Permite también la inclusión de nuevos exportadores desarrollados para un propósito específico. Soporte para extracción de datos de fuentes con capacidades de consulta limitadas. Por ejemplo, considérese un servicio web o un sitio web que permite la obtención de información sobre una empresa determinada en base a su CIF. Es posible definir una tarea que obtiene los diferentes CIFs de un servidor de base de datos o fichero CSV y consulta el servicio web o el sitio web utilizando cada uno de ellos. Tareas persistentes. Si se reinicia el sistema mientras una tarea se encuentra en ejecución, la tarea puede continuar su ejecución a partir de la última consulta que había sido exitosamente ejecutada. En el ejemplo anterior, si la tarea completa obtiene información de 1000 empresas y el sistema se reinicia después de las primeras 200 consultas, tras el arranque del sistema se puede lanzar la ejecución de la tarea en el estado en el que finalizó, continuando desde la consulta 201 en lugar de comenzar de nuevo desde la primera. Reintentos transparentes en caso de fallo. Posibilidad de configurar la ejecución paralela de las diferentes consultas involucradas en una misma tarea. Introducción 1

2 ARQUITECTURA GENERAL Denodo Scheduler es una herramienta de planificación temporal de tareas de extracción automática de datos de diferentes fuentes de información. En particular permite definir la configuración de diferentes tareas de extracción a través de su herramienta de administración web, almacenar esa información de forma persistente y planificar la ejecución de esas tareas contra los servidores de datos correspondientes en el momento deseado. Denodo Scheduler permite definir tareas de extracción contra los diferentes módulos de la Plataforma Denodo. Adicionalmente, también permite extraer información de bases de datos relacionales a través de JDBC. Para los datos extraídos, Denodo Scheduler permite aplicar diferentes algoritmos de filtrado y exportar los datos obtenidos en diferentes formatos y repositorios. El núcleo del sistema lo constituyen las tareas de extracción que se pueden definir para los diferentes componentes de la Plataforma Denodo. Denodo Aracne. Es posible definir dos tipos de tareas sobre este módulo: crawling y mantenimiento de índices, que serán ejecutadas en los servidores de crawling e indexación de Denodo Aracne [ARN]. Las tareas de crawling (ARN), permiten recolectar información de fuentes no estructuradas. En particular se consideran los siguientes subtipos de tareas: o WebBot e IECrawler atraviesan la estructura de hipertexto de la Web, partiendo de un conjunto de URLs iniciales y recuperan, de forma recursiva, todas las páginas accesibles desde el conjunto de URLs de partida. Permiten además conectarse a un servidor FTP y obtener la información contenida en todos los ficheros y subdirectorios de un directorio especificado como URL inicial. o WebBot es capaz, además, de explorar un sistema de ficheros considerando como URL inicial un directorio y extrayendo la información contenida en todos sus ficheros y subdirectorios. o Crawler POP3/IMAP. Permite recuperar información de correos electrónicos contenidos en servidores accesibles a través de los protocolos POP3 o IMAP. Incluye soporte para ficheros adjuntos. o Crawler MS Exchange. Permite recuperar información de correos electrónicos contenidos en servidores MS Exchange [MSEX]. Incluye soporte para ficheros adjuntos. o Crawler Salesforce.com. Permite recuperar información contenida en entidades de datos accesibles a través de una cuenta en el servicio on-line Salesforce.com [SLF]. o CustomCrawler permite extraer la información de una fuente de datos, a través de una implementación Java proporcionada por el administrador de Denodo Aracne. Este tipo de robot permite la construcción ad-hoc de un crawler para una fuente específica. Las tareas de mantenimiento de índices (ARN-INDEX) permiten realizar un mantenimiento automático de los índices creados mediante la eliminación de documentos antiguos, obsoletos, no accesibles, etc. Denodo ITPilot (ITP). Ejecuta consultas sobre wrappers de Denodo ITPilot [ITP] para obtener información estructurada procedente de fuentes web. Denodo Virtual DataPort (VDP). Ejecuta consultas sobre wrappers y vista definidas en Denodo Virtual DataPort [VDP] para obtener información resultado de la integración de datos que pueden proceder de fuentes dispersas y heterogéneas. Adicionalmente es posible definir una tarea de tipo JDBC, que explora las tablas especificadas en una base de datos y recupera la información contenida en las mismas. A nivel general para todas las tareas, es posible configurar su planificación temporal (cuándo y con qué periodicidad debe ejecutarse), diversos tipos de filtros para post-procesar la información recuperada por el sistema y la forma en que serán exportados los resultados obtenidos por la tarea. Los exportadores disponibles son: Arquitectura General 2

Volcado a una base de datos, Indexación en el servidor de indexación de Aracne ([ARN]) Volcado a un fichero de tipo CSV. También se permite al programador crear nuevos exportadores para necesidades ad-hoc. En la Figura 1 se muestra la arquitectura básica del servidor. Además de las tareas y los filtros, el planificador permite definir los orígenes de datos (data sources) a utilizar por las tareas de extracción y por los exportadores. Denodo Scheduler permite definir orígenes de datos para los diferentes componentes de la Plataforma Denodo (ARN, VDP e ITP), para bases de datos relacionales y ficheros delimitados. En el caso de los tipos de tareas ITP, VDP y JDBC, es posible especificar una consulta parametrizada por una serie variables, junto con los valores posibles para esas variables, de modo que se realicen varias consultas contra el servidor correspondiente. Figura 1 Arquitectura de Denodo Scheduler A continuación se describen brevemente dos ejemplos típicos de utilización de Denodo Scheduler. Ejemplo 1: Extracción de datos estructurados procedentes de la Web con ITPilot Supóngase que se desea extraer periódicamente información de clientes accesible a través de una web corporativa. La web ofrece al usuario un formulario de consulta en el que debe especificarse el CIF de un cliente y devuelve como respuesta diversa información de interés sobre el cliente especificado. La lista de todos los CIFs a consultar está disponible en una base de datos interna accesible por JDBC. El conjunto de los datos extraídos debe volcarse en otra base de datos interna también accesible por JDBC. Los pasos a seguir para llevar a cabo esta tarea con la Plataforma Denodo son los siguientes: 1. Crear un nuevo wrapper ITPilot (ver [ITP] para más detalle) que automatice en la web corporativa la operación de obtener los datos de un cliente. El wrapper recibirá como parámetro obligatorio el CIF de un cliente, ejecutará automáticamente la consulta sobre la web y extraerá los resultados deseados. 2. Añadir a Scheduler un nuevo data source de tipo JDBC para acceder a la base de datos que contiene los CIFs de los clientes de los que se desea obtener información (véase la sección 5.2.5 para saber cómo añadir data sources JDBC). Arquitectura General 3

3. Añadir a Scheduler otro nuevo data source JDBC para acceder a la base de datos en la que se volcarán los datos extraídos. 4. Crear una tarea de tipo ITP en Scheduler (véase sección 5.4). La tarea ITP consultará un wrapper al que se le especificarán diferentes valores para el atributo CIF. Para obtener los diferentes valores del atributo CIF, se utilizará una consulta sobre el data source JDBC definido en el paso 2, que obtendrá la lista de todos los CIFs que se desea consultar. De esta forma, al ejecutar la tarea, se invocará el wrapper ITPilot con cada uno de los CIFs deseados. 5. Crear un exportador de tipo JDBC para la tarea ITP (véase sección 5.4.8). Este exportador utilizará el datasource JDBC definido en el paso 3. 6. Finalmente, configurar en Scheduler la periodicidad con la que se desea ejecutar la tarea (véase sección 5.4.10). Ejemplo 2: Crawling, Filtrado e Indexación de Información No Estructurada con Denodo Aracne Supóngase que se desea explorar periódicamente un determinado sitio web para descargar todos aquellos documentos relevantes para una determinada temática. Los nuevos documentos encontrados deben ser volcados en un índice que permita posteriormente hacer complejas búsquedas boolenas por palabra clave sobre ellos. Los pasos a seguir para llevar a cabo esta tarea con la Plataforma Denodo son los siguientes: 1. Crear una tarea ARN de tipo WebBot o IECrawler (véase sección 5.4). Esta tarea realizará un crawling del sitio web deseado, descargando todos los documentos encontrados. 2. Crear una secuencia de filtros para post-procesar los documentos obtenidos por el crawling. Por ejemplo, puede usarse el filtro booleano de contenido (ver sección 5.3.1) para retener sólo aquellos documentos que contengan determinadas palabras clave relevantes para la temática deseada, el filtro de unicidad (ver sección 5.3.6) para descartar documentos duplicados y el filtro de contenido (ver sección 5.3.2) para indexar solamente el contenido textual de los documentos (descartando las marcas HTML y el código Javascript de la página). 3. Crear un exportador de tipo índice Aracne para la tarea (véase sección 5.4.8). De esta forma los documentos serán indexados para permitir la realización de búsquedas booleanas por palabra clave sobre los mismos. 4. Finalmente, configurar en Scheduler la periodicidad con la que se desea ejecutar la tarea (véase sección 5.4.10). Arquitectura General 4

3 INSTALACIÓN Y EJECUCIÓN La Guía de Instalación de la Plataforma Denodo [DENINST] proporciona toda la información necesaria para instalar Denodo Scheduler, incluyendo los requisitos mínimos de hardware y software, e instrucciones para la utilización de la herramienta de instalación y para la configuración inicial del sistema. Denodo Scheduler incluye un servidor de tareas de planificación y un servidor web que soporta la herramienta de administración. Los servidores pueden arrancarse y detenerse utilizando la herramienta Denodo Platform Control Center (ver Guía de Instalación de la Plataforma Denodo [DENINST]). Para conectarse a la herramienta de administración es necesario utilizar el usuario admin, con contraseña inicial admin. El URL de acceso por defecto a la herramienta de administración web desde una máquina local es http://localhost:9090/webadmin/denodoscheduler-admin. Como alternativa se proporcionan scripts en la ruta DENODO_HOME/bin. Para el servidor de planificación existe un script scheduler_startup.sh (scheduler_startup.bat y scheduler_startup.exe en Windows) para arrancarlo y un script scheduler_shutdown.sh (scheduler_shutdown.bat y scheduler_shutdown.exe en Windows) para detenerlo. Para arrancar y detener la herramienta de administración web existen los scripts scheduler_webadmin_startup.sh y scheduler_webadmin_shutdown.sh respectivamente(scheduler_webadmin_startup.bat y scheduler_webadmin_shutdown.bat en Windows). En el caso de máquinas Windows, se incluye un script para instalar el servidor de planificación como servicio. El script recibe el nombre schedulerservice.bat. Instalación y Ejecución 5

4 ADMINISTRACIÓN La Guía de Instalación de la Plataforma Denodo [DENINST] proporciona información detallada sobre las tareas de configuración que es necesario realizar antes de ejecutar Scheduler. En la siguiente sección se describen las opciones de configuración del servidor y los logs del sistema. 4.1 AUTENTICACIÓN Al acceder a la herramienta de administración de Denodo Scheduler se muestra una pantalla inicial de autenticación en la que el usuario deberá introducir la contraseña del usuario admin. Se proporciona la posibilidad de recordar la contraseña para futuras autenticaciones. En la misma pantalla, haciendo clic sobre el enlace Edit server advanced config, se puede modificar el servidor Denodo Scheduler al que se conectará la herramienta (nombre del servidor y puerto del proceso de administración). 4.2 CONFIGURACIÓN DEL SERVIDOR Una vez arrancado el servidor Denodo Scheduler, es posible modificar algunos parámetros de configuración desde la perspectiva Configuration de la herramienta de administración. La pantalla principal de la perspectiva de Configuration muestra el nombre y puerto del servidor que está utilizando la herramienta de administración. En el lateral izquierdo de la página se muestran enlaces para configurar los siguientes aspectos: Modificar la clave de acceso del usuario. Cambiar los puertos utilizados por el servidor. Modificar la configuración del servidor de correo electrónico saliente. Cambiar la configuración de hilos de ejecución del servidor. Añadir o eliminar librerías que encapsulan extensiones del sistema (plugins) como exportadores, manejadores de resultados, crawlers o filtros personalizados, y adaptadores JDBC utilizados por fuentes de este tipo. Exportar los proyectos (datasources, secuencias de filtros y tareas), plugins y adaptadores JDBC del servidor (opción Export). Esta funcionalidad es especialmente útil para propósitos de copia de seguridad o migración a otras instalaciones de Denodo Scheduler. Para ello se genera un fichero zip, con toda la información necesaria para restablecer el estado del servidor en ese momento. Es posible elegir los elementos que se desean exportar: o Todos los proyectos, plugins, adaptadores JDBC y la configuración del servidor. Es la opción seleccionada por defecto. o Todos los proyectos, especificando adicionalmente si se desean exportar los plugins, los o adaptadores JDBC y/o la configuración del servidor, Sólo un proyecto o conjunto de proyectos, especificando adicionalmente si se desea exportar la configuración del servidor y los plugins y los adaptadores JDBC utilizados por los elementos de los proyectos seleccionados. La plataforma proporciona scripts para realizar la exportación mediante línea de comandos (ver apéndice 7.4). Importar la configuración, proyectos, plugins y adaptadores JDBC a partir de un fichero que contiene el estado de un servidor en un determinado momento (opción Import). Es posible especificar si se desea reemplazar elementos existentes por los incluidos en el fichero que se está importando, en el caso de que ya exista un elemento con el mismo nombre. Esta funcionalidad es especialmente útil para Administración 6

propósitos de migración. Denodo Scheduler incluye scripts para este mismo propósito (ver apéndice 7.4). Los siguientes subapartados se ocupan, respectivamente de cada uno de estos puntos. 4.2.1 Autenticación Es posible modificar la clave del usuario admin pulsando sobre el enlace Change password. El formulario de cambio de clave solicita que el usuario introduzca la clave antigua (Old password) y la nueva por duplicado (New password y Retype new password). Los cambios se harán efectivos tras pulsar el botón Accept, siendo posible cancelar la operación pulsando sobre el botón Cancel. 4.2.2 Puertos El servidor Scheduler utiliza tres números de puerto para sus comunicaciones con los clientes: el puerto de ejecución del servidor, el puerto de parada del servidor y un puerto auxiliar. Estos puertos pueden configurarse seleccionando el enlace Change remote ports. NOTA: En el caso de que la conexión entre los clientes y el servidor Scheduler deba atravesar un cortafuegos, será necesario configurar el software del cortafuegos para permitir el acceso al puerto de ejecución y al puerto auxiliar. Los cambios de puerto tendrán efecto la siguiente vez que se relance el servidor Scheduler. 4.2.3 Servidor de Correo Saliente El enlace Mail configuration permite modificar el nombre del servidor de correo saliente a utilizar por el manejador de correo electrónico (5.4.9) para enviar los informes sobre la ejecución de tareas. También permite especificar la dirección de correo electrónico utilizada por el Scheduler para enviar los correos (From) y el asunto del correo (Subject). Adicionalmente, si el servidor de correo saliente requiere autenticación para realizar el envío, es necesario especificar el nombre del usuario (Username) y su clave de acceso (Password). 4.2.4 Hilos de Ejecución El servidor Scheduler permite ejecutar varias tareas de extracción de forma simultánea. Adicionalmente, los tipos de tareas VDP, ITP y JDBC permiten que una misma tarea ejecute de forma concurrente diferentes consultas sobre la misma fuente de datos, variando los parámetros. El enlace Threads configuration permite modificar la configuración de concurrencia del servidor Scheduler. Es posible especificar el número máximo de tareas que el servidor va a ejecutar de forma concurrente, con el parámetro Maximum number of concurrent jobs (por defecto 20). El cambio en el número de tareas concurrentes se hará efectivo la siguiente vez que se reinicie el servidor Scheduler. Respecto a las tareas de tipo VDP, ITP y JDBC, el servidor Scheduler utiliza un pool de threads reutilizables para gestionar la ejecución de las múltiples consultas que puede generar una misma tarea. Los parámetros que es posible configurar son los siguientes: Normal number of threads. Representa el número de threads en el pool a partir del cual se reutilizan los threads inactivos (por defecto 20). Mientras en el pool haya menos de este número de threads, se seguirán creando nuevos threads. Cuando se solicite un thread, y el número de threads en el pool iguale o supere este valor, se devolverán threads inactivos si existen; en caso contrario se seguirán creando nuevos threads hasta llegar al valor establecido por el siguiente parámetro. Intuitivamente, este parámetro indica el número de threads que el sistema debería de tener activos simultáneamente en condiciones normales de carga. Maximum number of threads. Representa el número máximo de threads del pool (por defecto 60). Keep alive time (ms). Especifica el tiempo máximo en milisegundos que un thread inactivo permanece en el pool, si el número de threads totales supera el indicado en Normal number of Administración 7

threads (por defecto 0). Si el valor es 0, entonces los threads creados por encima de este valor, una vez terminada la ejecución de su tarea, finalizan. En caso contrario, finalizan aquellos que excedan el tiempo especificado en este parámetro. 4.2.5 Plugins y Adaptadores JDBC Denodo Scheduler permite gestionar las extensiones añadidas al Scheduler a través del enlace Plugins and Drivers. En las secciones siguientes se describen en detalle estas funcionalidades. NOTA: El borrado de extensiones puede provocar que elementos del Scheduler que dependen de ellas dejen de funcionar (por ejemplo, un data source JDBC que utilice un adaptador que acaba de ser borrado). NOTA: El tamaño máximo de los archivos subidos al servidor es de 100MB. 4.2.5.1 Plugins Denodo Scheduler permite que un usuario cree sus propios filtros, exportadores, manejadores de resultados o crawlers de Aracne, para aquellas funcionalidades no soportadas por el servidor o que sean específicas de un proyecto concreto. La herramienta de administración muestra una tabla con las extensiones registradas en el Scheduler. Por cada extensión muestra su nombre, el nombre de la clase de implementación, su tipo (filter, exporter, handler o crawler), el nombre del archivo JAR que lo contiene y un enlace para eliminar la extensión del sistema. Para crear una nueva extensión, es necesario implementar determinadas interfaces Java (en función del tipo de extensión), crear un fichero de configuración y empaquetar todo junto en un archivo JAR (véase sección 6.2). Para registrar una nueva extensión en el Scheduler hay que seleccionar el JAR que la contiene para hacer upload del mismo al servidor. El Scheduler analiza el JAR y en base a la metainformación contenida en el archivo MANIFEST.MF detecta el tipo de extensión y la clase de implementación. 4.2.5.2 Adaptadores JDBC Los orígenes de datos JDBC definidos mediante los data sources JDBC utilizan adaptadores que es necesario registrar previamente en el Scheduler. En particular, Denodo Scheduler incluye preinstalados los adaptadores para algunos gestores (véase sección 7.3). Es posible añadir adaptadores para nuevos gestores relacionales especificando la siguiente información obligatoria: Database adapter. El nombre del adaptador se utilizará, junto con la versión, para identificar al adaptador en el Scheduler. Version. Versión de la base de datos para la que es aplicable el adaptador. Class name. Clase Java del adaptador JDBC. Connection URI template. URI de conexión de ejemplo para el gestor para el que se utiliza el adaptador. Select JAR file to upload. Archivo JAR conteniendo las clases del adaptador JDBC. Una vez añadido un nuevo adaptador, es posible eliminarlo. Sin embargo, no es posible eliminar los adaptadores incluidos con la distribución. 4.3 CONFIGURACIÓN DE LOGS Denodo Scheduler posee en la ruta DENODO_HOME/conf/scheduler (donde DENODO_HOME especifica la ruta base de instalación) el fichero de configuración de logs para el servidor. Estos ficheros están basados en Log4j [LOG4J]. Entre otras posibilidades, permiten modificar la ruta donde se almacenan los ficheros de log y el nivel de log de las categorías definidas en la aplicación. Para más información, véase la documentación de Log4j. Administración 8

La herramienta de administración web también posee un fichero de configuración log4j.xml para establecer el nivel de registro de los eventos generados por esta aplicación. Este fichero se encuentra en el directorio DENODO_HOME/resources/apache-tomcat/webapps/webadmin/denodo-scheduleradmin/WEB-INF/classes. El servidor Scheduler genera un fichero de nombre scheduler.log en la ruta DENODO_HOME/logs/scheduler. La herramienta de administración genera dos ficheros de log: DENODO_HOME/logs/scheduler/scheduler-admin.log. Contiene información de ejecución de la herramienta de administración. DENODO_HOME/logs/apache-tomcat/denodo-tomcat.log. Contiene información relacionada con el arranque/instalación/parada de la herramienta de administración en el servidor web. Administración 9

5 CREACIÓN Y PLANIFICACIÓN DE TAREAS Además de la perspectiva Configuration, la herramienta de administración de Denodo Scheduler presenta otras dos perspectivas adicionales: Workspace y Scheduler. El objetivo de la perspectiva Workspace es facilitar la definición de tareas de extracción de datos. En particular permite crear/modificar/borrar proyectos, data sources, secuencias de filtros y tareas. Los diferentes elementos del espacio de trabajo de Scheduler se organizan por proyectos, pudiendo tener elementos con el mismo nombre en distintos proyectos. En el lateral izquierdo se muestra un selector con los proyectos existentes y un botón para permitir añadir nuevos proyectos. El selector permite escoger el proyecto activo. Para añadir un nuevo proyecto es necesario especificar su nombre y opcionalmente, una descripción para el mismo. Un proyecto agrupa una lista de data sources, secuencias de filtros y tareas. Para el proyecto activo, en el lateral izquierdo de esta perspectiva se muestra un árbol con los diferentes elementos. Mediante los enlaces expand, collapse y refresh es posible desplegar, replegar o sincronizar con el servidor el árbol que se está visualizando. Tras la instalación se crea de forma automática el proyecto de nombre default. También se incluyen, si en la instalación se han seleccionado otros componentes de la Plataforma Denodo, un data source para cada uno de ellos correctamente configurados y, en el caso de instalar Denodo Aracne, una secuencia de filtros por defecto de nombre default_arn. Para añadir nuevos elementos al árbol es necesario hacer clic sobre los nodos Data Sources, Filter Sequences o Jobs. En los siguientes apartados se describirán en detalle las pantallas de creación/edición de los diferentes tipos de elementos. Haciendo clic sobre un elemento del árbol, se mostrará su información, siendo posible realizar modificaciones sobre la misma. Por otra parte, la perspectiva Scheduler permite monitorizar en tiempo real el estado de ejecución de las diferentes tareas que han sido planificadas. También permite conocer el estado de última ejecución, ver informes de ejecuciones anteriores, forzar la ejecución de una tarea en un momento determinado o cancelar su ejecución, entre otras. En los apartados siguientes se describen en detalle ambas perspectivas. 5.1 TAREAS ACTIVAS La perspectiva Scheduler de la herramienta de administración permite visualizar la lista de tareas del Scheduler. Es posible realizar filtrados por nombre de proyecto o por tipo de tarea. La tabla en la que se muestra la información de las tareas permite realizar ordenaciones por todos sus campos. Para ello sólo hay que hacer clic en la cabecera del campo por el que se desea realizar la ordenación. Para cada tarea se muestra la siguiente información: Name. El nombre de la tarea. Project. El nombre del proyecto al que pertenece la tarea. Type. El tipo de la tarea (ARN, ARN-Index, ITP, JDBC, VDP) State. El estado actual de la tarea. En particular una tarea puede encontrarse en ejecución (RUNNING), no estarse ejecutando (NOT_RUNNING) o haber sido deshabilita (DISABLED), en cuyo caso, aunque posea información de planificación temporal, no pasará a ejecución hasta que vuelva a ser habilitada. Las tareas aparecen como DISABLED también en el caso de que el servidor haya sido pausado a través de la API (sólo se puede deshabilitar el servidor completo si Creación y Planificación de Tareas 10

no hay ninguna tarea en estado RUNNING). Ver sección 6.1 para más información sobre el pausado vía API del servidor. Previous Execution. Muestra el instante de última ejecución de la tarea. Aparecerá vacío si no se ha ejecutado nunca. Next Execution. Muestra el instante de la próxima ejecución de la tarea. Aparecerá vacío si está deshabilitada o según su planificación temporal no se volverá a ejecutar. Last Execution State. Muestra el estado de finalización de la última ejecución de la tarea. Una tarea puede terminar correctamente (COMPLETED), finalizar habiéndose detectado alguna condición de error (ERROR) o haber sido detenida por el usuario (STOPPED). Extracted Tuples. Número de tuplas / documentos que han sido extraídos en la última ejecución de la tarea. Este número de actualiza dinámicamente durante la ejecución de la tarea. Exported Tuples. Para cada tupla / documento extraído, se aplican las secuencias de filtros configuradas y se envían a los exportadores las tuplas que cumplan sus filtros. En esta columna para cada exportador se muestra su nombre (en el formato <nombre de procesador de resultados>#<nombre de exportador>) y el número de tuplas que han sido enviadas al mismo. Actions. Muestra las diferentes acciones que pueden ser realizadas sobre una tarea. o Start. Fuerza una ejecución completa de la tarea en el momento actual. Sólo es aplicable sobre las tareas que se encuentren en estado NOT_RUNNING. o Start with state. Fuerza una ejecución de la tarea en el momento actual. Esta funcionalidad es equivalente a la de la acción Start para las tareas ARN y ARN-Index. En el caso de las tareas ITP, JDBC o VDP que pueden lanzar múltiples consultas contra una misma fuente de datos, si en la última ejecución se ha producido algún error al ejecutar alguna consulta o la tarea ha sido detenida antes de finalizar la ejecución, Start with state ejecutará la tarea realizando sólo las consultas que habían fallado o las que no habían sido realizadas todavía. En otro caso, funciona igual que Start, repitiendo la ejecución de la tarea completa. o Stop. Detiene la ejecución de una tarea. Sólo es aplicable a las tareas de tipos ARN (para crawlers WebBot, IECrawler y Custom), ARN-Index, ITP, JDBC y VDP. En el caso de las tareas ARN para crawlers custom, dependerá de la implementación del propio crawler. o Enable. Habilita una tarea que está en estado DISABLED, para que pueda ser ejecutada. o Disable. Deshabilita una tarea, para que no pueda ser ejecutada manualmente ni utilizando su planificación temporal. Es necesario que la tarea se encuentre previamente en estado NOT_RUNNING. o Reports. Permite acceder a los informes de las últimas ejecuciones de cada tarea. Cada informe muestra información sobre la fecha de ejecución de cada tarea, el número de tuplas/documentos extraídos y el número de tuplas/documentos exportados por cada exportador de la tarea, indicando si ha habido errores de configuración, de acceso a las fuentes o al exportar los resultados. En función del tipo de tarea ejecutada, el informe muestra en más detalle información específica de ese tipo de tarea. En el caso de tareas ARN se muestran también los URLs que han sido rechazados por el protocolo de exclusión de robots, los filtros de URLs definidos por el usuario (ver sección 5.4.2.1.3) y los URLs en los cuáles se produjo un error de I/O o http. En el caso de tareas ITP, JDBC o VDP que realicen múltiples consultas, se mostrará un informe detallado para el resultado de ejecución de cada una de las consultas. 5.2 AÑADIR DATA SOURCES Para configurar las tareas de extracción o las fuentes de obtención de parámetros para aquellas tareas que pueden especificar una consulta parametrizable (ver sección 5.4.3), es necesario crear data sources. La gestión de data sources se realiza sobre el árbol del proyecto actual, en la parte izquierda del espacio de trabajo. Haciendo clic sobre el nodo del árbol data sources se muestra una lista con los diferentes tipos de que pueden ser Creación y Planificación de Tareas 11

creados: ARN, ARN-Index, CSV, ITP, JDBC y VDP. Para cada uno de ellos es necesario especificar un nombre y un conjunto de parámetros dependientes del tipo. A continuación se describe la configuración necesaria para crear o editar cada uno de ellos. Por defecto, Denodo Scheduler proporciona creado un data source para acceder a cada origen de datos proporcionado por los servidores de la Plataforma Denodo que hayan sido instalados ( arn, arn-index, itp y vdp ). 5.2.1 Data Sources ARN Permiten configurar el acceso a los crawlers de Denodo Aracne, y son utilizados en las tareas ARN. Para crear un Data Source ARN es necesario especificar los siguientes parámetros: Host. Nombre de la máquina en la que se ejecuta el servidor de ARN. Port. Número de puerto del servidor de ARN. Username. Identificador de usuario con el que se realizará la conexión al servidor ARN. Password. Contraseña asociada al usuario especificado. Query timeout (opcional). Máximo tiempo que está dispuesta a esperar una tarea mientras se obtienen todos los resultados de un crawling. 0 significa sin límite de tiempo (por defecto 0). Chunk size (opcional). Especifica el tamaño de bloque de resultados para las transferencias entre el servidor de ARN y el cliente (por defecto 100). 5.2.2 Data Sources ARN-Index Tanto para crear tareas ARN-Index como exportadores a índices es necesario haber definido un origen de datos contra el servidor de indexación de Aracne de la Plataforma Denodo, especificando los siguientes parámetros: Host. Nombre de la máquina en la que se ejecuta el servidor de ARN-Index. Port. Número de puerto del servidor de ARN-Index. Username. Identificador de usuario con el que se realizará la conexión al servidor ARN-Index Password. Contraseña asociada al usuario especificado. 5.2.3 Data Sources CSV Para poder utilizar un fichero CSV como origen de datos para asignar valores a variables en un tarea ITP, VDP o JDBC creada utilizando una consulta parametrizada (ver sección 5.4.3), es necesario haber definido un data source CSV que referencie a ese fichero. En la creación de un data source CSV es necesario especificar los siguientes parámetros: File. La ruta al fichero que se subirá al servidor. Separator. El separador de columnas a utilizar para obtener las tuplas del fichero. Como separador de tuplas se asume el retorno de carro. Header (opcional). Si se marca este checkbox, se utilizará la primera fila del fichero para dar nombre a los campos de cada tupla obtenida del mismo. En ese caso, cuando al configurar una tarea se especifique una asociación entre una variable y un campo del fichero (ver sección 5.4.3), se utilizará el nombre que aparece en la línea de cabecera para identificar cada columna. Si no se marca este checkbox, entonces en las asociaciones se utilizará la posición de la columna, comenzando en 0. NOTA: El tamaño máximo para un fichero CSV que se subirá al servidor es de 100MB. 5.2.4 Data Sources ITP Para poder crear una tarea ITP (ver sección 5.4.4) es necesario crear previamente un data source ITP. Para crear un data source de tipo ITP hay que especificar los siguientes parámetros: Host. Nombre de la máquina en la que se ejecuta el servidor de ITPilot. Port. Número de puerto del servidor de ITPilot. Creación y Planificación de Tareas 12

Database name (opcional). Nombre de la base de datos contra la que ejecutar los wrappers (por defecto itpilot) Username (opcional). Identificador de usuario con el que se realizará la conexión al servidor ITPilot (por defecto admin ). Password (opcional). Contraseña asociada al usuario especificado (por defecto admin ) Query timeout (opcional). Máximo tiempo (en milisegundos) que esperará Scheduler hasta que finalice la ejecución del wrapper. Si no se indica (o recibe el valor 0), entonces se espera hasta que la ejecución finalice (por defecto 0) Chunk timeout (opcional). Máximo tiempo (en milisegundos) que esperará Scheduler hasta que llegue un conjunto de resultados. Si se sobrepasa este tiempo, ITPilot devuelve un resultado parcial vacío. Si no se especifica (o recibe el valor 0), ITPilot devuelve todos los resultados conjuntamente al finalizar la ejecución de la sentencia (por defecto 0). Chunk size (opcional). Número de resultados que conforman un conjunto de resultados enviado por el servidor. Si ITPilot recibe este número de resultados, los reenviará al cliente aunque no se haya cumplido el Chunk Timeout (por defecto 100). 5.2.5 Data Sources JDBC Los data sources JDBC pueden utilizarse para los siguientes propósitos: Crear una tarea JDBC (ver sección 5.4). Utilizar información de una base de datos relacional para obtener valores para una variable en una consulta parametrizable de tareas de tipo ITP, VDP o JDBC [JDBC]. Crear un exportador a una base de datos relacional (ver sección 5.4.8). Para crear un data source JDBC es necesario especificar los siguientes parámetros: Database name. Nombre del adaptador JDBC a utilizar para acceder a la base de datos relacional. En el apartado 4.2.5.2 se comentan los adaptadores distribuidos con Denodo Scheduler y cómo añadir nuevos. Al seleccionar un adaptador, los campos de URI de conexión, nombre de clase del driver y classpath se rellenan automáticamente. En el caso de URI de conexión, aparecerá una plantilla de conexión para esa base de datos, que habrá que modificar de acuerdo al servidor remoto al que se desee acceder. Connection URI. URI de acceso a la base de datos. Driver class name. Nombre de la clase JAVA del adaptador JDBC a utilizar. Classpath. Ruta al archivo JAR que contiene las clases de implementación del adaptador JDBC. Username (opcional). Identificador del usuario para acceso a la base de datos externa Password (opcional). Contraseña del usuario para el acceso a la base de datos externa. Enable pool (opcional). Es posible habilitar la utilización de un pool de conexiones contra el servidor de base de datos marcando este checkbox. En ese caso pueden especificarse los siguientes parámetros del pool. o Validation query (opcional). Consulta SQL utilizada por el pool para verificar el estado de las conexiones que se encuentran cacheadas. Es preciso que la consulta sea sencilla y exista la tabla en cuestión. o Initial size of the pool (opcional). Número de conexiones con las que se desea inicializar el pool. Se establecen y crean un número de conexiones en estado idle (ociosas), listas para ser utilizadas. o Maximum active connections in the pool (opcional). Número máximo de conexiones activas que puede gestionar el pool al mismo tiempo (cero implica sin límite). o Maximum idle connections in the pool (opcional). Número máximo de conexiones activas que pueden permanecer ociosas en el pool sin necesidad de que se desocupen conexiones adicionales (cero implica sin límite). o Test connections (opcional). Si se marca esta opción, el pool intentará validar cada conexión antes de ser devuelta. En caso de no ser válida la conexión (reinicio del gestor, conexión cerrada, etc.) se eliminará del pool, y se creará una nueva. Creación y Planificación de Tareas 13

5.2.6 Data Sources VDP Permite configurar un origen de datos contra el servidor del módulo de la Plataforma Denodo Virtual DataPort. Es necesario crear un data source de este tipo para crear una tarea VDP. Los parámetros a especificar son los siguientes: Connection URI: URI de conexión al servidor. Username: Identificador de usuario con el que se realizará la conexión al servidor DataPort. Password: Contraseña asociada al usuario especificado. Query timeout (opcional). Máximo tiempo (en milisegundos) que Scheduler esperará a que finalice la sentencia. Si no se indica (o recibe el valor 0), entonces se espera hasta que la ejecución finalice (por defecto 0). Chunk timeout (opcional). Máximo tiempo (en milisegundos) que esperará Scheduler hasta que llegue un conjunto de resultados. Si se sobrepasa este tiempo, Virtual DataPort devuelve un resultado parcial vacío. Si no se especifica (o recibe el valor 0), DataPort devuelve todos los resultados conjuntamente al finalizar la ejecución de la sentencia (por defecto 0). Chunk size (opcional). Número de resultados que conforman un resultado parcial. Si Virtual DataPort recibe este número de resultados, los reenviará a Scheduler aunque no se haya cumplido el Chunk Timeout (por defecto 100). Enable pool (opcional). Es posible habilitar la utilización de pool de conexiones contra el servidor Virtual DataPort, marcando este checkbox. En ese caso pueden especificarse los siguientes parámetros del pool. o Initial pool size (opcional). Número de conexiones con las que se desea inicializar el pool. Se establecen y crean un número de conexiones en estado idle, listas para ser usadas. o Maximum active connections in the pool (opcional). Número máximo de conexiones activas que puede gestionar el pool al mismo tiempo (cero implica sin límite). o Maximum idle connections in the pool (opcional). Número máximo de conexiones activas que pueden permanecer ociosas en el pool sin necesidad de que se desocupen conexiones adicionales (cero implica sin límite). 5.3 SECUENCIAS DE FILTRO Una vez realizado el proceso de extracción de datos de las fuentes, es posible realizar una selección y/o postprocesado de las tuplas obtenidas aplicando una secuencia de filtros sobre las mismas. Una secuencia de filtros está compuesta por filtros individuales en los que la salida de un filtro se convierte en la entrada del siguiente filtro de la secuencia. La entrada a una secuencia de filtros la constituyen las tuplas/documentos obtenidos por los extractores y la salida la constituyen aquellas tuplas/documentos que verifican todos los filtros, posiblemente modificadas o extendidas con información adicional generada por los filtros de la cadena. Para crear una secuencia de filtros, se pulsa sobre el nodo Filter Sequences del árbol de elementos del proyecto actual, de la parte izquierda de la perspectiva Workspace. Una vez creada una secuencia de filtros, es posible modificarla o eliminarla, haciendo clic sobre el elemento que representa a esa secuencia en el árbol Una vez en la pantalla de edición de secuencias de filtros, para añadir un nuevo filtro hay que seleccionar el tipo del filtro y pulsar sobre el botón Add new filter. Es posible reordenar los filtros de una secuencia arrastrando un filtro a la posición deseada en la secuencia (drag & drop). La plataforma proporciona una serie de filtros predefinidos y, además, ofrece la posibilidad de añadir nuevos filtros al sistema (ver sección 6.2.1). Para crear una cadena de filtros el usuario debe especificar los filtros que la componen, su orden de ejecución y los parámetros de cada filtro. Creación y Planificación de Tareas 14

Los filtros que se incluyen son: Boolean. Filtro Booleano de Contenido. Permite filtrar tuplas en función de si el contenido de alguno de sus campos verifican o no una determinada expresión lógica compuesta por diversas palabras clave. Content-extractor. Filtro de Extracción de Contenido HTML, PDF, Word, Excel, PowerPoint, XML, EML y Texto. Extrae el texto útil contenido en documentos en los formatos respectivos, descartando marcas de formato. New-field. Filtro de Agregación de un nuevo Campo. Añade a la tupla un nuevo campo, permitiendo especificar su nombre y valor. Summary-generator. Filtro de Generación de Resumen. Genera automáticamente un resumen del contenido de un documento. Title-generator. Filtro de Generación de Título. Genera automáticamente un título a partir del contenido de un documento). Unicity. Filtro de Unicidad. Elimina las tuplas que presenten el mismo valor en un campo especificado. Uri-normalizer. Filtro de Normalización de URIs. Transforma los URIs a un formato normalizado para facilitar su comparación Useful-content-extractor. Filtro de Extracción de Contenido Útil. Este filtro utiliza diversas heurísticas para extraer automáticamente el contenido útil de un documento, eliminando menús de navegación, imágenes y demás adornos habituales en muchos documentos web. Este filtro utiliza internamente el filtro Content-extractor (Filtro de Extracción de Contenido), por lo que no es necesario incluir el Filtro de Extracción de Contenido si se utiliza el Filtro de Extracción de Contenido Útil. Para las tareas de tipo Aracne, Scheduler distribuye una secuencia de filtros precreada (default_arn). Esta secuencia de filtros consta de los siguientes filtros: Filtro de Unicidad Filtro de normalización de URLs Filtro de Extracción de Contenido Útil Filtro de Generación de Título Filtro de Generación de Resumen Para una explicación más detallada de las características de cada filtro, véanse los siguientes subapartados. 5.3.1 Filtro Booleano de Contenido Este filtro actúa sobre los campos especificados en el parámetro Input field. El usuario deberá introducir valores del parámetro Expression, que serán expresiones regulares que deberán satisfacerse en alguno de los citados campos de entrada de la tupla para que el filtro no lo descarte. Una tupla satisface un filtro si cumple alguna de las expresiones booleanas indicadas. La siguiente sub-sección detalla la sintaxis de dichas expresiones. Aunque este filtro es aplicable a las tuplas devueltas por cualquier tipo de tarea, está especialmente orientado a tareas ARN por lo que por defecto aparecen los campos title y content (siempre presentes en los documentos obtenidos por Aracne [ARN] como Input Fields. 5.3.1.1 Sintaxis de las expresiones en los filtros de contenido Denodo Scheduler permite definir filtros a aplicar sobre los campos especificados como Input field de las tuplas extraídas. Cada filtro está definido por una expresión. Las expresiones pueden ser: Simples, formadas por una única clave. Compuestas, formadas por más de una clave relacionadas mediante operadores. Creación y Planificación de Tareas 15

5.3.1.1.1 Claves Las claves constituyen los términos a buscar dentro del valor de un campo. Deben ir encerradas entre comillas dobles. La búsqueda de las claves en el valor de un campo se realiza sin hacer distinción entre mayúsculas y minúsculas, y sin tener en cuenta los acentos. Así, por ejemplo, las claves Gestión y gestion tienen el mismo comportamiento. En este documento, todas las claves empleadas como ejemplo se escribirán en minúsculas y sin acentos. Las claves, al igual que las expresiones, pueden ser: Simples, formadas por un único término. La búsqueda resultará positiva si aparece el término en el valor del campo. internet telecomunicaciones Compuestas, formadas por más de un término. La búsqueda resultará positiva sólo si los términos aparecen en el valor de un campo en el orden correcto. comercio electrónico prevencion de riesgos laborales Cuando se emplean claves compuestas como comercio electrónico sólo se debe poner un espacio entre los términos. Cada espacio se interpretará como uno o más espacios en el documento a filtrar. Para representar partes variables u opcionales dentro de una clave se puede hacer uso de los comodines: Asterisco (*), representa un conjunto de cero o más caracteres exceptuando espacios, signos de puntuación, guiones, Interrogante (?), representa un único carácter que puede aparecer o no. En este caso cualquier carácter es válido, incluidos espacios, signos de puntuación, guiones, etc. Con la ayuda de los comodines se pueden construir claves más amplias que cubran distintas variantes de un término. Así por ejemplo, se puede hacer frente a variaciones en la terminación de un término incluyendo el comodín asterisco al final del mismo. subvencion*, daría resultado positivo si en el valor del campo aparecen los términos subvención, subvenciones, etc. También es posible abarcar en una misma clave varios términos que compartan la misma raíz o la misma terminación. *silicio, daría resultado positivo si en el valor del campo aparecen los términos silicio, ferrosilicio, etc. *silic*, daría resultado positivo si en el valor del campo aparecen los términos silicio, ferrosilicio, silicato, etc. El comodín asterisco también puede ir en medio de un término y entonces representar partes variables en medio del mismo. elect*ar, daría resultado positivo si en el valor de un campo aparecen los términos electrificar, electrizar, etc., pero dejaría fuera términos como electricidad o electrificación. Creación y Planificación de Tareas 16