Servicio de Difusión de la Creación Intelectual (SeDiCI)



Documentos relacionados
La Representación de Recursos en los Repositorios Institucionales

ÍNDICE. Qué es OAISTORE? Qué es OAI-PMH? Qué significa OAIstore? Qué servicios ofrece OAIstore? Por qué publicar documentos en OAIstore?

GLOSARIO. Arquitectura: Funcionamiento, estructura y diseño de una plataforma de desarrollo.

Mesa de trabajo Construcción de Bibliotecas Digitales

BackflipSD Modelo de Diseño

Define las propiedades del medio físico de transición. Un ejemplo es: CABLES, CONECTORES Y VOLTAJES.

Adelacu Ltda. Fono Graballo+ Agosto de Graballo+ - Descripción funcional - 1 -

Sistema de Información Integrada del Área Social

COMO FUNCIONA EL PROTOCOLO OAI PMH EN LA RECUPERACION DE INFORMACION

Capítulo 2. Planteamiento del problema. Capítulo 2 Planteamiento del problema

Centro de Investigación y Desarrollo en Ingeniería en Sistemas de Información (CIDISI)

Introducción. Metadatos

Intellikon 2.2. Código de Manual: Ik22002ESP Versión del Manual: 1.0 Última revisión: 20/12/2005 Se aplica a: Intellikon 2.2.

Arquitectura de sistema de alta disponibilidad

Capítulo V. Implementación

Seminario Repositorios Institucionales Centros Públicos de Investigación-CONACYT. La Interoperabilidad en el ámbito de los Repositorios Nacionales

Diagrama de Clases. Diagrama de Clases

CURSO COORDINADOR INNOVADOR


Mesa de Ayuda Interna

ARQUITECTURA DE DISTRIBUCIÓN DE DATOS

Capitulo 5. Implementación del sistema MDM

O jeto de apre r ndizaje

Gestión de la Configuración

Lic. Juan José Díaz Nerio Domingo 24 Noviembre 2013 Universidad Tecnológica de Santiago (UTESA)

Análisis y diseño del sistema CAPÍTULO 3

Capítulo 5. Implementación del Sistema de Inscripciones

Anexo 11. Manual de Administración

Aspectos Básicos en Gestión Documental,

SERVIDOR WEB PARA ACCESO EN TIEMPO REAL A INFORMACIÓN METEOROLÓGICA DISTRIBUIDA

Introducción a las Redes de Computadoras. Obligatorio

SUPLEMENTO EUROPASS AL TÍTULO

CONSTRUCCIÓN DEL PROCESO MESA DE AYUDA INTERNA. BizAgi Process Modeler

Instalación. Interfaz gráfico. Programación de Backups. Anexo I: Gestión de la seguridad. Manual de Usuario de Backup Online 1/21.

Los servicios más comunes son como por ejemplo; el correo electrónico, la conexión remota, la transferencia de ficheros, noticias, etc.

Capitulo 3. Desarrollo del Software

Servicio Nacional de Aduanas Subdirección de Informática. SMS Manual de Referencia

MACROPROCESO GESTIÓN TECNOLÓGICA

Capítulo 5. Cliente-Servidor.

Sistema de análisis de información. Resumen de metodología técnica

1. Resumen Objetivos Introducción. 3

La Gestión n Documental en Lex Nova (Producción n y Publicación) Leandro Escudero Atienza Director de T.I.

Custodia de Documentos Valorados

Sistemas de Recuperación de Información

Disposición complementaria modificada en Sesión de Directorio N del 15 de diciembre de 2014.

ADMINISTRACIÓN CENTRALIZADA DELL POWERVAULT DL2000 CON TECNOLOGÍA SYMANTEC

MANUAL DE USUARIO. IoC-View Graph v.1.4. Morpheus-Medical Tel: Fax:

GLOSARIO DE TÉRMINOS

TELECOMUNICACIONES Y REDES

ANEXO XII. Denominación: Administración y programación en sistemas de planificación de recursos empresariales y de gestión de relaciones con clientes.

Uso de Dublin Core para mejorar la visibilidad de la producción científica española.

51 Int. CI.: G06F 17/30 ( ) TRADUCCIÓN DE PATENTE EUROPEA

MATERIAL DE TRABAJO 1. Evaluación del software

DE FORMACIÓN CONTINUA BONIFICADA EXPEDIDA POR EL INSTITUTO EUROPEO DE ESTUDIOS EMPRESARIALES

Software generador de documentos a través de la Web

Especificación WebService para:

Mineria de datos y su aplicación en web mining data Redes de computadores I ELO 322

BearSoft. SitodeCloud. Rafael Rios Bascón Web: Móvil:

COMISIÓN PARA EL SEGUIMIENTO DE LA CALIDAD EN LA PRESTACIÓN DE LOS SERVICIOS DE TELECOMUNICACIONES

Aspectos Básicos de Networking

Las Tecnologías de la Información y las Comunicaciones en Formación Profesional. Contenidos relevantes

Curso de Instalación de CRM

Desarrollo de un Sistema de Gestión de Proyectos mediante el framework GWT

EXPERIENCIA EN EL HARVESTING DE DOCUMENTOS OAI EN EL PROYECTO SEDICI

DOCUMENTO DE CONSTRUCCIÓN SOLUCIÓN DE NO CONFORMIDADES ISO 9000 Bizagi Process Modeler

1 GLOSARIO. Actor: Es un consumidor (usa) del servicio (persona, sistema o servicio).

COPIAS DE SEGURIDAD AUTOMÁTICAS DE DIRECCIONES CALLEÇPAÑA

Comisión Nacional de Bancos y Seguros

SISTEMAS DE INFORMACIÓN II TEORÍA

ACLARACIONES ADICIONALES PARA EL FORMULARIO 311

3.2 Utiliza las TIC para mantener una orientación y desempeño profesional que refleje el esfuerzo por hacer sus tareas con eficiencia y calidad

Plataforma de expediente

Conceptos de redes. LAN (Local Area Network) WAN (Wide Area Network)

Novedades en Q-flow 3.02

Servidor Multimedia Doméstico

Recuperación de información Bases de Datos Documentales Licenciatura en Documentación Curso 2011/2012

expand Dialer - Documentación de usuario Manual y especificaciones

SIELAF Sistema de Información de Expedientes Electrónicos De Asignación Familiar. Superintendencia de Seguridad Social. Versión 1.

Sistema de Mensajería Empresarial para generación Masiva de DTE

LLEVE SU NEGOCIO al SIGUIENTE NIVEL. digitalice todos sus documentos y procesos.

Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos. - Sesión 5 -

Introducción a la Firma Electrónica en MIDAS

Gastos Reales Web Manual de Usuario

CAPITULO IV. HERRAMIENTAS DE CÓDIGO ABIERTO

AUTORES: OBREGON CARLA ROMERO MARIA MARACAIBO FEBRERO 2012

Infraestructura Tecnológica. Sesión 1: Infraestructura de servidores

Roles y Características

EL PROCESO DE INVENTARIO PARA ESCENARIOS DE SERVICIOS DISTRIBUIDOS

Guía de usuario. Docentes. Autoservicio de PowerCAMPUS

Ministerio de Economía Dirección de Atención y Asistencia al Consumidor -DIACO- Sistema de Gestión de la Calidad

La vida en un mundo centrado en la red

Sistema de Gestión de Proyectos Estratégicos.

Service Oriented Architecture: Con Biztalk?

Capa de enlace de datos

PROCEDIMIENTO PARA LA GESTIÓN DE DOCUMENTOS Y EVIDENCIAS

Intercambio de recursos, repositorios y explotación colaborativa

Mini Caja Noébox. noébox. Manual de Uso

CONEXIONADOS OPCIONALES

Ambiente Virtual de Comercio Electrónico B2B para la Comunidad Virtual de Negocios del departamento del Cauca

Transcripción:

Servicio de Difusión de la Creación Intelectual (SeDiCI) SeDiCI es el repositorio institucional de la Universidad Nacional de La Plata (UNLP), creado con dos objetivos prioritarios: Para atender al rol fundamental de una institución pública de socializar el conocimiento. Dar mayor visibilidad a la producción académica a través del acceso libre que posibilita un mayor impacto.

Arquitectura ETL para la recolección de metadatos La recolección y agregación de recursos es una de las actividades más comunes en el área de los repositorios digitales. En general se busca incrementar el volúmen de documentos ofrecidos a los usuarios, para que éstos cuenten con una base documental de consulta más amplia para sus investigaciones y desarrollos. Este trabajo presenta una aproximación al problema de la recolección de Este trabajo presenta una aproximación al problema de la recolección de recursos desde distintas fuentes datos

Recolección de recursos Problemas generales Es importante notar que la recolección tiene sentido siempre que la información recolectada sea relevante para el repositorio que la realiza, lo cual podría definirse según: Temática adecuada Tipología documental aceptada Calidad mínima

Problemas frecuentes de los agregadores de recursos Problemas vinculados a la obtención de los recursos. Problemas vinculados a la mejora de los recursos. Problemas vinculados al almacenamiento de los recursos.

Recolección de recursos Problemas generales Cómo tratar con los múltiples protocolos y técnicas de comunicación y transferencia: OAI-PMH: protocolo simple para el intercambio de metadatos Web-Crawling: técnica que recorre páginas web, extrayendo contenido Web-services: comúnmente sobre SOAP o XML-RPC, ofrecen servicios especiales. Y las diferentes formas de representación de los mismos: XML, HTML, tuplas de una base de datos, documentos no estructurados

Recolección de recursos Problemas generales Cada protocolo o método de recolección es distinto incluso a distintos niveles: Comunicación y transferencia Al usar la red cambian los parámetros de conexión, los protocolos de la capa de aplicación utilizados, formato de mensajes, tiempos de espera, etc. Formato de datos Dependiendo de cual sea el sistema final con el que se esté realizando la comunicación, los datos se transmiten de distinta forma: archivo binarios o de texto, comprimidos, en porciones, etc. Interpretación de la información Una vez que se cuenta con la información hay que interpretarla: tuplas obtenidas de una base de datos, XML bajo algún schema, archivos de texto delimitado por comas, codificación de caracteres diferente, etc.

Recolección de recursos Problemas generales Una vez obtenida e interpretada la información se observan grandes problemas derivados de la heterogeneidad. Por ejemplo: Nombres de Autores: "Gomez, Juan Carlos", "Gomez Juan C.", "Gomez, J. C.", "Juan Carlos Gomez", "Juan C. Gomez" Formato de fechas: "2011-05-20", "20-05-2011", "20-may-2011", 20/05/2011", "05-20-2011" Sistemas de Clasificación: LCC, DDC, sistemas de clasificación temáticos, uso de códigos y uso de términos, etc Tesauros: UNESCO, Eurovoc, DECs, etc. Idiomas: ISO-639-X, nombre del idioma, nombre en otros idiomas, etc. Campos ausentes: errores de mapeo (en el origen o el destino), falta de información durante la catalogación en el origen, etc. Información errónea o concatenada: idioma con "english;eng"; fecha de publicación con "PUB:2011-05-25", autor con "Gomez, Juan C.; Lopez, Mario A."

Recolección de recursos Problemas generales Estos problemas de heterogeneidad deben ser disminuídos o resueltos para lograr un aprovechamiento eficiente de la información. Esto se logra a través de procesos de análisis y transformación, en lo posible automáticos.

Recolección de recursos Problemas generales Todos los recursos recolectados y transformados deben ser almacenados en algún lugar para su posterior uso. El criterio según el cual se determina el destino para esta información depende del uso que se desea dar a dichos datos: búsqueda y recuperación motor de indexación backup servidor de backup compartición datos para un sistema de interoperabilidad estadísticas base de datos relacional Asimismo, las transformaciones a aplicarse dependen del destino y del uso planeado.

Recolección de recursos Problemas generales De forma análoga a la recolección, para el almacenamiento existen muchas alternativas. Motor de Indexación Bases de datos Web-services Archivos Cada una determina protocolos y mecanismos de comunicación y transferencia, formato de datos, y reglas para la interpretación de los datos. Esto requiere ser capaz de manejar cada tipo de almacenamiento

Abstracción del problema Desde un nivel de abstracción elevado se observan tres grandes etapas: Extracción: recolección de recursos desde las distintas fuentes de datos. Transformación: disminución o anulación de los problemas derivados de la heterogeneidad de la información. Carga: almacenamiento final de la información. ETL Extract, Transform & Load

Arquitectura ETL ETL es un patrón arquitectural de software del área de Integración de Datos.Usado principalmente en aplicaciones de Data Mining y Bussiness Intelligence. Sus tres principales componentes: Extract: obtención de los datos desde bases de datos, archivos, etc. Transform: unificación y normalización de la información, con el fin de cruzar datos y obtener nueva información no visible inicialmente. Load: depósito de la información obtenida en un Data Warehouse, para su posterior consulta. ETL es valorado en los escalafones gerenciales, ya que provee información valiosa para la toma de decisiones.

Aproximación a una solución Arquitectura ETL en el ámbito de los repositorios digitales Las tres principales actividades detectadas desde un nivel de abstracción elevado se condicen adecuadamente con las actividades modeladas en el patrón ETL. Se propuso la creación de una herramienta que implemente este patrón, para finalmente permitir la recolección de datos desde múltiples orígenes, su transformación y normalización, y su posterior almacenamiento en múltiples almacenes de datos.

Aproximación a una solución El diseño de la aplicación debería cumplir con las siguientes premisas: Permitir la recolección desde múltiples tipos de fuentes de datos. Permitir el almacenamiento en múltiples tipos de almacenes de datos. Permitir la selección y configuración de los filtros de análisis y transformación disponibles en la aplicación. En los tres casos, la aplicación debería ser extensible a través del uso de componentes conectables.

Aproximación a una solución El diseño de la aplicación debería cumplir con las siguientes premisas: Llevar los recursos a una representación abstracta a fin de normalizar la lógica de los componentes de análisis y transformación (todos los componentes reciben la misma entrada, sin importar el origen de los datos). Proveer una interfaz de administración desde la cual se permita manejar todos los aspectos de la herramienta. Garantizar la tolerancia a fallos (interrupciones en el servicio eléctrico, problemas de conexión, etc) y la reanudación automática de las actividades interrumpidas. Proveer información estadísticas sobre la actividad de la herramienta, las fuentes y almacenes de datos utilizados, etc.

Modelo de Datos Visión general Tres elementos más importantes del modelo son: Repositorios Definiciones de Cosecha Colecciones El modelo de datos completo se desarrolla a partir de estos tres componentes.

Modelo de Datos Repositorios Representan a los repositorios digitales que serán utilizados como fuente de datos. A cada repositorio se asigna al menos un Conector, el cual provee la información necesaria para realizar la conexión y recolección de documentos desde dicho repositorio. Dentro de la aplicación existen varios tipos de Conectores, uno para cada protocolo o forma de conexión y recolección. Estos conectores son uno de los puntos de extensión de la aplicación, ya que son componentes relativamente independientes. En el caso de SeDiCI (como fuente de datos para recolección), se podría configurar un Conector OAI para Harvesting OAI, y un Conector Web-Services para recolectar documentos no expuestos por OAI.

Modelo de Datos Definiciones de Cosecha Creadas a partir de un repositorio y un conector en particular. Definen los parámetros correspondientes a una recolección en particular. Los parámetros de cada Definición de Cosecha dependen explícitamente del conector al que pertenecen. Se permite dividir las tareas de cosecha en partes independientes. La ejecución de la cosecha se considera finalizada sólo cuando todas sus partes fueron completadas (ej. rangos de fechas en OAI). Se registra cada intento de cosecha y su resultado: satisfactorio o fallido, para permitir la recuperación ante fallas. A partir de estos elementos se genera información estadística.

Modelo de Datos Colecciones Representan los almacenes de datos que serán el destino de la información recolectada y transformada. Cada Colección tiene asociado un conector, que contiene los parámetros y la lógica específica para un tipo de almacén en particular. La aplicación provee varios tipos de Conectores, uno para cada protocolo o forma de almacenamiento. Estos conectores son otro de los puntos de extensión de la aplicación, ya que son componentes relativamente independientes. Un ejemplo en SeDiCI es el uso del motor de indexación Apache Solr, para el cual existe un Conector Solr que contiene la lógica de conexión y transferencia, y cada Colección que lo usa especifica los parámetros del servidor Solr que se debe utilizar.

Ejemplos sobre el Modelo de Datos

ETL Etapa de Extracción Selección de Definiciones de Cosecha a ejecutar, según información de programación. Generación de cosecha a ejecutar (particionamiento), o selección de una cosecha existente, cuyo último intento fue fallido. Ejecución de la recolección (a partir de información del conector y la Definición de Cosecha). Registro de resultado de la cosecha (recuperación ante fallas y estadísticas).

ETL Etapa de Transformación Transformación de los recursos a una representación común. Ejecución de cadena de filtros sobre cada recurso. Entre otros, existen filtros de: Vocabularios controlados Eliminación Duplicación Tokenization Valor por Defecto La ejecución de cada filtro modifica el recurso en algún aspecto.

ETL Etapa de Carga Los recursos son enviados al conector de almacenamiento, en donde: Se transforman a la representación adecuada según el almacenamiento Se conecta al almacén y se envían los recursos Se registra el resultado de la inserción (COMPLETADA o FALLIDA) para recuperación ante fallas y generación de estadísticas.

ETL Diagrama de Arquitectura

Administración Se provee una interfaz web de administración que permite: Administración de Repositorios, Colecciones, Definiciones de Cosechas, etc. Selección de Filtros a aplicar (por Colección). Generación de estadísticas. Control (Iniciar/Finalizar) sobre los procesos de recolección.

Puntos de extensión y trabajos futuros Nuevos Filtros y Tranformaciones Descarga automática del Fulltext Normalización de autores Detección de duplicados Extracciones semánticas

MUCHAS GRACIAS!!! Ing. Marisa R. De Giusti marisa.degiusti@sedici.unlp.edu.ar Nestor F. Oviedo nestor@sedici.unlp.edu.ar Lic. Ariel J. Lira alira@sedici.unlp.edu.ar SeDiCI Servicio de Difusión de la Creación Intelectual http://sedici.unlp.edu.ar PrEBi Proyecto de Enlace de Bibliotecas http://prebi.unlp.edu.ar Universidad Nacional de Plata