DIGITALIZACIÓN Y DIVULGACIÓN DIGITAL ACERVOS ANTIGUOS

Documentos relacionados
Digitalización y Divulgación Digital de Acervos Antiguos.

Software Público para la Digitalización y Divulgación de Acervos Antiguos. Mtro. Antonio Razo UDLA-P Ing. Alfonso Mendoza USON

Comunidad de Bibliotecas Digitales. Coordinador: Dr. Alfredo Sánchez Universidad de las Américas Puebla

Software Público para la Digitalización y Divulgación de Acervos Antiguos

RECUPERACIÓN Y DIVULGACIÓN DIGITAL ACERVOS ARTÍSTICOS ANTIGUOS

Metabiblioteca Colombia. Biblioteca Luis Echavarría Villegas Patricia Ospina, Coordinadora Soporte Tecnológico Biblioteca

La Biblioteca Nacional y los servicios al ciudadano. Área de «Seminarios de AA.PP.»

Importancia de la RNEI para la Universidad Autónoma de Campeche

La difusión del fondo histórico de la Universidad Complutense de Madrid: Proyecto Dioscórides Web

PROGRAMA DE ESTÍMULOS A LA INNOVACIÓN

Tesis digitales. Índice. Antecedentes. Colecciones en DL. CUDI otoño Tesis Digitales, UDLA-P 1. Una colección creciente en la UDLA-P

TRABAJO DE TITULACIÓN PREVIO A LA OBTENCIÓN DEL TÍTULO DE INGENIERO EN MECATRÓNICA

Procesos de digitalización de colecciones especiales en la Universidad de las Américas, Puebla. Elvia Morales Lourdes Fernández

Red Abierta de Bibliotecas Digitales. 21 de Abril de 2010

1 Introducción. Rosalina Vazquez Tapia a, Antonio Felipe Razo Rodríguez b

CAPÍTULO 1. INTRODUCCIÓN

CONSEJO DE NORMALIZACIÓN Y CERTIFICACIÓN DE COMPETENCIA LABORAL NORMAS TÉCNICAS DE COMPETENCIA LABORAL

APOYO A LA IMPLEMENTACIÓN Y OPERACIÓN DE LOS SISTEMAS DE INFORMACIÓN UTILIZADOS EN LA GESTIÓN DE LA RED VIAL DEL DEPARTAMENTO DE ANTIOQUIA.

Proyecto de Innovación. Convocatoria 2016/2017. Nº de proyecto: 117

PROYECTO RED NACIONAL DE BIBLIOTECAS DIGITALES ACADEMICAS PRIMER INFORME. Nombre del Proyecto: Red Nacional de Bibliotecas Digitales Académicas.

Desarrollo de Productos Editoriales Multimedia

ISO 9001 Auditing Practices Group Guidance on:

19-21 de enero de 2011 Congreso Nacional de Chile Valparaíso

El conocimiento donde debe estar. Procesamiento de Formularios

La Biblioteca Digital Hispánica

Software Público para la Digitalización y Divulgación de Acervos Antiguos

Curso Developing ASP.NET MVC 4 Web Applications (20486)

FICHA PÚBLICA DEL PROYECTO

Hitos y desarrollo de una BD: selección. Lea Plangger Universidad Complutense de Madrid

Índice. La BNE: algunas cifras Biblioteca Digital Hispánica:

Código: J63.01 Nivel: 3. Actividades de servicios de información. Tecnología hardware y software

POLÍTICA PARA LA CONFORMACIÓN Y FUNCIONAMIENTO DE LA BIBLIOTECA DIGITAL

REDES II Curso: 6to año, segundo ciclo de ETP Profesor: Gabriel Kurincic Programa Colegio Provincial Dr. Ernesto Guevara UNIDAD 1

Interoperabilidad entre Redes Federadas de Repositorios Institucionales para la diseminación del conocimiento: El caso REMERI de México.

PaperPort 11 incluye una gran cantidad de características nuevas importantes para administrar documentos.

FICHA PÚBLICA DEL PROYECTO

Base Nacional de Datos Meteorológicos (BNDM)

José Luis Falcón Pliego Jefe del Servicio de Informática Consejería de Empleo y Desarrollo Tecnológico de la Junta de Andalucía

Tecnología hardware y software

SRVSOP CA PEL CIRCULAR DE ASESORAMIENTO

FONDO MIXTO CONACYT - GOBIERNO DEL ESTADO DE OAXACA CONVOCATORIA OAX

DIGITALIZACION DE DOCUMENTOS IMPRESOS

Tarjeta PCI Express de 4 Puertos USB con Puertos USB-A y 2 Canales Dedicados

Curso Superior. Curso Superior en Diseño Gráfico: Fundamentos y Técnicas

MATRIZ DE VALORACIÓN O RÚBRICA. Actividad de evaluación:

La importancia de contar con recursos de información en formato electrónico. Edgar Lorca Ejecutivo desarrollador de negocios

DISEÑO E IMPLEMENTACIÓN DE UN SISTEMA PARA DETECCIÓN DE VEHÍCULOS ROBADOS EN MOVIMIENTO, EMPLEANDO TECNOLOGÍA BEAGLEBONE, POR MEDIO DE SOFTWARE LIBRE.

COMPILACIÓN DE NEGOCIOS INTERNACIONALES

DIPLOMADO EN TELEFONÍA IP

Seminario 2016 Servicios colaborativos integrados: Explorando nuevas posibilidades

CAPÍTULO I GENERALIDADES

Figura 9.1 Diagrama de tiempos real del proyecto.

AUTOMATIZACIÓN DEL PROCESO DE HOMOLOGACIONES DE CURSOS

METRICA VERSION MÉTRICA versión 3. Metodología de Planificación, Desarrollo y Mantenimiento de Sistemas de Información

INSTITUTO TECNOLÓGICO DE COMITÁN

Adaptador Tarjeta PCI Express PCI-E 4 Puertos USB 3.0 UASP 2 Canales de 5Gbps con Alimentación Molex SATA

Red Mexicana de Repositorios Institucionales ReMeRi: Primeras Acciones

Implementación de Centros de Computo y Redes de Computadoras

CALENDARIO DE CURSOS PARA BIBLIOTECAS Y ARCHIVOS MARZO 2011

Las Telecomunicaciones en Costa Rica

Capítulo 3. Diseño de un Ambiente para Apoyar la Investigación Usando. Documentos Digitales

Fondo Sectorial CONACYT-INEGI Propuesta de tema para integrar la Convocatoria

Streaming de Alta Velocidad en las comunicaciones digitales en el espacio

Ingeniería del Software 2

ESQUEMA DEL TRABAJO DE INVESTIGACIÓN (TI)

Portal de recursos académicos del Instituto de Investigaciones Históricas-UNAM Carmen Fragano Ríos 12 de junio de 2015

Plan Estratégico. Biblioteca Max von Buch

Arte y Fotografía. 1-bits IMÁGENES DIGITALES. Software Gráfico: Mapa de Bits o Pixelar. Software Gráfico: Vectorial u Orientado a Objetos.

SISTEMA MODELADOR TRIDIMENSIONAL DEL DESPLAZAMIENTO TECTÓNICO EN MÉXICO

PROGRAMA DE MODERNIZACIÓN DE LA EDUCACIÓN TÉCNICA Y LA CAPACITACIÓN (PMETyC)

Este proyecto se sitúa dentro del marco de los sistemas avanzados de tratamiento de imágenes aplicados para la seguridad.

Programación Orientada a Objetos

Curso Normativa e introducción al uso de drones aplicado a la fotografía aérea y fotogrametría para la edificación

DISEÑO E IMPLEMENTACIÓN DE APLICACIONES EMPRESARIALES CON MOVILIDAD.

ElAcervoDigitalAnotado deliteraturaargentina: delos librosalas obras.

PROPUESTA TÉCNICA DETALLADA PARA ENVÍO DE INFORMACIÓN Y ACTUALIZACIÓN AUTOMATIZADA DEL PORTAL IBEROAMERICANO DEL CONOCIMIENTO JURÍDICO.

Monitorización continua las 24 Horas del día Capacidad de operar en redes de área extensa, a través de diferentes vías de comunicación

CAPÍTULO 4. PRUEBAS Y RESULTADOS. la mayor confiabilidad e integridad posible de la información en todas sus fases, esto se

SEGUNDA CONVOCATORIA DE EXPERIENCIAS SIGNIFICATIVAS

XX Asamblea General del ISTEC Jornada LIBLINK REMERI. La Red Federada de Repositorios InsMtucionales de México

Programa Formativo IMSV DESARROLLO DE PRODUCTOS AUDIOVISUALES MULTIMEDIA INTERACTIVOS

PROGRAMA DE ESTÍMULOS A LA INNOVACIÓN

Maestría en: Magister en Project Management

ANEXO II. Especificaciones Técnicas

Preservación y Difusión del Patrimonio Intelectual producido por Universidades

INDICACIONES A LOS AUTORES

Plan Estratégico

POLÍTICA DE PRESTACIÓN DE SERVICIOS CONTROL DE CAMBIOS

INTEGRACIÓN DEL GRADO EN INGENIERÍA INFORMÁTICA EN SISTEMAS DE INFORMACIÓN EN LAS REDES SOCIALES (ID11/223 )

Carta Gantt de Proyecto de Titulación. Desarrollo de Software de Neuroentrenamiento para Deportes Grupales

Normas sobre calidad de información geográfica

FICHA PÚBLICA DEL PROYECTO

IIM Aportación al perfil. Esta asignatura proporciona al alumno las competencias necesarias para:

Curso Superior. Curso Superior en Planificación y Gestión de la Calidad, Tiempos y Costes en Proyectos

Procesos de digitalización y metadatos en el proyecto de la BDH

INFORME DE MONTAJE Y PRUEBAS DEL CIRCUITO ELECTRÓNICO PARA ADQUIRIR LOS POTENCIALES EVOCADOS AUDITIVOS

MÁSTER MÁSTER EN PERIODISMO AUDIOVISUAL DIPLOMA AUTENTIFICADO POR NOTARIO EUROPEO IEM012

Estrategia de Pruebas

Sencilla conectividad y rápida transferencia de imágenes gracias a la interfaz USB 2.0.

Mejorando la gestión y la toma de decisiones en bibliotecas

Transcripción:

DIGITALIZACIÓN Y DIVULGACIÓN DIGITAL DE ACERVOS ANTIGUOS PROGRAMA PARA IMPULSAR PROYECTOS COLABORATIVOS ENTRE LOS MIEMBROS DE LA CORPORACIÓN UNIVERSITARIA PARA EL DESARROLLO DE INTERNET, A. C. (CUDI) Reporte Técnico Diciembre 2004 Mtro. Alberto García García Dr. Alfredo Sánchez Dra. Ma. Del Pilar Gómez Gil Ing. Patricia García Jiménez UNIVERSIDAD DE LAS AMÉRCIAS, PUEBLA http://biblio.udlap.mx

Digitalización y Divulgación Digital de Acervos Antiguos Resumen En el siguiente reporte se presentan los resultados del proyecto Digitalización y Divulgación Digital de Acervos Antiguos, cuyo objetivo fue dar inicio a la construcción de un acervo digital, constituido por las obras más importantes de bibliotecas con fondo antiguo pertenecientes a instituciones miembros de CUDI, su disponibilidad global a través de Internet-2, para su apreciación como objetos de arte y su uso por estudiosos e investigadores a través de la interfaz denominada CIText. Actualmente, ya se han integrado a este importante desarrollo dos valiosos acervos pertenecientes a la Biblioteca Franciscana (UDLA-P) y la Biblioteca José María Lafragua de la Benemérita Universidad Autónoma de Puebla y cuyas colecciones ya se encuentran disponibles a través de Internet. Aunado a esto se ha integrado al software que soporta estas colecciones una herramienta que implementa diversos modelos de recuperación de información y que permitirán a los usuarios de este tipo de acervos un medio para recuperar documentos relevantes de la manera que se encuentra en los llamados motores de búsqueda de Internet. A si mismo, se han logrado importantes avances en la construcción de un reconocedor óptico de caracteres para este tipo de documentos y en el desarrollo de un servidor para el intercambio de contenidos basado en el protocolo OAI-PMH.

1. Introducción Teniendo como objetivo principal la preservación y difusión del patrimonio cultural universal, se planteó la construcción de un acervo digital constituido por las obras más importantes de bibliotecas con fondo antiguo pertenecientes a instituciones miembros de CUDI y su disponibilidad global a través de Internet-2. Se propuso a su vez la integración de herramientas que facilitarán la recuperación e intercambio de información y el desarrollo de un reconocedor óptico de caracteres para el tipo de documentos aquí involucrados. El proyecto se dividió en tres fases, cuyos objetivos se citan brevemente a continuación: Fase I: Construcción de acervo digital piloto (Biblioteca Franciscana) Fase II: Construcción de acervos adicionales (Biblioteca José María Lafragua) Fase III: Integración de Acervo Digital CUDI de libros antiguos. Las instituciones participantes fueron la Biblioteca Franciscana (UDLA-P), la Biblioteca de la Universidad de las Américas, Puebla y la Biblioteca José María Lafragua de la Benemérita Universidad Autónoma de Puebla (BUAP). 1. 1 Fase I (Biblioteca Franciscana) Actualmente, en base a las etapas establecidas en el proyecto, se ha concluido la digitalización de los 100 impresos mexicanos más importantes de la Biblioteca Franciscana (acervo piloto). Cerca de 50,000 documentos fueron revisados y procesados para su actualización y publicación vía web. Los avances en el proceso de digitalización durante el desarrollo del proyecto se muestran en la Figura I, los cuales dependieron principalmente de dos factores: disponibilidad y número de páginas del material seleccionado. Figura 1. Gráfica de avances por mes del proceso de digitalización Para la captura de la información se utilizó una cámara digital de alta resolución (FinePix S7000) adquirida con fondos de la Universidad de las Américas, Puebla. Cada sesión fotográfica implicó la transferencia de aproximadamente 80 imágenes, a través

de un dispositivo lector de tarjetas de memoria, último que fue necesario adquirir debido a la fragilidad del cable USB con el que contaba la cámara. Actualmente los 100 libros seleccionados ya están disponibles para consulta en su versión digital ( http://biblio.udlap.mx, Figura 3). Figura 3. Lista de libros digitalizados disponibles vía web 1.2 Fase II (Biblioteca José María Lafragua) Como parte de la Fase II, se propuso la digitalización de 20 títulos de la Biblioteca José María Lafragua de la BUAP, los cuales ya han sido digitalizados completamente, además de los anteriores se digitalizaron 12 libros adicionales importantes haciendo un total de 32 libros, de los cuales 27 ya están disponibles vía web (Figura 4). Figura 4. Página de acceso a colecciones de instituciones participantes

1.2.1 Antique OCR Dentro de esta misma etapa se dio inicio al componente de reconocimiento óptico de caracteres (Antique OCR) el cual es una variante del inicialmente propuesto sistema HAWOST. Dadas las características del material empleado en el proyecto de digitalización, el cual en su mayoría presenta letra impresa, se decidió explorar esta otra vertiente, ya que HAWOST está orientado principalmente al reconocimiento de letra manuscrita. Figura 5. Diagrama de procesos para reconocimiento de caracteres El diagrama de la Figura 5, muestra todos los procesos necesarios para el reconocimiento de caracteres. Actualmente se ha desarrollado un prototipo que permite hasta el momento la segmentación de un documento en sus diferentes partes (párrafos, y renglones) así como la segmentación de caracteres (correspondiente a la etapa 4 del diagrama). En la Figura 5a se muestra un ejemplo de la herramienta mencionada durante el proceso de segmentación de caracteres. Figura 5a. Interfaz Antique OCR durante proceso de segmentación de caracteres

Las pruebas realizadas hasta el momento se han basado en los textos correspondientes al Acervo Franciscano. Actualmente Antique OCR se encuentra en la etapa de construcción del diccionario e implementación del módulo de corrección de palabras, aspectos que permitirán finalmente el entrenamiento del reconocedor, el cual se alimentará y entrenará con las diversas tipografías de los impresores aquí encontrados. Se han tratado principalmente dos estilos de escritura: normal y cursiva. Los logros obtenidos en el proceso de segmentación son aplicables al estilo de escritura normal, por lo cual antes de dar paso a las siguientes etapas será necesario mejorar dicho proceso para que sea aplicable a los dos tipos de escritura. A si mismo se trabajará en el manejo de errores comunes generados por este tipo de herramientas como son cambio o aumento de letras en las palabras reconocidas para lo cual el diccionario generado será de gran utilidad ya que proporcionará parámetros contra los cuales comparar cada palabra reconocida disminuyendo el error de ambigüedad. Se han hecho pruebas satisfactorias con imágenes de texto de una sola columna, sin embargo falta aún definir los algoritmos más apropiados para la mejora de la segmentación en imágenes con diversas columnas, imágenes y letras capitulares (Figura 5b). Figura 5b. Ejemplo de imagen a doble columna, con imágenes y letras capitulares AntiqueOCR, es una herramienta que está en fase de desarrollo por lo que actualmente no ha sido integrado como parte del sistema CIText. Debido a esto, el reconocimiento óptico de caracteres de las colecciones de CIText se ha basado en el uso de software comercial. Actualmente solo se tienen 5 libros que han pasado por este proceso lo cual implicó no sólo el reconocimiento de caracteres, sino la revisión y corrección manual de aproximadamente 1,500 páginas.

1.3 Fase III Dentro de esta fase, se propuso dar continuidad al desarrollo del sistema AntiqueOCR así como a la inclusión del servidor de modelos de recuperación de información (IR) denominado Hermes. Dicho servidor implementa los modelos de espacios vectoriales, booleano extendido e indexado semántico latente los cuales ya están disponibles para su uso. En la Figura 6 se muestra una primera versión del sistema de búsquedas de CIText utilizando Hermes. Figura 6. Ejemplo de búsqueda utilizando el servidor de modelos IR Hermes Los resultados de la búsqueda muestran el grado de similitud que presenta la consulta con la información existente (Figura 6a) permitiéndole al usuario definir que tan relevante será un documento de acuerdo a la consulta realizada. El método aquí utilizado corresponde al modelo de indexado semántico latente. Figura 6a. Ejemplo de resultados de búsqueda Figura 4

Debido a que las búsquedas se realizan sobre el texto completo y dado que solo se tienen disponibles 5 títulos con esta característica, los resultados aquí ejemplificados no muestran una diferencia notable en cuanto al grado de similitud se refiere. Sin embargo, el controlador que establece la comunicación entre CIText y Hermes está totalmente implementado y estará disponible para todas las colecciones que se incluyan como parte de este proyecto. Finalmente, para asegurar la consistencia y la calidad en el intercambio de información se propuso la utilización del protocolo OAI-PMH, para lo cual se utilizará un importante desarrollo generado como parte de un proyecto colaborativo UDLA- ITESM-Monterrey que permitirá la recolección de metadatos y facilitará el acceso uniforme a las diversas colecciones integradas. 2. CIText Durante el desarrollo de este proyecto, fue necesario realizar una revisión exhaustiva del material digitalizado para determinar aspectos como su estructura, foliación, numeración y definir además la nomenclatura de sus páginas preliminares y de contenido. Como resultado de este proceso se generó un manual que ha servido como base para la organización y definición de cada una de las partes constituyentes del material de las colecciones participantes y su integración final al acervo digital. En base a dicho manual fue necesario realizar adaptaciones a los módulos que conforman el sistema de visualización de colecciones especiales CIText (administrativo y de consulta), debido a los diversos casos encontrados. Inicialmente el usuario solo podía visualizar libros con una estructura simple, es decir preliminares y páginas de contenido (Figura 7). Sin embargo en la actualidad el sistema permite visualizar y navegar diversas estructuras, mismas que se ejemplifican a continuación. Figura 7. Ejemplo de libro con estructura simple

Aún con la estructura de la Figura 7 se encontraron otras variantes, por ejemplo libros foliados (Figura 7a), con numeración romana (Figura 7b), con errores de paginación (Figura 7c), etc. Figura 7a. Ejemplo de libro foliado con estructura simple Figura 7b. Ejemplo de libro con estructura simple y numeración romana

Figura 7c. Ejemplo de libro con errores de paginación Adicionalmente a estos casos, se integraron al sistema las adecuaciones para libros con estructura en capítulos (Figura 8) y estructura en libros o partes (Figura 9 y 9a) con características específicas para cada caso. Figura 8. Ejemplo de libro con estructura en capítulos

Figura 9. Ejemplo de libro con estructura en partes Figura 9a. Parte 1 de libro Figura 6. Cabe hacer notar que el manual hasta el momento generado será modificado conforme se integren nuevas colecciones, ya que cada una de ellas contará con características particulares. Así mismo el sistema CIText será adecuado a estas nuevas modalidades.

3. Conclusiones y la importancia de contar con Internet 2. Este proyecto permitirá tener una interconectividad entre las bibliotecas de las instituciones pertenecientes a CUDI con contenidos de documentos y libros de fondo antiguo. Estos acervos digitales federados involucran no sólo información de tipo textual sino a su vez la transferencia de imágenes, por lo que se requiere contar con un ancho de banda dedicado que asegure la correcta visualización y navegación del mismo. El uso de Internet 2 es requerido para asegurar satisfacer las demandas de los usuarios con un tiempo de respuesta adecuado, ello invita a los interesados a usar el sistema para hojear el contenido de los libros de fondo antiguo digitalizados. El no contar con la velocidad de respuesta proporcionada por Internet 2 se vería reflejado en un bajo rendimiento al momento de realizar consultas al acervo digital, por la lentitud de descarga que presentarían las imágenes correspondientes a cada una de las páginas de los libros consultados, considerando además que serían múltiples los usuarios que tendrían acceso a dicho acervo y por lo cual su aprovechamiento se vería limitado. Finalmente, el grupo de trabajo que participó en este proyecto queremos agradecer ampliamente al consejo directivo de CUDI, así como a la administración y al comité de aplicaciones del mismo por creer en nosotros.