Universidad de la República Facultad de Ingeniería Instituto de Computación. Proyecto de Grado

Documentos relacionados
Universidad Autónoma Metropolitana Unidad Azcapotzalco. División de Ciencias Básicas e Ingeniería. Licenciatura en Ingeniería en Computación

Universidad de la República Facultad de Ingeniería Instituto de Computación. Proyecto de Grado

Materia requisito: DOMINIOS COGNITIVOS (Objetos de estudio, temas y subtemas) I. INTRODUCCION A LAS BASES DE DATOS

TÉCNICO SUPERIOR UNIVERSITARIO EN TECNOLOGÍAS DE LA INFORMACIÓN Y COMUNICACIÓN ÁREA SISTEMAS INFORMÁTICOS.

Extracción e Integración de Información en una Arquitectura de Web Warehouses

Descripción de servicio

Ingeniería de Requerimientos. requiere de un Sistema de Software.

Programa de actualización profesional ACTI.NET Desarrollo de aplicaciones locales y web con tecnología VB.NET

ESTRUCTURA DE NAVEGACIÓN MÓDULO ALMACENES - REPORTES TABLA DE CONTENIDO

Guía del Curso Técnico en Mantenimiento de CRM: Recursos Empresariales y de Gestión de Relaciones con Clientes

Carrera: Ingeniería en Tecnologías de la Información y Comunicaciones

Desarrollo de una página web integrando mapas conceptuales sobre indicadores de sostenibilidad

Universidad de Carabobo Facultad Experimental de Ciencias y Tecnología Departamento de Computación Informe final de pasantía

Sistema de Información de Reconocimiento de Validez Oficial de Estudios de Educación Media Superior (SIRVOEMS)

VICERRECTORÍA ADMINISTRATIVA

>> Tecnologías clave << Captura de de información. Infraestructura. Técnicas de de Prototipado rápido

FICHA PÚBLICA DEL PROYECTO

Bloque temático Marketing turístico Curso Segundo. Tipos asignatura Obligatoria Créditos 6 cr. ECTS Horas de trabajo autónomo

CUADRO DE MANDO PARA LA ALTA DIRECCIÓN EN EL MINISTERIO DE FOMENTO

PLIEGO DE CONDICIONES TÉCNICAS SERVICIO DE DESARROLLO DE APLICACIONES INFORMÁTICAS PARA TPA EXPTE: 62/11 TPA

Balanced ScoreCard BSC

Presencia X A distancia Teleformación Horas tut. presenciales Horas tut. a distancia 68 Horas totales 68

ORGANISMO COORDINADOR DEL SISTEMA ELÉCTRICO NACIONAL INTERCONECTADO DE LA REPÚBLICA DOMINICANA

Grado en que el producto software satisface las necesidades expresadas o implícitas, cuando se usa bajo condiciones determinadas. ISO

CARRERA DE INGENIERÍA CIVIL EN INFORMÁTICA COMPETENCIAS ESPECÍFICAS Y SUS NIVELES DE DOMINIO

Elaboración de la Estrategia y el Modelo para el Programa Trámites y Servicios en Línea. Transferencia de Conocimiento

Antecedentes Generales CERTIFICACIÓN GUÍA / INSTRUCTOR. Asociación Chilena de Guías/Instructores de Montaña y Escalada

: Algorítmica y Estructura de Datos I

libreriadelagestion.com

UNIVERSIDAD CENTROAMERICANA VICERRECTORIA ACADEMICA SYLLABUS

BLOQUE I: HOJA DE CÁLCULO

PROGRAMA INSTRUCCIONAL. PUBLICIDAD II (Asignatura de dominio)

GUÍA RÁPIDA PARA USUARIOS

Nombre de la asignatura: Algoritmos y Lenguajes de programación.

Requerimientos de Software

INTERPRETACIÓN NORMA OHSAS 18001:2007 MÓDULO 1 SESIÓN 1 INTERPRETACIÓN DE LA NORMA OHSAS 18001:2007 DOCENTE: Ing. Dª. Ana I.

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD

PROCEDIMIENTO DE ACCIONES CORRECTIVAS Y PREVENTIVAS

TEORÍA DE AUTÓMATAS Y LENGUAJES FORMALES TRABAJO DE PRÁCTICAS. Convocatoria de junio de 2013

Proyecto: Estructura Presupuestaria de la UNC

UNIVERSIDAD AUTÓNOMA DE BAJA CALIFORNIA SUR. Ingeniería Aplicada TEÓRICA SERIACIÓN 100% DE OPTATIVAS DISCIPLINARIAS

Procesos de la Dirección de Proyectos para un proyecto

NORMA TÉCNICA DE CALIDAD PARA LA GESTIÓN PÚBLICA - NTCGP 1000:2009

Ana Pascual Nobajas Jefe de Servicio de Desarrollo Junta de Comunidades de Castilla-La Mancha

Creación y Mantenimiento de Componentes Software en Sistemas de Planificación de Recursos Empresariales y de Gestión de...

ETAPAS Y ACTIVIDADES MÍNIMAS A REALIZAR POR EL CONSULTOR

Gestión de la Calidad y Sistemas Integrados

Servicios: análisis digital. Integración de soluciones de mercadotecnia en el análisis de consumidor y negocio digital.

Bodegas de Datos y OLAP. Introducción a la Bodegas de Datos

Procesadores de lenguaje Tema 6 La tabla de símbolos

UNIVERSIDAD DE CARABOBO FACULTAD DE CIENCIAS Y TECNOLOGÍA DEPARTAMENTO DE COMPUTACIÓN PASANTÍAS

INGENIERÍA EN LOGÍSTICA INTERNACIONAL EN COMPETENCIAS PROFESIONALES

CAPÍTULO III I. MARCO METODOLÓGICO. Este capítulo hace mención a los aspectos metodológicos de la

Arquitectura de sistemas: Título: AnalyticsMOOC- Solución TIC Big Data para entornos MOOC Número de expediente: TSI

Proyecto: Portal Iberoamericano del Conocimiento Jurídico. Septiembre 2013

COMISIÓN NACIONAL DEL SERVICIO CIVIL GENERAL C.I.C CONTROL INTERNO CONTABLE CGN2007_CONTROL_INTERNO_CONTABLE

Tema 4. Probabilidad Condicionada

Aulas Virtuales Introducción a la Docencia en Línea. Creando un Syllabus (Programa de Curso) en Línea

Proceso de autoevaluación con fines de Acreditación Institucional

FORMATO DE CONTENIDO DE CURSO

LEY No SOBRE COMERCIO ELECTRONICO, DOCUMENTOS Y FIRMAS DIGITALES AGENDA REGULATORIA DEL INDOTEL

Introducción a las Bases de Datos

Ampliación de las funciones docentes:

OHSAS CURSO ONLINE 1 INFORMACIÓN GENERAL 2 PRESENTACIÓN 3 OBJETIVOS 4 DIRIGIDO A:

Funciones y Condicionales Introducción a la Programación

REPÚBLICA DE PANAMÁ FISCALÍA GENERAL DE CUENTAS UNIDAD DE INFORMÁTICA

Herramientas Informáticas para la Edición, Creación e Implementación del Modelo CIM Francisco Javier Arias Sánchez Universidad Nacional de Colombia

Especialización. en Inteligencia de Negocios

EVALUACIÓN Y SEGUIMIENTO DE LOS ASPECTOS SOCIOECONÓMICOS DEL PROYECTO (INFORME DE SEGUIMIENTO)

1. Crawler. 1.1 Qué es un Crawler. 1.2 Cómo trabaja

Pontificia Universidad Católica del Ecuador

Éxito Empresarial. Cambios en OHSAS 18001

Se definen los siguientes objetivos que se extraen de la propuesta anteriormente planteada:

CAPÍTULO 3 REQUERIMIENTOS Y CASOS DE USO

Procesos de la Dirección de Proyectos para un proyecto

RESOLUCION NUMERO 3104 DE 2005

SERVICIO NACIONAL DE APRENDIZAJE SENA SISTEMA INTEGRADO DE GESTIÓN Procedimiento Ejecución de la Formación Profesional Integral GUÍA DE APRENDIZAJE

INDICADORES DE GESTION

Innovación, Calidad e Ingeniería del Software

Curso y Código SENCE 2008 CONTENIDOS

INFORME PROYECTO. EDIFICIO: Casa de Cultura MUNICIPIO: Balmaseda. Nuevo modelo de gestión energética para edificios municipales.

Diseño arquitectónico 1ª edición (2002)

GUÍA DOCENTE 2016/2017. Trabajo fin de Grado Grado en ENFERMERÍA 4º curso. Modalidad presencial

El Ciclo de Vida del Software

Documento Técnico NIA-ES Modelos de informes de auditoría

Indicadores de Gestión

EL MÓDULO DE RELACIONES EN EL EQUIPO DE TRABAJO EN LA FORMACIÓN PROFESIONAL

Teorías del aprendizaje

CRITERIOS DE EVALUACIÓN PROVEEDORES

Instructivo para la aplicación de encuestas de percepción de servicios

FÍSICA Y QUÍMICA 3º ESO. OBJETIVOS, CONTENIDOS Y CRITERIOS DE EVALUACIÓN 1ª Evaluación: Unidad 1. La medida y el método científico.

Conceptos básicos estadísticos

Ministerio de Economía Dirección General de Estadística y Censos

RESUMEN DE LAS DIAPOSITIVAS DE BASE DE DATOS 1

INFORMÁTICA Y COMUNICACIONES

PRONÓSTICO DE VENTAS CORTO PLAZO MÓDULO COLABORATIVO DE CONTROL DE METAS DE VENTAS

ESTÁNDAR DE COMPETENCIA. Mantenimiento a equipo de cómputo y software

UNIVERSIDAD DE LOS LLANOS FACULTAD DE CIENCIAS HUMANAS Y DE LA EDUCACION ESCUELA DE PEDAGOGIA Y BELLA SARTES DIPLOMADO EN DOCENCIA UNIVERSITARIA 2011

INTERFACES INTELIGENTES. ING. MA. MARGARITA LABASTIDA ROLDÁN E mail:

PROTOCOLO IP. Vicente Sánchez Patón. I.E.S Gregorio Prieto. Tema 1 SRI

Transcripción:

Universidad de la República Facultad de Ingeniería Instituto de Computación Proyecto de Grado Evolución de sistemas de Web Warehousing guiado por Parámetros de calidad Integrantes Daniela Vila Martín Balestra Tutoras Regina Motz Verónika Peralta Descripción general del proyecto

TABLA DE CONTENIDO INTRODUCCIÓN 3 MOTIVACIÓN Y OBJETIVOS 3 Motivación 3 Objetivos 3 CONCEPTOS GENERALES 3 Arquitectura del Sistema 3 Wrappers 3 Mediadores 3 Data Warehouse 3 Metadata 3 ALCANCE 3 CRONOGRAMA 3 REFERENCIAS 3 Universidad de la República Página 2 de 7

INTRODUCCIÓN El presente documento está enmarcado en la realización del proyecto Evolución de sistemas de Web Warehousing guiado por Parámetros de calidad correspondiente a la asignatura Proyecto de Grado del Instituto de Computación de la Facultad de Ingeniería, año 2005. El proyecto parte de un sistema ya existente construido en varias etapas y busca diseñar e implementar un proceso de administración de la metadata que maneja este sistema en su totalidad. El sistema global está basado en el artículo Managing Source Schema Evolution in Web Warehouses [1] que propone un estilo de arquitectura para la administración de Web Warehouses. Este tipo especial de Data Warehouses son alimentados por datos provenientes de páginas Web, por lo cual su diseño, implementación y posterior actualización llevan a un estudio particular. MOTIVACIÓN Y OBJETIVOS Motivación El World Wide Web (WWW) se ha convertido en la mayor fuente de información sobre prácticamente todas las áreas de interés, por lo que en los últimos años su crecimiento ha sido exponencial. Sin embargo, a la hora de brindar soporte de alto nivel al usuario y ofrecer herramientas para la toma de decisiones no se encuentra demasiada ayuda. Actualmente el acceso a la información contenida en la Web se hace a través de buscadores (Google, Yahoo, etc.), donde se ingresan palabras clave. El resultado es un conjunto de páginas que contienen esas palabras, pero se hace difícil saber a ciencia cierta cuál de ellas contempla mejor la búsqueda. La única manera de obtener una respuesta es analizándolas una por una para seleccionar las que resultan útiles. La creación de un Web Warehouse que contenga información consolidada, organizada, con restricciones de calidad en base a criterios definibles por el usuario y de fácil acceso, parece un objetivo tan necesario como difícil. Una de las mayores dificultades es el mantenimiento asociado a un Web Warehouse de éstas características. El principal motivo es que el origen de la información no cumple con estándares bien definidos y estrictamente cumplidos por los proveedores. Las páginas Web están por lo general en un formato semi-estructurado y heterogéneo, por lo que la extracción de datos de las mismas y su posterior transformación a un lenguaje común es muy difícil. Otro de los retos más complejos consiste en la interpretación semántica de los datos. Diferentes valores, diferentes nombres para los mismos conceptos y diferencias en la presentación de la información, hacen que el análisis y la interpretación de los datos sea complicado. El alto autonomismo y la naturaleza volátil de la Web llevan a un estudio más complejo de la evolución del Web Warehouse. Debido a esto se deben proporcionar mecanismos y herramientas para manejar la evolución de su esquema, minimizando el impacto de los cambios en las páginas Web de las que se extrae la información. Universidad de la República Página 3 de 7

Objetivos Analizar el sistema en general, estudiando su comportamiento, entradas y salidas de cada componente, poniendo fundamental énfasis en la entrada y salida de metadata. Diseñar una estructura homogénea de metadata que contemple todo el procesamiento del Web Warehouse, estableciendo una correspondencia directa con la metadata generada en cada etapa del proceso. Diseñar e implementar un mecanismo que establezca un proceso claro para administrar el impacto de cambios en el Web Warehouse, propagando dichos cambios hasta la capa que corresponda. En este proceso se deberá minimizar el impacto, intentando así minimizar los cambios en el esquema del Web Warehouse. Diseñar e implementar un módulo para definir criterios de calidad que serán utilizados al momento de clasificar las páginas. Este módulo será incorporado en la capa de Wrappers y Mediadores del sistema (ver arquitectura del sistema mas adelante). CONCEPTOS GENERALES El sistema propone no solo la captura y clasificación de datos provenientes de páginas Web, sino también la integración de esta información y el manejo de metadata a lo largo de su procesamiento. Arquitectura del Sistema A continuación se describe la arquitectura que presenta el sistema, sus componentes y la función de cada componente dentro del sistema. Se hará una presentación a alto nivel para brindar una visión general del sistema, para una descripción con mas detalle se hace referencia a [1]. La arquitectura del sistema está claramente dividida en capas y está basada principalmente en dos tipos de componentes: los wrappers y los mediadores. La metadata está presente a lo largo de todo el procesamiento de los datos y será manejada por cada una de las capas del sistema en forma autónoma. Como se ha mencionado antes, es un objetivo primordial de este proyecto homogeneizar la estructura de la metadata y establecer una correspondencia directa con la metadata que maneja cada capa. A continuación se presenta un diagrama de la arquitectura, donde se pueden distinguir claramente las diferentes capas. Universidad de la República Página 4 de 7

Figura 1 Arquitectura del sistema (extraído de la referencia [1]). WRAPPERS El objetivo de un wrapper es extraer información relevante a partir de una fuente de datos (en este caso páginas Web) y presentar esta información en un formato especificado. En una primera capa los wrappers extraen información de conjuntos de páginas Web, especificándose un wrapper por cada dominio particular. El wrapper devuelve la información relevante contenida en cada página del conjunto. El resultado que se obtiene son varios archivos (uno para cada página Web) que cumplen con cierto esquema especificado. MEDIADORES El rol de un mediador es de integrar la información producida por diferentes wrappers u otros mediadores. En una segunda capa un mediador integra la información a nivel de datos, tomando como entrada los archivos generados por el wrapper, unificando la información obtenida de diversas fuentes (páginas Web) para cada dominio particular. La integración comprende la resolución de conflictos de datos que pueden provenir de inconsistencias de las diversas fuentes, por lo cual deben definirse criterios de integración de la información. Finalmente, se considera en una tercera capa un mediador que realiza una integración a nivel de esquemas, integrando la información de los diversos dominios. Este tipo de integración comprende la reestructuración de la información, ya que toma como entrada archivos con diferentes estructuras y/o fuentes, pero de contenido semántico relacionado. Universidad de la República Página 5 de 7

DATA WAREHOUSE La siguiente capa realiza el mapeo de la estructura obtenida al data warehouse, permitiendo de esta forma almacenar la información obtenida desde las páginas Web. Esta información permitirá luego realizar consultas sobre el dominio al cual fue aplicado el proceso. METADATA Existe una capa donde se encuentra la metadata, que registra todo el proceso realizado para la extracción e integración, y que posteriormente permitirá reflejar de forma óptima los cambios en la información obtenida, minimizando su impacto en data warehouse. ALCANCE El alcance del proyecto consiste en definir una metadata que pueda ser utilizada durante todo el proceso, desde que la información es extraída de las páginas web hasta que la misma es almacenada en el data warehouse. También forma parte del alcance el definir un sistema para evaluar y definir que datos usar calificándolos por distintos criterios de calidad. CRONOGRAMA REFERENCIAS Figura 8 Cronograma. [1] A. Marotta, R. Motz, R. Ruggia. Managing Source Schema Evolution in Web Warehouses. International Workshop on Information Integration on the Web (WIIW 2001). [2] RDF Premier. F.Manola, E. Miller. W3C. [3] RDF Schema Specification. D. Brickley, Guha R.V. W3C. [4] OWL Web Ontology Language. D. L.MacGuiness, F.Harmelen. W3C [5] XML Schema. Universidad de la República Página 6 de 7

[6] DAML+OIL Reference Description, D. Connoly, F. Harmelen. [7] OMG Web site, www.omg.org [8] A Technical Introduction to XML [9] Jena: A Semantic Web Framework for Java [10] D. Vila, M. Balestra. Análisis de la Metadata [11] Verónica Giaudrone, Marcelo Guerra, Marcelo Vaccaro. Informe General. Proyecto de Grado 2004. Extracción e Integración en una arquitectura de Web Warehouse. Universidad de la República Página 7 de 7