Universidad de la República Facultad de Ingeniería Instituto de Computación Proyecto de Grado Evolución de sistemas de Web Warehousing guiado por Parámetros de calidad Integrantes Daniela Vila Martín Balestra Tutoras Regina Motz Verónika Peralta Descripción general del proyecto
TABLA DE CONTENIDO INTRODUCCIÓN 3 MOTIVACIÓN Y OBJETIVOS 3 Motivación 3 Objetivos 3 CONCEPTOS GENERALES 3 Arquitectura del Sistema 3 Wrappers 3 Mediadores 3 Data Warehouse 3 Metadata 3 ALCANCE 3 CRONOGRAMA 3 REFERENCIAS 3 Universidad de la República Página 2 de 7
INTRODUCCIÓN El presente documento está enmarcado en la realización del proyecto Evolución de sistemas de Web Warehousing guiado por Parámetros de calidad correspondiente a la asignatura Proyecto de Grado del Instituto de Computación de la Facultad de Ingeniería, año 2005. El proyecto parte de un sistema ya existente construido en varias etapas y busca diseñar e implementar un proceso de administración de la metadata que maneja este sistema en su totalidad. El sistema global está basado en el artículo Managing Source Schema Evolution in Web Warehouses [1] que propone un estilo de arquitectura para la administración de Web Warehouses. Este tipo especial de Data Warehouses son alimentados por datos provenientes de páginas Web, por lo cual su diseño, implementación y posterior actualización llevan a un estudio particular. MOTIVACIÓN Y OBJETIVOS Motivación El World Wide Web (WWW) se ha convertido en la mayor fuente de información sobre prácticamente todas las áreas de interés, por lo que en los últimos años su crecimiento ha sido exponencial. Sin embargo, a la hora de brindar soporte de alto nivel al usuario y ofrecer herramientas para la toma de decisiones no se encuentra demasiada ayuda. Actualmente el acceso a la información contenida en la Web se hace a través de buscadores (Google, Yahoo, etc.), donde se ingresan palabras clave. El resultado es un conjunto de páginas que contienen esas palabras, pero se hace difícil saber a ciencia cierta cuál de ellas contempla mejor la búsqueda. La única manera de obtener una respuesta es analizándolas una por una para seleccionar las que resultan útiles. La creación de un Web Warehouse que contenga información consolidada, organizada, con restricciones de calidad en base a criterios definibles por el usuario y de fácil acceso, parece un objetivo tan necesario como difícil. Una de las mayores dificultades es el mantenimiento asociado a un Web Warehouse de éstas características. El principal motivo es que el origen de la información no cumple con estándares bien definidos y estrictamente cumplidos por los proveedores. Las páginas Web están por lo general en un formato semi-estructurado y heterogéneo, por lo que la extracción de datos de las mismas y su posterior transformación a un lenguaje común es muy difícil. Otro de los retos más complejos consiste en la interpretación semántica de los datos. Diferentes valores, diferentes nombres para los mismos conceptos y diferencias en la presentación de la información, hacen que el análisis y la interpretación de los datos sea complicado. El alto autonomismo y la naturaleza volátil de la Web llevan a un estudio más complejo de la evolución del Web Warehouse. Debido a esto se deben proporcionar mecanismos y herramientas para manejar la evolución de su esquema, minimizando el impacto de los cambios en las páginas Web de las que se extrae la información. Universidad de la República Página 3 de 7
Objetivos Analizar el sistema en general, estudiando su comportamiento, entradas y salidas de cada componente, poniendo fundamental énfasis en la entrada y salida de metadata. Diseñar una estructura homogénea de metadata que contemple todo el procesamiento del Web Warehouse, estableciendo una correspondencia directa con la metadata generada en cada etapa del proceso. Diseñar e implementar un mecanismo que establezca un proceso claro para administrar el impacto de cambios en el Web Warehouse, propagando dichos cambios hasta la capa que corresponda. En este proceso se deberá minimizar el impacto, intentando así minimizar los cambios en el esquema del Web Warehouse. Diseñar e implementar un módulo para definir criterios de calidad que serán utilizados al momento de clasificar las páginas. Este módulo será incorporado en la capa de Wrappers y Mediadores del sistema (ver arquitectura del sistema mas adelante). CONCEPTOS GENERALES El sistema propone no solo la captura y clasificación de datos provenientes de páginas Web, sino también la integración de esta información y el manejo de metadata a lo largo de su procesamiento. Arquitectura del Sistema A continuación se describe la arquitectura que presenta el sistema, sus componentes y la función de cada componente dentro del sistema. Se hará una presentación a alto nivel para brindar una visión general del sistema, para una descripción con mas detalle se hace referencia a [1]. La arquitectura del sistema está claramente dividida en capas y está basada principalmente en dos tipos de componentes: los wrappers y los mediadores. La metadata está presente a lo largo de todo el procesamiento de los datos y será manejada por cada una de las capas del sistema en forma autónoma. Como se ha mencionado antes, es un objetivo primordial de este proyecto homogeneizar la estructura de la metadata y establecer una correspondencia directa con la metadata que maneja cada capa. A continuación se presenta un diagrama de la arquitectura, donde se pueden distinguir claramente las diferentes capas. Universidad de la República Página 4 de 7
Figura 1 Arquitectura del sistema (extraído de la referencia [1]). WRAPPERS El objetivo de un wrapper es extraer información relevante a partir de una fuente de datos (en este caso páginas Web) y presentar esta información en un formato especificado. En una primera capa los wrappers extraen información de conjuntos de páginas Web, especificándose un wrapper por cada dominio particular. El wrapper devuelve la información relevante contenida en cada página del conjunto. El resultado que se obtiene son varios archivos (uno para cada página Web) que cumplen con cierto esquema especificado. MEDIADORES El rol de un mediador es de integrar la información producida por diferentes wrappers u otros mediadores. En una segunda capa un mediador integra la información a nivel de datos, tomando como entrada los archivos generados por el wrapper, unificando la información obtenida de diversas fuentes (páginas Web) para cada dominio particular. La integración comprende la resolución de conflictos de datos que pueden provenir de inconsistencias de las diversas fuentes, por lo cual deben definirse criterios de integración de la información. Finalmente, se considera en una tercera capa un mediador que realiza una integración a nivel de esquemas, integrando la información de los diversos dominios. Este tipo de integración comprende la reestructuración de la información, ya que toma como entrada archivos con diferentes estructuras y/o fuentes, pero de contenido semántico relacionado. Universidad de la República Página 5 de 7
DATA WAREHOUSE La siguiente capa realiza el mapeo de la estructura obtenida al data warehouse, permitiendo de esta forma almacenar la información obtenida desde las páginas Web. Esta información permitirá luego realizar consultas sobre el dominio al cual fue aplicado el proceso. METADATA Existe una capa donde se encuentra la metadata, que registra todo el proceso realizado para la extracción e integración, y que posteriormente permitirá reflejar de forma óptima los cambios en la información obtenida, minimizando su impacto en data warehouse. ALCANCE El alcance del proyecto consiste en definir una metadata que pueda ser utilizada durante todo el proceso, desde que la información es extraída de las páginas web hasta que la misma es almacenada en el data warehouse. También forma parte del alcance el definir un sistema para evaluar y definir que datos usar calificándolos por distintos criterios de calidad. CRONOGRAMA REFERENCIAS Figura 8 Cronograma. [1] A. Marotta, R. Motz, R. Ruggia. Managing Source Schema Evolution in Web Warehouses. International Workshop on Information Integration on the Web (WIIW 2001). [2] RDF Premier. F.Manola, E. Miller. W3C. [3] RDF Schema Specification. D. Brickley, Guha R.V. W3C. [4] OWL Web Ontology Language. D. L.MacGuiness, F.Harmelen. W3C [5] XML Schema. Universidad de la República Página 6 de 7
[6] DAML+OIL Reference Description, D. Connoly, F. Harmelen. [7] OMG Web site, www.omg.org [8] A Technical Introduction to XML [9] Jena: A Semantic Web Framework for Java [10] D. Vila, M. Balestra. Análisis de la Metadata [11] Verónica Giaudrone, Marcelo Guerra, Marcelo Vaccaro. Informe General. Proyecto de Grado 2004. Extracción e Integración en una arquitectura de Web Warehouse. Universidad de la República Página 7 de 7