Presentación IIC3432



Documentos relacionados
Significado de las f.b.f (fórmulas bien formadas) en términos de objetos, propiedades y relaciones en el mundo

VII. Estructuras Algebraicas

Espacios generados, dependencia lineal y bases

Estas visiones de la información, denominadas vistas, se pueden identificar de varias formas.

2.2 Transformada de Laplace y Transformada Definiciones Transformada de Laplace

TABLA DE DECISION. Consideremos la siguiente tabla, expresada en forma genérica, como ejemplo y establezcamos la manera en que debe leerse.

Para representar los conjuntos, los elementos y la relación de pertenencia, mediante símbolos, tendremos en cuenta las siguientes convenciones:

Modelo Entidad-Relación

Ecuaciones de primer grado con dos incógnitas

La nueva criba de Eratóstenes Efraín Soto Apolinar 1 F.I.M.E. U.A.N.L. San Nicolás, N.L. México. efrain@yalma.fime.uanl.mx

MLM Matemática Discreta

by Tim Tran:

DESARROLLO DE HABILIDADES DEL PENSAMIENTO LÓGICO

Matrices equivalentes. El método de Gauss

Funciones Condicionales

INSTITUTO UNIVERSITARIO DE TECNOLOGÍA JOSE LEONARDO CHIRINO PUNTO FIJO EDO-FALCON CATEDRA: ARQUITECTURA DEL COMPUTADOR PROFESOR: ING.

UNIDAD 2: Abstracción del Mundo real Al Paradigma Orientado a Objetos

BASES Y DIMENSIÓN. Propiedades de las bases. Ejemplos de bases.

Escenas de episodios anteriores

Estrategias de producto y precio

ANÁLISIS DE DATOS NO NUMERICOS

Sistemas de numeración

Por ejemplo convertir el número 131 en binario se realiza lo siguiente: Ahora para convertir de un binario a decimal se hace lo siguiente:

POSICIONAMIENTO EN LA WEB (SEM Y SEO) Sesión 3: Keywords

Dirección de Evaluación de la Calidad Educativa

Módulo 9 Sistema matemático y operaciones binarias

MÓDULO 2. LEYES FINANCIERAS DE CAPITALIZACIÓN Y DESCUENTO SIMPLE

UNIDAD I: LÓGICA PROPOSICIONAL

Este documento ha sido generado para facilitar la impresión de los contenidos. Los enlaces a otras páginas no serán funcionales.

Elementos requeridos para crearlos (ejemplo: el compilador)

Profr. Efraín Soto Apolinar. Factorización

CAPITULO I. Introducción. En la actualidad, las empresas están tomando un papel activo en cuanto al uso de sistemas y

1. Objetivos. 2. Idea Principal. Teoría de Autómatas y Lenguajes Formales. Boletín de Autoevaluación 3: Cómo se minimiza un AFD?.

INFORMATICA. Creating wings to think, opening spaces to soar TALLER N 2 INTRODUCCION A WINDOWS MOVIE MAKER

FICHEROS Y BASES DE DATOS (E44) 3º INGENIERÍA EN INFORMÁTICA. Tema 8. Elementos Básicos

Funciones de varias variables

Materia: Informática. Nota de Clases Sistemas de Numeración

Programa para el Mejoramiento de la Enseñanza de la Matemática en ANEP Proyecto: Análisis, Reflexión y Producción. Fracciones

Capítulo VI. Diagramas de Entidad Relación

VENTAJAS Y DESVENTAJAS DE LAS TECNOLOGIAS

Subconjuntos destacados en la

5 Ecuaciones lineales y conceptos elementales de funciones

Funciones, x, y, gráficos

e-commerce vs. e-business

Divisibilidad y números primos

Problemas Resueltos del Tema 1

Unidad I. 1.1 Sistemas numéricos (Binario, Octal, Decimal, Hexadecimal)

Coordinación de Matemática I (MAT021) 1 er Semestre de 2013 Semana 3: Lunes 25 - Jueves 28 de Marzo. Contenidos

Teoría formal de la normalización de esquemas relacionales. Definición formal de las tres primeras Formas Normales

Programa de acompañamiento de Facilitadores. INTRODUCCIÓN A LA MODALIDAD Formación a Distancia

CODIFICADORES. Cuando solo una de las entradas está activa para cada combinación de salida, se le denomina codificador completo.

Colegio Salesiano Don Bosco Academia Reparación Y Soporte Técnico V Bachillerato Autor: Luis Orozco. Subneteo

Ingeniería del Software I Clase de Testing Funcional 2do. Cuatrimestre de 2007

1. Números Reales 1.1 Clasificación y propiedades

Aproximación local. Plano tangente. Derivadas parciales.

ESTRUCTURAS ALGEBRAICAS

MACROECONOMÍA. Tema 6 El comercio internacional. - MACROECONOMÍA -

COORDENADAS CURVILINEAS

x

SISTEMAS DE NUMERACIÓN

Universidad Diego Portales Facultad de Economía y Empresa

Aplicaciones Lineales

8 millares + 2 centenas + 4 decenas + 5 unidades + 9 décimos + 7 céntimos

SISTEMAS DE NUMERACIÓN. Sistema de numeración decimal: = =8245,97

XVI Olimpiada Colombiana de Computación Nivel Superior Prueba Final Dia 2

Lección 24: Lenguaje algebraico y sustituciones

Cómo consultar una base de datos?

Tema 2: Modelo Entidad-Relación(ER)

ORIENTACIONES GENERALES SOBRE EL PROCESO DE TRABAJO DE GRADO

Movimiento a través de una. José San Martín

Liderazgo se genera en el lenguaje

Instituto Tecnológico de Celaya

ESTIMACIÓN. puntual y por intervalo

CAPÍTULO III. FUNCIONES

Árboles AVL. Laboratorio de Programación II

Apuntes de Matemática Discreta 9. Funciones

SISTEMAS NUMERICOS CAMILO ANDREY NEIRA IBAÑEZ UNINSANGIL INTRODUCTORIO A LA INGENIERIA LOGICA Y PROGRAMACION

Alberto Marcano Díaz

FUNCIONES EN R. Agosto 2007

personal.us.es/elisacamol Elisa Cañete Molero Curso 2011/12

QUÉ ES LA RENTABILIDAD Y CÓMO MEDIRLA. La rentabilidad mide la eficiencia con la cual una empresa utiliza sus recursos financieros.

Tutorial de Subneteo Clase A, B, C - Ejercicios de Subnetting CCNA 1

POSICIONAMIENTO EN LA WEB (SEM Y SEO)

La Evaluación como Proceso Comparación de Costos y Beneficios. Pedro Misle Benítez / Gustavo Briceño Torres

Apuntes de Matemática Discreta 1. Conjuntos y Subconjuntos

10 PRÁCTICAS BASALES DE LA GESTIÓN DE PROYECTOS INFORMÁTICOS EN CUBA

INTRODUCCION A LA PROGRAMACION DE PLC

Ejemplo: Resolvemos Sin solución. O siempre es positiva o siempre es negativa. Damos un valor cualquiera Siempre + D(f) =

1. MEDIDAS DE TENDENCIA CENTRAL

Maestría en Bioinformática. Bases de Datos y Sistemas de Información. Del MER al MR. Ing. Alfonso Vicente, PMP alfonso.vicente@logos.com.

CURSO INSTALACION E IMPLEMENTACION ALOJA SOFTWARE HOTEL MODULO 02: Datos Adicionales de configuración [1]

Nociones Básicas de Sémantica: Semántica Denotacional

Parámetros con la ventana de selección de usuario, reglas, texto y descomposición (IVE)

Geometría Tridimensional

LÍMITES Y CONTINUIDAD DE FUNCIONES

Complejidad - Problemas NP-Completos. Algoritmos y Estructuras de Datos III

Datos del autor. Nombres y apellido: Germán Andrés Paz. Lugar de nacimiento: Rosario (Código Postal 2000), Santa Fe, Argentina

Un Apunte de Funciones "Introducción al Cálculo Dif. e Int."

Tema 2 : Códigos Binarios

Transcripción:

Presentación IIC3432 Data Integration: A Theoretical Perspective (Maurizio Lenzerini) 09-Abril-2007 Fernanda Campos (PUC) Presentación IIC3432 IIC3432 1 / 44

Estructura de la presentación Seguirá la estructura del paper de Lenzerini. 1 Introducción 2 Framework de Integración de Datos 3 Modelación LAV GAV Comparación entre LAV y GAV 4 Procesamiento de Consultas En LAV En GAV 5 Inconsistencias entre Fuentes 6 Razonamiento sobre Consultas 7 Conclusiones Fernanda Campos (PUC) Presentación IIC3432 IIC3432 2 / 44

Estructura de la Presentación 1 Introducción 2 Framework de Integración de Datos 3 Modelación LAV GAV Comparación entre LAV y GAV 4 Procesamiento de Consultas En LAV En GAV 5 Inconsistencias entre Fuentes 6 Razonamiento sobre Consultas 7 Conclusiones Fernanda Campos (PUC) Presentación IIC3432 IIC3432 3 / 44

El problema El problema de integración de datos se refiere a la combinación de los datos que se encuentran en diferentes fuentes, para entregar al usuario una vista unificada de estas. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 4 / 44

Sistemas de unificación Los sistemas de unificación de datos que se estudian en el paper son aquellos que utilizan un esquema global y un conjunto de fuentes. Las fuentes contienen los datos reales. Esquema global provee una vista integrada de las fuentes subyacentes. Para modelar la relación entre esquema global y fuentes existen básicamente 2 tipos de mapeo: Local as View conocido como LAV. Global as View conocido como GAV. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 5 / 44

Reformulación Cualquiera de los métodos que usemos para realizar el mapeo implicará tener que reformular la consulta que hacemos sobre el esquema global en términos de consultas sobre las fuentes. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 6 / 44

Estructura de la Presentación 1 Introducción 2 Framework de Integración de Datos 3 Modelación LAV GAV Comparación entre LAV y GAV 4 Procesamiento de Consultas En LAV En GAV 5 Inconsistencias entre Fuentes 6 Razonamiento sobre Consultas 7 Conclusiones Fernanda Campos (PUC) Presentación IIC3432 IIC3432 7 / 44

Formalización del Sistema Formalizamos un sistema de integracion I como una tupla < G, S, M > G es el esquema global en un lenguage L G sobre un alfabeto A G. S el esquema de la fuente en un lenguage L S sobre un alfabeto A S. M el mapeo entre el G y S. Un conjunto de aserciones del tipo: q S q G q G q S donde q G y q S son consultas de igual aridad, sobre los lenguages L M,G y L M,S respectivamente. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 8 / 44

Aserción Una aserción del tipo q S q G indica que el concepto representado por la consulta q S sobre las fuentes corresponde a aquel que representa la consulta q G sobre el esquema global. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 9 / 44

Semántica del Sistema Una base de datos para un esquema no es más que una colección de conjuntos, un conjunto para cada uno de los símbolos del alfabeto del esquema. Asumiremos que las bases de datos para nuestros sistemas son sobre un dominio fijo infinito Γ. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 10 / 44

Semántica del Sistema Tomemos una base de datos D para el esquema S. El conjunto de bases de datos B que son legales en I respecto a D es: {B B es legal respecto a G y satisface Mrespecto a D} Fernanda Campos (PUC) Presentación IIC3432 IIC3432 11 / 44

Semántica de una Consulta Una consulta q de aridad n es una fórmula con n variables libres. Si D es una base de datos entonces q D es el conjunto de tuplas en D que satisfacen q. Dada D para I, entonces q I,D es el conjunto de tuplas t en Γ tales que: t q B para todas las bases de datos B que son legales para I. Este conjunto q I,D se denomina el conjunto de respuestas seguras respecto a I y a D. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 12 / 44

Estructura de la Presentación 1 Introducción 2 Framework de Integración de Datos 3 Modelación LAV GAV Comparación entre LAV y GAV 4 Procesamiento de Consultas En LAV En GAV 5 Inconsistencias entre Fuentes 6 Razonamiento sobre Consultas 7 Conclusiones Fernanda Campos (PUC) Presentación IIC3432 IIC3432 13 / 44

Mapeo Es la especificación de correspondencia entre los datos reales en las fuentes y el esquema global. Como se hace el mapeo? se define S en términos de G LAV se define G en términos de S GAV una mezcla de los 2 anteriores GLAV mapeo entre fuentes sin esquema global P2P Fernanda Campos (PUC) Presentación IIC3432 IIC3432 14 / 44

LAV Se basa en la idea de que el contenido de cada fuente s debe ser caracterizado en términos de una vista q G sobre G. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 15 / 44

Mapeo en LAV El mapeo M asocia cada elemento s de la fuente S a una consulta q G. Luego, las aserciones de M son del tipo: s q G Noten que en LAV se favorece la extensibilidad del sistema, pues para agregar una nueva fuente basta con agregar el conjunto de aserciones. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 16 / 44

Extensión Se han propuesto 3: as(s) = sound: su extensión provee un subconjunto de tuplas que satisfece la la vista q G s D q B G Default as(s) = complete:su extension provee un superconjunto de tuplas que satisfece la la vista q G s D q B G as(s) = exact: su extensión provee exactamente el conjunto de tuplas que satisfece la la vista q G s D = q B G Fernanda Campos (PUC) Presentación IIC3432 IIC3432 17 / 44

Sistemas que utilizan LAV Information manifold. DWQ. Picsel. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 18 / 44

GAV Se basa en la idea de que el contenido de cada elemento g del esquema global, debe ser caracterizado en términos de una vista q S sobre las fuentes. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 19 / 44

Mapeo en GAV El mapeo M asocia a cada elemento g en G una consulta q sobre la fuente. Luego, las aserciones de M son del tipo: g q S Noten que en GAV se favorece el procesamiento de consultas, pues le dice al sistema como utilizar las fuentes para poder obtener los datos. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 20 / 44

Extensiones de las vistas Se han propuesto 3: as(g) = sound: su provee un superconjunto de tuplas que satisfece la la vista q S q D S g B as(g) = complete:su extension provee un subconjunto de tuplas que satisfece la la vista q S q D S g B as(g) = exact: su extension provee exactamente el conjunto de tuplas que satisfece la la vista q S g B = q D S Default Fernanda Campos (PUC) Presentación IIC3432 IIC3432 21 / 44

Sistemas que utilizan GAV Carnot. SIMS. Tsimmis. IBIS. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 22 / 44

LAV vs GAV En términos de calidad: la de LAV depende de la caracterización de la fuentes, mientras que en GAV depende de que tan bien se han compilado las fuentes en el esquema global. En términos de Extensibilidad: Es muy simple en LAV basta con agregar las aserciones, pero en GAV implica rehacer el esquema global. En terminos del procesamiento de consultas: en LAV necesita más razonamiento pues se debe replantear la consulta en terminos de las fuentes pero la información que entregan las aserciones son exactamente al revés(fuentes en términos de vista global), en GAV es más sencillo pues la información de las aserciones es exactamente la necesitada. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 23 / 44

GLAV Es un enfoque mixto, entre LAV y GAV. Básicamente constituido por aserciones del tipo: q S q G Fernanda Campos (PUC) Presentación IIC3432 IIC3432 24 / 44

Estructura de la Presentación 1 Introducción 2 Framework de Integración de Datos 3 Modelación LAV GAV Comparación entre LAV y GAV 4 Procesamiento de Consultas En LAV En GAV 5 Inconsistencias entre Fuentes 6 Razonamiento sobre Consultas 7 Conclusiones Fernanda Campos (PUC) Presentación IIC3432 IIC3432 25 / 44

LAV Sólo poseemos información parcial de la base de datos global. Puede haber más de una base de datos que sea legal para el sistema. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 26 / 44

Ejemplo Tomemos un sistema I, con G que contiene una relación binaria couple y dos constantes Ann y Bill, también tenemos dos fuentes, female y male. Las aserciones en LAV son: female(f ) {f,m couple(f,m)} male(m) {f,m couple(f,m)} La base de datos D tiene female D = {Ann} y male D = {Bill}. Tomemos Q = {x,y couple(x,y)} Fernanda Campos (PUC) Presentación IIC3432 IIC3432 27 / 44

...Ejemplo si as(s)=sound: sólo podemos saber que existe una pareja que contiene a Ann y otra que contiene a Bill. La consulta Q es vacia pues s D nos retorna solo un subconjunto de las respuestas. si as(s)=exact: podemos saber que existe una pareja que contiene a Ann y otra que contiene a Bill, pero como s D nos retorna todas las respuestas a la consulta entonces retornará (Ann, Bill). Fernanda Campos (PUC) Presentación IIC3432 IIC3432 28 / 44

Procesamiento de consultas basadas en vistas Existen 2 maneras de enfrentar este problema: view based query rewriting: El objetivo es reescribir la consulta en términos de las fuentes. El problema es que la consulta puede no existir, en estos casos se buscará la reescritura que la capture de la mejor forma posible. view based query answering: No solo se nos entregan las aserciones, sino también las extensiones de las vistas. El objetivo es computar las tuplas t de manera que el conocimiento de las extensiones nos permita la implicación lógica de que t es la respuesta a la consulta. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 29 / 44

GAV El procesamiento de las consultas se basa en una estrategia de desenrrollado. Teniendo la consulta sobre el alfabeto A G, basta con reemplazar cada elemento con su correspondiente q S. y evaluar la consulta resultante. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 30 / 44

El problema El problema se presenta cuando el lenguage permite restricciones de integridad y las vistas son sound. En estos casos la respuesta a la consulta podría ser incompleta. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 31 / 44

Ejemplo Tomamos I = < G, S, M > G constuido por las relaciones employee(ecode, Ename, Ecity) company(ccode, Cname) employed(ecode, Ccode) Las restricciones de integridad siguientes: key(employee) = {Ecode} key(company) = {Ccode} employed[ecode] employee[ecode] employed[ccode] company[ccode] Fernanda Campos (PUC) Presentación IIC3432 IIC3432 32 / 44

...Ejemplo Las fuentes son las siguientes: s D 1 s D 2 s D 3 12 calvin rome 21 15 alice hong kong 24 AF BN 12 AF 16 BN hotdog corp. banana ltd. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 33 / 44

...Ejemplo las aserciones son: employee : {x,y,z s 1 (x,y,z,w)} company : {x,y s 2 (x,y)} employee : {x,w s 3 (x,w)} Fernanda Campos (PUC) Presentación IIC3432 IIC3432 34 / 44

...Ejemplo Tomemos la consulta: {x employee(x,y,z),employed(x,w)} si reemplazaramos las aserciones sobre la consulta tendríamos que la consulta expresada en términos de las fuentes es {x s D 1 (x,y,z,w 1),s D 3 (x,w 2)} y por lo tanto la respuesta sería {12}. Error! Si nos fijamos en las restricciones vemos que employed[ecode] employee[ecode] esta nos permite saber que 16 de la tabla s3 D es también un Ecode, luego la respuesta correcta sería {12,16}. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 35 / 44

Estructura de la Presentación 1 Introducción 2 Framework de Integración de Datos 3 Modelación LAV GAV Comparación entre LAV y GAV 4 Procesamiento de Consultas En LAV En GAV 5 Inconsistencias entre Fuentes 6 Razonamiento sobre Consultas 7 Conclusiones Fernanda Campos (PUC) Presentación IIC3432 IIC3432 36 / 44

Problema con el Sistema La formalización del sistema que teníamos estaba basada una interpretacion en lógica de primer orden de las aserciones en el mapeo. Lamentablemente esto no sirve para trabajar con las incosistencias entre las fuentes. En la práctica esto se soluciona limpiando y transformando los datos que es toman desde las fuentes. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 37 / 44

Que se necesita? Se necesita un sistema que permita hacer consultas aun cuando los datos en las fuentes sean incoherentes respecto a las restricciones de integridad. Se presentan 2 posibilidades: Caracterizar el sistema sólo en terminos de las bases de datos globales que satisfacen las restricciones de integridad y aproximar de la mejor manera posible la satisfacción de las aserciones. Definir un orden entre las bases de datos globales B 1 es mejor que B 2, B 1 >> D B 2, si hay al menos una aserción para B 1 que satisface el mapeo sound mejor que B 2. Y en ninguna aserción pasa la contrario. Y tomar el B legal con respecto a G como la mejor de las bases de datos. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 38 / 44

Estructura de la Presentación 1 Introducción 2 Framework de Integración de Datos 3 Modelación LAV GAV Comparación entre LAV y GAV 4 Procesamiento de Consultas En LAV En GAV 5 Inconsistencias entre Fuentes 6 Razonamiento sobre Consultas 7 Conclusiones Fernanda Campos (PUC) Presentación IIC3432 IIC3432 39 / 44

Contenimiento Relativo Una consulta está contenida en otra relativo al conjunto de fuentes, si para cada extenssion de las vistas las respuestas seguras a la primera consulta son idénticas a las respuestas seguras de la segunda. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 40 / 44

Complejidad Está demostrado que el problema de chequear el contenimiento relativo de una en el caso de consultas conjuntivas y vistas es Π P 2 Completo. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 41 / 44

Lossless Un conjunto de vistas es Lossless con respecto a una consulta si, no importando la base de datos, se puede contestar la consulta con tan solo el contenido de las vistas. Hay al menos 2 versiones de Lossless: Bajo vistas Sound: las vistas pueden contener información suficiente, pero la incompletitud de las fuentes pueden impedir obtener todas las respuestas que la consulta obtendría de la base de datos. PSPACE-complete respecto a las vistas EXSPACE-complete respecto a la consulta Bajo vistas Exactas: las vistas contienen la información suficiente para obtener la respuesta a la consulta. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 42 / 44

Estructura de la Presentación 1 Introducción 2 Framework de Integración de Datos 3 Modelación LAV GAV Comparación entre LAV y GAV 4 Procesamiento de Consultas En LAV En GAV 5 Inconsistencias entre Fuentes 6 Razonamiento sobre Consultas 7 Conclusiones Fernanda Campos (PUC) Presentación IIC3432 IIC3432 43 / 44

Conclusiones Hay muchos problemas abiertos (al menos habían): Manejo de inconsistencias. Incorporación de nociones de calidad y limpieza de datos. Construccion de un esquema global apropiado. Como optimizar la evaluación de consultas. entre otros varios. Fernanda Campos (PUC) Presentación IIC3432 IIC3432 44 / 44