3.1 Conflictos de Esquema



Documentos relacionados
Atributos Los atributos son las columnas de un relación y describen características particulares de ella.

CICLO DE VIDA DE LOS PROYECTOS

REGLAS DE CODD DEL MODELO RELACIONAL

Diseño de Bases de Datos (TEMAS 1 Y 2)

Teoría de Conjuntos. Conjunto es: colección de cosas, o una colección determinada de objetos.

MODELO RELACIONAL BASE DE DATOS RELACIONALES

METODOLOGÍA COMMONKADS.

1 Sistema de información de ejemplo.

METODOLOGÍAS PARA EL DESARROLLO DE SOFTWARE EDUCATIVO Jorge Calderón William Díaz, Zulix Angulo, Neila Márquez

Definimos un Sistema Gestor de Bases de Datos o SGBD, también llamado DBMS (Data Base Management System) como una colección de datos relacionados entr

TRABAJO DE APLICACIÓN

Explican las características de el modelo entidad relación. Utilizar la simbología del modelo entidad relación. Resolver problemas utilizando el

BASES DE DATOS TEMA 3 MODELO ENTIDAD - RELACIÓN

BASES DE DATOS TEMA 4 DISEÑO DE BASES DE DATOS RELACIONALES

Teoría de conjuntos. Tema 1: Teoría de Conjuntos.

Expresión, Operador, Operando, Asignación, Prioridad

BASES DE DATOS DOCUMENTOS O INSTRUMENTOS? DEBEN SOMETERSE A VALORACIÓN?

Anexo 5 Ejemplos de Rúbricas 1

INDICE Capitulo 1. Introducción Capitulo 2. Modelo entidad relación Capitulo 3. Modelo Relacional Capitulo 4. Lenguajes relacionados comerciales

Bases de Datos Web. Andrés s Ochoa Correa

METODOLOGÍA DE DISEÑO DE SISTEMAS

BASE DE DATOS_I Qué son las bases de datos?

NORMA INTERNACIONAL DE AUDITORÍA 610

Objetivos y Temario CURSO SQL SERVER 2012

Utiliza los números ordinales al resolver problemas planteados de manera oral.

NORMA INFORMACIÓN Y DOCUMENTACIÓN. FORMATOS PARA EL INTERCAMBIO DE LA INFORMACIÓN. International Standard ISO Campo de aplicación

SATCA 1 : Carrera: En la Unidad 2, Antecedentes y Estructura del CMMI proporciona al alumno las estructuras del CMMI.

obit Objetivos de Control para la Información y Tecnologías Relacionadas

1. INTRODUCCIÓN A LA MODELIZACIÓN CONCEPTUAL DE DATOS

Terminología Equivalente

Capítulo I. Introducción

TEORÍA DE CONJUNTOS A ={ 1, 2, 3, 4, 5, 6 }

Universidad Nacional del Nordeste Facultad de Humanidades

COMO REALIZAR UN FLUJOGRAMA

2. Manejo de Datos. Tal y como se mencionó en el Manual 3, las redes de medición se componen de un número variable de estaciones de medición, donde

Desempeño Alineación Riesgo

CONCEPTOS BÁSICOS DE ESTADÍSTICA

TEMA 5: INTRODUCCIÓN A LA INGENIERÍA DEL SOFTWARE. Definición de Ingeniería del Software

INDICADORES AMBIENTALES, Y LAS PRIORIDADES DE APOYO TECNOLÓGICO

Capítulo I. En el caso de este estudio, encontramos como factor determinante a los

Examen de ideas previas

Carrera: INB Participantes. Representante de las academias de ingeniería industrial de Institutos Tecnológicos.

BASES DE DATOS TEMA 2 MODELOS DE DATOS

Diseño Lógico de Bases de Datos Relacionales

TIPOS DE VARIABLES EN UN EXPERIMENTO

Elaboración de reactivos de opción múltiple para pruebas objetivas: CENEVAL, PISA, EXCALE, ENLACE MAO. ARACELI NUÑEZ THIERRY

Introducción a las Bases de Datos y al Modelo Relacional

Sus socios en ISO Manual de Calidad

El proyecto se dividirá en 3 Fases.

Análisis y Diseño de Sistemas Departamento de Sistemas - Facultad de Ingeniería

LENGUAJES DE PROGRAMACION I. Propósito del curso :

1.1. Resumen Introducción Objetivos del resumen automático

INTRODUCCION A LAS BASES DE DATOS. Tecnología de la Información

SECCIÓN AU 300 PLANIFICAR UNA AUDITORÍA CONTENIDO

Evaluación y Monitoreo de Proyectos Sociales

Modelo ERE. Universidad de los Andes Demián Gutierrez Marzo

MATEMÁTICAS 1ero ESO

GRADO EN ARQUITECTURA TÉCNICA

No investigar sobre algo que ya ha sido estudiado a fondo. Estructurar mas formalmente la idea de investigación

Soporte a la toma de decisiones

Matemáticas domésticas: Compras, facturas, ingresos

PROGRAMA DE EVALUACIÓN DE LA EDUCACIÓN BÁSICA PRUEBAS SABER LENGUAJE Y MATEMÁTICAS GRADOS 3, 5, 7 Y 9

Esquema Relacional Pasaje a Tablas. Sistemas de Bases de Datos I ITS EMT CETP

Oliverio J. Santana Jaria. Sistemas Digitales Ingeniería Técnica en Informática de Sistemas Curso

LA INTEGRACIÓN DE SISTEMAS

INGENIERÍA EN LOGÍSTICA INTERNACIONAL EN COMPETENCIAS PROFESIONALES ASIGNATURA DE MERCADOTECNIA INTERNACIONAL

PROGRAMACIÓN ALGORITMOS y DIAGRAMAS

Tema 3. Análisis de riesgo. Tema 3. Análisis de riesgo

II. SECCIONES PRINCIPALES Figura1: Partes principales de un Informe Técnico

Bases de datos 1. Teórico: Modelo Relacional

GUÍAS. Módulo de Diseño de sistemas mecánicos SABER PRO

CRITERIOS DE EVALUACIÓN

Microcurrículo del ÁREA DE: MATEMÁTICAS. Unidad y temas. Logro e Indicadores Indicadores De Logro

Techniks es una empresa comprometida con el desarrollo de sistemas de. información de calidad y requiere de la recomendación o desarrollo de un método

8 horas semanales 32 horas semestral. Suficientable

Nombre de la asignatura : Análisis y Diseño Orientado a Objetos. Carrera : Ingeniería en Sistemas Computacionales. Clave de la asignatura : SCB-

MODELO DE CASCADA PURA. Son métodos que indican cómo hacer más eficiente el desarrollo de sistemas de

INDICE Parte Uno: El Control Interno Capitulo. Qué es el sistema de Control Intenso (SCI)

Manual Teórico Práctico del Módulo Autocontenido. Elaboración de Presupuestos. Profesional Técnico Bachiller en Administración

Costos Históricos. Carrera: COM Participantes Representante de las academias de Contaduría de los Institutos Tecnológicos.

TEMA 4: MODELO RELACIONAL

Algoritmos y Diagramas de flujo

DIPLOMADO EN INVESTIGACIÓN CIENTÍFICA

ANEXO III CARACTERÍSTICAS DE LA PRUEBA PRÁCTICA

Modelo Relacional. Bibliografía: Fundamentos de bases de datos Korth, Silberschatz

GUÍA PARA LA ELABORACIÓN DE PROTOCOLOS Y PROCEDIMIENTOS DE ENFERMERÍA Julio 2007

DEFINICIÓN DE LOS PROBLEMAS; IDENTIFICACIÓN DE LOS FACTORES Y LOS OBJETIVOS. UNIVERSIDAD EL BOSQUE. HÉCTOR IVÁN HURTATIS ESPINOSA.

Concepto de Control Interno

Estructuras de Datos

CLASE Nº7. Patrones, series y regularidades numéricas

DISEÑO CURRICULAR ALGORITMOS, ESTRUCTURAS Y PROGRAMACIÓN I

Estadística Descriptiva

BASES DE DATOS DISTRIBUIDAS

Problemas de malos diseños

Transcripción:

1 Colección de Tesis Digitales Universidad de las Américas Puebla Alvarez Carrión, Guillermo Para que el usuario de un MDBMS pueda accesar de manera transparente y uniforme la información almacenada en diferentes componentes de bases de datos, se necesita resolver los conflictos de heterogeneidad semántica y de datos. La idea de resolver los conflictos es lograr una integración de esquemas, que permita a los usuarios de MDBMS formular solo una consulta para n Bases de Datos en lugar de n consultas, una para cada Base de Datos. El presente capítulo presenta la clasificación de los conflictos de esquema y de datos; además describe de manera detallada, como es que se presentan los conflictos al integrar las Bases de Datos Componentes (BDC s). Se revisa y discute la metodología propuesta para lograr la integración de esquemas. La metodología de integración se describe, considerando los conflictos y casos particulares para el integrador de esquemas propuesto en este trabajo de investigación. 3.1 Conflictos de Esquema Debido a que las BDC s operan independientemente (sin un control centralizado o coordinador distribuido), éstas pueden presentar discrepancia estructural y de representación. Estas diferencias permiten identificar y clasificar los conflictos de esquema manejados durante el proceso de integración. El conjunto de conflictos identificados por [Kim y Seo, 1991] para la integración de esquemas se describen en los párrafos siguientes. 3.1.1 Conflictos en tablas Conflictos de nombrado de tablas a. b. Nombres diferentes para tablas equivalentes.- Ocurre cuando se asignan nombres diferentes a tablas semánticamente equivalentes (sinónimos). Nombres iguales para tablas no equivalentes.- Cuando se asigna el mismo nombre a tablas semánticamente diferentes (homónimos).

2 Conflictos en la estructura de las tablas a. b. Atributos faltantes.- La conceptualización del diseño de un esquema de BD puede llevar a la omisión de atributos que no se consideren representativos. Atributos implícitos.- En ocasiones los atributos existentes pueden ser suficientes para deducir algún otro atributo requerido para la integración. Conflictos en restricciones de integridad.- En esta categoría se incluyen las deferencias que pueden surgir con respecto a la selección de llaves primarias, secundarias, extranjeras y conflictos en medida de la integridad referencial. Conflictos en la organización de la información.- El número de tablas requeridas para modelar la BD en cada componente puede diferir de acuerdo a la conceptualización de solución de cada diseñador. 3.1.2 Conflictos en atributos Conflictos de nombrado de atributos.- El concepto de sinónimo y homonimia aplicado a los conflictos de nombrado de tablas son aplicables a éstos tipos de conflictos. Conflictos en valores por ausencia.- La definición implícita de algunos valores por ausencia asignados por DBMS, podría llevar a contradicciones en la semántica de los datos. Conflictos por restricciones de asignación de valores a los atributos a. b. Conflictos en los tipos de datos.- Los tipos de datos pueden diferir en cuanto al criterio de diseño de cada aplicación. Conflictos en restricciones de dominio.- Reglas impuestas para a asignación de valores o consideración en los criterios de unicidad. Conflictos por la cardinalidad y grado de atomicidad.- El grado de detalle de cada atributo puede ser distinto en cada aplicación. Además, cada modelo de información establece restricciones y posibilidades de estructuración muy diferentes. Conflictos en la representación de la información.- Puede presentarse el caso de que el mismo concepto se presente como una entidad en una aplicación y en otra como un solo atributo. 3.2 Conflictos de datos

3 Aún a pesar de tener esquemas de BDC s equivalentes en cuanto a la estructura de sus tablas y atributos, es posible presentar otra serie de problemas identificados como conflictos de datos, dichos conflictos presentados por [Kim y Seo 1990], se describen a continuación: Conflictos entre los valores.- Cuando se espera que instancias equivalentes tengan los mismos valores, pero muestran inconsistencia debido a que los datos son capturados incorrectamente o los datos son obsoletos. Diferencias en la representación.- Situaciones de contexto y cultura organizacional, entre otros factores pueden llevar a que cada BDC seleccione una representación distinta en la información. Dichas inconsistencias pueden presentarse por: a. b. c. Notaciones diferentes.- Cuando existen diferentes formas para representar un mismo dato. (p.e. calificaciones numéricas o con escalas de letras) Unidades distintas.- La diversidad de unidades, sobre todo para valores numéricos, trae consigo problemas de interpretación. (p.e. la diferencia en el sistema de medición ingles y el internacional) Diferencias en las representaciones.- Cuando existen diferentes formas para representar un valor de un atributo. (p.e. para el atributo Estado se puede tener: Tlaxcala, Tlax., Tx, etc.) 3.3 Modelado de datos en los esquemas locales y federados El modelado de datos es el proceso de crear una representación consistente de los datos del usuarios. Existen diferentes propuestas de modelado, tales como el de red, jerárquico, relacional y orientado a objetos, cada uno con características particulares de diseño y representación. Para la propuesta de integración de este proyecto se considera exclusivamente el modelo relacional, como requerimiento tanto para los esquemas locales como para los esquemas globales generados. La justificación de la utilización de este modelo, es que sigue siendo uno de los estándares de modelado más utilizado en la industria de las Bases de Datos. El modelo relacional, basado en la teoría de conjuntos usa como primitiva básica de construcción la relación. Una relación es una tabla

4 bidimensional. Cada hilera de la tabla contiene datos que pertenecen a alguna cosa o porción de una cosa. Cada columna de la tabla contiene datos sobre atributos. Las hileras son también llamadas tuplas y las columnas atributos Para que una tabla sea una relación, esta debe cumplir ciertas restricciones. Primero, los atributos deben ser atómicos. Todos los valores en algún atributo deben ser de la misma clase. Cada columna debe tener un nombre único y el orden de las columnas en la tabla es insignificante. Finalmente, dos tuplas en la tabla no pueden se idénticas. Es importante tomar en cuenta estas consideraciones para la selección apropiada de las BDC s y para garantizar una consistencia con la metodología de integración propuesta. 3.4 Metodología de integración de esquemas La necesidad de integrar diversas BDC s trae consigo la necesidad de utilización de metodologías formales que permitan un proceso de integración confiable y seguro. Una metodología descompone la integración de esquemas en un número de tareas que pueden ligarse en un proceso interactivo que ofrezca como resultado un esquema global para DBMS federados fuertemente acoplado. Con la idea de mantener un balance entre simplicidad y rentabilidad se describe la metodología de integración propuesta por [Batini y Lenzerini 1986], la cual consiste de cuatro fases: preintegración, comparación de esquemas, adecuación de esquemas y unión de esquemas. Figura 3.1 Entradas y salidas en la integración de esquemas 3.5.2 Compartición de información

5 3.5 Preintegración Otro aspecto importante de esta fase es definir qué información se compartirá y con qué restricciones de acceso. Este proceso podría entenderse como un análogo a la definición de vistas en el modelo relacional. En el contexto de Bases de Datos Federadas, esto puede verse como la determinación de las entidades que cada Base de Datos Componente compartirá con la Federación y su definición en un esquema de componentes. Figura 3.2 Estrategias para el proceso de integración Figura 3.3 Estrategia binaria de escalera para el proceso de integración. 3.6 Comparación de esquemas En este ejemplo existe la descripción del mismo número de objetos en cada base de datos local, pero a diferente nivel de detalle por lo que es posible establecer la relación lógica a través de un atributo común y ofrecer un acceso global a la información sin redundancias. Ambos tipos de integración consideran información espacial (modelo basado en fragmentos) e información descriptiva.

6 3.7 Adecuación de esquemas La operación inversa, partiendo de la cadena UBICACION 1, puede ser, en algunos casos más difícil. Esto es debido a que en ocasiones es casi imposible proponer los criterios para decidir qué parte de la cadena original corresponde a cada uno de los atributos propuestos para la otra representación. Esto, sin embargo, puede llevar a conflictos con el orden que se usa para cada representación. Debe considerarse, que lo anterior es posible si el sistema soporta solamente consultas, ya que para las operaciones de modificaciones y alta de información, dada la ubicación como un solo atributo, plantea la necesidad de decidir que parte pertenece a cada atributo de la segunda representación. 3.7.4 Claves primarias El uso de llaves primarias en el modelo relacional permite, en la integración heterogénea establecer la operación de join para integrar los componentes locales. Entonces, será de suma importancia definir cuales son los atributos considerados como claves primarias de cada BDC. 3.7.5 Nivel de precisión El modelado de datos espaciales a través de la técnica de Quadtree (Ver Apéndice A para detalle de esta técnica) permite representar objetos espaciales a diferentes niveles de precisión. A mayor nivel de precisión, mayor el detalle de representación obtenido del objeto. Las BDC s que representan información espacial, pueden manejar niveles

7 de precisión diferentes, lo que implicaría una manipulación a nivel de implementación para homogeneizar la representación de los objetos espaciales a un mismo nivel de resolución. Al considerar el nivel de precisión como un conflicto es posible lograr dicha homogeneización a nivel de integración de esquemas. 3.8 Unión y reestructuración Una vez solucionados los conflictos en la fase anterior, es posible la integración de los esquemas. Después de la integración sigue una fase de reestructuración interactiva hasta que se llegue al esquema global deseado. La evaluación de esquema final, es a través de los siguientes criterios: Completitud y Validez. El esquema integrado debe contener todos los conceptos presentes en los esquemas componentes. El esquema integrado debe ser una representación de la unión de los dominios de las aplicaciones asociadas a los esquemas [Batini y Col 1986]. Representación mínima.- Si el mismo concepto se encuentra en más de un concepto componente, este se debe representar sólo una vez en el esquema integrado. Comprensibilidad.- El esquema global final debe ser fácil de entender tanto por el diseñador como por el usuario final. La comprensión detallada de los conflictos de esquema y de datos que se

8 presentan en este capítulo, permitirá plantear una mecanismo de solución que ofrezca un acceso transparente a las Bases de Datos Componentes. Los conceptos de equivalencia y tipo de integración requieren de atención especial para garantizar una selección apropiada de los componentes a integrar. La metodología de integración que se discute, establece un patrón de referencia para llevar a cabo la integración de manera semiautomática con la propuesta que se plantea en los capítulos siguientes. Alvarez Carrión, G. 1999. Integración de esquemas en bases de datos heterogéneas fuertemente acopladas. Tesis Maestría. Ciencias con Especialidad en Ingeniería en Sistemas Computacionales. Departamento de Ingeniería en Sistemas Computacionales, Escuela de Ingeniería, Universidad de las Américas Puebla. Mayo. Derechos Reservados 1999.