Tema 5: Sistemas de Almacenamiento Distribuido. Sistemas Distribuidos Marcos López Sanz [Curso ]

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Tema 5: Sistemas de Almacenamiento Distribuido. Sistemas Distribuidos Marcos López Sanz [Curso 2011-2012]"

Transcripción

1 Tema 5: Sistemas de Almacenamiento Distribuido Sistemas Distribuidos Marcos López Sanz [Curso ]

2 Índice Introducción Distribución de ficheros Arquitectura de servicios de ficheros NFS Distribución de datos Principios de BBDD distribuidas Arquitectura de BBDD Distribuidas Diseño de BBDD Distribuidas Consultas distribuidas: descomposición y localización Otros sistemas de almacenamiento de datos Datawarehousing Almacenes de objetos

3 Objetivo Introducción Compartir información almacenada en localizaciones distribuidas Enfoques de almacenamiento: No persistente: Almacenamiento en memoria compartida Almacenamiento de objetos: CORBA, EJB, etc. Persistente: Datos no estructurados (ficheros): NFS, xfs gnutella, Peer-to-Peer Datos estructurados: BBDD distribuidas/federadas/paralelas, Datawarehousing

4 Distribución de ficheros Caracterización Sistema o servicio de ficheros: software cuyo propósito es emular la funcionalidad de un sistema de ficheros no distribuido Objetivo: permitir a programas clientes acceder a los ficheros como si estuvieran en su nodo local Conceptos implicados Ficheros: elementos almacenados formados por datos (secuencias de bits) y atributos (longitud, tipo, timestamp, propietario, ACL, etc.) Directorios: ficheros especiales que contienen nombres (id) de ficheros dependientes de él Metadatos: información usada para la gestión del sistema de ficheros Operaciones: crear, abrir, cerrar, leer, escribir, posicionar, eliminar, renombrar, asignar atributos

5 Distribución de ficheros Requisitos de los sistemas de ficheros distribuidos Transparencia: equilibrio entre flexibilidad y escalabilidad de la transparencia frente a complejidad y rendimiento del SW De acceso: los clientes no deben ser conscientes de la distribución de los ficheros conjunto único de operaciones De localización: los clientes deben ver un único espacio de nombres de ficheros uniforme transferencia de ficheros sin que cambie el pathname De movilidad: información en los clientes acerca de los ficheros no debe variar cuando se migra un fichero De rendimiento: los clientes deben seguir con su rendimiento aun cuando la carga del servicio de ficheros distribuidos aumenta De escalabilidad: el sistema de ficheros debe ser capaz de escalar sin que mermen sus capacidades

6 Distribución de ficheros Requisitos de los sistemas de ficheros distribuidos Actualizaciones concurrentes de ficheros: los cambios hechos a un fichero por parte de un cliente no deben afectar al acceso a ese fichero por parte de otros clientes Replicación de ficheros: un mismo nombre de fichero puede referirse a varios ficheros replicados Ventaja: reparto de carga y tolerancia a fallos Desventaja: actualizaciones y mantenimiento de copias

7 Distribución de ficheros Requisitos de los sistemas de ficheros distribuidos Tolerancia a fallos: recuperación ante fallos del cliente o del servidor Consistencia: debido a la existencia de replicación, todas las copias de un fichero deben ser iguales propagación de cambios Seguridad: mecanismos de control de acceso a los ficheros Eficiencia: un sistema de ficheros distribuidos debe ofrecer, al menos, la misma eficiencia que uno local

8 Distribución de ficheros Ejemplos de sistemas de ficheros distribuidos Arquitectura de servicio de ficheros: Modelo arquitectónico genérico sobre el que se asientan NFS o AFS Basado en la división de responsabilidades entre el cliente y el servidor NFS: Network File System Idea de Sun Microsystems (1985) Protocolo NFS: RFC 1813 (1995) Relación simétrica entre clientes y servidores (multiplataforma) AFS: Andrew File System Entorno de computación distribuido de la CMU (1986) Basado en la transferencia de grandes bloques de ficheros y el uso de cachés

9 Distribución de ficheros Arquitectura de servicio de ficheros Extraído de Coulouris et al. Distributed Systems: Concepts and Design. 2012

10 Distribución de ficheros Arquitectura de servicio de ficheros. Componentes Servicio de ficheros planos: Implementa las operaciones en los contenidos de los ficheros para su acceso Crea UFIDs (Unique File Identifiers) para representar cada fichero físico Servicio de directorio: Mapea nombres (texto) a UFIDs Gestiona ficheros y directorios Módulo cliente: Integra y extiende las operaciones del servicio de ficheros planos y del servicio de directorio Crea una interfaz común de acceso para aplicaciones cliente

11 Distribución de ficheros Arquitectura de servicio de ficheros. Interfaces Interfaz del servicio de ficheros planos Conjunto de operaciones usadas por un cliente Basado en RPC (usado por el cliente) en las que se indica un UFID (global al sistema de ficheros distribuido pero resuelto por un servidor concreto) Interfaz del servicio de directorio Propósito: ofrecer una forma de trasladar nombres de ficheros planos a UFIDs. Ofrece también operaciones sobre directorios

12 Distribución de ficheros Arquitectura de servicio de ficheros Control de acceso Se realiza cada vez que se resuelve (en el cliente) un nombre de fichero (texto plano) a UFID, o bien, Se envía la identidad del usuario al servidor para su comprobación antes de cada operación de fichero Otras características Sistema jerárquico de ficheros: pathnames Grupos de ficheros: conjunto de ficheros almacenados en un servidor (independientemente de los directorios)

13 Distribución de ficheros NFS (Network File System) Extraído de Coulouris et al. Distributed Systems: Concepts and Design. 2012

14 Distribución de ficheros NFS. Conceptos básicos Protocolo NFS: conjunto de llamadas a procedimiento remoto que ofrecen las capacidades necesarias para que los clientes puedan realizar operaciones sobre un almacenamiento de ficheros remoto Protocolo de nivel de aplicación en la pila OSI Clientes y servidores NFS: Un servidor y varios clientes Se comunican por RPCs siguiendo el protocolo NFS Comunicación con operaciones síncronas Con TCP o UDP por debajo Únicas restricciones de uso: que la petición esté bien formulada y que el usuario tenga las credenciales adecuadas

15 Distribución de ficheros NFS. Componentes Sistema de ficheros virtuales Módulo que implementa la transparencia de acceso Conoce si debe transmitir una petición de acceso a fichero al sistema local de ficheros o al cliente NFS para acceso remoto (remote filesystem) Módulo cliente NFS: Integración con el cliente Ofrece una interfaz adecuada para ser utilizada por aplicaciones cliente En UNIX suele estar integrado en el kernel Acceso a ficheros con llamadas al sistema (sin recompilar) no como librería Un único módulo atiende a varias aplicaciones cliente Se comunica y coordina con el sistema de ficheros virtuales

16 Distribución de ficheros NFS. Componentes Control de acceso y autenticación El servidor NFS no guarda el estado de apertura de un fichero (stateless) chequeo de permisos ante cada petición cliente Problema: cualquiera podría enviar una petición RPC con la ID de otro usuario encapsulada en la petición Solución parcial: Kerberos + Sun NFS Interfaz del servidor NFS Read, Write, getattr, setattr, lookup, create, mkdir, etc. Mount service Permite agregar enlaces simbólicos a árboles de directorios/ficheros en local haciendo referencia a subárboles remotos UNIX: /etc/exports nombres de los filesystems locales que pueden ser montados en clientes NFS

17 Distribución de ficheros NFS. Optimizaciones Automounter: mantiene una tabla de puntos de montado (pathnames). Cuando un cliente hace un lookup(), el automounter pregunta a todos los servidores NFS por el fichero solicitado y monta el filesystem localmente (enlace simbólico) para acceder a ese fichero Server caching y client caching: demonios que permiten hacer read-ahead y write-delay para mejorar el rendimiento en la gestión de ficheros accedidos por un cliente Securización con Kerberos: uso de un protocolo de autenticación en redes inseguras (criptografía de clave segura y existencia de un servidor de confianza)

18 Distribución de Datos Principios de Bases de Datos Distribuidas Objetivos de las BD: integración frente a centralización Base de Datos Distribuida (DDBS): a collection of multiple, logically interrelated databases distributed over a computer network Sistema gestor de BBDD distribuidas (Distributed DBMS): the software system that permits the management of the distributed database and makes the distribution transparent to the users Discretización: es DDBS si Los datos están lógicamente relacionados Existe una estructura lógica que los relaciona (más allá de una jerarquía de organización) Los datos están físicamente distribuidos (no residen sólo en un nodo) Se utiliza una red de comunicaciones para su acceso (no sobre una estrategia de memoria o disco compartido) El acceso debe hacerse a través de una interfaz común

19 Distribución de Datos Alternativas de distribución de datos Criterios Modos de entrega de datos Pull-only. Iniciado por una petición del cliente (tradicional) Push-only. Iniciado por los servidores Hybrid. Query continua: primero pull x1 y después push xn Frecuencia Periodic. Peticiones acordadas (acciones bancarias diarias) Conditional. Envío en función de condición (aviso por umbral) Ad-hoc o irregular. Entornos híbridos o pull-only (tradicional) Métodos de comunicación Unicast. Comunicación uno-a-uno cliente-servidor One-to-many. Envío de un servidor a varios clientes (multicast o broadcast)

20 Distribución de Datos Ventajas de los DDBS: Gestión transparente de datos distribuidos y replicados Acceso fiable a datos a través de transacciones distribuidas Mejora del rendimiento Expansión sencilla del sistema (escalabilidad)

21 Distribución de Datos Gestión transparente de datos distribuidos y replicados Objetivo: que el usuario cree consultas que no tengan en cuenta la fragmentación, localización o replicación de los datos Formas de abordar la transparencia en DDBS Independencia de datos. Inmunidad de los usuarios frente a la organización de datos o en la definición de los mismos: Definición a nivel lógico: Definición del esquema de la BD inmunidad frente a cambios en la estructura lógica de la BD (esquema) Definición a nivel físico: Definición de los datos físicos ocultación de las estrategias de almacenamiento físico de los datos Transparencia de red. No debe haber diferencia entre el acceso a almacenamiento local o distribuido Forma uniforme de acceder a los datos Evitar que el usuario especifique la localización de los datos Transparencia de replicación. Gestión de la existencia de réplicas (no su localización) por parte del sistema Transparencia de fragmentación. Tratamiento de un conjunto de fragmentos (para mejora de rendimiento, fiabilidad y disponibilidad) como si no existieran Fragmentación vertical: una relación se divide en varias de acuerdo a las tuplas (filas ) Fragmentación horizontal: una relación se divide en varias de acuerdo a los atributos (columnas)

22 Distribución de Datos Fiabilidad mediante transacciones distribuidas Transacción: unidad básica y coherente de computación que consta de una serie de sentencias para la BD que se ejecutan como si fuera una sola Objetivo: hacer que la BD se mantenga en un estado coherente antes y después de la ejecución de la transacción Consecuencia: mantiene la integridad de la BD en ejecuciones concurrentes de transacciones Requisitos: implementar control de concurrencia y fiabilidad distribuida (2PC y protocolos de recuperación distribuida)

23 Distribución de Datos

24 Distribución de Datos Mejora del rendimiento Basado en la existencia de fragmentos Almacenamiento cercano al lugar donde se van a utilizar los datos Contención del uso de CPU y E/S en el acceso a los datos La localización (cercana) reduce el tiempo y latencia de red La distribución, a pesar de las mejoras HW, sigue existiendo (comunicaciones con satélite o entre organizaciones) Basado en la paralelización de las consultas Intra-query: división de una consulta en varias Inter-query: ejecución de múltiples consultas a la vez

25 Distribución de Datos Expansión sencilla del sistema (escalabilidad) Expansión basada en añadir componentes de computación y almacenamiento Aumento de las prestaciones en entornos distribuidos más sencillo que incremento de potencia en monopuestos (mainframes) Las estrategias de gestión distribuida son aplicables a un número variable de recursos

26 Distribución de Datos Factores de complejidad de las BBDD distribuidas Replicación de los datos: el DDBMS es responsable de Encontrar y seleccionar las copias almacenadas de los datos replicados a la hora de recuperar la información Asegurarse de la propagación de los cambios a todas las instancias de los datos modificados Fallo de los nodos: el DDBMS es responsable de Si una sentencia se está ejecutando, debe asegurarse de que los cambios se realizan sobre el nodo caído (o no accesible) cuando se produce la recuperación Sincronización de transacciones: Es compleja debido a la imposibilidad de conocer al momento inmediato qué ocurre en el resto de nodos Otros: Coste de replicar recursos, gestión de la distribución, gestión de acuerdos entre nodos, etc.

27 Distribución de Datos Aspectos de diseño Diseño de la BD distribuida: Datos particionados (no replicados)? Datos replicados? Totalmente replicados? Parcialmente replicados? Aspectos involucrados: Fragmentación. Separación de la BD en particiones (fragmentos) Distribución. Asignación óptima de fragmentos a nodos Gestión del directorio distribuido Directorio global o local a cada nodo? Directorio centralizado o distribuido? Copia única o replicada?

28 Distribución de Datos Aspectos de diseño Procesamiento distribuido de consultas Se centra en diseñar algoritmos que analizan consultas y las convierten en operaciones de manipulación de datos Factores a considerar: Distribución de los datos Coste de la comunicación Limitaciones de la información local disponible Control de concurrencia distribuido Sincronización de accesos al DDBS Integridad de una BD local + consistencia de múltiples copias Soluciones: Pesimistas. Sincronización de la ejecución de las peticiones del cliente antes de que ocurran Optimistas. Ejecución y posterior comprobación de la consistencia de la BD tras la ejecución Primitivas utilizadas: Bloqueos (locks) Timestamps

29 Distribución de Datos Aspectos de diseño Gestión de los interbloqueos distribuidos Competición entre usuarios por el acceso a un recurso Alternativas: prevención, avoidance, detección/recuperación Fiabilidad de los DDBS Caída de nodos el DDBS tiene que ser consistente aun con nodos caídos o inaccesibles Recuperación de nodos el DDBS debe actualizar los nodos al estado actual Replicación Ante réplicas se debe establecer una política de actualización Proactiva (eager). Forzar que las actualizaciones se produzcan en todos los nodos antes de terminar la transacción Pasiva (lazy). Esperar a que termine la transacción para actualizar el resto de nodos

30 Aspectos de diseño Distribución de Datos Extraído de M.T. Özsu and P. Valduriez, Principles of Distributed Database Systems: Third Edition, 2011.

31 Distribución de Datos Arquitecturas de DDBS Arquitectura ANSI/SPARC Arquitectura centralizada Arquitecturas distribuidas DDBS en entornos cliente-servidor DDBS puros (Peer-to-Peer) Sistemas de multibases de datos

32 Distribución de Datos Arquitectura ANSI/SPARC Extraído de M.T. Özsu and P. Valduriez, Principles of Distributed Database Systems: Third Edition, 2011.

33 Distribución de Datos Arquitectura ANSI/SPARC Vista interna: la del sistema o nodo Definición física y organización de los datos Localización de los dispositivos de almacenamiento Definición de los mecanismos de acceso y manipulación de datos (SQL) Vista conceptual: la de la empresa/organización Definición abstracta de la BD Representación de los datos y sus relaciones independientemente de la tecnología (álgebra relacional) Separación conceptual-interna: independencia física Vista externa: la del usuario Concepción de la BD por parte del usuario Comprende el conjunto de relaciones visibles y accesibles por el usuario Separación externa-conceptual: independencia lógica

34 Distribución de Datos Arquitectura de una BD centralizada Extraído de M.T. Özsu and P. Valduriez, Principles of Distributed Database Systems: Third Edition, 2011.

35 Distribución de Datos Arquitecturas de BBDD distribuidas Criterios Autonomía Distribución Heterogeneidad

36 Distribución de Datos Criterios de clasificación de DDBS. Autonomía Grado en que los componentes de un DDBS pueden operar independientemente. Afecta al control de cada nodo de BD. Requisitos: Las operaciones ejecutadas localmente no dependen de su participación en el DDBS La optimización de operaciones tampoco La consistencia de la BD local no se ve afectada cuando deja de pertenecer al DDBS Valores: Autonomía de diseño. Independencia en técnicas de gestión de transacciones y modelos de datos Autonomía de comunicación. Independencia a la hora de ofrecer la información a otros nodos o al SW que controla la ejecución global Autonomía de ejecución. Independencia para ejecutar una transacción de la manera que se quiera. Tipos de DDBS según su autonomía: Fuertemente integrados. Misma imagen en cada nodo. Control centralizado. Semiautónomos. Parte de la BD local se dedica a ser compartida. BD federadas. Aislamiento total. BBDD totalmente independientes (no distribuidas).

37 Distribución de Datos Criterios de clasificación de DDBS. Distribución Grado en que los datos se distribuyen físicamente en diferentes localizaciones Tipos de DDBS según su distribución: Cliente/servidor. Reparto de funcionalidades sobre los datos Los servidores se encargan de las tareas de gestión de datos Los clientes ofrecen el entorno de aplicación incluyendo la interfaz de usuario Peer-to-Peer ( puras ). Distribución total de funcionalidades de gestión de datos Cada nodo tiene todas las funcionalidades propias de un SGBD

38 Distribución de Datos Criterios de clasificación de DDBS. Heterogeneidad Grado en que el DDBS se construye utilizando modelos de datos, lenguajes de consulta o protocolos de gestión de transacciones diferentes Heterogeneidad en DDBS: De modelos de datos. En función de la expresividad de cada modelo de datos, las capacidades de representar los datos varían De lenguaje de consultas A pesar de que SQL es el lenguaje estándar de acceso a BD, cada vendedor tiene sus particularidades de implementación

39 Distribución de Datos Arquitecturas de BBDD distribuidas Extraído de M.T. Özsu and P. Valduriez, Principles of Distributed Database Systems: Third Edition, 2011.

40 Distribución de Datos Arquitectura de DDBS cliente/servidor Extraído de M.T. Özsu and P. Valduriez, Principles of Distributed Database Systems: Third Edition, 2011.

41 Distribución de Datos Arquitectura de DDBS cliente/servidor Extraído de M.T. Özsu and P. Valduriez, Principles of Distributed Database Systems: Third Edition, 2011.

42 Distribución de Datos Arquitectura de DDBS Peer-to-Peer (DDBS puro ) Peer-to-Peer: hace referencia a que no hay diferencia en las funcionalidades implementadas por los nodos del sistema Diferencia con sistemas P2P actuales: Envergadura: actualmente P2P se refiere a miles de nodos interconectados Objetivo de los P2P: compartir ficheros Esquemas en DDBS Local Internal Schema (LIS): organización física de los datos en cada nodo Global Conceptual Schema (GCS): describe la estructura lógica de todos los nodos como un todo (vista externa y empresarial ) Local Conceptual Schema (LCS): descripción conceptual de cada LIS en cada nodo. Sirve para gestionar la replicación y la fragmentación de los datos External Schemas (ES): vista del DDBS que percibe el usuario final (por encima del GCS)

43 Distribución de Datos Arquitectura de DDBS Peer-to-Peer (DDBS puro ) Extraído de M.T. Özsu and P. Valduriez, Principles of Distributed Database Systems: Third Edition, 2011.

44 Componentes de un DBMS distribuido Distribución de Datos Extraído de M.T. Özsu and P. Valduriez, Principles of Distributed Database Systems: Third Edition, 2011.

45 Distribución de Datos Componentes de un DBMS distribuido Procesador de usuario. Gestiona la interacción con el usuario final Manejador del interfaz de usuario Interpreta los comandos de usuario Controlador de datos semánticos Gestiona las autorizaciones y la restricciones de integridad de acuerdo al GCS para saber si se puede ejecutar la petición del usuario. Optimizador de consultas globales y descomponedor Determina la estrategia de ejecución minimizando los costes. Transforma las consultas globales a consultas locales utilizando el GCS y el LCS (así como el directorio global donde está la dirección de cada nodo) Monitor/Gestor de ejecución distribuida Coordina la ejecución distribuida de la petición de usuario Diferentes nodos se comunican entre sí a través de este módulo

46 Distribución de Datos Componentes de un DBMS distribuido Procesador de datos. Gestiona el acceso a los datos locales Optimizador de consultas locales Selecciona la mejor ruta de acceso a los datos locales Gestor de recuperación local Encargado de mantener la consistencia local aun en presencia de fallos Procesador de soporte en tiempo real Accede físicamente a los datos locales de acuerdo a los comandos físicos enviados por el optimizador de consultas locales Actúa de interfaz con el sistema operativo

47 Distribución de Datos Arquitectura de una multibase de datos Extraído de M.T. Özsu and P. Valduriez, Principles of Distributed Database Systems: Third Edition, 2011.

48 Datos de ejemplo Diseño de BD Distribuidas

49 Diseño de BD Distribuidas Premisas Una copia del DDBMS existe en cada nodo La distribución de los programas se hará dependiendo de cómo se diseñe el DDBS Estrategias de diseño Top-Down Desde el análisis de los requisitos hasta el diseño físico de la BD (LIS), pasando por los GCS y ES Objetivo: a partir del GCS diseñar los LCS Pasos: fragmentación y localización Bottom-Up Parte de BD locales existentes (LCS) para llegar a ES Objetivo: derivar un GCS mediante integración Pasos: traducción de esquemas e integración de esquemas

50 Diseño Top-Down: Diseño de BD Distribuidas Extraído de M.T. Özsu and P. Valduriez, Principles of Distributed Database Systems: Third Edition, 2011.

51 Diseño Bottom-Up: Diseño de BD Distribuidas Extraído de M.T. Özsu and P. Valduriez, Principles of Distributed Database Systems: Third Edition, 2011.

52 Diseño de BD Distribuidas Aspectos de diseño de distribución de datos Razones de fragmentación (granularidad) Subconjuntos de relaciones como unidad porque así es como acceden las aplicaciones Relación como unidad? Problemas de transferencia de información (completa) Problemas de replicación y propagación de actualizaciones Fragmentos Permiten ejecutar consultas concurrentemente Desventajas de fragmentación Degradación de rendimiento en aplicaciones que trabajan con fragmentos Control de integridad requiere accesos a datos de múltiples fragmentos

53 Diseño de BD Distribuidas Aspectos de diseño de distribución de datos Alternativas de fragmentación Partición horizontal Se realiza repartiendo las tuplas de una relación de acuerdo al valor que toma uno de los atributos (columnas) de la relación Partición vertical Se realiza separando los atributos (columnas) en diferentes fragmentos La clave primaria se incluye en todos los fragmentos (causa: 1FN) Partición híbrida Anidamiento de las particiones horizontales y verticales

54 Diseño de BD Distribuidas Aspectos de diseño de distribución de datos Grado de fragmentación Extremos: no fragmentar nada vs. fragmentar a nivel de tupla o de atributos individuales Solución: compromiso dependiente de las aplicaciones que usan el DDBS Reglas de corrección de la fragmentación Objetivo: que la BD no sufra cambios semánticos durante la fragmentación Regla 1: Completitud Si una relación R se divide en fragmentos R 1, R 2,,R n, cada dato de R se puede encontrar en uno o más R i Regla 2: Reconstrucción Si una relación R se divide en fragmentos R 1, R 2,,R n, existe un operador aplicable a R i que da como resultado R. Regla 3: Desunión ( disjointness ) F. Vertical: Salvo la clave primaria, un atributo únicamente se encuentra en un fragmento F. Horizontal: Los datos (tuplas) únicamente se encuentran en un fragmento

55 Diseño de BD Distribuidas Aspectos de diseño de distribución de datos Alternativas de localización Premisa: la BD está fragmentada correctamente Opciones: datos replicados o únicos Razones: fiabilidad y eficiencia Aspecto clave: ratio consultas de lectura vs. actualización Tipos de DDBS según localización Particionada: fragmentos localizados en varios nodos pero sin replicación Totalmente replicada: toda la BD existe en cualquiera de los nodos Parcialmente replicada: existen fragmentos replicados en varios nodos

56 Diseño de BD Distribuidas Aspectos de diseño de distribución de datos Totalmente replicada Parcialmente replicada Procesamiento de consultas Fácil Dificultad similar Gestión del directorio Fácil o inexistente Dificultad similar Particionada Control de concurrencia Moderado Difícil Fácil Fiabilidad Muy alto Alto Bajo Realismo Posible aplicación Realista Posible aplicación

57 Diseño de BD Distribuidas Fragmentación. Horizontal Tipos de partición horizontal Primaria: la fragmentación se realiza únicamente con la información de una relación (selección en la propia tabla) Derivada: la fragmentación se realiza usando información procedente de una consulta de selección previa sobre otra tabla relacionada Requisitos de información para fragmentación horizontal Información de la BD: Relaciones entre tablas del GCS (joins) Información de la aplicación: Detectar cuáles son los criterios de filtrado más habituales Regla 80/20 entre datos recuperados/consultas más utilizadas Establecer sus complementarios para cumplir con el criterio de completitud

58 Diseño de BD Distribuidas Fragmentación. Horizontal Primaria Se define con una operación de selección sobre una de las relaciones existentes (w) en un esquema de la BD Dada una relación R, sus fragmentos se definen como: R i = σ Fi (R), 1 i w Resultado: Cada fragmento contendrá el conjunto de tuplas que cumplen el criterio de selección Habrá tantos fragmentos como predicados de selección sean diseñados Existen algoritmos para comprobar que los predicados de selección cumplen con las propiedades de completitud y mínima cardinalidad

59 Diseño de BD Distribuidas Fragmentación. Horizontal Primaria Ejemplo Dos nodos Objetivo: almacenar aquellos empleados con un salario superior a y en otro lugar los que cobren menos Predicados iniciales (simples): Pr = { P1, P2 } P1: SAL P2: SAL < Comprobación de que los predicados son mínimos y completos algoritmo COM_MIN: Pr es mínimo y completo Obtención de fragmentos algoritmo PHORIZONTAL

60 Diseño de BD Distribuidas Fragmentación. Horizontal Primaria Algoritmo PHORIZONTAL Predicados de selección ( minterm predicates ) (todas las posibles combinaciones de los predicados simples): m1: (SAL 30000) (SAL > 30000) m2: (SAL 30000) (SAL > 30000) m3: (SAL 30000) (SAL > 30000) m4: (SAL 30000) (SAL > 30000) Implicaciones (relaciones entre predicados): i1: (SAL 30000) (SAL > 30000) i2: (SAL 30000) (SAL > 30000) i3: (SAL > 30000) (SAL 30000) i4: (SAL > 30000) (SAL 30000) Simplificación TITLE m1 es contradictorio (de acuerdo a i1); m4 es contradictorio (debido a i2) M={m2, m3}= {P1, P2} Fragmentación Fs = {S1, S2} de acuerdo a M SAL Elect. Eng Syst. Anal Mech. Eng Programmer 24000

61 Diseño de BD Distribuidas Fragmentación. Horizontal Derivada Se define con una operación de selección sobre una relación que está relacionada con alguna de las relaciones existentes (w) en un esquema de la BD sobre la que se hará la fragmentación Dada una relación R, sus fragmentos se definen como: R i = R < S i, 1 i w partición derivada de R en semijoin con S S i = σ Fi (S) partición primaria de S Elementos necesarios: Conjunto de fragmentos de la relación con partición primaria Relación que se desea fragmentar Atributo de unión entre las relaciones Problemas Encontrar cuál es el atributo por el que hacer el (semi-)join Aquél que tiene mejores características de unión (menor nº de fragmentos) Aquél que deriva en fragmentos más utilizados por aplicaciones

62 Diseño de BD Distribuidas Fragmentación. Horizontal. Análisis de criterios de corrección Completitud: depende de los predicados de selección En una fragmentación primaria se cumplirá si el predicado se ejecuta correctamente En una fragmentación derivada se cumplirá si se cumple la integridad referencial (las tuplas de un fragmento están también en la relación con la que se hace el join) Reconstrucción: la relación original se forma mediante la unión de los fragmentos Disjointness: En una fragmentación primaria se cumplirá si el predicado definido conlleva la creación de fragmentos mutuamente excluyentes En una fragmentación derivada depende de los datos (se debe estudiar en detalle)

63 Diseño de BD Distribuidas Fragmentación. Vertical. Produce fragmentos R 1, R 2,,R n cada uno de los cuales contiene un subconjunto de los atributos (columnas) de R así como la clave primaria de R Fragmentación óptima: aquella que produce un esquema de fragmentación tal que reduce el tiempo de ejecución de las aplicaciones sobre estos fragmentos Complejidad: Dados m atributos candidatos a clave primaria Nº de posibles fragmentos m m Aproximaciones heurísticas Agrupamiento: dividir completamente los atributos e ir uniendo hasta satisfacer un criterio (1985) Desdoblamiento: ir dividiendo quitando atributos hasta que se deja de cumplir el criterio (1984)

64 Diseño de BD Distribuidas Fragmentación. Vertical. Requisitos de información para fragmentación vertical Depende del uso que las aplicaciones hagan de los atributos frecuencia de acceso a los atributos Pretende encontrar los atributos que más veces se acceden juntos afinidad de atributos Algoritmo de fragmentación A partir de un conjunto de consultas se crea una matriz de uso de atributos A partir de esa matriz y de la frecuencia de usos de cada consulta se crea una matriz de afinidad Se utiliza un algoritmo para ordenar los atributos de la matriz y juntar los que más afinidad tienen entre sí (más peso) Finalmente se divide la matriz entre los atributos más utilizados y los menos

65 Diseño de BD Distribuidas Fragmentación. Vertical. Comprobación de la corrección de la fragmentación Completitud Se garantiza porque cada atributo al menos está en una partición Reconstrucción Se consigue mediante el join de todos los fragmentos Disjointness La clave primaria se repite en cada fragmento lo que permite saber que las tuplas no se repiten

66 Diseño de BD Distribuidas Fragmentación. Híbrida. Se basa en la utilización de fragmentaciones verticales y horizontales independientemente del orden en que se ejecuten Se produce un árbol estructurado de fragmentos Comprobación de la corrección Completitud: se cumple si se cumple en las fragmentaciones individuales Reconstrucción: se empieza por las hojas y se va subiendo en el árbol Disjointness: se cumple si se cumple en las fragmentaciones individuales

67 Diseño de BD Distribuidas Localización Foco del problema: posicionar los datos en una red de computadores más que en el diseño en sí de la BD Aspectos: Definición del problema de localización Requisitos de información asociados a la localización Modelo de localización Métodos de solución a la localización

68 Diseño de BD Distribuidas Localización.Problema de localización Premisa: existen una serie de fragmentos (F i ) distribuibles en una serie de nodos (S i ) y que son accedidos por una serie de aplicaciones (Q i ) Objetivo: distribución óptima de F en S Medidas de optimalidad: Coste mínimo: función compuesta que indica el coste de Almacenar cada Fi en cada Sj Consultar cada Fi en cada Sj Actualizar cada Fi en los nodos en los que esté almacenado Rendimiento: Minimizar el tiempo de respuesta Maximizar la tasa de transferencia en cada sitio Problema: complejidad de los algoritmos de distribución de fragmentos en nodos (NP-completo)

69 Diseño de BD Distribuidas Localización. Requisitos de información Información de la BD Número de tuplas de un fragmento Fj que son accedidas por una aplicación Qi Tamaño de las tuplas de un fragmento Fj Información de la aplicación Número de accesos de lectura y de actualización que un programa Qi hace a un fragmento Fj Nodo que origina la consulta y su localización Máximo tiempo de respuesta admisible por una aplicación Información de los nodos Capacidad/Coste de almacenamiento y de procesamiento Información de la red Coste de comunicación entre dos nodos Si y Sj

70 Diseño de BD Distribuidas Localización. Modelo de localización Modelo matemático que intenta minimizar el coste total de procesamiento y almacenamiento de datos cumpliendo ciertas restricciones de tiempo NP-Completo Define funciones para cálculo de costes de procesamiento y almacenamiento y de la influencia de las restricciones Localización. Métodos de solución Heurísticos Problema de la mochila Técnicas branch-and-bound Algoritmos de flujo de red Centrados en reducir la complejidad Query processing optimization Ignorar la replicación

71 Diseño de Consultas Distribuidas Álgebra relacional (recordatorio) Operadores primitivos Proyección ( ) Selección ( ) Unión ( ) Diferencia(-) Producto Cartesiano (x) Operadores derivados: Combinación o Join ( ) Intersección ( ) División (:) O. Unarios O. Binarios

72 Diseño de Consultas Distribuidas Proyección ( ): La proyección de una relación sobre un conjunto de sus atributos es otra relación definida sobre ellos, eliminando las tuplas duplicadas que hubieran podido resultar al seleccionar los atributos indicados nacionalidad (Autor) Selección ( ): La selección de una relación mediante una expresión lógica (predicado de selección) da como resultado una relación formada por el conjunto de tuplas que satisfacen dicha expresión nacionalidad= Española (Autor) Unión ( ): La unión de dos relaciones R1 y R2, compatibles en su esquema, es otra relación definida sobre el mismo esquema de relación, cuya extensión estará constituida por el conjunto de tuplas que pertenezcan a R1, a R2 o a ambas (sin duplicar) Autor Editor Diferencia(-): La diferencia de dos relaciones R1 y R2, compatibles en su esquema, es otra relación definida sobre el mismo esquema de relación, cuya extensión estará constituida por el conjunto de tuplas que pertenecen a R1 y no pertenecen a R2 Autor Editor Producto Cartesiano (x): El producto cartesiano de dos relaciones R1 y R2 de cardinalidades m1 y m2 respectivamente, es una relación definida sobre la unión de los atributos de ambas relaciones y cuya extensión estará constituida por las m1 x m2 tuplas formadas concatenando cada tupla de la primera relación con cada una de las tuplas de la segunda relación LIBRO x EDITORIAL

73 Diseño de Consultas Distribuidas Selección ( ) Proyección ( ) Producto (x) a b c x y a a b b c c x y x y x y Unión ( ) Diferencia ( - )

74 Diseño de Consultas Distribuidas Combinación o Join (, ). La combinación de dos relaciones, R1 y R2, respecto a una cierta condición de combinación, es otra relación constituida por todos los pares de tuplas t i y t j concatenadas, tales que, en cada par, las correspondientes tuplas satisfacen la condición especificada. Cuando el operador es la igualdad, se denomina combinación natural LIBRO LIBRO.nombre-e = EDITORIAL.nombre EDITORIAL Intersección ( ): La intersección de dos relaciones R1 y R2 compatibles en su esquema es otra relación definida sobre el mismo esquema de relación y cuya extensión estará constituida por las tuplas que pertenecen a ambas relaciones AUTOR EDITOR División (:) : La división de una relación R1(dividendo) por otra relación R2 (divisor) es una relación R (cociente) tal que, al realizarse su combinación con el divisor, todas las tuplas resultantes se encuentran en el dividendo. R1 : R2 = C(R1) - C(R2 x C(R1)-R1) AUTOR_EDITORIAL : EDITORIAL

75 Diseño de Consultas Distribuidas Procesador de consultas Transforma una consulta de alto nivel (en cálculo relacional, SQL-like) en un equivalente de bajo nivel (álgebra relacional) En DDBS no es suficiente con el álgebra relacional necesita seleccionar dónde es mejor realizar la consulta

76 Diseño de Consultas Distribuidas Ejemplo Query Nodo 5 ASG 2 EMP 1 Nodo 1 Nodo 4 Nodo 2 Nodo 3 ASG 1 EMP 2 EMP (ENO, ENAME, TITLE) ASG (ENO, PNO, RESP, DUR) Adaptado de M.T. Özsu and P. Valduriez, Principles of Distributed Database Systems: Third Edition, 2011 y

77 Ejemplo Diseño de Consultas Distribuidas Consulta (cálculo relacional): SELECT FROM WHERE ENAME EMP, ASG EMP.ENO = ASG.ENO AND RESP = Manager Consulta (álgebra relacional): Opción 1: ENAME ( RESP= Manager EMP.ENO = ASG.ENO (EMP x ASG)) Opción 2: (intuitivamente consume menos recursos, evita el producto cartesiano) ENAME (EMP ENO ( RESP= Manager (ASG))

78 Diseño de Consultas Distribuidas Ejemplo ENAME (EMP ENO ( RESP= Manager (ASG)) Fragmentación y distribución en nodos: Nodo 1: ASG 1 = ENO E3 (ASG) Nodo 2: ASG 2 = ENO < E3 (ASG) Nodo 3: EMP 1 = ENO E3 (EMP) Nodo 4: EMP 2 = ENO < E3 (EMP) Lanzamiento de la consulta: Nodo 5

79 Diseño de Consultas Distribuidas Ejemplo ENAME (EMP ENO ( RESP= Manager (ASG)) Estrategia A: transferir todos los fragmentos al nodo 5 ENAME ( ( ENO, ENAME (EMP 1 EMP 2 )) Nodo 5 ) EMP.ENO= ASG.ENO ( ENO ( RESP= Manager (ASG 1 ASG 2 )) Recibir EMP 1 Recibir EMP 2 Recibir ASG 1 Recibir ASG 2 Enviar EMP 1 Enviar EMP 2 Enviar ASG 1 Enviar ASG 2 Nodo 3 Nodo 4 Nodo 1 Nodo 2

80 Diseño de Consultas Distribuidas Ejemplo ENAME (EMP ENO ( RESP= Manager (ASG)) Estrategia B: enviar resultados intermedios Enviar EMP 1 Recibir EMP 1 Recibir EMP 2 Enviar EMP 2 EMP 1 =EMP 1 ASG 1 EMP 2 =EMP 2 ASG 2 Nodo 3 Recibir ASG 1 ENAME (EMP 1 EMP 2 ) Nodo 4 Recibir ASG 2 Enviar ASG 1 Enviar ASG 2 ASG 1 = RESP= Manager (ASG 1 ) Nodo 1 Nodo 5 ASG 2 = RESP= Manager (ASG 2 ) Nodo 1

81 Diseño de Consultas Distribuidas Ejemplo ENAME (EMP ENO ( RESP= Manager (ASG)) Costes: Acceder a una tupla: 1 unidad Transferir una tupla: 10 unidades Cardinalidad de EMP: 400 Cardinalidad de ASG: asignaciones para Manager en ASG Tuplas uniformemente distribuidas: nodos 1 y 2 devuelven 10 tuplas por filtro manager en cada ASG i Todos los nodos se pueden comunicar con todos

82 Diseño de Consultas Distribuidas Ejemplo ENAME (EMP ENO ( RESP= Manager (ASG)) Costes de las estrategias: Estrategia 1: Transferir EMP 1 al nodo 5: 200 * 10 = 2000 Transferir EMP 2 al nodo 5: 200 * 10 = 2000 Transferir ASG 1 al nodo 5: 500 * 10 = 5000 Transferir ASG 2 al nodo 5: 500 * 10 = 5000 Filtrado por Manager : 1000 accesos (sin índices) = ASG Join entre la unión de EMP (400 tuplas) y ASG (20 tuplas) = 400 * 20 = 8000 Total = = Estrategia 2: Producir ASG 1 en nodo 1: 10 (indizado) Producir ASG 2 en nodo 1: 10 (indizado) Trasferir ASG 1 a nodo 3: 10*10 = 100 Trasferir ASG 2 a nodo 4: 10*10 = 100 Producir EMP 1 en nodo 3 (join indizado por EMP): 1 * 10 = 10 Producir EMP 2 en nodo 4 (join indizado por EMP): 1 * 10 = 10 Transferir EMP 1 al nodo 5: 10 * 10 = 100 Transferir EMP 2 al nodo 5: 10 * 10 = 100 Lecturas para unión de EMP 1 y EMP 2 en nodo 5: 20 Total = 10* *2 + 10* * = 460

83 Diseño de Consultas Distribuidas Procesamiento de consultas distribuidas Objetivo: transformar una consulta de alto nivel, ejecutada por un usuario que percibe el DDBS como único, en una estrategia de ejecución eficiente expresado en un lenguaje de bajo nivel para cada BD local Medidas utilizadas: Coste total (de la ejecución de la consulta) BD centralizadas: reducir coste de E/S (lecturas a disco) y CPU (acceso a memoria) BD distribuidas: reducir coste de comunicaciones (datos transferidos) Tiempo de respuesta (entre que se ejecuta la consulta y se obtienen los resultados)

84 Diseño de Consultas Distribuidas Procesamiento de consultas distribuidas Caracterización de consultas distribuidas Lenguajes: cálculo relacional (~SQL) y álgebra relacional Tipos de optimización: exhaustivo vs. heurístico Temporización de la optimización: Estáticamente: antes de ejecutar la consulta Dinámicamente: durante la ejecución Uso de estadísticas para selección del orden de ejecución de pasos en una consulta Toma de decisiones acerca de la estrategia de optimización: centralizada vs. distribuida Análisis de la topología de red (cercanía) Análisis de los fragmentos Uso de la operación de semijoin como primitiva para reducir la cantidad de datos enviada (selección de las columnas que se utilizarán en pasos posteriores)

85 Diseño de Consultas Distribuidas Etapas del procesamiento de consultas distribuidas Extraído de M.T. Özsu and P. Valduriez, Principles of Distributed Database Systems: Third Edition, 2011.

86 Diseño de Consultas Distribuidas Etapas del procesamiento de consultas distribuidas (I) Descomposición de consultas Transformación de la consulta desde una notación de cálculo relacional a una de tipo algebraico sobre el GCS Pasos: 1. Reescritura de la consulta en forma normalizada (prioridad de operadores) 2. Análisis de la consulta normalizada: detección y eliminación de consultas con errores (uso de grafos semánticos) 3. Simplificación de la consulta: eliminación de predicados redundantes 4. Reestructuración de la consulta: de cálculo relacional a álgebra. Transformación para conseguir una versión mejorada (desde el punto de vista del rendimiento). Se usan reglas simples de transformación

87 Diseño de Consultas Distribuidas Etapas del procesamiento de consultas distribuidas (I) Descomposición de consultas. Paso 1. Normalización: Reglas de equivalencia usadas para obtener una forma canónica de la consulta (basada en AND o en OR)

88 Diseño de Consultas Distribuidas Etapas del procesamiento de consultas distribuidas (I) Descomposición de consultas. Paso 2. Análisis: comprobación de la semántica de la consulta grafos Paso 3. Eliminación de la redundancia Reglas de eliminación

89 Diseño de Consultas Distribuidas Etapas del procesamiento de consultas distribuidas (I) Descomposición de consultas. Paso 4. Reescritura: transformación a álgebra relacional Paso 4.1. Traducción directa Paso 4.2. Simplificación del árbol de operadores para mejora de rendimiento» Reglas de transformación 1. Conmutatividad de los operadores binarios: 2. Asociatividad de los operadores binarios 3. Idempotencia de los operadores unarios 4. Conmutatividad de selección con proyección 5. Conmutatividad de selección con operadores binarios 6. Conmutatividad de projección con operadores binarios» Consejo para optimización:» Que los operadores unarios se ejecuten lo más cerca posible de las hojas (relaciones o fragmentos)

90 Diseño de Consultas Distribuidas Reglas de transformación 1. Conmutatividad de los operadores binarios (sólo prod. cartesiano, join y unión) 2. Asociatividad de los operadores binarios 3. Idempotencia de los operadores unarios 4. Conmutatividad de selección con proyección 5. Conmutatividad de selección con operadores binarios Si R y T son unión compatible : 6. Conmutatividad de proyección con operadores binarios

91 Diseño de Consultas Distribuidas Ejemplo: Extraído de M.T. Özsu and P. Valduriez, Principles of Distributed Database Systems: Third Edition, 2011.

92 Diseño de Consultas Distribuidas Etapas del procesamiento de consultas distribuidas (y II) Localización de datos Entrada: consulta en forma algebraica Objetivo: localizar los datos referenciados en la consulta teniendo en cuenta fragmentos y réplicas Transforma la consulta en una consulta fragmentada (distribuida) reducida (eliminación de consultas sobre fragmentos que producen resultados vacíos) Reducción para fragmentación horizontal primaria Regla 1. Con selección: Regla 2. Con join: Reducción para fragmentación vertical Regla 3. no tiene sentido si R i no contiene atributos de D

93 Diseño de Consultas Distribuidas Etapas del procesamiento de consultas distribuidas (y II) Optimización global de la consulta Entrada: consulta fragmentada en forma algebraica Objetivo: encontrar una estrategia de ejecución óptima (heurística) Notación: álgebra relacional + primitivas de envío/recepción Algoritmos. Centrados en optimizar la ordenación de joins/semijoins Aplicación de algoritmos centralizados a datos distribuidos» Dynamic*-QOA» Static*-QOA» Basados en semijoin» SQAllocation Optimización local: optimización usando el LCS Algoritmos centralizados Algoritmos dinámicos: INGRES. Descomposición en mini-consultas y optimización individual Algoritmos estáticos: System R. Búsqueda exhaustiva del árbol de soluciones de consultas posibles. Optimalidad.

94 Diseño de Consultas Distribuidas Algoritmos de optimización (centralizados): Extraído de M.T. Özsu and P. Valduriez, Principles of Distributed Database Systems: Third Edition, 2011.

95 Data Warehouse Contexto Business Intelligence: Capacidad para tomar decisiones de negocio rápidas y precisas Sistemas de soporte a la decisión (DSS): Conjunto de herramientas utilizadas para ayudar en la toma de decisiones Cómo? Combinación de datos históricos de operación con modelos de negocio que representan las actividades de negocio Componentes (Connolly et al.): Sistema de almacenamiento» Datos de negocio. Resumen y reorganización de los datos operativos optimizados para conseguir rapidez de consultas y análisis de datos (externos y operativos).» Datos de modelos de negocio. Modelan el negocio para identificar y mejorar el conocimiento que se tiene de las situaciones de negocio (análisis y previsiones). Componente de filtrado/extracción de datos. Obtiene los datos de fuentes externas para su almacenamiento Herramienta de consulta de usuario. Permite a un usuario definir las consultas sobre el sistema de almacenamiento. Herramienta de presentación de datos. Permite seleccionar la forma en que se mostrará la información extraída.

96 Data Warehouse Arquitectura genérica de una solución de BI: dato + contexto = información información + acervo científico = conocimiento Obtenido de:

97 Data Warehouse Data Warehouse Definición: El Data Warehouse es una colección de datos integrados, orientados a un tema/propósito, no volátiles e historiados, organizados para el apoyo de un proceso de ayuda a la decisión Integrados. BD que consolida e integra datos de una organización y de múltiples fuentes con diversos formatos. Un DW debe tener una representación unificada de los datos. Orientados a un tema. Los datos se organizan y optimizan para responder a preguntas de diferentes partes de una empresa. La organización de los datos debe estar supeditada a las necesidades de estos departamentos (consulta frente a actualización). No volátiles. Una vez los datos entran en el DW, nunca salen. Los datos crecen, pero no se borran Historiados. Un DW debería representar una vista (snapshot) de los datos de una compañía en un momento determinado. OLAP vs. OLTP. Objetivo: ayuda a la toma de decisiones Inmon. Bill & Chuck Kelley."The 12 Rules of Data Warehouse for a Client/Server World". Data Management Rev. 4(5). May, 1994

98 Data Warehouse Inmon. Bill & Chuck Kelley."The 12 Rules of Data Warehouse for a Client/Server World". Data Management Rev. 4(5). May, 1994 Data Warehouse. 12 reglas: 1. El DW y los datos operativos están separados 2. Los datos del DW están integrados 3. El DW contiene datos históricos de largo recorrido 4. Los datos del DW se refieren a momentos concretos de los datos de una empresa 5. Los datos del DW están orientados a un tema 6. Los datos del DW son, básicamente, datos de sólo lectura con actualizaciones periódicas en segundo plano. No se permiten las actualizaciones manuales (online) 7. El proceso de desarrollo de un DW está dirigido por los datos, no por los procesos que acceden a él 8. Existen diferentes niveles de detalle de los datos almacenados por un DW: actuales, viejos, resúmenes breves y resúmenes extendidos 9. El entorno de un DW se caracteriza por transacciones de solo lectura sobre grandes conjuntos de datos 10. El entorno de un DW contiene un sistema que permite hacer trazas de orígenes de datos, transacciones y almacenamiento 11. Los metadatos del DW son un aspecto crítico 12. El DW cuenta con un mecanismo de optimización enfocado a priorizar las consultas realizadas por usuarios finales

99 Data Warehouse OLAP vs. OLTP OLTP (On-line Transaction Processing) Caracterizados por un número significativo de operaciones transaccionales (INSERT, UPDATE, DELETE) Énfasis: procesamiento rápido de consultas, mantenimiento de la integridad de los datos en entornos de accesos múltiples. Eficiencia medida en transacciones por segundo Datos y esquemas definidos según un modelo relacional y normalizado OLAP (On-line Analytical Processing) Caracterizados por un volumen relativamente bajo de transacciones Las consultas son complejas y suelen involucrar agregaciones de datos Eficiencia medida en tiempo de respuesta Técnicas utilizadas: data mining, data analysis, decision making Estrategias de almacenamiento basados en datos multidimensionales y esquemas en estrella

100 Data Warehouse Orígenes de los datos Propósito de los datos Qué representan los datos OLTP (Sistema operacional) Datos operacionales. OLTPs son la fuente original de los datos Controlar y ejecutar tareas fundamentales del negocio El estado actual de la ejecución de los procesos de negocio OLAP (Data Warehouse) Datos consolidados. Diferentes fuentes OLTP Ayuda a la toma de decisiones, planificación y resolución de problemas Vistas multidimensionales de varias actividades de negocio Inserts y Updates Pequeños y rápidos a petición de los usuarios Trabajos en segundo plano periódicos Consultas Consultas simples devolviendo pocos datos Consultas complejas Velocidad de procesamiento Normalmente muy rápida Depende de la cantidad de datos involucrados (hasta horas y días) Requisitos de espacio Relativamente pequeños Muy altos (agregación de datos) Diseño de la BD Altamente normalizados Normalmente desnormalizados con pocas tablas (esquemas en estrella o copo de nieve) Backup y recuperación Backup rnecesario (los datos operacionales son críticos para el negocio) Backup por recarga de los orígenes OLTP

101 Data Warehouse Tipos de DW (según tamaño) (Elmasri et al., 2003) DW de nivel empresarial (constelaciones de DW) DW virtuales. Ofrecen vistas de BD operacionales materializadas para acceso eficiente Data-marts. Subconjuntos de DW enfocados a un departamento o fracción de la empresa Poco volumen de datos Mayor rapidez de consulta Validación directa de la información Facilidad para el almacenamiento histórico de los datos Ejemplos de soluciones comerciales para DW IBM DB2 Warehouse 9.5 Microsoft SQL Server 2008 Oracle Database 11g Teradata Enterprise Data Warehouse 12.0 Sybase IQ Netezza Performance Server

102 Data Warehouse Diseño de DW. Datos multidimensionales Definidos en cubos de información que relacionan los datos entre si Operaciones: Pivoting: operación de cambio de orientación de la jerarquía Roll-up display: operación que permite aumentar el grado de agrupamiento de los datos (de meses a trimestres por ejemplo) Drill-down display: operación contraria Slice & Dice: proyecciones sobre las dimensiones Sorting: ordenación de los datos Selection: filtrado de los datos (Excel: tablas de referencias cruzadas/tablas dinámicas)

103 Data Warehouse Diseño de DW. Tipos de tablas Tabla dimensión: Conjunto de formas en las que los datos pueden ser agregados, vistos, ordenados o entendidos (producto, tiempo, cliente, etc.) jerarquías de datos Tabla de hechos ( facts ): contiene una tupla por cada elemento de interés almacenado y consisten en conjuntos de valores de las medidas de negocio. Cada medida se toma mediante la intersección de las dimensiones que la definen

104 Data Warehouse Diseño de DW. Tipos de tablas Obtenido de Wikipedia.

105 Data Warehouse Diseño de DW. Tipos de esquemas multidimensionales Esquema en estrella Una tabla de hechos Varias tablas de dimensiones Características: Estructura simple Esquema fácil de entender Alta eficiencia de consultas Pocas tablas que unir Alto tiempo de carga de datos en las tablas de dimensiones desnormalización, datos redundantes, gran tamaño de la tabla Estrategia más utilizada en implementaciones de DW ampliamente soportada por herramientas de BI Esquema en copo de nieve Una tabla de hechos Varias tablas de dimensiones jerarquizadas y normalizadas Esquema en constelación de hechos Varias tablas de hechos Varias tablas de dimensiones compartidas

106 Data Warehouse Diseño de DW. Tipos de esquemas multidimensionales Esquema en estrella

107 Data Warehouse Diseño de DW. Tipos de esquemas multidimensionales Esquema en copo de nieve (snowflake)

108 Data Warehouse Diseño de DW. Tipos de esquemas multidimensionales Esquema en constelación de hechos

109 Data Warehouse Construcción de un DW 70% de la carga de procesamiento en un DW Extracción, Transformación y Carga (proceso ETL) Extracción: Orígenes: OLTP, SAP, ERP, sistemas operacionales, legacy Los datos son extraídos (ad-hoc querying) para su posterior integración Transformación: Mapeo de datos a un formato común (renombrado de atributos y tipos de datos) Limpieza de los datos: validación y análisis de la calidad Enriquecimiento de los datos: p.ej. geolocalización y otros metadatos Conversión al modelo del DW Carga: Tareas de carga en segundo plano Temporización y monitorización del proceso Importancia de la distribución de los datos:» DW federado. Confederación de DW autónomos.» DW distribuido. Repositorio de metadatos replicado en cada DW.

110 Data Warehouse Construcción de un DW Herramientas ETL: Microsoft Access / SSIS / SQL Server BCP IBM DB2 Bulk /DataStage Oracle Data Pump Sybase BCP (Bulk Copies Data) SAS ETL Studio Jitterbit (opensource) Pentaho Data Integrator (opensource) Talen Open Studio (opensource)

111 Data Warehouse Construcción de un DW Extraído de Datawarehouse4u.info

112 Data Warehouse Construcción de un DW. Metadatos Metadatos que describen tablas: Nombre físico Nombre lógico Tipo: hecho, dimensión, otros ( puente ) Rol: OLTP, sistema heredado (legacy), intermedio SGBD: DB2, Informix, SQL Server, Oracle, Sybase Localización Definición Observaciones Metadatos que describen columnas de tablas Nombre físico Nombre lógico Orden en la tabla Tipo de datos Longitud Posiciones decimales Requerido/Admite null Valor por defecto Definición Observaciones

113 Data Warehouse Construcción de un DW. Metadatos Metadatos: Necesarios para simplificar y automatizar la obtención de la información desde los sistemas operacionales a los sistemas de toma de decisiones Objetivos que deben cumplir los metadatos, según el colectivo al que va dirigido ( Dar soporte al usuario final: Ayudándole a acceder al DW con su propio lenguaje de negocio Indicando qué información hay y qué significado tiene Ayudar a construir consultas, informes y análisis, mediante herramientas de BI Dar soporte a los responsables técnicos del DW: Aspectos de auditoría Gestión de la información histórica Administración del DW Elaboración de programas de extracción de la información Especificación de las interfaces para la realimentación a los sistemas operacionales de los resultados obtenidos... Etc.

114 Data Warehouse Data mining Business Services? Extraído de Connolly & Begg. Database Systems: A Practical Approach to Design, Implementation and Management. 6 th Ed.

Sistemas de Operación II

Sistemas de Operación II Sistemas de Operación II Sistemas de Archivos Distribuidos Prof. Carlos Figueira Basado en material de Yudith Cardinale (USB) Andrew Tanembaum y Marteen van Steen Contenido Introducción Requisitos Aspectos

Más detalles

TEMA 3 PROFESOR: M.C. ALEJANDRO GUTIÉRREZ DÍAZ 2 3. PROCESAMIENTO DE CONSULTAS DISTRIBUIDAS

TEMA 3 PROFESOR: M.C. ALEJANDRO GUTIÉRREZ DÍAZ 2 3. PROCESAMIENTO DE CONSULTAS DISTRIBUIDAS 1 1 BASES DE DATOS DISTRIBUIDAS TEMA 3 PROFESOR: M.C. ALEJANDRO GUTIÉRREZ DÍAZ 2 3. PROCESAMIENTO DE CONSULTAS DISTRIBUIDAS 3.1 Metodología del procesamiento de consultas distribuidas 3.2 Estrategias de

Más detalles

Introducción a los sistemas de bases de datos

Introducción a los sistemas de bases de datos Introducción a los sistemas de bases de datos Bases de datos II: Tema 1 Bases de Datos II: Esther de Ves / Vicente Cerverón - Tema 1 1 Estructura del tema Qué es un sistema SGBD? Por qué utilizar un SGBD?

Más detalles

ARQUITECTURA DE DISTRIBUCIÓN DE DATOS

ARQUITECTURA DE DISTRIBUCIÓN DE DATOS 4 ARQUITECTURA DE DISTRIBUCIÓN DE DATOS Contenido: Arquitectura de Distribución de Datos 4.1. Transparencia 4.1.1 Transparencia de Localización 4.1.2 Transparencia de Fragmentación 4.1.3 Transparencia

Más detalles

Base de datos relacional

Base de datos relacional Base de datos relacional Una base de datos relacional es una base de datos que cumple con el modelo relacional, el cual es el modelo más utilizado en la actualidad para modelar problemas reales y administrar

Más detalles

Fundamentos de Bases de Datos Distribuidas

Fundamentos de Bases de Datos Distribuidas Grupo de Avanzadas Univ. Carlos III de Madrid VII.1 Introducción Índice VII.2 Definición de Base de VII.3 Sistema Gestor de VII.4 Tipos de SGBDDs VII.5 s FBD3 VII.2 1 BD Centralizadas Evolución de las

Más detalles

INTRODUCCIÓN A LOS SISTEMAS GESTORES DE BASE DE DATOS

INTRODUCCIÓN A LOS SISTEMAS GESTORES DE BASE DE DATOS INTRODUCCIÓN A LOS SISTEMAS GESTORES DE BASE DE DATOS AUTORÍA JOSEFA PÉREZ DOMÍNGUEZ TEMÁTICA NUEVAS TECNOLOGIAS ETAPA CICLOS FORMATIVOS DE GRADO SUPERIOR DE INFORMÁTICA Resumen En esta publicación se

Más detalles

Bases de Datos 3º Informática de Sistemas

Bases de Datos 3º Informática de Sistemas TEMA 2.- EL SISTEMA GESTOR DE BASES DE DATOS. Concepto y Funciones del SGBD. Lenguajes de los SGBD. Niveles de Abstracción. Arquitectura ANSI/SPARC. Componentes del SGBD. 1. Concepto y Funciones del SGBD.

Más detalles

BASES DE DATOS TEMA 2. Arquitectura de un Sistema de Gestión de Bases de Datos

BASES DE DATOS TEMA 2. Arquitectura de un Sistema de Gestión de Bases de Datos BASES DE DATOS TEMA 2 Arquitectura de un Sistema de Gestión de Bases de Datos 2.1 y 2.2 Arquitectura en 3 niveles Independencia -> ANSI/SPARC (1975) Nivel externo (Todas las percepciones de la BD) Visión

Más detalles

IAP 1003 - ENTORNOS INFORMATIZADOS CON SISTEMAS DE BASES DE DATOS

IAP 1003 - ENTORNOS INFORMATIZADOS CON SISTEMAS DE BASES DE DATOS IAP 1003 - ENTORNOS INFORMATIZADOS CON SISTEMAS DE BASES DE DATOS Introducción 1. El propósito de esta Declaración es prestar apoyo al auditor a la implantación de la NIA 400, "Evaluación del Riesgo y

Más detalles

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual Introducción Algunas de las personas que trabajan con SGBD relacionales parecen preguntarse porqué deberían preocuparse del diseño de las bases de datos que utilizan. Después de todo, la mayoría de los

Más detalles

ADMINISTRACIÓN DE BASES DE DATOS DISTRIBUIDAS

ADMINISTRACIÓN DE BASES DE DATOS DISTRIBUIDAS 5 ADMINISTRACIÓN DE BASES DE DATOS DISTRIBUIDAS Contenido: 5.1 Conceptos Generales Administración de Bases de Datos Distribuidas 5.1.1 Administración la Estructura de la Base de Datos 5.1.2 Administración

Más detalles

Unidad I: Sistemas Gestores de Bases de Datos. 1.1 Objetivo de las Bases de Datos

Unidad I: Sistemas Gestores de Bases de Datos. 1.1 Objetivo de las Bases de Datos Unidad I: Sistemas Gestores de Bases de Datos. 1.1 Objetivo de las Bases de Datos Redundancia e inconsistencia de datos: Puesto que los archivos que mantienen almacenada la información son creados por

Más detalles

18 y 19 Sistemas de Archivos Distribuidos y Tarea 05

18 y 19 Sistemas de Archivos Distribuidos y Tarea 05 18 y 19 Sistemas de Archivos Distribuidos y Tarea 05 Prof. Edgardo Adrián Franco Martínez http://computacion.cs.cinvestav.mx/~efranco efranco.docencia@gmail.com Estructuras de datos (Prof. Edgardo A. Franco)

Más detalles

UNIDAD DIDACTICA 1: SISTEMAS GESTORES DE BASES DE DATOS

UNIDAD DIDACTICA 1: SISTEMAS GESTORES DE BASES DE DATOS UNIDAD DIDACTICA 1: SISTEMAS GESTORES DE BASES DE DATOS Índice de contenido: 1. Concepto de base de datos (BD)... 3 2. Los sistemas gestores de bases de datos (SGBD)... 3 3. Arquitectura de los sistemas

Más detalles

1.1 Definición de bases de Datos Distribuidas

1.1 Definición de bases de Datos Distribuidas 1 Colección de Tesis Digitales Universidad de las Américas Puebla Alvarez Carrión, Guillermo La evolución de los sistemas de información y el crecimiento no planeado de la información dentro de las organizaciones,

Más detalles

BASE DE DATOS RELACIONALES

BASE DE DATOS RELACIONALES BASE DE DATOS RELACIONALES Una base de datos relacional es una base de datos que cumple con el modelo relacional, el cual es el modelo más utilizado en la actualidad para implementar bases de datos ya

Más detalles

SISTEMA DE GESTIÓN DE BASE DE DATOS (Database Management System (DBMS))

SISTEMA DE GESTIÓN DE BASE DE DATOS (Database Management System (DBMS)) SISTEMA DE GESTIÓN DE BASE DE DATOS (Database Management System (DBMS)) Los sistemas de gestión de bases de datos son un tipo de software muy específico, dedicado a servir de interfaz entre la base de

Más detalles

UNIVERSIDAD DE ORIENTE FACULTAD DE ICIENCIAS ECONOMICAS LAS REDES I. Licda. Consuelo Eleticia Sandoval

UNIVERSIDAD DE ORIENTE FACULTAD DE ICIENCIAS ECONOMICAS LAS REDES I. Licda. Consuelo Eleticia Sandoval UNIVERSIDAD DE ORIENTE FACULTAD DE ICIENCIAS ECONOMICAS LAS REDES I Licda. Consuelo Eleticia Sandoval OBJETIVO: ANALIZAR LAS VENTAJAS Y DESVENTAJAS DE LAS REDES DE COMPUTADORAS. Que es una red de computadoras?

Más detalles

BASES DE DATOS TEMA 3 MODELO ENTIDAD - RELACIÓN

BASES DE DATOS TEMA 3 MODELO ENTIDAD - RELACIÓN BASES DE DATOS TEMA 3 MODELO ENTIDAD - RELACIÓN 3.3 Aplicaciones Definición de Aplicación (Application). Programa informático que permite a un usuario utilizar una computadora con un fin específico. Las

Más detalles

T ema 2. S is tem as ges tores de bas es de datos

T ema 2. S is tem as ges tores de bas es de datos S is temas de Informac ión II T ema 2. S is tem as ges tores de bas es de datos Bibliografía: Elmasri y Navathe: Fundamentos de Sistemas de Bases de Datos 3ª edición, 2002 (Capítulo 2). Garcia-Molina,

Más detalles

Es una colección de datos operativos almacenados y utilizados por los programadores de aplicaciones y por usuarios finales de muy diversa índole!

Es una colección de datos operativos almacenados y utilizados por los programadores de aplicaciones y por usuarios finales de muy diversa índole! Objetivos de los sistemas de bases de datos" Vistas de datos" Modelos de datos " Lenguajes de definición de datos (DDL) " Lenguajes de manipulación de datos (DML)" Gestión de transacciones" Gestión de

Más detalles

Bases de Datos Especializadas

Bases de Datos Especializadas Bases de Datos Especializadas BASES DE DATOS ESPECIALIZADAS 1 Sesión No.7 Nombre: Fragmentación, asignación y arquitectura de referencia Objetivo: Al término de la sesión, el alumno conocerá características

Más detalles

FICHEROS Y BASES DE DATOS (E44) 3º INGENIERÍA EN INFORMÁTICA. Tema 5. Sistemas de Bases de Datos. frente a Sistemas de Ficheros

FICHEROS Y BASES DE DATOS (E44) 3º INGENIERÍA EN INFORMÁTICA. Tema 5. Sistemas de Bases de Datos. frente a Sistemas de Ficheros FICHEROS Y BASES DE DATOS (E44) 3º INGENIERÍA EN INFORMÁTICA Tema 5. Sistemas de Bases de Datos frente a Sistemas de Ficheros 1.- Sistemas de Ficheros. 2.- Problemas de los Sistemas de Ficheros. 3.- Sistemas

Más detalles

Tema 1. Conceptos básicos

Tema 1. Conceptos básicos Conceptos básicos Sistema de Gestión de Bases de Datos, SGBD (DBMS, Database Management System): software diseñado específicamente para el mantenimiento y la explotación de grandes conjuntos de datos 1

Más detalles

TEORIA DE BASES DE DATOS. M. Sc. Cristina Bender Lic. Diana Gázquez

TEORIA DE BASES DE DATOS. M. Sc. Cristina Bender Lic. Diana Gázquez TEORIA DE BASES DE DATOS Docentes: Dra. Claudia Deco M. Sc. Cristina Bender Lic. Diana Gázquez OBJETIVO DE LA MATERIA Capacitar al alumno en los conocimientos fundamentales, teóricos y prácticos, necesarios

Más detalles

GLOSARIO DE TÉRMINOS

GLOSARIO DE TÉRMINOS MINISTERIO DE EDUCACIÓN, CULTURA Y DEPORTE SECRETARÍA DE ESTADO DE EDUCACIÓN Y FORMACIÓN PROFESIONAL DIRECCIÓN GENERAL DE FORMACIÓN PROFESIONAL INSTITUTO NACIONAL DE LAS CUALIFICACIONES GLOSARIO DE TÉRMINOS

Más detalles

Capitulo V Administración de memoria

Capitulo V Administración de memoria Capitulo V Administración de memoria Introducción. Una de las tareas más importantes y complejas de un sistema operativo es la gestión de memoria. La gestión de memoria implica tratar la memoria principal

Más detalles

CAPITULO 9. Diseño de una Base de Datos Relacional Distribuida

CAPITULO 9. Diseño de una Base de Datos Relacional Distribuida 9.1 Operaciones CAPITULO 9 Diseño de una Base de Datos Relacional Distribuida Las consultas distribuidas obtienen acceso a datos de varios orígenes de datos homogéneos o heterogéneos. Estos orígenes de

Más detalles

TEMA 2.- EL SISTEMA GESTOR DE BASES DE DATOS.

TEMA 2.- EL SISTEMA GESTOR DE BASES DE DATOS. TEMA 2.- EL SISTEMA GESTOR DE BASES DE DATOS. Concepto y Funciones del SGBD. Lenguajes de los SGBD. Niveles de Abstracción. Arquitectura ANSI/SPARC. Componentes del SGBD. 1. Concepto y Funciones del SGBD.

Más detalles

BASES DE DATOS TEMA 1

BASES DE DATOS TEMA 1 BASES DE DATOS TEMA 1 Contenido 1. Qué es una base de datos? 2. Un ejemplo 3. Personas que interactúan con la base de datos 4. Inconvenientes de los sistemas de ficheros 5. Modelos de datos 6. Lenguajes

Más detalles

SISTEMAS DE ARCHIVOS DISTRIBUIDOS

SISTEMAS DE ARCHIVOS DISTRIBUIDOS SISTEMAS DE ARCHIVOS DISTRIBUIDOS Tema # VII Sistemas de operación II Abril-Julio 2008 Yudith Cardinale Introducción Requisitos Aspectos de Diseño Servicios de archivos Servicios de directorios Módulo

Más detalles

Una base de datos es una colección de información ordenada e interrelacionada que es de importancia para una empresa.

Una base de datos es una colección de información ordenada e interrelacionada que es de importancia para una empresa. Una base de datos es una colección de información ordenada e interrelacionada que es de importancia para una empresa. La creación de una base de datos debe ser realizada cuidadosamente procurando cumplir

Más detalles

TALLER No. 1 Capitulo 1: Conceptos Básicos de Bases de datos

TALLER No. 1 Capitulo 1: Conceptos Básicos de Bases de datos TALLER No. 1 Capitulo 1: Conceptos Básicos de Bases de datos 1. La base de datos se puede considerar como una unificación de varios archivos de datos independientes, cuyo propósito básico es evitar la

Más detalles

Operaciones en el Modelo Relacional. Relacional. Relacional. Índice. Lenguajes de Consulta

Operaciones en el Modelo Relacional. Relacional. Relacional. Índice. Lenguajes de Consulta Operaciones en el Modelo Relacional Bases de Datos Ingeniería a Técnica T en Informática de Sistemas El interés de los usuarios de las bases de datos se suele centrar en realizar consultas (contestar a

Más detalles

Planificación, Administración n de Bases de Datos. Bases de Datos. Ciclo de Vida de los Sistemas de Información. Crisis del Software.

Planificación, Administración n de Bases de Datos. Bases de Datos. Ciclo de Vida de los Sistemas de Información. Crisis del Software. Planificación, n, Diseño o y Administración n de Crisis del Software Proyectos software de gran envergadura que se retrasaban, consumían todo el presupuesto disponible o generaban productos que eran poco

Más detalles

Ventajas, Características y Aplicaciones de los SGBD Distribuidos.

Ventajas, Características y Aplicaciones de los SGBD Distribuidos. Ventajas, Características y Aplicaciones de los SGBD Distribuidos. Definición Un SBD Distribuido se compone de un conjunto de sitios, conectados entre sí mediante algún tipo de red de comunicaciones, en

Más detalles

Carrera: Clave de la asignatura: SATCA: 2-2-4

Carrera: Clave de la asignatura: SATCA: 2-2-4 1. DATOS DE LA ASIGNATURA Nombre de la asignatura: Carrera: Clave de la asignatura: SATCA: Bases de Datos Distribuidas Ingeniería Sistemas Computacionales TIC-1302 2-2-4 2. PRESENTACION Caracterización

Más detalles

Sistema de Provisión Centralizada CPS

Sistema de Provisión Centralizada CPS Sistema de Provisión Centralizada CPS Descripción del Producto Rev. A1, 03 de Agosto de 2011 1. DESCRIPCIÓN GENERAL DEL CPS Central Provision System (CPS) es un sistema de provisión y administración de

Más detalles

Funciones del Administrador de Base de Datos. Ing. Anaylen López, MSc Base de Datos II

Funciones del Administrador de Base de Datos. Ing. Anaylen López, MSc Base de Datos II Funciones del Administrador de Base de Datos Ing. Anaylen López, MSc Base de Datos II VENTAJAS EN EL USO DE BASE DE DATOS Entre las principales ventajas o beneficios que ofrece el uso de la base de datos

Más detalles

Estructura de Bases de datos. Leonardo Víquez Acuña

Estructura de Bases de datos. Leonardo Víquez Acuña Estructura de Bases de datos Leonardo Víquez Acuña Lenguajes de Bases de Datos Un sistema de bases de datos proporciona Un lenguaje de definición de datos para especificar el esquema de la base de datos

Más detalles

SISTEMAS DE INFORMACIÓN II TEORÍA

SISTEMAS DE INFORMACIÓN II TEORÍA CONTENIDO: EL PROCESO DE DISEÑO DE SISTEMAS DISTRIBUIDOS MANEJANDO LOS DATOS EN LOS SISTEMAS DISTRIBUIDOS DISEÑANDO SISTEMAS PARA REDES DE ÁREA LOCAL DISEÑANDO SISTEMAS PARA ARQUITECTURAS CLIENTE/SERVIDOR

Más detalles

Estos documentos estarán dirigidos a todas las personas que pertenezcan a equipos de implementación de Oracle BI, incluyendo a:

Estos documentos estarán dirigidos a todas las personas que pertenezcan a equipos de implementación de Oracle BI, incluyendo a: Oracle Business Intelligence Enterprise Edition 11g. A lo largo de los siguientes documentos trataré de brindar a los interesados un nivel de habilidades básicas requeridas para implementar efectivamente

Más detalles

TEMA 2 ARQUITECTURA. 1. Arquitectura ANSI-SPARC... 3. 2. El DBA y el SGBD... 17. 3. Arquitectura back-end / front-end... 31

TEMA 2 ARQUITECTURA. 1. Arquitectura ANSI-SPARC... 3. 2. El DBA y el SGBD... 17. 3. Arquitectura back-end / front-end... 31 TEMA 2 ARQUITECTURA 1. Arquitectura ANSI-SPARC.................... 3 2. El DBA y el SGBD.......................... 17 3. Arquitectura back-end / front-end............ 31 1 Arquitectura de un Sistema de

Más detalles

ANEXO XII. Denominación: Administración y programación en sistemas de planificación de recursos empresariales y de gestión de relaciones con clientes.

ANEXO XII. Denominación: Administración y programación en sistemas de planificación de recursos empresariales y de gestión de relaciones con clientes. ANEXO XII I. IDENTIFICACIÓN DEL CERTIFICADO DE PROFESIONALIDAD Denominación: Administración y programación en sistemas de planificación de recursos empresariales y de gestión de relaciones con clientes.

Más detalles

CAPÍTULO I. Sistemas de Control Distribuido (SCD).

CAPÍTULO I. Sistemas de Control Distribuido (SCD). 1.1 Sistemas de Control. Un sistema es un ente cuya función es la de recibir acciones externas llamadas variables de entrada que a su vez provocan una o varias reacciones como respuesta llamadas variables

Más detalles

Autenticación Centralizada

Autenticación Centralizada Autenticación Centralizada Ing. Carlos Rojas Castro Herramientas de Gestión de Redes Introducción En el mundo actual, pero en especial las organizaciones actuales, los usuarios deben dar pruebas de quiénes

Más detalles

MODELOS DE RECUPERACION

MODELOS DE RECUPERACION RECUPERACIÓN Y ORGANIZACIÓN DE LA INFORMACIÓN INGENIERÍA INFORMÁTICA RECUPERACIÓN Y ACCESO A LA INFORMACIÓN MODELOS DE RECUPERACION AUTOR: Rubén García Broncano NIA 100065530 grupo 81 1 INDICE 1- INTRODUCCIÓN

Más detalles

Introducción. Componentes de un SI. Sistema de Información:

Introducción. Componentes de un SI. Sistema de Información: Introducción. Sistema de Información: Conjunto de elementos relacionados entre sí de acuerdo a ciertas reglas, que aporta a la organización la información necesaria para el cumplimiento de sus fines, para

Más detalles

Global File System (GFS)...

Global File System (GFS)... Global File System (GFS)... Diferente a los sistemas de ficheros en red que hemos visto, ya que permite que todos los nodos tengan acceso concurrente a los bloques de almacenamiento compartido (a través

Más detalles

Centro de Capacitación en Informática

Centro de Capacitación en Informática Fórmulas y Funciones Las fórmulas constituyen el núcleo de cualquier hoja de cálculo, y por tanto de Excel. Mediante fórmulas, se llevan a cabo todos los cálculos que se necesitan en una hoja de cálculo.

Más detalles

Redes I Clase # 3. Licda. Consuelo E. Sandoval

Redes I Clase # 3. Licda. Consuelo E. Sandoval Redes I Clase # 3 Licda. Consuelo E. Sandoval 1. PROCESAMIENTO CENTRALIZADO El proceso centralizado es utilizado en los Mainframes, Minicomputadoras y en las Micro multiusuario. Los enlaces a estas máquinas

Más detalles

En esta unidad añadiremos información sobre EXT3 y trabajaremos con aspectos visibles que nos proporcionan estos sistemas de archivos.

En esta unidad añadiremos información sobre EXT3 y trabajaremos con aspectos visibles que nos proporcionan estos sistemas de archivos. ESTRUCTURA DEL SISTEMA DE ARCHIVOS 1. Introducción. En la unidad anterior se esbozó mediante la explicación de los formatos del disco duro, distintos tipos de sistemas de archivos: FAT16, FAT32, NTFS y

Más detalles

CAPITULO 1. Introducción a los Conceptos Generales de Bases de Datos Distribuidas

CAPITULO 1. Introducción a los Conceptos Generales de Bases de Datos Distribuidas CAPITULO 1 Introducción a los Conceptos Generales de 1.1 Preliminares Las empresas necesitan almacenar información. La información puede ser de todo tipo. Cada elemento informativo es lo que se conoce

Más detalles

Introducción a las redes de computadores

Introducción a las redes de computadores Introducción a las redes de computadores Contenido Descripción general 1 Beneficios de las redes 2 Papel de los equipos en una red 3 Tipos de redes 5 Sistemas operativos de red 7 Introducción a las redes

Más detalles

Tema 4. Gestión de entrada/salida

Tema 4. Gestión de entrada/salida Tema 4. Gestión de entrada/salida 1. Principios de la gestión de E/S. 1.Problemática de los dispositivos de E/S. 2.Objetivos generales del software de E/S. 3.Principios hardware de E/S. 1. E/S controlada

Más detalles

Sistemas de Operación II

Sistemas de Operación II Sistemas de Operación II Procesos en Sistemas Distribuidos Prof. Carlos Figueira Basado en material de Yudith Cardinale, Mariela Curiel (USB) Andrew Tanembaum y Marteen van Steen Contenido Clientes Servidores

Más detalles

Introducción a las bases de datos

Introducción a las bases de datos Introducción a las bases de datos Juan Ignacio Rodríguez de León Abstract Aplicaciones de los sistemas de bases de datos. Sistemas de bases de datos frente a sistemas de archivos. Visión de los datos.

Más detalles

Alcatel-Lucent VitalQIP Appliance Manager

Alcatel-Lucent VitalQIP Appliance Manager Alcatel-Lucent Appliance Manager Solución integral de gestión de direcciones IP y basada en dispositivos con amplia funcionalidad Racionalice la gestión y reduzca los costes administrativos con Alcatel-Lucent

Más detalles

Sistemas de ficheros en Servidores de Información multimedia

Sistemas de ficheros en Servidores de Información multimedia Sistemas de ficheros en Servidores de Información multimedia 2º Ingeniero Técnico de Telecomunicación Imagen y Sonido Departamento de Ingeniería Telemática Universidad Carlos III de Madrid 2 Indice Concepto

Más detalles

Capítulo 5. Cliente-Servidor.

Capítulo 5. Cliente-Servidor. Capítulo 5. Cliente-Servidor. 5.1 Introducción En este capítulo hablaremos acerca de la arquitectura Cliente-Servidor, ya que para nuestra aplicación utilizamos ésta arquitectura al convertir en un servidor

Más detalles

Base de datos en la Enseñanza. Open Office

Base de datos en la Enseñanza. Open Office 1 Ministerio de Educación Base de datos en la Enseñanza. Open Office Módulo 1: Introducción Instituto de Tecnologías Educativas 2011 Introducción Pero qué es una base de datos? Simplificando mucho, podemos

Más detalles

Colección de Tesis Digitales Universidad de las Américas Puebla. Morales Salcedo, Raúl

Colección de Tesis Digitales Universidad de las Américas Puebla. Morales Salcedo, Raúl 1 Colección de Tesis Digitales Universidad de las Américas Puebla Morales Salcedo, Raúl En este último capitulo se hace un recuento de los logros alcanzados durante la elaboración de este proyecto de tesis,

Más detalles

Curso de seguridad informática en el entorno docente. Sesión 4. PONENTE: Jaime López Soto. e-mail: seguridad@cursos.jimmycat.es

Curso de seguridad informática en el entorno docente. Sesión 4. PONENTE: Jaime López Soto. e-mail: seguridad@cursos.jimmycat.es Curso de seguridad informática en el entorno docente Sesión 4 PONENTE: Jaime López Soto e-mail: seguridad@cursos.jimmycat.es Contenidos Introducción a la seguridad informática Actualizaciones de seguridad

Más detalles

ELEMENTO I INTRODUCCION A LOS SISTEMAS DE BASES DE DATOS

ELEMENTO I INTRODUCCION A LOS SISTEMAS DE BASES DE DATOS Base de Datos ELEMENTO I INTRODUCCION A LOS SISTEMAS DE BASES DE DATOS Una base de datos es un conjunto de elementos de datos que se describe a sí mismo, con relaciones entre esos elementos, que presenta

Más detalles

EL MODELO DE ESTRATIFICACIÓN POR CAPAS DE TCP/IP DE INTERNET

EL MODELO DE ESTRATIFICACIÓN POR CAPAS DE TCP/IP DE INTERNET 1 EL MODELO DE ESTRATIFICACIÓN POR CAPAS DE TCP/IP DE INTERNET Cada capa de la pila añade a los datos a enviar a la capa inferior, información de control para que el envío sea correcto. Esta información

Más detalles

Arquitectura de sistema de alta disponibilidad

Arquitectura de sistema de alta disponibilidad Mysql Introducción MySQL Cluster esta diseñado para tener una arquitectura distribuida de nodos sin punto único de fallo. MySQL Cluster consiste en 3 tipos de nodos: 1. Nodos de almacenamiento, son los

Más detalles

Componentes de Integración entre Plataformas Información Detallada

Componentes de Integración entre Plataformas Información Detallada Componentes de Integración entre Plataformas Información Detallada Active Directory Integration Integración con el Directorio Activo Active Directory es el servicio de directorio para Windows 2000 Server.

Más detalles

1. Introducción 2. Historia 3. Características clave 4. Cuestiones de diseño

1. Introducción 2. Historia 3. Características clave 4. Cuestiones de diseño Tema 1. Introducción a los sistemas distribuidos 1. Introducción 2. Historia 3. Características clave 4. Cuestiones de diseño Tema 1 Introducción a los Sistemas Distribuidos 1 Introducción y objetivos

Más detalles

Resumen. El rol del lenguaje SQL en los SGBDR y en la Relacional. cjimenez@inf.udec.cl, tamrstro@inf.udec.cl

Resumen. El rol del lenguaje SQL en los SGBDR y en la Relacional. cjimenez@inf.udec.cl, tamrstro@inf.udec.cl El rol del lenguaje SQL en los SGBDR y en la Relacional. cjimenez@inf.udec.cl, tamrstro@inf.udec.cl Resumen demandas de almacenamiento y procesamiento de datos. Es el conjunto de estas dos capacidades

Más detalles

Entendiendo y Optimizando MySQL

Entendiendo y Optimizando MySQL Grupo de Usuarios de Linux Universidad Carlos III de Madrid. 10 de Noviembre de 2010 Indice Arquitectura 1 Arquitectura 2 3 4 5 Arquitectura Sistema de Gestión de Bases de Datos. GPL. Escrito en C y C++.

Más detalles

Hadoop. Cómo vender un cluster Hadoop?

Hadoop. Cómo vender un cluster Hadoop? Hadoop Cómo vender un cluster Hadoop? ÍNDICE Problema Big Data Qué es Hadoop? Descripción HDSF Map Reduce Componentes de Hadoop Hardware Software 3 EL PROBLEMA BIG DATA ANTES Los datos los generaban las

Más detalles

Utilidades de la base de datos

Utilidades de la base de datos Utilidades de la base de datos Desde esta opcion del menú de Access, podemos realizar las siguientes operaciones: Convertir Base de datos Compactar y reparar base de datos Administrador de tablas vinculadas

Más detalles

INFORME TECNICO PREVIO DE EVALUACIÓN DE SOFTWARE N 002-2011/UIE-PATPAL - FBB

INFORME TECNICO PREVIO DE EVALUACIÓN DE SOFTWARE N 002-2011/UIE-PATPAL - FBB INFORME TECNICO PREVIO DE EVALUACIÓN DE SOFTWARE N 002-2011/UIE-PATPAL - FBB Contenido 1. NOMBRE DEL AREA... 2 2. RESPONSABLES DE LA EVALUACIÓN... 2 3. CARGOS... 2 4. FECHA... 2 5. JUSTIFICACIÓN... 2 6.

Más detalles

1.- DATOS DE LA ASIGNATURA

1.- DATOS DE LA ASIGNATURA 1.- DATOS DE LA ASIGNATURA Nombre de la asignatura : Bases de Datos Distribuidas Ingeniería en Tecnologías de la Carrera : Información y Comunicaciones Clave de la asignatura : TIF-1007 SATCA 1 3-2-5 2.-

Más detalles

Introducción a los Sistemas de Gestión de Bases de Datos

Introducción a los Sistemas de Gestión de Bases de Datos a los Sistemas de Gestión de Bases de Datos Servicios y Aplicaciones Telemáticas gsyc-profes@gsyc.escet.urjc.es Noviembre de 2008 c 2008 Grupo de Sistemas y Comunicaciones. Algunos derechos reservados.

Más detalles

Microsoft Access 2007 (Completo)

Microsoft Access 2007 (Completo) Microsoft Access 2007 (Completo) Descripción del funcionamiento del programa de gestión de bases de datos Microsoft Access 2007, estudiando los conceptos fundamentales de las bases de datos: desde su análisis

Más detalles

GESTIÓN DE LA DOCUMENTACIÓN

GESTIÓN DE LA DOCUMENTACIÓN Página: 1 de 8 Elaborado por: Revidado por: Aprobado por: Comité de calidad Responsable de calidad Director Misión: Controlar los documentos y registros del Sistema de Gestión de Calidad para garantizar

Más detalles

ANEXOS. Algoritmo que genera un valor hash de algún dato, como una clave de. mensaje o de sesión. Con un buen algoritmo de hash, los cambios que se

ANEXOS. Algoritmo que genera un valor hash de algún dato, como una clave de. mensaje o de sesión. Con un buen algoritmo de hash, los cambios que se ANEXOS GLOSARIO A Algoritmo de hash Algoritmo que genera un valor hash de algún dato, como una clave de mensaje o de sesión. Con un buen algoritmo de hash, los cambios que se produzcan en los datos de

Más detalles

1.1.- Objetivos de los sistemas de bases de datos 1.2.- Administración de los datos y administración de bases de datos 1.3.- Niveles de Arquitectura

1.1.- Objetivos de los sistemas de bases de datos 1.2.- Administración de los datos y administración de bases de datos 1.3.- Niveles de Arquitectura 1. Conceptos Generales 2. Modelo Entidad / Relación 3. Modelo Relacional 4. Integridad de datos relacional 5. Diseño de bases de datos relacionales 6. Lenguaje de consulta estructurado (SQL) 1.1.- Objetivos

Más detalles

Consultas con combinaciones

Consultas con combinaciones UNIDAD 1.- PARTE 2 MANIPULACIÓN AVANZADA DE DATOS CON SQL. BASES DE DATOS PARA APLICACIONES Xochitl Clemente Parra Armando Méndez Morales Consultas con combinaciones Usando combinaciones (joins), se pueden

Más detalles

7. Distributed Data warehouse

7. Distributed Data warehouse 7. Distributed Data warehouse 7.1 Razones de un DW centralizado Muchas organizaciones construyen y mantienen un solo datawarehouse centralizado, lo cual tiene mucho sentido cuando: Los datos en el warehouse

Más detalles

Bases de Datos 2. Teórico

Bases de Datos 2. Teórico Bases de Datos 2 Teórico Catálogo del Sistema Contiene una descripción completa de la estructura de la base de datos y sus restricciones. La información almacenada en el catalogo se denomina meta-datos.

Más detalles

Patrones de Diseño Orientados a Objetos 2 Parte

Patrones de Diseño Orientados a Objetos 2 Parte Patrones de Diseño Orientados a Objetos 2 Parte Patrón Observador Observer (Patrón de Comportamiento) Patrón Observador Observer Observador (en inglés: Observer) es un patrón de diseño que define una dependencia

Más detalles

Sistemas de archivos distribuidos. Alvaro Ospina Sanjuan alvaro.ospina@correo.upb.edu.co

Sistemas de archivos distribuidos. Alvaro Ospina Sanjuan alvaro.ospina@correo.upb.edu.co Sistemas de archivos distribuidos Alvaro Ospina Sanjuan alvaro.ospina@correo.upb.edu.co >Abstracción del sistema operativo para representar y organizar los recursos de almacenamiento >Se debe hacer la

Más detalles

6 Sistemas de Archivos

6 Sistemas de Archivos 6 Sistemas de Archivos Conceptos generales Archivos Directorios Semánticas de consistencia 1 Persistencia de datos Los sistemas de archivos implementan el almacenamiento persistente - los datos creados

Más detalles

Xerox 700 Digital Color Press con Integrated Fiery Color Server. Impresión de datos variables

Xerox 700 Digital Color Press con Integrated Fiery Color Server. Impresión de datos variables Xerox 700 Digital Color Press con Integrated Fiery Color Server Impresión de datos variables 2008 Electronics for Imaging, Inc. La información de esta publicación está cubierta por los Avisos legales para

Más detalles

Sistemas Distribuidos

Sistemas Distribuidos Objetivos del curso Sistemas Distribuidos Presentar una visión global del estado del arte y los aspectos más novedosos del diseño y construcción de sistemas distribuidos. Desarrollar ejemplos prácticos

Más detalles

Familia de Windows Server 2003

Familia de Windows Server 2003 Familia de Windows Server 2003 Windows Server 2003 está disponible en cuatro ediciones. Cada edición se ha desarrollado para una función de servidor específica, como se describe en la tabla siguiente:

Más detalles

QUÉ ES UNA BASE DE DATOS Y CUÁLES SON LOS PRINCIPALES TIPOS? EJEMPLOS: MYSQL, SQLSERVER, ORACLE, POSTGRESQL, INFORMIX (DV00204A)

QUÉ ES UNA BASE DE DATOS Y CUÁLES SON LOS PRINCIPALES TIPOS? EJEMPLOS: MYSQL, SQLSERVER, ORACLE, POSTGRESQL, INFORMIX (DV00204A) APRENDERAPROGRAMAR.COM QUÉ ES UNA BASE DE DATOS Y CUÁLES SON LOS PRINCIPALES TIPOS? EJEMPLOS: MYSQL, SQLSERVER, ORACLE, POSTGRESQL, INFORMIX (DV00204A) Sección: Divulgación Categoría: Lenguajes y entornos

Más detalles

Desarrollo Business Intelligence sobre tecnología Microsoft

Desarrollo Business Intelligence sobre tecnología Microsoft MICSQLBIRA Desarrollo Business Intelligence sobre tecnología Microsoft Fabricante: Microsoft Grupo: Bases de Datos Subgrupo: Microsoft SQL Server 2008 R2 Formación: Presencial Horas: 20 Introducción Este

Más detalles

GUÍA TÉCNICA PARA LA DEFINICIÓN DE COMPROMISOS DE CALIDAD Y SUS INDICADORES

GUÍA TÉCNICA PARA LA DEFINICIÓN DE COMPROMISOS DE CALIDAD Y SUS INDICADORES GUÍA TÉCNICA PARA LA DEFINICIÓN DE COMPROMISOS DE CALIDAD Y SUS INDICADORES Tema: Cartas de Servicios Primera versión: 2008 Datos de contacto: Evaluación y Calidad. Gobierno de Navarra. evaluacionycalidad@navarra.es

Más detalles

Concepto y Objetivos de las Bases de Datos

Concepto y Objetivos de las Bases de Datos de las Bases de TEMA I Grupo de Bases de Avanzadas Univ. Carlos III de Madrid 0. Índice I.1. De los sistemas de ficheros a las Bases de I.2. Ventajas e Inconvenientes de las Bases de I.3. Concepto de Base

Más detalles

4. Programación Paralela

4. Programación Paralela 4. Programación Paralela La necesidad que surge para resolver problemas que requieren tiempo elevado de cómputo origina lo que hoy se conoce como computación paralela. Mediante el uso concurrente de varios

Más detalles

GlusterFS. Una visión rápida a uno de los más innovadores sistema de archivos distribuido

GlusterFS. Una visión rápida a uno de los más innovadores sistema de archivos distribuido GlusterFS Una visión rápida a uno de los más innovadores sistema de archivos distribuido Qué es GlusterFS? Es un sistema de archivos de alta disponibilidad y escalabilidad que puede brindar almacenamiento

Más detalles

4. METODOLOGÍA. 4.1 Materiales. 4.1.1 Equipo

4. METODOLOGÍA. 4.1 Materiales. 4.1.1 Equipo 4. METODOLOGÍA 4.1 Materiales 4.1.1 Equipo Equipo de cómputo. Para el empleo del la metodología HAZOP se requiere de un equipo de cómputo con interfase Windows 98 o más reciente con procesador Pentium

Más detalles

LABORATORIO 10. ADMINISTRACIÓN DE COPIAS DE SEGURIDAD EN SQL SERVER

LABORATORIO 10. ADMINISTRACIÓN DE COPIAS DE SEGURIDAD EN SQL SERVER LABORATORIO 10. ADMINISTRACIÓN DE COPIAS DE SEGURIDAD EN SQL SERVER GUÍA DE LABORATORIO Nº 1O Actividad de Proyecto No. 12: ESTABLECER PLANES DE RESGUARDO, RESTAURACION Y CONTINGENCIA. Estructura de contenidos.

Más detalles

En cualquier caso, tampoco es demasiado importante el significado de la "B", si es que lo tiene, lo interesante realmente es el algoritmo.

En cualquier caso, tampoco es demasiado importante el significado de la B, si es que lo tiene, lo interesante realmente es el algoritmo. Arboles-B Características Los árboles-b son árboles de búsqueda. La "B" probablemente se debe a que el algoritmo fue desarrollado por "Rudolf Bayer" y "Eduard M. McCreight", que trabajan para la empresa

Más detalles

Administración de Bases de Datos

Administración de Bases de Datos Administración de Bases de Datos Pedro Pablo Alarcón Cavero Juan Garbajosa Sopeña Departamento de O.E.I. Escuela Universitaria de Informática Universidad Politécnica de Madrid Contenido 1. Bases de Datos.

Más detalles

- Bases de Datos - - Diseño Físico - Luis D. García

- Bases de Datos - - Diseño Físico - Luis D. García - Diseño Físico - Luis D. García Abril de 2006 Introducción El diseño de una base de datos está compuesto por tres etapas, el Diseño Conceptual, en el cual se descubren la semántica de los datos, definiendo

Más detalles