Petabytes de información: Repensando el modelamiento de base de datos. Ernesto Quiñones Azcárate ernestoq@apesol.org Presidencia Apesol 2006 2008



Documentos relacionados
MANUAL COPIAS DE SEGURIDAD

Alessandro Chacón Ernesto Level Ricardo Santana

Gestion de archivos. Problemas al almacenar datos sólo en la memoria:

Administración de la producción. Sesión 10: Gestor de Base de Datos (Access)

Introducción a las redes de computadores

No se requiere que los discos sean del mismo tamaño ya que el objetivo es solamente adjuntar discos.

DISCOS RAID. Se considera que todos los discos físicos tienen la misma capacidad, y de no ser así, en el que sea mayor se desperdicia la diferencia.

Base de datos en Excel

Asignación de Procesadores

III. ADMINISTRACIÓN DE ORACLE.

Base de datos relacional

Hadoop. Cómo vender un cluster Hadoop?

Sistemas Multimedia Distribuidos. Juan A. Sigüenza Departamento de Ingeniería Informática UAM

Capitulo 3. Desarrollo del Software

Hostaliawhitepapers. Las ventajas de los Servidores dedicados. Cardenal Gardoki, BILBAO (Vizcaya) Teléfono:

Habilitando la empresa ágil a través de datos unificados La travesía hacia la plataforma de datos analítico-transaccionales

REQUERIMIENTOS HARDWARE Y SOFTWARE QWEBDOCUMENTS VERSION 4

PSI Gestión es un sistema multiusuario que le permite 2 tipos de configuraciones:

Instantáneas o Shadow Copy

BASE DE DATOS RELACIONALES

GENERALIDADES DE BASES DE DATOS

Tema 11 Bases de datos. Fundamentos de Informática

Big Data y BAM con WSO2

WINDOWS 2003 SERVER DIRECTORIO ACTIVO Y DNS

QUÉ ES UNA BASE DE DATOS Y CUÁLES SON LOS PRINCIPALES TIPOS? EJEMPLOS: MYSQL, SQLSERVER, ORACLE, POSTGRESQL, INFORMIX (DV00204A)

Entendiendo y Optimizando MySQL

Conceptos básicos Oracle 10g Introducción - Administración de Oracle - Orasite.com

Herramientas de Apoyo al desarrollo de Software


Document Management: La mejor forma de agilizar procesos

Oficina Online. Manual del administrador

Sistemas de archivos distribuidos. Alvaro Ospina Sanjuan

ACTIVIDADES TEMA 1. EL LENGUAJE DE LOS ORDENADORES. 4º E.S.O- SOLUCIONES.

Capítulo VI. Estudio de Caso de Aplicación del Integrador de Información Desarrollado

Guía de Laboratorio Base de Datos I.

Dropbox - Inicio rápido

ADMINISTRACIÓN DE BASES DE DATOS DISTRIBUIDAS

2. Accedemos al dominio, introducimos el nombre de usuario y la contraseña para acceder. Y damos click en Aceptar.

Peer-to-Peer (Punto a Punto) Cliente-Servidor

Windows Server 2012: Infraestructura de Escritorio Virtual

Componente del sistema operativo que maneja el acceso a los archivos.

Presupuesto para el desarrollo de una Página Web de Venta de Perros con GesCan

Memoria La memoria es la parte del ordenador en la que se guardan o almacenan los programas (las instrucciones y los datos).

Sybase IQ Servidor analítico con arquitectura basada en columnas

COPIAS DE SEGURIDAD. Ver. 1.0

CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK.

Plataforma e-ducativa Aragonesa. Manual de Administración. Bitácora

Ventajas del almacenamiento de correo electrónico

Introducción. Componentes de un SI. Sistema de Información:

Manual hosting acens

Alumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre.

Tutorial: Primeros Pasos con Subversion

FACULTAD DE INFORMATICA MATERIA: GESTION DE CONTENIDO ELECTRONICO PROFESOR: JONATHAN VEGA ALUMNOS: LUISA ROSERO JAIME CAMACHO DATOS INFORMATIVOS:

cpbackup le protege frente a cualquier eventualidad: virus, averías de hardware, incendios, desastres naturales...

Qué necesito saber para tener mi sitio web en Internet?

BASES DE DATOS TEMA 3 MODELO ENTIDAD - RELACIÓN

ELEMENTO I INTRODUCCION A LOS SISTEMAS DE BASES DE DATOS

BIG DATA. Jorge Mercado. Software Quality Engineer

Toda base de datos relacional se basa en dos objetos

LABORATORIO 10. ADMINISTRACIÓN DE COPIAS DE SEGURIDAD EN SQL SERVER

Qué ventajas presenta Google Drive para catedráticos y alumnos?

MANUAL PARA CREAR USUARIOS. Guía para crear, desactivar e inmovilizar Usuarios de Salesforce

Servicio de estadísticas de Alojamiento Fecha de revisión: 19/09/2005

GUIA COMPLEMENTARIA PARA EL USUARIO DE AUTOAUDIT. Versión N 02 Fecha: 2011-Febrero Apartado: Archivos Anexos ARCHIVOS ANEXOS

Autor: Microsoft Licencia: Cita Fuente: Ayuda de Windows

Guía de instalación de la carpeta Datos de IslaWin

Introducción a los Sistemas de Gestión de Bases de Datos

Modificación y parametrización del modulo de Solicitudes (Request) en el ERP/CRM Compiere.

MANUAL DE USUARIO CMS- PLONE

HP Backup and Recovery Manager

UNIVERSIDAD AUTÓNOMA DE SINALOA FACULTAD DE INGENIERÍA MOCHIS LIC. EN INGENIERÍA DE SOFTWARE MATERIA: REDES Y COMUNICACIÓN DE DATOS GRUPO: 401

Guía rápida del usuario. Disco duro virtual.

Visor de presupuestos en Android

INTRODUCCIÓN A LOS SISTEMAS GESTORES DE BASE DE DATOS

Para detalles y funcionalidades ver Manual para el Administrador

Seminario Electrónico de Soluciones Tecnológicas sobre Content Networking

Estrategia de Backup para los Sistemas SAP R/3 GOBERNACIÓN DE CUNDINAMARCA

Ingº CIP Fabian Guerrero Medina Master Web Developer-MWD

Técnico y sus funciones. 5. Función de los líderes. 6 Función del analista de datos. 6. Metas del Help Desk. 7 Definir el alcance del Help Desk.

Capitulo 5. Implementación del sistema MDM

WINDOWS : TERMINAL SERVER

PLATAFORMA SAP HANA Diez preguntas principales al elegir una base de datos in-memory. Empiece aquí

INFORME EJECUTIVO DE IDC

Organización de Computadoras. Turno Recursantes Clase 8

En la nueva versión encontrarás

Comparación entre Active Reports, Crystal Reports, y MS Reporting Services

MANUAL DE USUARIO APLICACIÓN SYSACTIVOS

Guía para Desarrollo de Sitios Web - Gobierno de Chile

Sistemas de Operación II

Operación Microsoft Windows

Solución: Descargar e instalarse el componente desde la página Web de Microsoft:

GlusterFS. Una visión rápida a uno de los más innovadores sistema de archivos distribuido

Una base de datos es una colección de información ordenada e interrelacionada que es de importancia para una empresa.

GUÍA RÁPIDA DE TRABAJOS CON ARCHIVOS.

CL_50400 Designing, Optimizing, and Maintaining a Database Administrative Solution for Microsoft SQL Server 2008

BASES DE DATOS, MODELOS DE DATOS Y DBMS

pymegnu v2.0 PRESENTACIÓN DE PRODUCTOS

Google Drive y Almacenamiento en Nubes Virtuales

LABORATORIO 10. COPIAS DE SEGURIDAD, RESTAURACIÓN Y RECUPERACIÓN DE UNA BD

Transcripción:

Petabytes de información: Repensando el modelamiento de base de datos Ernesto Quiñones Azcárate ernestoq@apesol.org Presidencia Apesol 2006 2008

Modelos de bases de datos para todos los gustos (según la organización de los datos) : Jerárquicas Relacionales Multidimensional Orientadas al objeto

A donde camina la información: Existen al menos 50 dbms famosos entre libres y privativos y un número al menos 4 ó 5 veces superior entre los de uso académico/experimental etc. En 2006 existían 161 Exabytes de información (1 Exabyte = 1000 Petas), Actualmente (2008) debe existir 330 340 Exabytes. En 2011 debemos tener cerca de 1,800 Exabytes de información. En 2007 la cantidad de información generada supero a la capacidad instalada mundial de contenerla, actualmente se calcula un déficit de 60 a 70 Exabytes de infraestructura. Existen 1,000 millones de dispositivos de capturas de imágenes El 95% de la data del mundo no tiene estructura. 65k filmaciones nuevas en Youtube por día. 60 millones de emails diarios. Google puede indexar 20 Petabytes en un solo día.

La data esta cambiando La información sigue creciendo nadie va a parar eso, es mas va a ser peor Actualmente el % de usuarios que provee información a la red es mucho menor de los que lo usan. Cada vez es mas difícil catalogar la información Cada vez será mas difícil encontrar la información que uno quiere... y como administramos tanta data?

El 22 de Mayo Yahoo dio esta noticia : Yahoo anuncia tener la base de datos mas grande del mundo (2 Peta bytes) en funcionamiento. La base de datos de 1 año de antigüedad esta procesando 24,000 millones de eventos diarios. El administrador de la data es un PostgreSQL ( http://www.postgresql.org) modificado especialmente para ellos. La tecnología usada es la base de datos basada en columnas donde no existen registros, esto hace que la grabación de datos sea lenta pero la lectura es muy rápida. Noticia original: http://tinyurl.com/68avgt

Que es una base de datos basa en columnas Convencionalmente guardamos la data así : Ahora la data la guardamos así : Otra representación : Dudas: Porque hacer esto? Donde queda la normalización? Existen engines para este tipo de base de datos?

La ventaja de una base de datos basada en columnas. El principal motivo es el tiempo de acceso al disco, la velocidad del disco suele ser el cuello de botella en los sistemas de almacenamiento ya que es notablemente mas lento que el poder de procesamiento.

La ventaja de una base de datos basada en columnas. Tradicionalmente las bases de datos hacen esto para guardar la data Páginas 8k 8k 8k 8k No usada 8k 8k No usada 8k No usada No usada Esto es rápido para operaciones de escritura pero no de lectura. Cada página tiene una estructura de este tipo (generalmente)

La ventaja de una base de datos basada en columnas. Este es un ejemplo aproximado de data masiva Esta data se organizará bajo este esquema lógico

La ventaja de una base de datos basada en columnas. Esta es la representación de la organización física de la data El engine de la db tomará la data y la guardará en archivos llamados CellStores subdivididos en bloques de data comprimida de 64k (podría variar) en su propio sistema de archivos por sobre el que tiene el sistema operativo. Por ejemplo: Juan, Pedro, Lucho, Lima, Lima, Callao, 25,25,25 Sería convertida a : Juan, Pedro, Lucho, Lima x 2, Callao, 25 x 3 Mientras en los dbms convencionales la data se guarda en varias secciones/espacios del disco, en las c dbms se guarda junta y continua en el mismo CellStore.

La ventaja de una base de datos basada en columnas. Los Querys: Este es un ejemplo de como funciona Bigtable de Google

El fin de los RDBMS? El problema del modelo relacional es que suele ser un consumidor alto de recursos al momento de ejecutar transacciones, especialmente cuando uno tiene data masiva. Imagines que deseamos borrar registros en Cuotas y el engine debe verificar que no se hagan modificaciones que rompan la relación con Pagos. 1,000 registros 100,000 10,000,000 1,000,000,000 100,000,000,000 1,000,000,000,000

El fin de los RDBMS? El problema del modelo relacional es que suele ser un consumidor alto de recursos al momento de ejecutar transacciones, especialmente cuando uno tiene data masiva. Cada delete debe ejecutar un select en la tabla Pagos, cuanto demora? 1,000 > 1s 100,000 > 1m40s 10,000,000 > 2.77h 1,000,000,000 > 11.57d 100,000,000,000 > 3.17a 1,000,000,000,000 > 317a (y algunos días mas :D Recordemos Yahoo hace 24,000,000,000 de transacciones por día, en 41.6 días genera 1 billón de registros (como mínimo).

El fin de los RDBMS? Los sistemas Relacionales tienes mas de 25 años de existencia. Básicamente fueron pensada con una orientación de guardar data de negocios. Cuando empezó a explotarse la data masiva (hace poco mas de una década) el sistema relacional demostró tener problemas, se tuvo que mejorar/modificar para atender esta nueva necesidad. La data a pasado a ser no precisa, imposible de normalizar. Los joins son lentos cuanto tienes cantidades de data monstruosa. Los procesos de ABC se vuelven muy costosos cuando hay muchas relaciones entre las tablas. Sin embargo el fin de los RDBMS fue predicho antes; OODBMS, XML, etc., esta todavía lejos de ser considerada tecnología legacy.

ENGINES BigTable (privativo Google) Desarrollo y uso exclusivo de Google. Tiene 2 componentes esenciales: (1) Google File System (GFS) el cual asegura disponibilidad de los datos por medio de copias redundantes, mientras mas sea consultado un dato mas veces de duplicado asignándosele mas recursos. (2) Chubby Lock Service, el cual es un componente que permite la sincronización de accesos a recursos compartidos. Las tablas se subdividen en tablets con filas que llegan a medir hasta 200mb. A estas filas se les aplica ademas un algoritmo de compresión secreto para optimizar aún mas el espacio. A enero 2008 existían 600 clusters, el mas grande con 2000 servers, el store mas grande es de 700Tbytes y atiende 100k operaciones por segundo. Se utiliza un lenguaje llamado Sawzall.

ENGINES BigTable (privativo Google)

ENGINES Hypertable http://hypertable.org/ Proyecto libre que aplica buenas practicas en la administración de db de gran cantidad de datos y alto volumen de trabajo. La data es guardada como cadenas de bytes, las tablas que lo almacenan son cortadas en secciones continuas y divididas en diversos servidores, estos son conocidos como Range Servers, adicionalmente existen Master Servers que se encargan de tareas administrativas y supervisar los Range Servers (ambos servicios pueden correr en una misma pc). Se utiliza un lenguaje llamado Hypertable Query Language (HQL) Puede usar diferentes sistemas de archivos, pero se recomienda Hadoop Distributed File System (HDFS) http://hadoop.apache.org/

ENGINES Hypertable http://hypertable.org/ Coordinador de concurrencia (lock manager) Administra data en memoria Cache de transacciones Aquí se encuentran las celdas de datos

ENGINES Hypertable http://hypertable.org/ Servicio que da la cara al cliente, coordina las ABC en los Datanodes Guarda la data La misma data se guarda en diferentes Datanodes

ENGINES LucidDB http://luciddb.sourceforge.net/ Esta basada en EigenBase http://www.eigenbase.org/ un software base que permite crear sistemas administradores de datos. LucidDB esta pensada con el propósito de hacer data warehousing y business intelligence. Esta pensada para ser básicamente solo read only, las actualizaciones crean nuevas páginas que reemplazan a las existentes y se guardan versiones de estas. Las páginas miden 32K, se maneja un buffer de 5,000 páginas con la información mas leida. Se usa una técnica de indexación conocida como bitmap, indices y data son comprimidos y se utiliza la técnica del semijoin para determinar la data que es únicamente necesaria acceder por los querys. LucidDB puede acceder directamente a repositorios externos via SQLMED

ENGINES LucidDB http://luciddb.sourceforge.net/ Se uso Java pensando en la expansión del producto. Acceso a repositorio s de datos externos Engine principal de LucidDB Data

Para leer mas: Toda la información con la cual se a documentado esta presentación es recopilada en este enlace : http://tinyurl.com/6xfwvg Y mas información : http://www.eqsoft.net/wiki/doku.php?id=start

Muchas Gracias!!! Visite APESOL http://www.apesol.org Inscríbete en las listas de interés en http://apesol.org/listas.php Conversemos en vivo en server: irc.freenode.net sala:#apesol