BIG DATA. Jorge Mercado. Software Quality Engineer

Documentos relacionados

Hadoop. Cómo vender un cluster Hadoop?

CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK.

Big data A través de una implementación

Conectores Pentaho Big Data Community VS Enterprise

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López

Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica

Microsoft SQL Server Conceptos.

4. Base de datos XML nativa: Marklogic

Alessandro Chacón Ernesto Level Ricardo Santana

Big Data. Rodolfo Campos

Global File System (GFS)...

BUSINESS INTELLIGENCE Y REDSHIFT

Big Data: Qué es y por qué es relevante?

Big Data y BAM con WSO2

Roadmap para la adopción de nuevas arquitecturas de información

Habilitando la empresa ágil a través de datos unificados La travesía hacia la plataforma de datos analítico-transaccionales

CAPITULO 9. Diseño de una Base de Datos Relacional Distribuida

ADMINISTRACIÓN CENTRALIZADA DELL POWERVAULT DL2000 CON TECNOLOGÍA SYMANTEC

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO

Arquitectura de sistema de alta disponibilidad

INFORME EJECUTIVO DE IDC

El ABC de Big Data: Analytics, Bandwidth and Content

Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source

Big Data con nombres propios

CURSO: DESARROLLADOR PARA APACHE HADOOP

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting

MÁSTER: MÁSTER EXPERTO BIG DATA

Día :00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida

No se requiere que los discos sean del mismo tamaño ya que el objetivo es solamente adjuntar discos.

Base de datos en la Enseñanza. Open Office

LINEAMIENTOS ESTÁNDARES APLICATIVOS DE VIRTUALIZACIÓN

Solución empresarial Hadoop de EMC. NAS de escalamiento horizontal Isilon y Greenplum HD

Almacén de datos - concepto. Arquitectura de un sistema de almacén de datos

Seminario Electrónico de Soluciones Tecnológicas sobre Content Networking

CAPÍTULO 3: Resultados

GLOSARIO. Arquitectura: Funcionamiento, estructura y diseño de una plataforma de desarrollo.

Base de datos II Facultad de Ingeniería. Escuela de computación.

BACKUP SERVIDOR IPLAN INTRODUCCIÓN AL SERVICIO

Los mayores cambios se dieron en las décadas de los setenta, atribuidos principalmente a dos causas:

Introducción a las redes de computadores

PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop

Las Tecnologías de la Información y las Comunicaciones en Formación Profesional. Contenidos relevantes

RAID. Redundant Array of Independent Disks. Rafael Jurado Moreno Fuente: Wikipedia

SISTEMAS DE INFORMACIÓN II TEORÍA

Conceptos básicos de Big Data

Opciones de replicación y distribución de datos en Oracle RDBMS 9iR2, 10gR2 y 11gR1

MODERNIZANDO PCN Y RECUPERACION DE DESASTRES UTILIZANDO VIRTUALIZACION Y LA NUBE

UN GUÍA PRÁCTICO PARA PROTEGER Y UTILIZAR SU ENTORNO VIRTUAL PARA UNA RÁPIDA RECUPERACIÓN. Confianza en un mundo conectado.

CONFIGURACIÓN Y DESARROLLO

BASES DE DATOS TEMA 3 MODELO ENTIDAD - RELACIÓN

"Diseño, construcción e implementación de modelos matemáticos para el control automatizado de inventarios

XII Encuentro Danysoft en Microsoft Abril Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código

Pruebas y Resultados PRUEBAS Y RESULTADOS AGNI GERMÁN ANDRACA GUTIERREZ

Diplomado en Big Data

Alta disponibilidad de los servicios en la SGTIC del MEH

Monitorización de sistemas y servicios

Beneficios estratégicos para su organización. Beneficios. Características V

Una propuesta de valor para la gran empresa: Atlassian Data Center

10775 Administering Microsoft SQL Server 2012 Databases

Introducción. Componentes de un SI. Sistema de Información:

FUENTES SECUNDARIAS INTERNAS

DIRECCIÓN DE DESARROLLO TECNOLÓGICO PROCEDIMIENTO PARA GESTIÓN DE DESARROLLO TECNOLÓGICO

SAS Data Scientist. Plan de Formación

BASE DE DATOS RELACIONALES

La Digitalización del Ayuntamiento. Gestión Integral

Guías técnicas Grupo Danysoft: Borland StarTeam. Equipo Grupo Danysoft abril de (902)

Como extender la capacidad Analítica conectando fuentes de datos Big Data en ArcGIS

Big Data: retos a nivel de desarrollo. Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co

Minería de datos en la nube. Patricia Rayón Villela

INTRODUCCIÓN A LA COMPUTACION EN LA NUBE Y BIG DATA (1) Ing. Carlos Ormella Meyer

Para ello debemos ingresar al índice del curso y seleccionar recorrido por el curso, tal como se muestra en la siguiente diapositiva:

Tema 1. Conceptos básicos

CL_50400 Designing, Optimizing, and Maintaining a Database Administrative Solution for Microsoft SQL Server 2008

6 Anexos: 6.1 Definición de Rup:

Análisis de sentimientos de tweets.

Capítulo 5. Cliente-Servidor.

acenswhitepapers Bases de datos NoSQL. Qué son y tipos que nos podemos encontrar

Introducción Subsistemas de disco inteligentes Técnicas de entrada y salida. Storage. Esteban De La Fuente Rubio SASCO. 7 de noviembre de 2013

Resumen de la solución SAP SAP Technology SAP Afaria. Gestión de la movilidad empresarial para mayor ventaja competitiva

DISEÑO DE SOFTWARE INTEGRADO Unidad I: Introducción al Diseño de Software Integrado. Profesor: Cristián Chávez T

UNIVERSIDAD TECNOLOGICA ECOTEC DIEGO BARRAGAN MATERIA: Sistemas Operativos 1 ENSAYO: Servidores BLADE

Jornadas INCATEC 2015

REGISTRO DE EMPRESAS Y PERSONAS BASE DE INFORMACIÓN DE CLIENTES & CONTACTOS

rg.o El l c i c c i l c o l o de d vi v d i a d a cm a l@ rza e de d u n u n si s s i t s e t ma m a de d in i f n or o ma m c a i c ó i n ó b

Novedades en Q-flow 3.02

Motores de Búsqueda Web Tarea Tema 2

CURSO: DESARROLLADOR PARA APACHE HADOOP

Transición de su infraestructura de Windows Server 2003 a una solución moderna de Cisco y Microsoft

FAQ PREGUNTAS FRECUENTES

1º CFGS ASIR IMPLANTACIÓN DE SISTEMAS OPERATIVOS

ESPECIALIZACIÓN EN GESTIÓN DE BASE DE DATOS GUÍA DIDÁCTICA PARA LA GESTIÓN DE PROYECTOS Código: EGBD-P01-GD01

Petabytes de información: Repensando el modelamiento de base de datos. Ernesto Quiñones Azcárate Presidencia Apesol

Microsoft Office 2010 Illustrated. Tipos de Software

3.3.3 Tecnologías Mercados Datos

MDM Cloud. Conociendo el servicio. Alestra Información Restringida.

Transcripción:

BIG DATA Jorge Mercado Software Quality Engineer

Agenda Big Data - Introducción Big Data - Estructura Big Data - Soluciones Conclusiones Q&A

Big Data - Introducción Que es Big Data? Big data es el termino aplicado al conjunto de datos que superan la capacidad del software habitual utilizado para capturar, almacenar, manejar y analizar datos colectados. What is big data? An introduction to the big data landscape., Edd Dumbill, http://radar.oreilly.com/2012/01/what-is-big-data.html 3

Big Data - Introducción Origen de Big Data Twitter genera cerca de 12 Terabytes de tweets diarios, facebook almacena alrededor de 100 Petabytes de fotos y videos. Grandes cantidades de datos colectados en servidores como ubicación geográfica (GPS), transacciones diarias, generación de nuevos documentos en le internet, etc. Hablamos de que por día se genera una cantidad de 2.9 trillones de bytes de datos, y que el 80% de estos datos son no-estructurados. Cisco -> La cantidad de trafico de datos móviles 78% para el año 2016, con alrededor de 18.9 billones de Smartphones conectados a la red. 4

Video data Medios Sociales Dispositivos inteligentes Estudios Geneticos Sensores Datos geofisicos Internet of things Datos Medicos

Características Big data no solo tiene que ver con las cantidades enormes de datos, para entender mas de Big Data debemos mencionar sus 3 características esenciales: 3Vs 6

Características Volumen El volumen de datos es mas grande que sobrepasa la capacidad de manejo de datos realizada por bases de datos convencionales. Velocidad La rapidez con que los datos se generan es muy elevada y resulta dificil analizarlos. Pero que datos deberian analizarse o almacenarse?. Variedad los conjuntos de datos generados actualmente no tienen en su mayoría un tipo definido, big data se encarga del análisis de datos estructurados y no-estructurados. 7

Big Data - Desafíos Volumen Como procesar colecciones de datos cada vez mas grandes? Velocidad La gran cantidad de datos que vienen muy rápido que no pueden almacenarse como un solo registro. Se necesita una manera de filtrar y extraer un poco de conocimiento en tiempo real. Variedad Muchos de los formatos y tipos de datos ingresados son no estructurados y hacen que su manejo en una base de datos convencional sea inútil. 8

Agenda Big Data - Introducción Big Data - Estructura Big Data - Soluciones Conclusiones Q&A

Datos Estructurados Datos que tienen un tamaño y un formato definido y residen en almacenamientos formales. Agrupación de datos en bases de datos con nombres, organizados por filas y columnas con asociaciones establecidas entre los elementos. La configuración y organización de los datos permite que los datos sean accesibles mediante simples consultas, lenguaje SQL 10

Datos No estructurados Datos que no pueden ser fácilmente indexados dentro de tablas relacionales. Datos que no pertenecen a un formato y tipo de datos en especifico. Puede incluir texto sin procesar o código binario y contener una mezcla de información numeral y otra literal con o sin limitación puntuación o metadatos. 11

Big Data - Estructura Procesamiento Flujo masivo de datos Stream Processing Procesamiento Visualización Almacenamiento Procesamiento Análisis

Big Data Estructura NoSQL Bases de datos NoSQL son sistemas de almacenamiento de información que no cumplen con el esquema entidad-relación y no imponen una estructura de datos en forma de tablas y relaciones entre ellas. Una base de datos NoSQL toma los datos que desea almacenar y los agrega en documentos usando el formato JSON. 13

Big Data Estructura Hadoop Distributed File System(HDFS) HDFS es un sistema de ficheros pensado para el almacenamiento de ficheros "grandes" (por encima de 100 MB). Namenodes: son los encargados de gestionar el espacio de nombres del sistema de ficheros. Datanodes: son los que almacenan los bloques de información y los recuperan bajo demanda. 14

Big Data Estructura Hadoop MapReduce Los datos en el clúster de Hadoop son divididos en pequeñas piezas llamadas bloques y distribuidas a través del clúster Los bloques son procesados gracias alas funciones map y reduce. Map y Reduce son ejecutadas en pequeños subconjuntos y esto provee la escalabilidad necesaria para el procesamiento de grandes volúmenes. 15

Big Data Estructura Fase Map, los datos de entrada son procesados, uno a uno, y transformados en un conjunto intermedio de datos. Fase Reduce, los resultados intermedios obtenidos por la fase map se reducen a un conjunto de datos resumidos, que es el resultado final deseado. 16

Agenda Big Data - Introducción Big Data - Estructura Big Data - Soluciones Conclusiones Q&A

Big Data - Soluciones MongoDB 10Gen, (de la palabra en inglés humongous que significa enorme) es un sistema de base de datos NoSQL orientado a documentos, desarrollado bajo el concepto de código abierto Su arquitectura distingue dos tipos de nodos: Primario y Secundario. 18

Caracteristicas MongoDB Alto rendimiento, mongodb provee alto rendimiento y persistencia de datos, indexa de manera rápida las consultas, soporta embebido de documentos y arreglos para un mejor manejo de datos. Alta disponibilidad, mongodb provee alta disponibilidad de datos, su estructura basada en replicas provee tolerancia a fallas, redundancia, una replica es un grupo de servidores MongoDB que mantienen el mismo conjunto de datos proveyendo redundancia y aumentando la disponibilidad. Escalabilidad, MongoDB provee escalabilidad horizontal, con una estructura llamada sharding donde distribuye los datos a travez del cluster de maquinas miembros de mongodb solution. 19

Utilizando MongoDB 20

Utilizando MongoDB 21

Big Data - Riak Riak Basho, riak es una base de datos distribuida, open source escrita en Erlang, provee tolerancia a fallos, escalabilidad. 22

Big Data - Riak Disponibilidad, Riak replica y recibe datos de manera analítica y esta disponible para operaciones de escritura, lectura controlando condiciones de falla. Tolerante a fallas, debido a su arquitectura de nodos, la perdida del acceso a uno de los nodos debido a fallas de hardware o de red no se reflejan en perdida de datos en riak. Simplicidad Operacional, el agregar nuevas maquinas a un cluster riak es fácil y no requiere operaciones extensas, las tareas son las mismas para clusters de gran magnitud o pequeños clusters. Escalabilidad, Riak automáticamente distribuye los datos en todo el cluster y obtiene un rendimiento casi lineal en cuanto se agrega mas capacidad a los nodos (RAM, Almacenamiento). 23

Big Data - Riak Riak a diferencia de MongoDB no tiene la estructura de nodos primarios o secundarios. Riak administra V-nodes, que son unidades virtuales creadas en las particiones de los nodos físicos, estos se encuentran dentro de una estructura llamado anillo que es total de las particiones de todos los nodos miembros del cluster Riak. Mientras mas capacidad de almacenamiento tenga tu cluster, mas V-Nodos se crearan y mas información podrá ser manejada. Cada nodo en el cluster es responsable del 1/(numero total de nodos físicos) del anillo. 24

Big Data - Riak El numero de v-nodos en cada nodo es igual: (# Particiones)/(#de nodos) Por ejemplo, un anillo con 32 particiones, compuesto por cuatro nodos físicos, tendría aproximadamente ocho v-nodos por nodo. Esta configuración es representada por el siguiente 25

Utilizando - Riak 26

Big Data - Cloudera Cloudera Hadoop, Cloudera es una empresa que se encarga de proveer una solucion basada en hadoop. Cloudera se constituye en uno de los lideres y mas populares opciones de las soluciones para Big Data. 27

Big Data - Cloudera La estructura de Cloudera se basa en 3 tipos de nodos: Cloudera Manager Cloudera Storage Cloudera Process Cada uno con diferentes paquetes instalados pero proveyendo una poderosa solución ante Big Data. 28

Big Data - Cloudera Cloudera viene en versiones Cloudera Standard y Cloudera Enterprise Cloudera utiliza las tecnologías: CDH Impala Zookeper Hbase Cloudera provee soporte 24x7, 8x5 29

Agenda Big Data - Introducción Big Data - Estructura Big Data - Soluciones Conclusiones Q&A

Big Data - Conclusiones Se espera que el fenómeno big data impulse las rentabilidades de toda una generación de nuevas empresas informáticas con capitalizaciones de varios miles de millones de dólares. Es el segmento del mercado de los sistemas de información que más crece en todo el mundo. Los analistas creen que el mercado potencial total está valorado en 100.000 millones de dólares Empresas como General Electric, IBM, Oracle, Microsoft, SAP y Symantec han invertido mucho en centros de procesamiento de datos diseñados para interpretar big data. 31

Big Data - Conclusiones Albert Einstein (1879-1955): La información no es conocimiento Un Tsunami de Datos se aproxima..es mejor estar preparados 32

Q&A 33

34