BIG DATA Jorge Mercado Software Quality Engineer
Agenda Big Data - Introducción Big Data - Estructura Big Data - Soluciones Conclusiones Q&A
Big Data - Introducción Que es Big Data? Big data es el termino aplicado al conjunto de datos que superan la capacidad del software habitual utilizado para capturar, almacenar, manejar y analizar datos colectados. What is big data? An introduction to the big data landscape., Edd Dumbill, http://radar.oreilly.com/2012/01/what-is-big-data.html 3
Big Data - Introducción Origen de Big Data Twitter genera cerca de 12 Terabytes de tweets diarios, facebook almacena alrededor de 100 Petabytes de fotos y videos. Grandes cantidades de datos colectados en servidores como ubicación geográfica (GPS), transacciones diarias, generación de nuevos documentos en le internet, etc. Hablamos de que por día se genera una cantidad de 2.9 trillones de bytes de datos, y que el 80% de estos datos son no-estructurados. Cisco -> La cantidad de trafico de datos móviles 78% para el año 2016, con alrededor de 18.9 billones de Smartphones conectados a la red. 4
Video data Medios Sociales Dispositivos inteligentes Estudios Geneticos Sensores Datos geofisicos Internet of things Datos Medicos
Características Big data no solo tiene que ver con las cantidades enormes de datos, para entender mas de Big Data debemos mencionar sus 3 características esenciales: 3Vs 6
Características Volumen El volumen de datos es mas grande que sobrepasa la capacidad de manejo de datos realizada por bases de datos convencionales. Velocidad La rapidez con que los datos se generan es muy elevada y resulta dificil analizarlos. Pero que datos deberian analizarse o almacenarse?. Variedad los conjuntos de datos generados actualmente no tienen en su mayoría un tipo definido, big data se encarga del análisis de datos estructurados y no-estructurados. 7
Big Data - Desafíos Volumen Como procesar colecciones de datos cada vez mas grandes? Velocidad La gran cantidad de datos que vienen muy rápido que no pueden almacenarse como un solo registro. Se necesita una manera de filtrar y extraer un poco de conocimiento en tiempo real. Variedad Muchos de los formatos y tipos de datos ingresados son no estructurados y hacen que su manejo en una base de datos convencional sea inútil. 8
Agenda Big Data - Introducción Big Data - Estructura Big Data - Soluciones Conclusiones Q&A
Datos Estructurados Datos que tienen un tamaño y un formato definido y residen en almacenamientos formales. Agrupación de datos en bases de datos con nombres, organizados por filas y columnas con asociaciones establecidas entre los elementos. La configuración y organización de los datos permite que los datos sean accesibles mediante simples consultas, lenguaje SQL 10
Datos No estructurados Datos que no pueden ser fácilmente indexados dentro de tablas relacionales. Datos que no pertenecen a un formato y tipo de datos en especifico. Puede incluir texto sin procesar o código binario y contener una mezcla de información numeral y otra literal con o sin limitación puntuación o metadatos. 11
Big Data - Estructura Procesamiento Flujo masivo de datos Stream Processing Procesamiento Visualización Almacenamiento Procesamiento Análisis
Big Data Estructura NoSQL Bases de datos NoSQL son sistemas de almacenamiento de información que no cumplen con el esquema entidad-relación y no imponen una estructura de datos en forma de tablas y relaciones entre ellas. Una base de datos NoSQL toma los datos que desea almacenar y los agrega en documentos usando el formato JSON. 13
Big Data Estructura Hadoop Distributed File System(HDFS) HDFS es un sistema de ficheros pensado para el almacenamiento de ficheros "grandes" (por encima de 100 MB). Namenodes: son los encargados de gestionar el espacio de nombres del sistema de ficheros. Datanodes: son los que almacenan los bloques de información y los recuperan bajo demanda. 14
Big Data Estructura Hadoop MapReduce Los datos en el clúster de Hadoop son divididos en pequeñas piezas llamadas bloques y distribuidas a través del clúster Los bloques son procesados gracias alas funciones map y reduce. Map y Reduce son ejecutadas en pequeños subconjuntos y esto provee la escalabilidad necesaria para el procesamiento de grandes volúmenes. 15
Big Data Estructura Fase Map, los datos de entrada son procesados, uno a uno, y transformados en un conjunto intermedio de datos. Fase Reduce, los resultados intermedios obtenidos por la fase map se reducen a un conjunto de datos resumidos, que es el resultado final deseado. 16
Agenda Big Data - Introducción Big Data - Estructura Big Data - Soluciones Conclusiones Q&A
Big Data - Soluciones MongoDB 10Gen, (de la palabra en inglés humongous que significa enorme) es un sistema de base de datos NoSQL orientado a documentos, desarrollado bajo el concepto de código abierto Su arquitectura distingue dos tipos de nodos: Primario y Secundario. 18
Caracteristicas MongoDB Alto rendimiento, mongodb provee alto rendimiento y persistencia de datos, indexa de manera rápida las consultas, soporta embebido de documentos y arreglos para un mejor manejo de datos. Alta disponibilidad, mongodb provee alta disponibilidad de datos, su estructura basada en replicas provee tolerancia a fallas, redundancia, una replica es un grupo de servidores MongoDB que mantienen el mismo conjunto de datos proveyendo redundancia y aumentando la disponibilidad. Escalabilidad, MongoDB provee escalabilidad horizontal, con una estructura llamada sharding donde distribuye los datos a travez del cluster de maquinas miembros de mongodb solution. 19
Utilizando MongoDB 20
Utilizando MongoDB 21
Big Data - Riak Riak Basho, riak es una base de datos distribuida, open source escrita en Erlang, provee tolerancia a fallos, escalabilidad. 22
Big Data - Riak Disponibilidad, Riak replica y recibe datos de manera analítica y esta disponible para operaciones de escritura, lectura controlando condiciones de falla. Tolerante a fallas, debido a su arquitectura de nodos, la perdida del acceso a uno de los nodos debido a fallas de hardware o de red no se reflejan en perdida de datos en riak. Simplicidad Operacional, el agregar nuevas maquinas a un cluster riak es fácil y no requiere operaciones extensas, las tareas son las mismas para clusters de gran magnitud o pequeños clusters. Escalabilidad, Riak automáticamente distribuye los datos en todo el cluster y obtiene un rendimiento casi lineal en cuanto se agrega mas capacidad a los nodos (RAM, Almacenamiento). 23
Big Data - Riak Riak a diferencia de MongoDB no tiene la estructura de nodos primarios o secundarios. Riak administra V-nodes, que son unidades virtuales creadas en las particiones de los nodos físicos, estos se encuentran dentro de una estructura llamado anillo que es total de las particiones de todos los nodos miembros del cluster Riak. Mientras mas capacidad de almacenamiento tenga tu cluster, mas V-Nodos se crearan y mas información podrá ser manejada. Cada nodo en el cluster es responsable del 1/(numero total de nodos físicos) del anillo. 24
Big Data - Riak El numero de v-nodos en cada nodo es igual: (# Particiones)/(#de nodos) Por ejemplo, un anillo con 32 particiones, compuesto por cuatro nodos físicos, tendría aproximadamente ocho v-nodos por nodo. Esta configuración es representada por el siguiente 25
Utilizando - Riak 26
Big Data - Cloudera Cloudera Hadoop, Cloudera es una empresa que se encarga de proveer una solucion basada en hadoop. Cloudera se constituye en uno de los lideres y mas populares opciones de las soluciones para Big Data. 27
Big Data - Cloudera La estructura de Cloudera se basa en 3 tipos de nodos: Cloudera Manager Cloudera Storage Cloudera Process Cada uno con diferentes paquetes instalados pero proveyendo una poderosa solución ante Big Data. 28
Big Data - Cloudera Cloudera viene en versiones Cloudera Standard y Cloudera Enterprise Cloudera utiliza las tecnologías: CDH Impala Zookeper Hbase Cloudera provee soporte 24x7, 8x5 29
Agenda Big Data - Introducción Big Data - Estructura Big Data - Soluciones Conclusiones Q&A
Big Data - Conclusiones Se espera que el fenómeno big data impulse las rentabilidades de toda una generación de nuevas empresas informáticas con capitalizaciones de varios miles de millones de dólares. Es el segmento del mercado de los sistemas de información que más crece en todo el mundo. Los analistas creen que el mercado potencial total está valorado en 100.000 millones de dólares Empresas como General Electric, IBM, Oracle, Microsoft, SAP y Symantec han invertido mucho en centros de procesamiento de datos diseñados para interpretar big data. 31
Big Data - Conclusiones Albert Einstein (1879-1955): La información no es conocimiento Un Tsunami de Datos se aproxima..es mejor estar preparados 32
Q&A 33
34