Hadoop Cómo vender un cluster Hadoop?
ÍNDICE Problema Big Data Qué es Hadoop? Descripción HDSF Map Reduce Componentes de Hadoop Hardware Software
3 EL PROBLEMA BIG DATA ANTES Los datos los generaban las empresas de forma organizada. Se gestionaban como bases de datos (SQL, e.g) El crecimiento era limitado AHORA Los datos los introducen los usuarios La información es heterogénea y está distribuida El crecimiento es enorme. 21.Enero.2013
4 LA SOLUCION HADOOP Cómo utilizar la información para que sea útil? Organizándola Hadoop Creando herramientas para acceder a ella Hive (HQL) 21.Enero.2013
5 QUÉ ES HADOOP? PARA QUÉ SIRVE HADOOP? Hadoop es un framework o marco de trabajo para que otras aplicaciones lo utilicen. Características: Es un proyecto open liderado por Apache Está escrito en Java Tiene un alto rendimiento (en lo que hace) Tiene muy alta disponibilidad Se basa en hardware corriente Está optimizado para: Manipular enormes cantidad de datos Manipular datos muy variados (estructurados y no estructurados) No está optimizado para OLTP (Transacciones, generalmente en tiempo real) 21.Enero.2013
6 COMPONENTES DE HADOOP HDFS - HADOOP DISTRIBUTED FILE SYSTEM Este sistema, gestionado por el/los name node(s) se encarga de mantener los ficheros repartidos y replicados entre los diferentes data nodes. El número de copias de cada archivo es configurable aunque lo más habitual son 3. En caso de fallo de un data node recupera la información en otro data node. Cuando una aplicación solicita un fichero al name node, este le reenvía al data node mas cercano para que sea más rápido. 21.Enero.2013
7 COMPONENTES DE HADOOP MAP / REDUCE El sistema map / reduce se encarga de optimizar el almacenamiento de la información para que esta sea más accesible. Map: Analiza la información y extrae los puntos comunes Reduce Reestructura los datos agrupando aquellos que son similares El sistema map/reduce genera tareas que se envían al job tracker, que las encola y las ejecuta. 21.Enero.2013
8 INFRAESTRUCTURA DE HADOOP HARDWARE Se necesitan un mínimo de 3 servidores para instalar Hadoop 1 Name node / job tracker 2 Data node Name node / Job tracker Es el que sabe donde está la información. Tiene que ser rápido y fiable (Discos SAS 15k) Puede estar redundado con otros servidores iguales Data node Es el que contiene los datos Tiene que tener alta capacidad y discos SIN RAID La capacidad de almacenamiento tiene que estar equilibrada con su capacidad de proceso. 28.Mayo.2013
9 INFRAESTRUCTURA DE HADOOP SOFTWARE Existen tres capas principales de software en Hadoop (aparte del S.O.) Hadoop propiamente dicho: HDFS + Map/reduce Capa de aplicaciones: Pig, Hive, Impala, etc Capa de monitorización del cluster Se puede instalar desde el sistema operativo componente por componente, pero existen distribuciones ad-hoc que proveen una instalación integrada Cloudera Hortonworks MapR Intel-Hadoop 28.Mayo.2013
10 PARA QUIEN? VENTAJAS Hadoop se puede aplicar en entornos donde se necesite manejar gran cantidad de datos heterogéneos y no estructurados Los datos provienen de diferentes fuentes Los datos están en diferentes formatos Investigación y desarrollo (HPC) Márketing y ventas (análisis de datos de comportamiento) 28.Mayo.2013
11 INFRAESTRUCTURA DE HADOOP APLICACIONES Hive Es un interprete con un lenguaje similar a SQL que permite realizar consultas a un cluster Hadoop Hbase Es un gestor de datos que proporciona acceso a los datos contenidos en Hadoop en modo aleatorio y lo más parecido a tiempo real. Es una base de datos de tipo NoSQL. Pig Es un intérprete que simplifica la tarea de generar los scripts para Map/Reduce, que son de por si bastante complejos. Sqoop Es una herramienta para transferir datos entre Hadoop y bases de datos relacionales. Oozie Es un programador de tareas para gestiuonar los trabajos de Pig, Hive, Map/Reduce, Sqoop, etc.. 28.Mayo.2013
12 CASOS DE ÉXITO DE HADOOP ING Direct da el paso para entrar en el mundo del Big Data: Con la intención de conocer mejor a sus clientes el banco ING Direct apuesta por Big Data, para analizar la información que dispone de sus clientes como toda la información externa que pueda conseguir y utilizar en la toma de decisiones PayPal utiliza herramientas Big Data para combatir el fraude en tiempo real: Aplicando diversos filtros de "Fraud Management" la compañia desarrolló un proceso de detección de fraude basados en datasets masivos que son analizados a través de herramientas de Big Data. Telefónica presenta su nueva unidad de negócio "Big Data" llamada Telefónica Dynamic Insights: Permitirá utilizar el Big Data para el análisis de datos agregados y totalmente anónimos. Su producto Smart Steps utiliza estos datos para medir, comparar y comprender qué factores influyen en el numero Cómo las compañías como Amazon se benefician del Big Data, un testimonio real: Amazon ha crecido mucho de forma bastante consistente como organización, pero muchas empresas crecen a través de la adquisición, lo que hace que la sincronización de datos sea una tarea enorme Una compañía de vehículos "propulsada" por Big Data: En Volvo, un sistema de almacenamiento de datos Teradata integra datos de configuración de productos, garantía y de diagnóstico del vehículo para apoyar el análisis técnico y de negocios en todo el ciclo de vida del producto 28.Mayo.2013
13 BIBLIOGRAFÍA Big Ideas: Demystifying Hadoop http://www.youtube.com/watch?v=xjhv5t8jcm8 Hadoop and big data simplified http://www.youtube.com/watch?v=rumqbmzzxqc Hadoop MapReduce Fundamentals 1 of 5 http://www.youtube.com/watch?v=7fcmhttg1cs Pragsis Casos de uso http://bigdata-hadoop.pragsis.com/pages/2/casos_de_uso 28.Mayo.2013
14 Podemos!! Instalar clusters completos HADOOP Seleccionar data node(s) Seleccionar job tracker (si es necesario) Seleccionar data nodes Modelo Cantidad Seleccionar conectividad Añadir servicios de instalación 28.Mayo.2013