Hadoop. Cómo vender un cluster Hadoop?



Documentos relacionados
BIG DATA. Jorge Mercado. Software Quality Engineer

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO

CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK.

4. Base de datos XML nativa: Marklogic

Big Data con nombres propios

Curso de seguridad informática en el entorno docente. Sesión 4. PONENTE: Jaime López Soto.

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López

Introducción a las redes de computadores

Computación de Alta Performance Curso 2009 TOLERANCIA A FALLOS COMPUTACIÓN DE ALTA PERFORMANCE 2009 TOLERANCIA A FALLOS

MÁSTER: MÁSTER EXPERTO BIG DATA

Visión general CIUDADANO SECTOR PÚBLICO. Necesidades y servicios alineados. Toma de decisiones HERRAMIENTAS. Mejora de la trazabilidad del dato

BASES DE DATOS TEMA 3 MODELO ENTIDAD - RELACIÓN

Sistema de Provisión Centralizada CPS

Alessandro Chacón Ernesto Level Ricardo Santana

Autenticación Centralizada

CURSO PRESENCIAL: ADMINISTRADOR HADOOP

Base de datos en la Enseñanza. Open Office

IAP ENTORNOS INFORMATIZADOS CON SISTEMAS DE BASES DE DATOS

TALLER No. 1 Capitulo 1: Conceptos Básicos de Bases de datos

Big Data y BAM con WSO2

XII Encuentro Danysoft en Microsoft Abril Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código

CAPITULO 9. Diseño de una Base de Datos Relacional Distribuida

ARQUITECTURA DE DISTRIBUCIÓN DE DATOS

Conectores Pentaho Big Data Community VS Enterprise

cpbackup le protege frente a cualquier eventualidad: virus, averías de hardware, incendios, desastres naturales...

Funciones del Administrador de Base de Datos. Ing. Anaylen López, MSc Base de Datos II

Act 1: Revisión de Presaberes. Lectura No. 1. Título de la Lectura: El Computador

PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop

GlusterFS. Una visión rápida a uno de los más innovadores sistema de archivos distribuido

Big data A través de una implementación

Guía de instalación y configuración de IBM SPSS Modeler Social Network Analysis 16

ANEXO XII. Denominación: Administración y programación en sistemas de planificación de recursos empresariales y de gestión de relaciones con clientes.

CURSO: DESARROLLADOR PARA APACHE HADOOP

11/06/2011. Alumno: José Antonio García Andreu Tutor: Jairo Sarrias Guzman

La publicación. Pere Barnola Augé P08/93133/01510

El Computador. Software

LA REVOLUCIÓN DE LOS SISTEMAS DE INFORMACIÓN (S.I.) Introducción PORQUÉ SISTEMAS DE INFORMACIÓN? El Competitivo Entorno de los Negocios

II.1. Situación actual 2. II.2. Necesidades requeridas 3 III. DESCRIPCIÓN DE LOS SERVICIOS A CONTRATAR 3 5 IV. ORGANIZACIÓN DE LOS TRABAJOS 6

CURSO: CURSO ANALISTA DE DATOS

Arquitectura Cliente/Servidor

Comprender un poco más de los que es Apache Pig y Hadoop. El tutorial de cerdo muestra cómo ejecutar dos scripts de cerdo en modo local y el

INTRODUCCIÓN A LAS BASES DE DATOS

Toda base de datos relacional se basa en dos objetos

UNIVERSIDAD TECNOLOGICA ECOTEC DIEGO BARRAGAN MATERIA: Sistemas Operativos 1 ENSAYO: Servidores BLADE

I NTRODUCCIÓN 1. ORDENADOR E INFORMÁTICA

Administración de la producción. Sesión 11: Gestor de Base de Datos (Access)

BASES DE DATOS TEMA 2. Arquitectura de un Sistema de Gestión de Bases de Datos

Software Libre para Aplicaciones de Big Data

PROGRAMA FORMATIVO Administrador Big Data Cloudera Apache Hadoop

ESQUEMAS DE SISTEMAS VOIP CON ALTA DISPONIBILIDAD Y ALTO RENDIMIENTO

Sistemas de Operación II

Sistemas Operativos Windows 2000

CI Politécnico Estella

UNIDAD DIDACTICA 1: SISTEMAS GESTORES DE BASES DE DATOS

El módulo consta de una serie de unidades en las que se especifican los objetivos, contenidos y actividades.

Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica

DataMAX pa r a PS3. Manual del Usuario V1.0

Unidad I: Sistemas Gestores de Bases de Datos. 1.1 Objetivo de las Bases de Datos

Manual de usuario de Solmicro BI. Página 1

UNIVERSIDAD DE ORIENTE FACULTAD DE ICIENCIAS ECONOMICAS LAS REDES I. Licda. Consuelo Eleticia Sandoval

GUÍA TÉCNICA. Desarrollo de Proyectos en Plataforma Liferay en el Gobierno de Extremadura

Hosting. Que es un hosting o alojamiento web

Qué significa Hadoop en el mundo del Big Data?

Hostaliawhitepapers. Las ventajas de los Servidores dedicados. Cardenal Gardoki, BILBAO (Vizcaya) Teléfono:

GUÍA DE SEGURIDAD DE LA INFORMACIÓN GUÍA GOBIERNO CORPORATIVO PARA EMPRESAS SEP

INSTALACIÓN DE ORACLE 8i (8.1.7) SOBRE NT

1 Guión de Contenidos Criterios de evaluación Momentos de la evaluación Instrumentos o pruebas de evaluación...

GASTOS DE PERSONAL Libro de Operatividad. Solución WEB

INFORME TECNICO PREVIO DE EVALUACIÓN DE SOFTWARE N /UIE-PATPAL - FBB

Mostrar Iconos pequeños en el menú Inicio: Si activa esta opción bajará el tamaño de los iconos que aparecen a la izquierda de cada opción del menú.

Introducción. Ciclo de vida de los Sistemas de Información. Diseño Conceptual

Redes de Altas Prestaciones

INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL (SEMIPRESENCIAL)

Copias de seguridad y recuperación Guía del usuario

VAST: Manual de usuario. Autores: Francisco J. Almeida-Martínez Jaime Urquiza-Fuentes

MANUAL COPIAS DE SEGURIDAD

CURSO PRESENCIAL: DESARROLLADOR BIG DATA

Puede acceder a estas opciones a través del menú Inicio: Inicio/Configuración, o bien, a través del Icono Mi Pc situado en el Escritorio:

Redes de Altas Prestaciones

Ambiente Virtual de Comercio Electrónico B2B para la Comunidad Virtual de Negocios del departamento del Cauca

Clase 3. Discos Duros (continuación)

Gestión de Permisos. Documento de Construcción. Copyright 2014 Bizagi

Exchange Configurando un clúster

Grupo de Trabajo sobre protección de las personas en lo que respecta al tratamiento de datos personales. Recomendación 1/99

Manual de Procedimientos

LABORATORIO 10. COPIAS DE SEGURIDAD, RESTAURACIÓN Y RECUPERACIÓN DE UNA BD

FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS

CONFIGURACIONES DE ALTA DISPONIBILIDAD

[UTILERIAS DE MANTENIMIENTO BASICO DE CÓMPUTO] 02/04/2014 T.A. MARISELA ESPARZA CERDA ALUMNA: KAREN JAZMIN ALVIZO CASTRO

BUSINESS INTELLIGENCE Y REDSHIFT

Sistemas de Operación II

TEMA 2 ARQUITECTURA. 1. Arquitectura ANSI-SPARC El DBA y el SGBD Arquitectura back-end / front-end... 31

MÁSTER: MÁSTER DESARROLLADOR BIG DATA

INTRODUCCIÓN A LOS SISTEMAS GESTORES DE BASE DE DATOS

Microsoft SQL Server Conceptos.

The H Hour: Hadoop The awakening of the BigData. Antonio Soto SolidQ COO

Instalación y configuración inicial del sistema SIU-Kolla Versión 3.0.0

Desarrollo de Aplicaciones Web Por César Bustamante Gutiérrez. Módulo I: Conceptos Básicos Tema 1: Concepto iniciales.

CERDO-IBERICO: FORO DE DISCUSIÓN SOBRE EL CERDO IBÉRICO EN INTERNET

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Transcripción:

Hadoop Cómo vender un cluster Hadoop?

ÍNDICE Problema Big Data Qué es Hadoop? Descripción HDSF Map Reduce Componentes de Hadoop Hardware Software

3 EL PROBLEMA BIG DATA ANTES Los datos los generaban las empresas de forma organizada. Se gestionaban como bases de datos (SQL, e.g) El crecimiento era limitado AHORA Los datos los introducen los usuarios La información es heterogénea y está distribuida El crecimiento es enorme. 21.Enero.2013

4 LA SOLUCION HADOOP Cómo utilizar la información para que sea útil? Organizándola Hadoop Creando herramientas para acceder a ella Hive (HQL) 21.Enero.2013

5 QUÉ ES HADOOP? PARA QUÉ SIRVE HADOOP? Hadoop es un framework o marco de trabajo para que otras aplicaciones lo utilicen. Características: Es un proyecto open liderado por Apache Está escrito en Java Tiene un alto rendimiento (en lo que hace) Tiene muy alta disponibilidad Se basa en hardware corriente Está optimizado para: Manipular enormes cantidad de datos Manipular datos muy variados (estructurados y no estructurados) No está optimizado para OLTP (Transacciones, generalmente en tiempo real) 21.Enero.2013

6 COMPONENTES DE HADOOP HDFS - HADOOP DISTRIBUTED FILE SYSTEM Este sistema, gestionado por el/los name node(s) se encarga de mantener los ficheros repartidos y replicados entre los diferentes data nodes. El número de copias de cada archivo es configurable aunque lo más habitual son 3. En caso de fallo de un data node recupera la información en otro data node. Cuando una aplicación solicita un fichero al name node, este le reenvía al data node mas cercano para que sea más rápido. 21.Enero.2013

7 COMPONENTES DE HADOOP MAP / REDUCE El sistema map / reduce se encarga de optimizar el almacenamiento de la información para que esta sea más accesible. Map: Analiza la información y extrae los puntos comunes Reduce Reestructura los datos agrupando aquellos que son similares El sistema map/reduce genera tareas que se envían al job tracker, que las encola y las ejecuta. 21.Enero.2013

8 INFRAESTRUCTURA DE HADOOP HARDWARE Se necesitan un mínimo de 3 servidores para instalar Hadoop 1 Name node / job tracker 2 Data node Name node / Job tracker Es el que sabe donde está la información. Tiene que ser rápido y fiable (Discos SAS 15k) Puede estar redundado con otros servidores iguales Data node Es el que contiene los datos Tiene que tener alta capacidad y discos SIN RAID La capacidad de almacenamiento tiene que estar equilibrada con su capacidad de proceso. 28.Mayo.2013

9 INFRAESTRUCTURA DE HADOOP SOFTWARE Existen tres capas principales de software en Hadoop (aparte del S.O.) Hadoop propiamente dicho: HDFS + Map/reduce Capa de aplicaciones: Pig, Hive, Impala, etc Capa de monitorización del cluster Se puede instalar desde el sistema operativo componente por componente, pero existen distribuciones ad-hoc que proveen una instalación integrada Cloudera Hortonworks MapR Intel-Hadoop 28.Mayo.2013

10 PARA QUIEN? VENTAJAS Hadoop se puede aplicar en entornos donde se necesite manejar gran cantidad de datos heterogéneos y no estructurados Los datos provienen de diferentes fuentes Los datos están en diferentes formatos Investigación y desarrollo (HPC) Márketing y ventas (análisis de datos de comportamiento) 28.Mayo.2013

11 INFRAESTRUCTURA DE HADOOP APLICACIONES Hive Es un interprete con un lenguaje similar a SQL que permite realizar consultas a un cluster Hadoop Hbase Es un gestor de datos que proporciona acceso a los datos contenidos en Hadoop en modo aleatorio y lo más parecido a tiempo real. Es una base de datos de tipo NoSQL. Pig Es un intérprete que simplifica la tarea de generar los scripts para Map/Reduce, que son de por si bastante complejos. Sqoop Es una herramienta para transferir datos entre Hadoop y bases de datos relacionales. Oozie Es un programador de tareas para gestiuonar los trabajos de Pig, Hive, Map/Reduce, Sqoop, etc.. 28.Mayo.2013

12 CASOS DE ÉXITO DE HADOOP ING Direct da el paso para entrar en el mundo del Big Data: Con la intención de conocer mejor a sus clientes el banco ING Direct apuesta por Big Data, para analizar la información que dispone de sus clientes como toda la información externa que pueda conseguir y utilizar en la toma de decisiones PayPal utiliza herramientas Big Data para combatir el fraude en tiempo real: Aplicando diversos filtros de "Fraud Management" la compañia desarrolló un proceso de detección de fraude basados en datasets masivos que son analizados a través de herramientas de Big Data. Telefónica presenta su nueva unidad de negócio "Big Data" llamada Telefónica Dynamic Insights: Permitirá utilizar el Big Data para el análisis de datos agregados y totalmente anónimos. Su producto Smart Steps utiliza estos datos para medir, comparar y comprender qué factores influyen en el numero Cómo las compañías como Amazon se benefician del Big Data, un testimonio real: Amazon ha crecido mucho de forma bastante consistente como organización, pero muchas empresas crecen a través de la adquisición, lo que hace que la sincronización de datos sea una tarea enorme Una compañía de vehículos "propulsada" por Big Data: En Volvo, un sistema de almacenamiento de datos Teradata integra datos de configuración de productos, garantía y de diagnóstico del vehículo para apoyar el análisis técnico y de negocios en todo el ciclo de vida del producto 28.Mayo.2013

13 BIBLIOGRAFÍA Big Ideas: Demystifying Hadoop http://www.youtube.com/watch?v=xjhv5t8jcm8 Hadoop and big data simplified http://www.youtube.com/watch?v=rumqbmzzxqc Hadoop MapReduce Fundamentals 1 of 5 http://www.youtube.com/watch?v=7fcmhttg1cs Pragsis Casos de uso http://bigdata-hadoop.pragsis.com/pages/2/casos_de_uso 28.Mayo.2013

14 Podemos!! Instalar clusters completos HADOOP Seleccionar data node(s) Seleccionar job tracker (si es necesario) Seleccionar data nodes Modelo Cantidad Seleccionar conectividad Añadir servicios de instalación 28.Mayo.2013