Software Libre para Aplicaciones de Big Data



Documentos relacionados
Big Data: retos a nivel de desarrollo. Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co

Conectores Pentaho Big Data Community VS Enterprise

Hadoop. Cómo vender un cluster Hadoop?

Big Data con nombres propios

Big data A través de una implementación

Sistemas Escalables. Club de Investigación Tecnológica San José, Costa Rica. Theodore Hope

The H Hour: Hadoop The awakening of the BigData. Antonio Soto SolidQ COO

ÍNDICE. Introducción... Capítulo 1. Conceptos de Big Data... 1

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO

BUSINESS INTELLIGENCE Y REDSHIFT

XII Encuentro Danysoft en Microsoft Abril Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código

PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop

BIG DATA. Jorge Mercado. Software Quality Engineer

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López

POSTGRADO. Ingeniería EXPERTO EN BIG DATA

CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK.

MÁSTER: MÁSTER EXPERTO BIG DATA

CLOUD & BIG DATA. Trabajando el CLOUD, explotando BIG DATA. Cómo pueden ayudarnos estas tecnologías?. Convivimos con ellas?.

UNIVERSIDAD TECNICA DEL NORTE Ing. Lenin Omar Lara Castro. BIG DATA

Diplomado en Big Data

Facultad Politécnica UNA Ing. Julio Paciello

Big Data en la nube. Use los datos. Obtenga información. La pregunta clave es: Qué puede hacer Doopex por mi negocio?

Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source

Big Data y BAM con WSO2

PROGRAMA FORMATIVO Administrador Big Data Cloudera Apache Hadoop

BIG BIG DATA DATA Centro de Alta Capacitación en Tecnologías de la Información

Big Data. Rodolfo Campos

Alessandro Chacón Ernesto Level Ricardo Santana

MÁSTER EN BIG DATA MANAGEMENT & DATA ENGINEERING. Master

Curso PHP Advanced and Ajax

Cocinando con Big Data

Edwin Maraví.

Big Data Analytics: propuesta de una arquitectura

Seguridad en tiempos de Big Data

Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica

CURSO PRESENCIAL: DESARROLLADOR BIG DATA

Big Data y NO-SQL el futuro de la Arquitectura de Información

FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS

Descripción de los Servicios Oracle contemplados en el Instrumento de Agregación de Demanda

Big Data y Supercómputo. Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE)

CURSOS DE VERANO 2014

III. INTRODUCCIÓN AL CLOUD COMPUTING

Bases de Datos NoSql en Cloud Computing

Maestría en Bioinformática. Bases de Datos y Sistemas de Información. Bases de Datos. Ing. Alfonso Vicente, PMP alfonso.vicente@logos.com.

INSTITUTO TECNOLÓGICO DE TIJUANA SUBDIRECCIÓN DEPARTAMENTO DE SISTEMAS Y COMPUTACIÓN SEMESTRE: ENERO-JUNIO 2014

emuseum PUBLIQUE SUS COLECCIONES EN LA WEB Por qué elegir emuseum? Se integra fácilmente con TMS Búsqueda eficaz Completamente personalizable

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO

Qué significa Hadoop en el mundo del Big Data?

Como extender la capacidad Analítica conectando fuentes de datos Big Data en ArcGIS

Solución empresarial Hadoop de EMC. NAS de escalamiento horizontal Isilon y Greenplum HD

ANÁLISIS COMPARATIVO DE DOS BASES DE DATOS SQL Y DOS BASES DE DATOS NO SQL

acenswhitepapers Bases de datos NoSQL. Qué son y tipos que nos podemos encontrar

Cloud Computing. Huibert Aalbers Senior Certified Executive IT Architect

Introducción a Big Data

CURSO: DESARROLLADOR PARA APACHE HADOOP

SISTEMA PARA GENERAR GRÁFICAS A PARTIR DE LOGS TCPDUMP USANDO HADOOP. Ángel Stalin Cruz Palaquibay Pedro Alfredo Torres Arellano

Bases de datos NoSQL. Hugo González Noviembre 17, 2011

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Perspectivas de la Computación Científica. Clusters, Grids y Clouds. Desarrollos y retos Raúl Ramos Pollán Universidad Nacional de Colombia

Mitos y Realidades del Big Data -Introducción al Big Data-

Habilitando la empresa ágil a través de datos unificados La travesía hacia la plataforma de datos analítico-transaccionales

Requerimientos de Big Data y tecnologías seleccionadas en 3 sistemas reales

RODRIGO TAPIA SANTIS com) has a. non-transferable license to use this Student Guide

CURSO PRESENCIAL: ADMINISTRADOR HADOOP

Descripción. Este Software cumple los siguientes hitos:

Índice. Presentación Stratebi Introducción Qué es? Características Principales Instalación & Configuración Comandos

Ponente Dr. Gabriel Guerrero. 8 de Diciembre de 2014 Tecnológico de Estudios Superiores de Chalco TESCHA

PROGRAMA FORMATIVO Desarrollador Big Data Cloudera Apache Hadoop

BIG Big Data Public Private Forum

Modelos de Datos Gestión y Modelación de Datos. María Constanza Pabón mcpabon@javerianacali.edu.co

PARADIGMA NOSQL: BASES DE DATOS COLUMNARES PARA AMBIENTE DATA WAREHOUSE

Roadmap para la adopción de nuevas arquitecturas de información

Seminario. Cloud Computing. Granada, 20 al 22 de febrero de 2013

POSTgrado. Ingeniería. Experto en Cloud Computing

APLICACIÓN DE TÉCNICAS DE OPTIMIZACIÓN Y BIG DATA AL PROBLEMA DE BÚSQUEDA DE HOMOLOGÍAS EN BASES DE DATOS BIOLÓGICAS

Pruebas y Resultados PRUEBAS Y RESULTADOS AGNI GERMÁN ANDRACA GUTIERREZ

MS_20467 Designing Self-Service Business Intelligence and Big Data Solutions

Desmitificando Big Data:

Qué es la nube? Manuel García-Elorz

HADOOP LIVE. 12 de diciembre de 2017

CENTRO DE RESGUARDO ARQUITECTURA AVANZADA PROF.: JUAN JOSÉ MUÑOZ BUSSI AUTOR: MARIANA FERRETTO


INTRODUCCIÓN A LA COMPUTACION EN LA NUBE Y BIG DATA (1) Ing. Carlos Ormella Meyer

CURSO SISTEMAS DISTRIBUIDOS

Esta solución de fácil uso está orientada a cualquier industria, ya sea una empresa del sector privado o del sector público.

POSTgrado. Ingeniería. Experto en Cloud Computing

BIG DATA MARÍA PARRA AMAT. Almería, 5 junio 2015

MS_10971 Storage and High Availability with Windows Server 2012

Microsoft SQL Server. Comparación SQL Server y MySQL Jose Santamaría Instalación, configuración y demo de SQL Server Javier Hernández

SIGAN 1.0 SISTEMA DE INFORMACIÓN DE GESTIÓN ADMINISTRATIVA DE NÓMINA

Estamos inmersos en la era de la información, donde. Big data. Procesando los datos en la sociedad digital

MATERIAL DE TRABAJO 1. Evaluación del software

ING. YURI RODRIGUEZ ALVA

Transcripción:

Software Libre para Aplicaciones de Big Data Club de Investigación Tecnológica San José, Costa Rica 2014.07.16 Theodore Hope! hope@aceptus.com Big Data: Qué es?! Conjuntos de datos de: " Alto volumen (TBs " PBs) " Alta velocidad ( fast data ) " Alta variedad (estructura cambiante)... que no pueden ser procesados con herramientas convencionales! Requerimientos de Hardware: " Mucho: CPU, RAM, disco " Escalamiento horizontal Software Libre para Aplicaciones de Big Data - Club de Investigación Tecnológica - Theodore Hope - 2014.07.16 2 1&

Big Data: Casos de Uso! Vista 360º de clientes! Servicios Públicos! Internet of Things! Detección de Fraude! Agregación / Exploración de datos! RTAP! OLTP Software Libre para Aplicaciones de Big Data - Club de Investigación Tecnológica - Theodore Hope - 2014.07.16 3 Herramientas de Software! Qué es software libre? " Costo de licenciamiento = $ 0 " Commodity Hardware & Open Systems! Soluciones no gratuitas ($) " Pregúntele a su vendedor! Herramientas No-RDBMS! Herramientas RDBMS Software Libre para Aplicaciones de Big Data - Club de Investigación Tecnológica - Theodore Hope - 2014.07.16 4 2&

Herramientas No-RDBMS! NoSQL / Non-Relational " MapReduce / Apache Hadoop " Apache HBase " MongoDB " Apache CouchDB " Apache Cassandra " Apache Solr (Apache Lucene) " Elasticsearch (Apache Lucene)! Escalables / Alta Disponibilidad! No ACID Software Libre para Aplicaciones de Big Data - Club de Investigación Tecnológica - Theodore Hope - 2014.07.16 5 MapReduce (Google, 2004)! Modelo de programación para procesar enormes conjuntos de datos en paralelo, distribuido en un cluster! Map/Reduce viene de programación funcional! Implementación abierta: Hadoop Software Libre para Aplicaciones de Big Data - Club de Investigación Tecnológica - Theodore Hope - 2014.07.16 6 3&

Hadoop (MapReduce)! Implementación abierta de MapReduce! Framework incluye: " Sistema de archivos distribuido (HDFS) " Administración de nodos y tareas " MapReduce! Algunos casos de uso " Risk modeling " Recomendaciones para usuarios " Clusters de 100s PB Software Libre para Aplicaciones de Big Data - Club de Investigación Tecnológica - Theodore Hope - 2014.07.16 7 Frameworks para Hadoop! Apache Hive " Datos estructurados, queries semi-sql! Apache Pig " Datos no estructurados! Cascading " Capa de abstracción para workflows Hadoop! Apache Spark " Para apps de alto nivel (Java, Scala, Python) Software Libre para Aplicaciones de Big Data - Club de Investigación Tecnológica - Theodore Hope - 2014.07.16 8 4&

Hadoop en la nube! PaaS con modelo Pay-as-you-go! Cluster elástico (según $$)! AWS Elastic MapReduce! Azure HDInsight Software Libre para Aplicaciones de Big Data - Club de Investigación Tecnológica - Theodore Hope - 2014.07.16 9 HBase! No relacional, orientado a columnas, para Hadoop! Wide-column store (schema-free)! Modelado en Google BigTable! v.g., Facebook Messaging Platform Software Libre para Aplicaciones de Big Data - Club de Investigación Tecnológica - Theodore Hope - 2014.07.16 10 5&

MongoDB! Orientado a documentos (JSON), schema dinámico! Ad-hoc queries sobre cualquier campo! HA con réplicas, escala horizontalmente! Eventual Consistency Software Libre para Aplicaciones de Big Data - Club de Investigación Tecnológica - Theodore Hope - 2014.07.16 11 CouchDB! Orientado a documentos (JSON), schema dinámico! Funciones de Map en JavaScript! Operaciones con semántica ACID, pero sólo logra Eventual Consistency Software Libre para Aplicaciones de Big Data - Club de Investigación Tecnológica - Theodore Hope - 2014.07.16 12 6&

Cassandra! Híbrido de esquemas Key-Value y Column-Oriented! Pseudo-SQL queries (no joins)! Inspirado en Google BigTable y Amazon DynamoDB! HA (no SPOF), Eventual Consistency! Mejor throughput de todos los NoSQL Software Libre para Aplicaciones de Big Data - Club de Investigación Tecnológica - Theodore Hope - 2014.07.16 13 Solr y Elasticsearch! Basados en Apache Lucene (Java)! Para búsquedas en texto libre " También archivos Word, PDF! Altamente escalable! Tiempo real, indexación contínua! Usuarios, v.g. " Elasticsearch: Wikimedia, Foursquare " Solr: Netflix, WhiteHouse.gov Software Libre para Aplicaciones de Big Data - Club de Investigación Tecnológica - Theodore Hope - 2014.07.16 14 7&

Herramientas RDBMS! MySQL Cluster! VoltDB Software Libre para Aplicaciones de Big Data - Club de Investigación Tecnológica - Theodore Hope - 2014.07.16 15 MySQL Cluster! Full SQL, ACID, HA, Active/Active! Datos completamente en RAM! Nodos SQL y Nodos de Datos escalan independientemente y linealmente! Ideal para OLTP! Con servidores Intel E5-2500 / 64 GB: " 4 data nodes: 2.5 millones de updates / seg " 16 data nodes: 10 millones de updates / seg Software Libre para Aplicaciones de Big Data - Club de Investigación Tecnológica - Theodore Hope - 2014.07.16 16 8&

VoltDB! Stonebraker (MIT / UC Berkeley) " Ingres, Postgres, C-Store, H-Store, Vertica! Full SQL, ACID, HA, Active/Active! Datos completamente en RAM! Stored Procedures escritos en Java! Ideal para OLTP, high velocity apps! 3-node cluster ($3k), > 100k updates/s! 12-node cluster, > 1 millón TPS Software Libre para Aplicaciones de Big Data - Club de Investigación Tecnológica - Theodore Hope - 2014.07.16 17 Observaciones sobre RDBMS! Big Data y RDBMS: Hay algo nuevo?! Requerimientos: " ACID, HA, todo en RAM, escalabilidad! Modelo relacional es: " Maduro, conocido, y apropiado para muchos problemas de Big Data! El problema no son los RDBMS sino el volumen y complejidad de los datos. Software Libre para Aplicaciones de Big Data - Club de Investigación Tecnológica - Theodore Hope - 2014.07.16 18 9&