Big Data con nombres propios



Documentos relacionados
Big Data y BAM con WSO2

Hadoop. Cómo vender un cluster Hadoop?

Conectores Pentaho Big Data Community VS Enterprise

MÁSTER: MÁSTER EXPERTO BIG DATA

Estrategia de modernización de aplicaciones Oracle Forms y Reports

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López

CURSO PRESENCIAL: ADMINISTRADOR HADOOP

De la Integración Continua a la Entrega Continua

CURSO: DESARROLLADOR PARA APACHE HADOOP

Big Data: retos a nivel de desarrollo. Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO

Una propuesta de valor para la gran empresa: Atlassian Data Center

Big data A través de una implementación

CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK.

Software Libre para Aplicaciones de Big Data

WEB APP VS APP NATIVA

Diplomado en Big Data

CURSO PRESENCIAL: DESARROLLADOR BIG DATA

Seguridad en tiempos de Big Data

MÁSTER: MÁSTER DESARROLLADOR BIG DATA

Tú negocio siempre contigo

Roadmap para la adopción de nuevas arquitecturas de información

PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop

BIG DATA. Jorge Mercado. Software Quality Engineer

ERPUP (Pequeñas y Medianas Empresas)

Requisitos tecnológicos

Alumna: Adriana Elizabeth Mendoza Martínez. Grupo: 303. P.S.P. Miriam De La Rosa Díaz. Carrera: PTB. en Informática 3er Semestre.

Cuál sería la distancia aproximada entre las gateways de cada instalación y los contadores Agua/Gas)?.

El universo en la palma de tu mano. El software de gestión para organizaciones políticas e instituciones

Qué significa Hadoop en el mundo del Big Data?

Los mayores cambios se dieron en las décadas de los setenta, atribuidos principalmente a dos causas:

FUENTES SECUNDARIAS INTERNAS

PROGRAMA FORMATIVO Administrador Big Data Cloudera Apache Hadoop

Funcionalidades Software SAT GotelGest.Net (Software de Servicio de Asistencia Técnica)

Bechtle Solutions Servicios Profesionales

CURSO PRESENCIAL: Apache Spark

LLEVE SU NEGOCIO al SIGUIENTE NIVEL. digitalice todos sus documentos y procesos.

Elektres. Catálogo corporativo. Le presentamos una visión diferente de la distribución electrotécnica para aplicaciones industriales

Alessandro Chacón Ernesto Level Ricardo Santana

Día :00h Lugar: Obra Social Ibercaja, Sala De actos, Rambla Ferran 38, 3º, Lleida

Curso de HTML5 y CSS3

L.B.S. servicios basados en localización DESARROLLO DE SOFTWARE Y PRODUCTOS PROPIETARIOS

E-learning: E-learning:

PINOT. La ingestión near real time desde Kafka complementado por la ingestión batch desde herramientas como Hadoop.

Proyecto de creación de una empresa, Servicios Computacionales y Audiovisuales,

TITULO Editorial Autores ISBN AÑO

Testing ágil en las Empresas de Software del. Cluster TIC Villa María

pymegnu v2.0 PRESENTACIÓN DE PRODUCTOS

Brindamos asesorías que involucran tecnología y personal calificado, estos hacen de DOCTUM su mejor aliado.

Cómo seleccionar el mejor ERP para su empresa Sumario ejecutivo

Posibilidades de integración de JIRA y Confluence

IDEA DE NEGOCIO EDUGER LOGISTIC GERMAN EDUARDO BALSERO MORALES PROFESOR: GERARDO ANDRES ARCOS CELIS

Por qué deberías adaptar tu página web a la navegación móvil?

Control del Stock, aprovisionamiento y distribución a tiendas.

Interoperabilidad de Fieldbus


acenswhitepapers Bases de datos NoSQL. Qué son y tipos que nos podemos encontrar

Introducción a las redes de computadores

Windows Server 2012: Infraestructura de Escritorio Virtual

FASCÍCULO. Decidir con inteligencia. Este es el momento.

NBG Asesores Abogados

Proyecto Oracle JDE E1 para Libelium OFERTA Nº LBL Información confidencial//oferta nº LBL

XII Encuentro Danysoft en Microsoft Abril Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código

Sistema informatizado de Trazabilidad alimentaria

odoo Criterios Funcionales de odoo (formalmente ) > el software para gestionar tu negocio <

Propuesta de Portal de la Red de Laboratorios Virtuales y Remotos de CEA

Proyecto MONO. Juantomás García. 1. Introducción. GNOME Hispano

Soporte y mantenimiento. Generalidades

CURSO: DESARROLLADOR PARA APACHE HADOOP

ERP CORE. La solución integral para la gestión de las pequeñas y medianas empresas. Managing your business SIXSERVIX ERP CORE

Capítulo 5. Cliente-Servidor.

BUSINESS INTELLIGENCE Y REDSHIFT

Diseño dinámico de arquitecturas de información

Hostaliawhitepapers. Las ventajas de los Servidores dedicados. Cardenal Gardoki, BILBAO (Vizcaya) Teléfono:

Resumen de la solución SAP SAP Technology SAP Afaria. Gestión de la movilidad empresarial para mayor ventaja competitiva

SERVICIO DE CONSULTORÍA DE CALIDAD PARA CLÍNICAS DENTALES

Máxima flexibilidad en paletizado automático al mejor precio

SIEWEB. La intranet corporativa de SIE

CAPÍTULO VI CONCLUSIONES Y RECOMENDACIONES

Una prueba de concepto con Git Essentials. Introducción

Curso Completo de Electrónica Digital

Objetos educativos y estandarización en e-learning: Experiencias en el sistema <e-aula>

Capítulo 2. Marco Teórico

System Center. la plataforma para una gestión ágil de los entornos de TI IDG COMMUNICATIONS, S.A.

ADMINISTRACIÓN CENTRALIZADA DELL POWERVAULT DL2000 CON TECNOLOGÍA SYMANTEC

Para optimizar este proceso lo dividiremos en etapas y deberemos tener bien claro el objetivo que debemos alcanzar en cada una de ellas:

IMPLANTACIONES DE ERP. CÓMO CONSEGUIR EL ÉXITO? MasEmpresa

Análisis de Resultados

Soluciones de virtualización de datos

Análisis del Posicionamiento de los Negocios. Autor : C.P. Eduardo Rodríguez Puente Director General Persys

GESTIÓN DEL MEDIO AMBIENTE URBANO. (LIMPIEZA VIARIA, MANTENIMIENTO DE ZONAS VERDES, RESIDUOS URBANOS Y ABASTECIMIENTO DE AGUA)

M.T.I. Arturo López Saldiña

Desarrollo de Smarphones sobre plataformas libres para PC y PDA. David Cortés, José Luis González, Servando Saavedra y Juan Ramón Saavedra

INTRANET DE UNA EMPRESA RESUMEN DEL PROYECTO. PALABRAS CLAVE: Aplicación cliente-servidor, Intranet, Área reservada, Red INTRODUCCIÓN

Transcripción:

Febrero 2014 Big Data con Al hablar de tecnología Big Data se está obligado, sin duda alguna, a hablar de programación paralela y procesamiento distribuido, ya que éstas serán las características que permitirán ofrecer escalabilidad, alta disponibilidad y capacidad de replicación de estos sistemas. Una tarea básica de una tecnología Big Data es el procesamiento de las fuentes de datos, donde se distinguiría entre el procesamiento Batch de las fuentes de datos; y, por otro lado, el procesamiento en tiempo real, o pseudo tiempo real, de las fuentes de datos. Para hacerlo de una forma más didáctica, se hará un símil respecto a un mar de datos, donde bucear en el océano buscando el tesoro sería el procesamiento Batch típico del Big Data; y lanzar unas redes de arrastre esperando atrapar algo valioso sería el procesamiento en tiempo real o pseudo tiempo real. Procesamiento Batch Para este procesamiento Batch, la solución tecnológica de referencia es, sin duda alguna, las que están basadas en Apache Hadoop, un framework de procesamiento distribuido que utiliza el paradigma map/reduce, donde los datos son mapeados, agrupados y reducidos como forma de procesamiento; y que, además, utiliza un sistema de ficheros distribuido llamado HDFS, consiguiendo un sistema escalable, de alta disponibilidad y con replicación de datos, y todo ello sobre hardware barato. El proyecto Hadoop está compuesto, a su vez, por un buen número de subproyectos como Sqoop, Pig, Hive, HBase, Flume, Zookeeper y otros más que le dotan de una gran funcionalidad. A esto se le denomina ecosistema Hadoop. Tomando como base Hadoop, varios fabricantes han decidido realizar distribuciones más o menos mejoradas y optimizadas, en una estrategia similar a las distintas distribuciones de Linux. De todas ellas, destacan: Apache Stark, un proyecto con su origen en la Universidad de Berkeley, está ganando bastante terreno, y no sin razón. Instalación más sencilla Interfaz web para su gestión Incluye Impala, para consultas en tiempo real sobre Hadoop Instalación sencilla Soporta Hadoop 2.0 con YARN, para la gestión de jobs y tasks Incluye Storm

Sin embargo, aunque se podría calificar a Hadoop como la tecnología más madura sobre las que se asientan la mayoría de las soluciones Big Data para procesamiento Batch; Apache Stark, un proyecto con su origen en la Universidad de Berkeley, está ganando bastante terreno, y no sin razón. Ahora acogido por Apache, se basa en procesamiento distribuido map/reduce en memoria, permitiendo que se mejoren entre 10 y 100 veces los resultados realizados sobre Hadoop. Se integra fácilmente con HDFS y con bases de datos NoSQL; y dispone de frameworks en Java, Scala y Python. Su único delito es que aún es demasiado joven. Tiempo real o pseudo real Para poder realizar el procesamiento en tiempo real mencionado anteriormente, tendríamos que recurrir a soluciones que sean capaces de trabajar con flujos de datos. Existen algunas tecnologías con concepciones diferentes, como pueden ser S4, Akka, Storm o Trident. Aquí, sin duda alguna, la apuesta es por Storm, quien se basa en la definición de los productores de datos, llamados Spouts; los procesadores de los datos, que llama Bolts y la definición de una topología en la que se definen cómo se relacionan los productores y los procesadores. A todo eso lo llama Topology. De esta forma tan sencilla, y al estar construido sobre Zookeeper, consigue una velocidad de procesamiento espectacular, se programa en Java de una manera muy simple, y se puede conectar a sistemas de colas, bases de datos relacionales o NoSQL, HDFS, etc. Pero la verdadera cuestión es cuál de las dos utilizar, ya que existen multitud de opciones, todas ellas muy interesantes. Mundo NoSQL Forma parte de cualquiera de las dos formas de procesar los datos, pues son necesarias sí o sí. Pero la verdadera cuestión es cuál de las dos utilizar, ya que existen multitud de opciones, todas ellas muy interesantes. Se podrían clasificar de acuerdo a la forma en que organizan los datos: columnares, clave-valor, documental, etc., Sin embargo, ahora mismo ya existen tres de referencia que van un paso por delante, no en términos tecnológicos, sino más por el respaldo del mercado y las buenas estrategias de sus fabricantes y comunidades. Éstas son:

Para todos estos componentes ya existen múltiples opciones, y a diario están apareciendo nuevos frameworks y herramientas. Base de datos basada en Google BigTable Funciona muy bien con Hadoop, pues forma parte de su ecosistema Fácil de usar desde otros componentes Hadoop como Hive o Pig Está bien documentada y es bastante madura Base de datos columnar que ofrece varios APIs en distintos lenguajes Ha desarrollado su propio lenguaje, CSQL, que permite consultas tipo SQL Eficiente en el tiempo de respuesta Fácilmente integrable con Hadoop Utiliza documentos BSON, de tipo JSON, aumentando su flexibilidad con respecto a los esquemas de datos; y reduciendo el esfuerzo de los desarrolladores Es distribuida y dispone de recopilación de datos Puede realizar sharding de los documentos, tareas map/ reduce; y dispone funciones específicas para sistemas de geolocalización Fácilmente integrable con Hadoop Juventud, divino pecado. Finalmente, una arquitectura Big Data debería contar de ciertos componentes de manera estándar, como son: El aprovisionamiento de datos Capacidad de procesamiento distribuido Herramientas para consultas en tiempo real Sistemas para el almacenamiento de datos y mecanismos de publicación Para todos estos componentes ya existen múltiples opciones, y a diario están apareciendo nuevos frameworks y herramientas. Sin embargo, todos pecan de una gran juventud a excepción de Hadoop, y esto significa que nos encontramos en un momento en el que no hay claramente tecnologías de referencia. Esto llegará con el tiempo y con el respaldo que les ofrezcan las comunidades de desarrolladores y el mundo empresarial.

Referencias de Tecnologías Hadoop HDFS Pig Hive HBase Flume Zookeeper Impala YARN S4 Akka Storm Trident Cassandra MongoDB Framework OpenSource desarrollado para el procesamiento distribuido implementando el paradigma map/reduce Hadoop Distributed File System, sistema de ficheros distribuidos utilizado por el framework Hadoop, permite escalabilidad y replicacion de los ficheros Subproyecto Hadoop, es un lenguaje de programación de mas alto nivel que permite generar procesos map/reduce Subproyecto Hadoop, es un lenguaje de programación similar a SQL que permite generar procesos map/reduce Subproyecto Hadoop, es una base de datos NoSQL basada en BigTable de Google Subproyecto Hadoop, es una herramienta para poder manejar flujos de datos en sistemas de ficheros HDFS Subproyecto Hadoop, es un framework que ofrece utilidades y primitivas para el desarrollo de servicios de coordinación en arquitecturas de procesamiento distribuido Componente propietario de las últimas distribuciones Cloudera Hadoop, que permite realizar consultas en tiempo real Yet Another Resource Negotiator, forma parte de la version 2.0 de Hadoop, y es una tecnología para una mejor y más potente gestión de los recursos y procesos de un cluster Hadoop Simple Scalable Streaming System, S4, framework de desarrollo para procesamiento continuo de streams que utiliza el paradigma de programación basado en actores Framework para programación concurrente basado el paradigma de programación basado en actores Framework de desarrollo Java para procesamiento de streams con base en Zookeeper Frameworks de programación construido sobre Storm que permite agrupaciones, joins, agregaciones, funciones y filtros sobre streams Base de datos NoSQL de tipo columnar, soporta fuerte desnormalización, y posee vistas. Dispone de un lenguaje propio CSQL, que permite realizar Querys al estilo SQL Base de datos NoSQL, de tipo documental, utiliza objetos BSON(Binary JSON), que ofrece flexibilidad total de esquemas de datos

En atsistemas somos más de 500 profesionales dedicados desde 1994 a la consultoría, servicios de IT y desarrollo de software. Nuestros servicios se caracterizan por la flexibilidad y la agilidad, lo que nos permite ayudar a grandes empresas de todos los sectores, aportando conocimiento y experiencia sobre el más amplio abanico de tecnologías. Nuestra cartera de clientes incluye más de 200 de las principales empresas del país, con representación de todos los sectores de actividad, a los que prestamos servicio desde nuestras oficinas de Madrid, Barcelona, Cádiz, Zaragoza y A Coruña. Nuestro portfolio de servicios abarca desde el desarrollo de software a medida hasta la integración de grandes soluciones de software empresarial, en áreas que van desde la más compleja arquitectura de sistemas hasta las soluciones más novedosas de comercio electrónico o aplicaciones móviles. Valle de Alcudia, 3 28230 Las Rozas, Madrid Passeig de Gràcia 55, 8º - 4ª 08007 Barcelona 902 888 902 info@