APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López

Tamaño: px
Comenzar la demostración a partir de la página:

Download "APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López"

Transcripción

1 APACHE HADOOP Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López

2 Objetivos 1. Qué es Apache Hadoop? 2. Funcionalidad 2.1. Map/Reduce 2.2. HDFS 3. Casos prácticos 4. Hadoop y el Business Intelligence 5. Bibliografía

3 1. Qué es Apache Hadoop? Es un proyecto de alto nivel de Apache Java Clúster Yahoo y Facebook

4 1. Qué es Apache Hadoop? Componentes HDFS y Map/Reduce NoSQL: Hbase, Hive, Casandra ETL: Chukwa, Flume, Sqoop Computación: Pig, Hama Sincronización/Configuración: Zookeeper

5 1. Qué es Apache Hadoop? Desafíos a los que se enfrenta Hadoop Problema de espacio Servidor/disco roto Datos corruptos Tiempo de acceso Precio

6 2. Funcionalidad. Map/Reduce El nodo maestro toma la entrada, se divide en pequeños subproblemas y los distribuye a los nodos de trabajo. Un nodo de trabajo puede hacer esto de nuevo, a su vez, conduce a una estructura de árbol multinivel. El nodo de trabajo procesa el problema más pequeño, y devuelve la respuesta al nodo maestro. En el paso de Reduce, el nodo maestro recoge las respuestas de todos los sub-problemas y las combina de alguna manera para formar la salida

7 2. Funcionalidad. Map/Reduce MapReduce permite procesar los datos que están en un clúster de forma paralela de forma que se aprovecha el sistema de archivos distribuido. Cada servidor del clúster trata de procesar la parte de los datos que posee localmente.

8 2. Funcionalidad. Map/Reduce En cuanto a las funciones por separado hay que tener en cuenta lo siguiente: Map: Esta función recibe como entrada una serie de pares clave/valor y genera uno o varios pares clave/valor. Para cada clave/valor devuelve una lista de clave/valor. El sistema se encarga de mezclar y ordenar resultados intermedios en función de las claves. (clave1, valor1) [(clave2, valor2)] Reduce: Este método recibe como entrada un par (clave, lista de valores) y la salida es un par (clave, valor). Para cada clave, toma una lista de valores asociada y los combina en un solo (clave3, [valor2]) (clave2, valor2)

9 Proceso de ejecución de Map/Reduce Se puede ejecutar una tarea Map/Reduce con una sola línea de código: JobClient.runJob(conf). Hay cuatro entidades independientes: 1.El cliente, que envía el trabajo Map/Reduce 2. El JobTracker, que coordina la ejecución del trabajo. Este JobTracker es una aplicación Java cuya clase principal es JobTracker. 3. Los TaskTrackers, que ejecutan las tareas en las que se ha dividido el trabajo. Éstos son aplicaciones Java cuya clase principal es TaskTracker. 4. El sistema de archivos distribuido, que se utiliza para el intercambio de trabajo entre las otras entidades.

10 Proceso de ejecución de Map/Reduce

11 Ventajas Map/Reduce Map/Reduce aporta las siguientes soluciones: Insuficiente CPU computación escalable, se realiza un escalado horizontal Insuficiente memoria memoria escalable. La computación con el Map/Reduce es fácil de programar en el sentido de que tenemos una abstracción de nuestro hardware, por lo tanto permite desarrollar más rápido. Muchos datos que desplazar se desplaza el algoritmo directamente a los datos, los datos no se tiene que desplazar, por lo tanto hay mucho menos datos que traspasar por la red Caída de nodo/jvm detección de caída y recuperación. El Jobtrackerestá siempre en contacto con todos los nodos esclavos y puede detectar si uno se cae y si es así, vuelve a recuperar la carga que estaba ejecutando y la envía a otro de los nodos esclavos.

12 2.2 HDFS propiedades Hadoop Distributed File System, es un sistema de archivos distribuido, escalable, portable, tolerante a fallos y diseñado para ser desplegado en hardware de bajo coste. Está escrito en Java. Preparado para manejar archivos grandes, de gigabytes o terabytes en clúster con miles de máquinas. Mantiene alto rendimiento en la red aunque se añadan nodos al clúster.

13 2.2 HDFS arquitectura Nodo maestro: Gestiona el espacio de nombres y regula el acceso a ficheros. Contiene un nodo de nombres y un espacio de nombres. Nodo esclavo: Contiene el nodo de datos y gestiona el almacenamiento asociado al nodo. Cliente: Dispone de una Shell de manejo de ficheros y directorios y se pueden crear aplicaciones en Java y C para el acceso y manejo de estos.

14 2.2 HDFS arquitectura Nodo de nombres: Ejecuta operaciones del espacio de nombres tales como: apertura, cierre y renombrado de ficheros y directorios e indexa los bloques guardados en los nodos de datos. Este nodo es el árbitro y el repositorio de los metadatos. Espacio de nombres: Organización de ficheros, soporta la organización jerárquica (ficheros dentro de directorios). Se pueden crear, renombrar, mover y eliminar directorios. No soporta enlaces. Cualquier cambio en el espacio de nombres es gestionado por el nodo de nombres.

15 2.2 HDFS arquitectura Nodo de datos: Guarda bloques de datos. Cada fichero se divide en bloques y ese conjunto de bloques se guarda en un conjunto de nodos de datos. Además sirve peticiones de lectura y escritura de los clientes y operaciones de creación de bloques, borrado y replicación mediante instrucciones del nodo de nombres.

16 2.2 HDFS comunicación La comunicación se hace por TCP/IP, mediante RPC. El cliente establece conexión por un puerto TCP configurado en el nodo de nombres. Mediante RPC se produce la abstracción entre cliente y el nodo de datos. El nodo de nombres nunca inicia comunicación RPC, solo responde peticiones RPC mandadas por los nodos de datos o clientes.

17 2.2 HDFS estructura

18 2.2 HDFS réplicas Factor de replicación: número de réplicas de un fichero. Este valor se puede configurar en el nodo de nombres. El valor por defecto es 3. HDFS debe conocer los racks existentes para que sea eficiente. Factor de replicación = 3: una réplica se almacenará en otro nodo del propio rack, la segunda en un nodo de un rack remoto y la tercera en otro nodo del rack remoto. Esto agiliza la lectura, ya que se leerá del nodo más cercano.

19 2.2 HDFS réplicas -El nodo de nombres está continuamente comprobando que los nodos de datos están activos y solicitando una lista de los bloques que contiene cada uno. Cuando detecta algún nodo caído el nodo de nombres activa el plan de contingencia.

20 2.2 HDFS fallos Fallo: Un nodo se cae, un archivo se corrompe o no se cumple el factor de replicación con algunos bloques (también se daría este caso si se cae un nodo). Solución: El nodo de nombres automáticamente lo detecta y crea las réplicas necesarias. Fallo: Los metadatos del nodo de nombres se corrompen. Solución: El nodo de nombres tiene réplicas sincronizadas de los metadatos. Fallo: El nodo de nombres se cae. Solución: Intervención humana.

21 2.2 HDFS vs competencia Lo diferenciador de HDFS respecto a los demás productos, es la seguridad que ofrece frente a fallos de hardware y corrupción de datos y que a pesar de ello mantiene gran eficiencia en la lectura y escritura ya que es capaz de coger los datos del nodo más cercano. Debido a esto empresas como: Facebook, Twitter, ebay, Tuenti, IBM y muchas otras confían en este sistema de ficheros para manejar sus datos.

22 3. Casos Practicos - Agencias de Viajes - Comercio Electrónico - Busqueda de recursos naturales - Ahorro energético - Mantenimiento de infraestructuras - Procesamiento de imágenes - Detección del fraude - Seguridad Informática

23 4. Hadoop y el Business Intelligence - Hadoop no es un producto (out of the box) - El núcleo hadoop es un FS distribuido, y una herramienta de computo en paralelo (No genera información valiosa ) - A Hadoop no le puedes preguntar sobre tus datos (debes programarlo ad-hoc)

24 4. Hadoop y el Business Intelligence Entonces que relación tiene Hadoop con B.I?

25 4. Hadoop y el Business Intelligence - Hadoop es un framework, un ecosistema - Hadoop nos permite trabajar con BigData - Nosotros lo programamos + flexibilidad - Hadoop trabaja con cualquier fuente de datos - Surgen aplicaciónes alrededor de hadoop

26 4. Hadoop y el Business Intelligence Hadoop es una Plataforma ideal donde construir nuestras aplicaciones de B.I. Pero solo es eso, la base de donde partir Tambien podemos usar soluciones finales (SaaS) Cloudera, Oracle Big Data, AWS, IBM InfoSphere

27 Gracias por su atención

CURSO: DESARROLLADOR PARA APACHE HADOOP

CURSO: DESARROLLADOR PARA APACHE HADOOP CURSO: DESARROLLADOR PARA APACHE HADOOP CAPÍTULO 3: HADOOP CONCEPTOS BÁSICOS www.formacionhadoop.com Índice 1 Introducción a Hadoop 1.1 Proyecto Hadoop 1.2 Conceptos de Hadoop 2 Cluster Hadoop 2.1 Demonios

Más detalles

Alessandro Chacón 05-38019. Ernesto Level 05-38402. Ricardo Santana 05-38928

Alessandro Chacón 05-38019. Ernesto Level 05-38402. Ricardo Santana 05-38928 Alessandro Chacón 05-38019 Ernesto Level 05-38402 Ricardo Santana 05-38928 CONTENIDO Universo Digital Hadoop HDFS: Hadoop Distributed File System MapReduce UNIVERSO DIGITAL 161 EB 2006 Fuente: International

Más detalles

Big data A través de una implementación

Big data A través de una implementación Big data A través de una implementación Lic. Diego Krauthamer Profesor Adjunto Interino del Área Base de Datos Universidad Abierta Interamericana Facultad de Tecnología Informática Buenos Aires. Argentina

Más detalles

ÍNDICE. Introducción... Capítulo 1. Conceptos de Big Data... 1

ÍNDICE. Introducción... Capítulo 1. Conceptos de Big Data... 1 ÍNDICE Introducción... XIII Capítulo 1. Conceptos de Big Data... 1 Definición, necesidad y características de Big Data... 1 Aplicaciones típicas de Big Data... 4 Patrones de detección del fraude... 4 Patrones

Más detalles

Hadoop. Cómo vender un cluster Hadoop?

Hadoop. Cómo vender un cluster Hadoop? Hadoop Cómo vender un cluster Hadoop? ÍNDICE Problema Big Data Qué es Hadoop? Descripción HDSF Map Reduce Componentes de Hadoop Hardware Software 3 EL PROBLEMA BIG DATA ANTES Los datos los generaban las

Más detalles

FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS

FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS Introducción Los algoritmos utilizados para el procesamiento de imágenes son de complejidad computacional alta. Por esto

Más detalles

Conectores Pentaho Big Data Community VS Enterprise

Conectores Pentaho Big Data Community VS Enterprise Conectores Pentaho Big Data Community VS Enterprise Agosto 2014 Stratebi Business Solutions www.stratebi.com info@stratebi.com Índice 1. Resumen... 3 2. Introducción... 4 3. Objetivo... 4 4. Pentaho Community

Más detalles

The H Hour: Hadoop The awakening of the BigData. Antonio Soto SolidQ COO asoto@solidq.com @antoniosql

The H Hour: Hadoop The awakening of the BigData. Antonio Soto SolidQ COO asoto@solidq.com @antoniosql The H Hour: Hadoop The awakening of the BigData Antonio Soto SolidQ COO asoto@solidq.com @antoniosql Tendencias de la Industria El nuevo rol del operador El operador de ayer Sigue el proceso basado en

Más detalles

BIG DATA. Jorge Mercado. Software Quality Engineer

BIG DATA. Jorge Mercado. Software Quality Engineer BIG DATA Jorge Mercado Software Quality Engineer Agenda Big Data - Introducción Big Data - Estructura Big Data - Soluciones Conclusiones Q&A Big Data - Introducción Que es Big Data? Big data es el termino

Más detalles

Big Data y Supercómputo. Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE)

Big Data y Supercómputo. Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) Big Data y Supercómputo Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) Big Data 2 Hasta qué cantidad de datos podemos procesar en nuestra

Más detalles

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO PRESENTACIÓN ANTONIO GONZÁLEZ CASTRO IT SECURITY DIRECTOR EN PRAGSIS TECHNOLOGIES agcastro@pragsis.com antoniogonzalezcastro.es @agonzaca linkedin.com/in/agonzaca

Más detalles

CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK. www.formacionhadoop.com

CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK. www.formacionhadoop.com CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK www.formacionhadoop.com Índice 1 Qué es Big Data? 2 Problemas con los sistemas tradicionales 3 Qué es Spark? 3.1 Procesamiento de datos distribuido

Más detalles

Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source

Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source Francisco Magaz Villaverde Consultor: Víctor Carceler Hontoria Junio 2012 Contenido Introducción Qué es Cloud Compu5ng?

Más detalles

Big Data con nombres propios

Big Data con nombres propios Febrero 2014 Big Data con Al hablar de tecnología Big Data se está obligado, sin duda alguna, a hablar de programación paralela y procesamiento distribuido, ya que éstas serán las características que permitirán

Más detalles

MÁSTER: MÁSTER EXPERTO BIG DATA

MÁSTER: MÁSTER EXPERTO BIG DATA MÁSTER: MÁSTER EXPERTO BIG DATA Información detallada del máster www.formacionhadoop.com Este máster online está enfocado a los ingenieros que quieran aprender el despliegue y configuración de un cluster

Más detalles

Qué significa Hadoop en el mundo del Big Data?

Qué significa Hadoop en el mundo del Big Data? Qué significa Hadoop en el mundo del Big Data? Un contenido para perfiles técnicos 2 ÍNDICE Qué significa Hadoop en el Universo Big Data?.... 3 El planteamiento: big data y data science.... 3 Los desafíos

Más detalles

CURSOS DE VERANO 2014

CURSOS DE VERANO 2014 CURSOS DE VERANO 2014 APROXIMACIÓN PRÁCTICA A LA CIENCIA DE DATOS Y BIG DATA: HERRAMIENTAS KNIME, R, HADOOP Y MAHOUT. Entorno de Procesamiento Hadoop Sara Del Río García 1 Qué es Hadoop? Es un proyecto

Más detalles

CURSO PRESENCIAL: ADMINISTRADOR HADOOP

CURSO PRESENCIAL: ADMINISTRADOR HADOOP CURSO PRESENCIAL: ADMINISTRADOR HADOOP Información detallada del curso www.formacionhadoop.com El curso se desarrolla a lo largo de 4 semanas seguidas. Se trata de un curso formato ejecutivo que permite

Más detalles

CURSO: DESARROLLADOR PARA APACHE HADOOP

CURSO: DESARROLLADOR PARA APACHE HADOOP CURSO: DESARROLLADOR PARA APACHE HADOOP CAPÍTULO 1: INTRODUCCIÓN www.formacionhadoop.com Índice 1 Por qué realizar el curso de desarrollador para Apache Hadoop? 2 Requisitos previos del curso 3 Bloques

Más detalles

PREVIEW BIDOOP 2.0. Big Data Brunch

PREVIEW BIDOOP 2.0. Big Data Brunch PREVIEW BIDOOP 2.0 Big Data Brunch 08 de Julio 2014 Quién soy? Trabajando con Hadoop desde 2010 sluangsay@pragsis.com @sourygna CTO de Pragsis Responsable departamento sistemas Preventa Instructor de Hadoop

Más detalles

PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop

PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop Julio 2015 DATOS GENERALES DE LA ESPECIALIDAD 1. Familia Profesional: INFORMÁTICA Y COMUNICACIONES (IFC) Área Profesional: SISTEMAS

Más detalles

XII Encuentro Danysoft en Microsoft Abril 2015. Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código

XII Encuentro Danysoft en Microsoft Abril 2015. Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código Ana María Bisbé York Servicios Profesionales sp@danysoft.com 916 638683 www.danysoft.com Abril 2015 Sala 1 SQL Server

Más detalles

CURSO PRESENCIAL: DESARROLLADOR BIG DATA

CURSO PRESENCIAL: DESARROLLADOR BIG DATA CURSO PRESENCIAL: DESARROLLADOR BIG DATA Información detallada del curso www.formacionhadoop.com El curso se desarrolla durante 3 semanas de Lunes a Jueves. Se trata de un curso formato ejecutivo que permite

Más detalles

PROGRAMA FORMATIVO Administrador Big Data Cloudera Apache Hadoop

PROGRAMA FORMATIVO Administrador Big Data Cloudera Apache Hadoop PROGRAMA FORMATIVO Administrador Big Data Cloudera Apache Hadoop Julio 2015 DATOS GENERALES DE LA ESPECIALIDAD 1. Familia Profesional: INFORMÁTICA Y COMUNICACIONES (IFC) Área Profesional: SISTEMAS Y TELEMÁTICA

Más detalles

Big Data. Analisís de grandes cantidades de datos. Sergio Marchena Quirós

Big Data. Analisís de grandes cantidades de datos. Sergio Marchena Quirós Big Data Analisís de grandes cantidades de datos Sergio Marchena Quirós Índice 1.0 Introducción...3 1.1 Objetivos del proyecto...3 1.1.1 Estudio Teórico...3 2.0 Big Data...3 2.1 las 5 V...3 2.2 Tipos de

Más detalles

Software Libre para Aplicaciones de Big Data

Software Libre para Aplicaciones de Big Data Software Libre para Aplicaciones de Big Data Club de Investigación Tecnológica San José, Costa Rica 2014.07.16 Theodore Hope! hope@aceptus.com Big Data: Qué es?! Conjuntos de datos de: " Alto volumen (TBs

Más detalles

Big Data en la nube. Use los datos. Obtenga información. La pregunta clave es: Qué puede hacer Doopex por mi negocio?

Big Data en la nube. Use los datos. Obtenga información. La pregunta clave es: Qué puede hacer Doopex por mi negocio? Qué es Doopex? Big Data en la nube. Use los datos. Obtenga información. Seguramente, la pregunta clave no es Qué es Doopex?. La pregunta clave es: Qué puede hacer Doopex por mi negocio? El objetivo de

Más detalles

RODRIGO TAPIA SANTIS (rtapiasantis@gmail com) has a. non-transferable license to use this Student Guide

RODRIGO TAPIA SANTIS (rtapiasantis@gmail com) has a. non-transferable license to use this Student Guide Introducción Objetivos del Curso Al finalizar este curso, debería estar capacitado para: Instalar, crear y administrar Oracle Database 11g Versión 2 Configurar la base de datos para una aplicación Utilizar

Más detalles

Monitorización de actividades de datos InfoSphere Guardium para Big Data

Monitorización de actividades de datos InfoSphere Guardium para Big Data Monitorización de actividades de datos InfoSphere Guardium para Big Data Amal Mashlab IBM Software Group, Information Management Responsable de Ventas de Gobierno de la Información para Europa Cumplir

Más detalles

Comprender un poco más de los que es Apache Pig y Hadoop. El tutorial de cerdo muestra cómo ejecutar dos scripts de cerdo en modo local y el

Comprender un poco más de los que es Apache Pig y Hadoop. El tutorial de cerdo muestra cómo ejecutar dos scripts de cerdo en modo local y el APACHE PIG CONTENIDO 1. Introducción 3 1.1. Apache Pig 3 1.2. Propiedades 4 1.3. Requisitos para Apache Pig 4 1.4. Instalación de Hadoop 5 1.5. Instalación de java 5 1.6. Instalación de Pig 6 1.7. Ejecución

Más detalles

Global File System (GFS)...

Global File System (GFS)... Global File System (GFS)... Diferente a los sistemas de ficheros en red que hemos visto, ya que permite que todos los nodos tengan acceso concurrente a los bloques de almacenamiento compartido (a través

Más detalles

Unidad 1: Conceptos generales de Sistemas Operativos.

Unidad 1: Conceptos generales de Sistemas Operativos. Unidad 1: Conceptos generales de Sistemas Operativos. Tema 3: Estructura del sistema operativo. 3.1 Componentes del sistema. 3.2 Servicios del sistema operativo. 3.3 Llamadas al sistema. 3.4 Programas

Más detalles

Modelo de Gobierno de Datos con SPARK

Modelo de Gobierno de Datos con SPARK Página1 Configuración de la máquina maestra Para un sistema de Hadoop Para configurar una máquina como maestra en un cluster de Hadoop, es necesario modificar algunos archivos que se encuentran dentro

Más detalles

CONFIGURACIONES DE ALTA DISPONIBILIDAD

CONFIGURACIONES DE ALTA DISPONIBILIDAD Capítulo 8. CONFIGURACIONES DE ALTA DISPONIBILIDAD Autor: Índice de contenidos 8.1. SOLUCIONES DE ALTA DISPONIBILIDAD 8.2. RAID 8.3. BALANCEO DE CARGA 8.4. VIRTUALIZACIÓN 8.1. SOLUCIONES DE ALTA DISPONIBILIDAD

Más detalles

Arquitectura de sistema de alta disponibilidad

Arquitectura de sistema de alta disponibilidad Mysql Introducción MySQL Cluster esta diseñado para tener una arquitectura distribuida de nodos sin punto único de fallo. MySQL Cluster consiste en 3 tipos de nodos: 1. Nodos de almacenamiento, son los

Más detalles

Evaluación de la herramienta de código libre Apache Hadoop Universidad Carlos III de Madrid Escuela Politécnica Superior

Evaluación de la herramienta de código libre Apache Hadoop Universidad Carlos III de Madrid Escuela Politécnica Superior Evaluación de la herramienta de código libre Apache Hadoop Universidad Carlos III de Madrid Escuela Politécnica Superior Proyecto Fin de Carrera INGENIERÍA TÉCNICA DE TELECOMUNICACIÓN: TELEMÁTICA Autora:

Más detalles

Cocinando con Big Data

Cocinando con Big Data Cocinando con Big Data Javier Sánchez BDM Big Data jsanchez@flytech.es 91.300.51.09 21/11/2013 Javier Sánchez 1 Agenda Qué es Big Data? Receta Punto de Partida Para qué Big Data? Conclusiones 21/11/2013

Más detalles

Memoria Compartida Distribuida (DSM) Sistema de Archivos

Memoria Compartida Distribuida (DSM) Sistema de Archivos Memoria Compartida Distribuida (DSM) La memoria compartida distribuida es una abstracción que se propone como alternativa a la comunicación por mensajes. Memoria compartida basada en páginas: este esquema

Más detalles

Habilitando la empresa ágil a través de datos unificados La travesía hacia la plataforma de datos analítico-transaccionales

Habilitando la empresa ágil a través de datos unificados La travesía hacia la plataforma de datos analítico-transaccionales Habilitando la empresa ágil a través de datos unificados Agosto de 2015 Cómo se utilizan los datos hoy Los datos analíticos se derivan y separan a partir de datos transaccionales. Requieren bases de datos

Más detalles

Big Data: retos a nivel de desarrollo. Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co

Big Data: retos a nivel de desarrollo. Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co Big Data: retos a nivel de desarrollo Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co Cámara de Comercio de Bogotá Centro Empresarial Chapinero Agenda Introducción Bases de datos NoSQL Procesamiento

Más detalles

Índice. Presentación Stratebi Introducción Qué es? Características Principales Instalación & Configuración Comandos

Índice. Presentación Stratebi Introducción Qué es? Características Principales Instalación & Configuración Comandos Hbase Up & Running Índice Presentación Stratebi Introducción Qué es? Características Principales Instalación & Configuración Comandos Sobre nosotros - Stratebi Confían en Business Intelligence Open Source

Más detalles

Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica

Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica Fundamentos Título de de Big la Data presentación utilizando MATLAB Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica 1 Agenda Qué es Big Data? Buenas prácticas en el manejo de memoria.

Más detalles

PARADIGMA NOSQL: BASES DE DATOS COLUMNARES PARA AMBIENTE DATA WAREHOUSE

PARADIGMA NOSQL: BASES DE DATOS COLUMNARES PARA AMBIENTE DATA WAREHOUSE Universidad de San Carlos de Guatemala Facultad de Ingeniería Escuela de Ingeniería en Ciencias y Sistemas PARADIGMA NOSQL: BASES DE DATOS COLUMNARES PARA AMBIENTE DATA WAREHOUSE Erick Steve de la Cruz

Más detalles

Big Data Analytics: propuesta de una arquitectura

Big Data Analytics: propuesta de una arquitectura Big Data Analytics: propuesta de una arquitectura Jonathan Solano Rodriguez y Estefany Leiva Valverde Escuela de Ingeniería, Universidad Latinoamericana de Ciencia y Tecnología, ULACIT, Urbanización Tournón,

Más detalles

Jornadas INCATEC 2015

Jornadas INCATEC 2015 Jornadas INCATEC 2015 Dr. Pedro Nolasco Bonillo Ramos Ingeniero en Computación. USB Magíster en Ingeniería de Sistemas. USB Magíster en Gerencia de las Finanzas. UNY Doctor en Ciencias de la Computación.

Más detalles

Especificación de la secuencia de mensajes que se han de intercambiar. Especificación del formato de los datos en los mensajes.

Especificación de la secuencia de mensajes que se han de intercambiar. Especificación del formato de los datos en los mensajes. SISTEMAS DISTRIBUIDOS DE REDES 2.- MODELOS ORIENTADOS A OBJETOS DISTRIBUIDOS 2.1. Tecnologías de sistemas distribuidos Para la implementación de sistemas distribuidos se requiere de tener bien identificados

Más detalles

Solución empresarial Hadoop de EMC. NAS de escalamiento horizontal Isilon y Greenplum HD

Solución empresarial Hadoop de EMC. NAS de escalamiento horizontal Isilon y Greenplum HD Informe técnico Solución empresarial Hadoop de EMC NAS de escalamiento horizontal Isilon y Greenplum HD Por Julie Lockner, analista ejecutivo, y Terri McClure, analista ejecutivo Febrero de 2012 Este Informe

Más detalles

Política de Continuidad del Negocio de BME Clearing

Política de Continuidad del Negocio de BME Clearing Política de Continuidad del Negocio de BME Clearing Contenido 1. Introducción 1 2. Objetivos globales de la Política de Continuidad 1 3. Alcance de la Política de Continuidad del Negocio de BME CLEARING

Más detalles

Instalación Hadoop. Guía para Debian y derivados

Instalación Hadoop. Guía para Debian y derivados Instalación Hadoop Guía para Debian y derivados Índice Instalación Hadoop Hadoop Distributed File System a. NameNode b. DataNode. Requisitos Diferentes modos de configuración Instalación Java Instalación

Más detalles

Facultad Politécnica UNA Ing. Julio Paciello juliopaciello@gmail.com

Facultad Politécnica UNA Ing. Julio Paciello juliopaciello@gmail.com Facultad Politécnica UNA Ing. Julio Paciello juliopaciello@gmail.com Contenidos Clúster de Investigación Aplicada Proyectos HPC Clúster Hadoop para tecnologías de BI Una nube privada para la Administración

Más detalles

Introducción a Hadoop

Introducción a Hadoop Introducción a Hadoop Patrocinado por Bahía Software Tomás Fernández Pena Centro Singular de Investigación en Tecnoloxías da Información Universidade de Santiago de Compostela citius.usc.es Qué es MapReduce?

Más detalles

Fernando Gutiérrez-Cabello. Data Discovery y visualizaciones en MicroStrategy 10

Fernando Gutiérrez-Cabello. Data Discovery y visualizaciones en MicroStrategy 10 Fernando Gutiérrez-Cabello Data Discovery y visualizaciones en MicroStrategy 10 Clientes Beta de MicroStrategy 10 Por primera vez, MicroStrategy 10 ofrece una plataforma de analítica que combina una experiencia

Más detalles

2875: INTEGRACIÓN DE HADOOP CON PLANIFICADORES BATCH

2875: INTEGRACIÓN DE HADOOP CON PLANIFICADORES BATCH 2875: INTEGRACIÓN DE HADOOP CON PLANIFICADORES BATCH Memoria del Proyecto Fin de Carrera de Ingeniería en Informática realizado por José Fidel Díaz Cañizares y dirigido por Porfidio Hernández Budé Bellaterra,

Más detalles

INTRODUCCIÓN A LA COMPUTACION EN LA NUBE Y BIG DATA (1) Ing. Carlos Ormella Meyer

INTRODUCCIÓN A LA COMPUTACION EN LA NUBE Y BIG DATA (1) Ing. Carlos Ormella Meyer INTRODUCCIÓN A LA COMPUTACION EN LA NUBE Y BIG DATA (1) Ing. Carlos Ormella Meyer En los últimos años, el interés por la Computación en la Nube (Cloud Computing), tanto para uso personal como para negocios,

Más detalles

BUSINESS INTELLIGENCE Y REDSHIFT

BUSINESS INTELLIGENCE Y REDSHIFT Whitepaper BUSINESS INTELLIGENCE Y REDSHIFT BEE PART OF THE CHANGE hablemos@beeva.com www.beeva.com LAS SOLUCIONES QUE TU BI NECESITA Con Amazon Web Services (AWS) es posible disponer con solo unos clics

Más detalles

CURSOS DE VERANO 2014

CURSOS DE VERANO 2014 CURSOS DE VERANO 2014 CLOUD COMPUTING: LA INFORMÁTICA COMO SERVICIO EN INTERNET La plataforma Google Cloud Platform. Google App Engine Pedro A. Castillo Valdivieso Universidad de Granada La plataforma

Más detalles

Análisis de sentimientos de tweets.

Análisis de sentimientos de tweets. Análisis de sentimientos de tweets. JIT-CITA 2013 Resumen Un sensor de sentimientos de tweets para identificar los mensajes positivos, negativos y neutros sobre cualquier trend que se tome sobre esta red

Más detalles

INTRODUCCIÓN A APACHE SPARK CON PYTHON

INTRODUCCIÓN A APACHE SPARK CON PYTHON Ls INTRODUCCIÓN A APACHE SPARK CON PYTHON Introducción a Apache Spark Jortilles.com info@jortilles.com Índice de contenido 1.Descripción...3 2.Cual es su ventaja competitiva...3 3.Instalación...3 4.Conceptos

Más detalles

OpenNebula y Hadoop: Cloud Computing con herramientas Open Source. [Memoria del proyecto]

OpenNebula y Hadoop: Cloud Computing con herramientas Open Source. [Memoria del proyecto] OpenNebula y Hadoop: Cloud Computing con herramientas Open Source [Memoria del proyecto] [Francisco Magaz Villaverde] Consultor: Victor Carceler Hontoria Junio 2012 I. Resumen Cloud Computing (Computación

Más detalles

SISTEMA PARA GENERAR GRÁFICAS A PARTIR DE LOGS TCPDUMP USANDO HADOOP. Ángel Stalin Cruz Palaquibay Pedro Alfredo Torres Arellano

SISTEMA PARA GENERAR GRÁFICAS A PARTIR DE LOGS TCPDUMP USANDO HADOOP. Ángel Stalin Cruz Palaquibay Pedro Alfredo Torres Arellano SISTEMA PARA GENERAR GRÁFICAS A PARTIR DE LOGS TCPDUMP USANDO HADOOP Ángel Stalin Cruz Palaquibay Pedro Alfredo Torres Arellano Descripción general 2 El Problema Motivación Objetivos Metodología del proyecto

Más detalles

MÁSTER: MÁSTER DESARROLLADOR BIG DATA

MÁSTER: MÁSTER DESARROLLADOR BIG DATA MÁSTER: MÁSTER DESARROLLADOR BIG DATA Información detallada del máster www.formacionhadoop.com Este máster online está enfocado a los desarrolladores que quieran aprender a construir potentes aplicaciones

Más detalles

Que es el CopV? Todo esto y mucho más es posible si utiliza nuestro sistema CopV en la red de su empresa o negocio!!

Que es el CopV? Todo esto y mucho más es posible si utiliza nuestro sistema CopV en la red de su empresa o negocio!! Que es el CopV? El CopV es un software de monitoreo en Redes producido por nuestra empresa, usted puede monitorear desde cualquier PC las actividades de todas las demás computadoras de la red de su empresa

Más detalles

ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIÓN

ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIÓN ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIÓN Titulación: INGENIERO TÉCNICO EN INFORMÁTICA DE GESTIÓN Título del proyecto: Benchmarking Distributed System in the Cloud: Yahoo!

Más detalles

ES 2 425 447 A2 ESPAÑA 11. Número de publicación: 2 425 447. Número de solicitud: 201230550 G06F 9/00 (2006.01) 12.04.2012

ES 2 425 447 A2 ESPAÑA 11. Número de publicación: 2 425 447. Número de solicitud: 201230550 G06F 9/00 (2006.01) 12.04.2012 19 OFICINA ESPAÑOLA DE PATENTES Y MARCAS ESPAÑA 11 21 Número de publicación: 2 42 447 Número de solicitud: 2012300 1 Int. CI.: G06F 9/00 (2006.01) 12 SOLICITUD DE PATENTE A2 22 Fecha de presentación: 12.04.2012

Más detalles

Tecnologías de la Información en la Gestión Empresarial

Tecnologías de la Información en la Gestión Empresarial Tecnologías de la Información en la Gestión Empresarial 1 Sesión No.8 Nombre: Procesos de Negocio y Gestión en Business Intelligence Objetivo: Al término de la sesión, el alumno ilustrará un proceso de

Más detalles

Sesión No. 2. Contextualización INFORMÁTICA 1. Nombre: Sistema Operativo (Microsoft Windows)

Sesión No. 2. Contextualización INFORMÁTICA 1. Nombre: Sistema Operativo (Microsoft Windows) INFORMÁTICA INFORMÁTICA 1 Sesión No. 2 Nombre: Sistema Operativo (Microsoft Windows) Contextualización El sistema operativo es el programa principal de la computadora que controla los procesos informáticos

Más detalles

CURSOS DE VERANO 2014

CURSOS DE VERANO 2014 CURSOS DE VERANO 2014 CLOUD COMPUTING: LA INFORMÁTICA COMO SERVICIO EN INTERNET LA PLATAFORMA GOOGLE CLOUD PLATFORM. GOOGLE APP ENGINE Pedro A. Castillo Valdivieso Universidad de Granada http://bit.ly/unia2014

Más detalles

Big Data y BAM con WSO2

Big Data y BAM con WSO2 Mayo 2014 Big Data y BAM con Leonardo Torres Centro Experto en SOA/BPM en atsistemas ofrece una completa suite de productos Open Source SOA y son contribuidores de muchos de los productos de Apache, como

Más detalles

índice CONVENCIONES USADAs...17

índice CONVENCIONES USADAs...17 índice CONVENCIONES USADAs...17 capítulo 1. INSTALAción del servidor...19 1.1 Novedades en Windows Server 2012...19 1.2 La familia de Windows Server 2012...20 1.3 Roles de Windows Server 2012...21 1.4

Más detalles

Visión general CIUDADANO SECTOR PÚBLICO. Necesidades y servicios alineados. Toma de decisiones HERRAMIENTAS. Mejora de la trazabilidad del dato

Visión general CIUDADANO SECTOR PÚBLICO. Necesidades y servicios alineados. Toma de decisiones HERRAMIENTAS. Mejora de la trazabilidad del dato Plataforma DATUNE Solución Big Open Data para las administraciones que permite relacionar los datos del ciudadano y de los servicios públicos para una administración orientada a datos. Proyecto cofinanciado

Más detalles

CENTRO DE DATOS Y POP

CENTRO DE DATOS Y POP Virtual y física. Pública y privada. Por horas o por meses. Nuestra plataforma unificada proporciona infraestructuras en la nube a nivel de Internet. Todo lo que quiera, desplegado bajo demanda y en tiempo

Más detalles

Diplomado en Big Data

Diplomado en Big Data 160 horas Diplomado en Big Data BROCHURE, 2015 Contenido Quienes somos?... 3 Presentación del Programa... 4 Perfíl del Facilitador. 5 Objetivos.. 6 Información General.. 7 Plan de Estudio... 8-9 Plan de

Más detalles

Solución para tus planes de contingencia y continuidad de negocio

Solución para tus planes de contingencia y continuidad de negocio Solución para tus planes de contingencia y continuidad de negocio Copias de seguridad remotas vía Internet de grandes volúmenes de información ε-indi backup remoto es un software multiplataforma de alto

Más detalles

Arquitectura y seguridad

Arquitectura y seguridad En el desarrollo del SIGOB nos hemos enfrentado a diversos problemas que nos han llevado a investigar y desarrollar nuestras propias tecnologías. En este documento presentamos cada uno de los desarrollos

Más detalles

HDInsight. Big Data, al estilo Microsoft

HDInsight. Big Data, al estilo Microsoft HDInsight Big Data, al estilo Microsoft PABLO DOVAL SQL/BI Team Lead palvarez@plainconcepts.com http://geeks.ms/blogs/palvarez @PabloDoval Big Data ALGUNAS ESTADÍSTICAS DE SQL SERVER Categoría Metrica

Más detalles

Windows Server 2012: Zonas DNS

Windows Server 2012: Zonas DNS Windows Server 2012: Zonas DNS 2 Tabla de Contenidos Objetivos... 5 Zonas DNS... 7 Qué es una zona DNS?... 7 Tipos de zonas DNS... 7 Zona principal... 8 Zona secundaria... 8 Zona de rutas internas... 8

Más detalles

Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente

Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente Capítulo 4. Requisitos del modelo para la mejora de la calidad de código fuente En este capítulo definimos los requisitos del modelo para un sistema centrado en la mejora de la calidad del código fuente.

Más detalles

Arquitecturas de computadoras

Arquitecturas de computadoras Arquitecturas de computadoras Colaboratorio Nacional de Computación Avanzada (CNCA) 2014 Contenidos 1 Computadoras 2 Estación de Trabajo 3 Servidor 4 Cluster 5 Malla 6 Nube 7 Conclusiones Computadoras

Más detalles

IT@Intel Cómo TI de Intel migró con éxito hacia Cloudera Apache Hadoop*

IT@Intel Cómo TI de Intel migró con éxito hacia Cloudera Apache Hadoop* Documento técnico de IT@Intel Marzo de 2015 IT@Intel Cómo TI de Intel migró con éxito hacia Cloudera Apache Hadoop* A partir de nuestra experiencia original con el software Apache Hadoop, TI de Intel identificó

Más detalles

FUNDAMENTOS DE COMPUTACIÓN PARA CIENTÍFICOS. CNCA Abril 2013

FUNDAMENTOS DE COMPUTACIÓN PARA CIENTÍFICOS. CNCA Abril 2013 FUNDAMENTOS DE COMPUTACIÓN PARA CIENTÍFICOS CNCA Abril 2013 6. COMPUTACIÓN DE ALTO RENDIMIENTO Ricardo Román DEFINICIÓN High Performance Computing - Computación de Alto Rendimiento Técnicas, investigación

Más detalles

Instituto Tecnológico de Costa Rica Escuela de Ingeniería en Computación

Instituto Tecnológico de Costa Rica Escuela de Ingeniería en Computación Instituto Tecnológico de Costa Rica Escuela de Ingeniería en Computación "Data Analytics, procesamiento de grandes volúmenes de información para generar inteligencia de negocios" Proyecto de Graduación

Más detalles

Infraestructura de Big Data para el análisis y procesamiento de información generada por redes de sensores

Infraestructura de Big Data para el análisis y procesamiento de información generada por redes de sensores Infraestructura de Big Data para el análisis y procesamiento de información generada por redes de sensores Seminario internacional: Big Data para la Información Oficial y la Toma de Decisiones José A.

Más detalles

Sistemas de archivos distribuidos. Alvaro Ospina Sanjuan alvaro.ospina@correo.upb.edu.co

Sistemas de archivos distribuidos. Alvaro Ospina Sanjuan alvaro.ospina@correo.upb.edu.co Sistemas de archivos distribuidos Alvaro Ospina Sanjuan alvaro.ospina@correo.upb.edu.co >Abstracción del sistema operativo para representar y organizar los recursos de almacenamiento >Se debe hacer la

Más detalles

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE

PRUEBAS DE SOFTWARE TECNICAS DE PRUEBA DE SOFTWARE PRUEBAS DE SOFTWARE La prueba del software es un elemento crítico para la garantía de la calidad del software. El objetivo de la etapa de pruebas es garantizar la calidad del producto desarrollado. Además,

Más detalles

Informática y Programación Escuela de Ingenierías Industriales y Civiles Grado en Ingeniería en Ingeniería Química Curso 2010/2011

Informática y Programación Escuela de Ingenierías Industriales y Civiles Grado en Ingeniería en Ingeniería Química Curso 2010/2011 Módulo 1. Fundamentos de Computadores Informática y Programación Escuela de Ingenierías Industriales y Civiles Grado en Ingeniería en Ingeniería Química Curso 2010/2011 1 CONTENIDO Tema 1. Introducción

Más detalles

General Parallel File System

General Parallel File System General Parallel File System Introducción GPFS fue desarrollado por IBM, es un sistema que permite a los usuarios compartir el acceso a datos que están dispersos en múltiples nodos; permite interacción

Más detalles

Entendiendo y Optimizando MySQL

Entendiendo y Optimizando MySQL Grupo de Usuarios de Linux Universidad Carlos III de Madrid. 10 de Noviembre de 2010 Indice Arquitectura 1 Arquitectura 2 3 4 5 Arquitectura Sistema de Gestión de Bases de Datos. GPL. Escrito en C y C++.

Más detalles

LOOKWISE ENTERPRISE MANAGER NOVEDADES RELEASE 5.1

LOOKWISE ENTERPRISE MANAGER NOVEDADES RELEASE 5.1 LOOKWISE ENTERPRISE MANAGER NOVEDADES RELEASE 5.1 LOOKWISE ENTERPRISE MANAGER NOVEDADES RELEASE 5.1 página 2 de 17 S21sec - Pamplona, 2015 La información facilitada en este documento es propiedad de S21sec,

Más detalles

PINOT. La ingestión near real time desde Kafka complementado por la ingestión batch desde herramientas como Hadoop.

PINOT. La ingestión near real time desde Kafka complementado por la ingestión batch desde herramientas como Hadoop. PINOT Stratebi Paper (2015 info@stratebi.com www.stratebi.com) Pinot es la herramienta de análisis en tiempo real desarrollada por LinkedIn que la compañía ha liberado su código bajo licencia Apache 2.0,

Más detalles

D.4.3.1 Definición de la infraestructura de soporte.

D.4.3.1 Definición de la infraestructura de soporte. D.4.3.1 Definición de la infraestructura de soporte. RESUMEN EJECUTIVO El proyecto CloudPYME ha analizado, desarrollado y probado tres servicios de valor añadido para las PYME de la Euroregión Galicia-Norte

Más detalles

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Informe de materia de graduación Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Franklin Parrales Bravo Marco Calle Jaramillo Contenido o Herramientas o Motivación o Servicios y herramientas

Más detalles

Capítulo 1: Marco teórico

Capítulo 1: Marco teórico Capítulo 1: Marco teórico Área de Soporte Técnico Dentro de Oracle, como en cualquier compañía de software existe el área de Soporte Técnico, cuyo objetivo principal es el de brindar asistencia y proveer

Más detalles

No se requiere que los discos sean del mismo tamaño ya que el objetivo es solamente adjuntar discos.

No se requiere que los discos sean del mismo tamaño ya que el objetivo es solamente adjuntar discos. RAIDS MODO LINEAL Es un tipo de raid que muestra lógicamente un disco pero se compone de 2 o más discos. Solamente llena el disco 0 y cuando este está lleno sigue con el disco 1 y así sucesivamente. Este

Más detalles

Sistemas Operativos - Funciones del sistema operativo» Cargar y ejecutar programas (procesos)» Facilitar funciones de E/S» Controlar y distribuir el acceso a los recursos» Controlar errores Componentes

Más detalles

Sybase IQ Servidor analítico con arquitectura basada en columnas

Sybase IQ Servidor analítico con arquitectura basada en columnas Sybase IQ Servidor analítico con arquitectura basada en columnas www.sybase.es Sybase IQ Descripción Tener acceso a toda la información de que dispone su organización, con el fin de analizarla no es hoy

Más detalles

Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza

Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza IBM Software Information Management White Paper Cómo aprovechar la potencia de la analítica avanzada con IBM Netezza Un enfoque de appliance simplifica el uso de la analítica avanzada Cómo aprovechar la

Más detalles

UNIVERSIDAD TECNICA DEL NORTE Ing. Lenin Omar Lara Castro. BIG DATA

UNIVERSIDAD TECNICA DEL NORTE Ing. Lenin Omar Lara Castro. BIG DATA UNIVERSIDAD TECNICA DEL NORTE Ing. Lenin Omar Lara Castro. BIG DATA Historia del Arte: El Big Data o Datos Masivos se refieren a sistemas informáticos basados en la acumulación a gran escala de datos y

Más detalles

Marco Teórico MARCO TEÓRICO. AGNI GERMÁN ANDRACA GUTIERREZ

Marco Teórico MARCO TEÓRICO. AGNI GERMÁN ANDRACA GUTIERREZ MARCO TEÓRICO. 13 14 Virtualización Hablar de virtualización es hablar de un concepto que describe la posibilidad de tener varios sistemas operativos funcionando al mismo tiempo en un mismo equipo físico.

Más detalles