Escalar aplicaciones a cantidades masivas de datos Usando computadoras baratas muchas

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Escalar aplicaciones a cantidades masivas de datos Usando computadoras baratas muchas"

Transcripción

1 Hadoop

2 Problema Escalar aplicaciones a cantidades masivas de datos Usando computadoras baratas muchas Problemas de fiabilidad: alta probabilidad de que falle una o más computadoras Necesitamos algo que escale, que sea eficiente, barato y fiable

3 Solución Proyecto Apache de código abierto El núcleo de Hadoop: HDFS (Hadoop Distributed File System) distribuye los datos Map/Reduce distribuye la aplicación Escrito en Java Corre sobre Linux, Mac OS/X, Windows y Solaris Hardware común

4 Clusters de computadoras comunes Típicamente, en arquitecturas de 2 niveles Los nodos son PCs Linux 40 nodos/rack La subida de cada rack es 8 gigabit La interna de cada rack es 1 gigabit all-to-all

5 Contenidos Sistema de archivos distribuído (HDFS) Map/Reduce Hardware

6 Contenidos Sistema de archivos distribuído (HDFS) Map/Reduce Hardware

7 Sistema de archivos distribuído (HDFS) Un único sistema de archivos para todo el cluster Lo maneja un solo nodo de nombres Los archivos se escriben, leen, renombran, borran, pero append-only Optimizado para lecturas de archivos grandes. Los archivos se parten en bloques grandes. Transparente para el cliente Los bloques suelen ser de 128 MB Cada bloque se replica en varios nodos de datos, para aumentar la fiabilidad Se accede desde Java, C, o línea de comandos.

8 Ubicación de los bloques Por defecto, 3 copias Los bloques se ubican (con escritura en pipeline): En el mismo nodo En distinto rack En otro rack Los clientes leen de la copia más cercana Si la copia de un bloque no anda bien, se repite automáticamente la copia.

9 Flujo de datos del HDFS

10 Correctitud de los datos Los datos se comprueban con CRC32 Al crear archivos... El cliente hace un checksum cada 512 byte El DataNode guarda el checksum Al acceder archivos... El client recupera los datos y el checksum del DataNode Si la validación dá error, el cliente busca otras copias El DataNode hace comprobaciones periódicas

11 Contenidos Sistema de archivos distribuído (HDFS) Map/Reduce Hardware

12 Map/Reduce Map/Reduce es un modelo de programación para computación distribuida eficiente Funciona como un pipeline de Unix : cat input grep sort uniq -c cat > output Input Map Shuffle & Sort Reduce Output Muy útil para muchas aplicaciones: Procesar logs Construcción de un índice de la Web Data mining y machine learning Otras?

13 Flujo de datos de Map/Reduce

14 Características de Map/Reduce APIs en Java, C++, y texto Interfaces de más alto nivel: Pig, Scoobi Ante un fallo, se ejecuta de vuelta automáticamente El JobTracker delega diferentes tareas Los TaskTracker ejecutan las tareas y devuelven los resultados al JobTracker también heartbeats Optimización de ubicación Para no saturar la red local con la gran cantidad de datos Map-Reduce se comunica con HDFS para conocer la ubicación de los datos El JobTracker ubica los TaskTrackers en nodos lo más cercanos posible

15 Contenidos Sistema de archivos distribuído (HDFS) Map/Reduce ejemplos Hardware

16 Ejemplo con conteo de palabras Mapper Input: valor: líneas de texto Output: llave: palabra, valor: 1 Reducer Input: llave: palabra, valor: conjunto de conteos Output: llave: palabra, valor: suma Programa que lanza el trabajo Define el trabajo Envía el trabajo al cluster

17 Flujo de datos de conteo de palabras

18 Ejemplo: Mapper de conteo de palabras public static class MapClass extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> { private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(longwritable key, Text value, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException { String line = value.tostring(); StringTokenizer itr = new StringTokenizer(line); while (itr.hasmoretokens()) { word.set(itr.nexttoken()); output.collect(word, one); } } }

19 Ejemplo: Reducer de conteo de palabras public static class Reduce extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable> { public void reduce(text key, Iterator<IntWritable> values, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException { int sum = 0; while (values.hasnext()) { sum += values.next().get(); } output.collect(key, new IntWritable(sum)); } }

20 Interfaz para conteo de palabras en Python (dumbo) import dumbo def mapper(key,value): for word in value.split(): yield word,1 def reducer(key,values): yield key,sum(values) if name == " main ": dumbo.run(mapper,reducer)

21 Contenidos Sistema de archivos distribuído (HDFS) Map/Reduce ejemplos Hardware

22 NY Times Needed offline conversion of public domain articles from Used Hadoop to convert scanned images to PDF Ran 100 Amazon EC2 instances for around 24 hours 4 TB of input 1.5 TB of output Published 1892, copyright New York Times

23 Contenidos Sistema de archivos distribuído (HDFS) Map/Reduce ejemplos Hardware

24 Terabyte Sort Benchmark Started by Jim Gray at Microsoft in 1998 Sorting 10 billion 100 byte records Hadoop won general category in 209 seconds (prev was 297 ) 910 nodes 2 quad-core 2.0Ghz / node 4 SATA disks / node 8 GB ram / node 1 gb ethernet / node and 8 gb ethernet uplink / rack 40 nodes / rack Only hard parts were: Getting a total order Converting the data generator to map/reduce

25 Contenidos Sistema de archivos distribuído (HDFS) Map/Reduce Hardware

26 Hadoop clusters We have ~20,000 machines running Hadoop Our largest clusters are currently 2000 nodes Several petabytes of user data (compressed, unreplicated) We run hundreds of thousands of jobs every month

27 Research Cluster Usage

28 Comunidad de Hadoop Apache se organiza en comunidades por proyecto, con: Usuarios Contributors Escriben parches Committers Pueden subir los parches (commit) Comité del Proyecto Votan para que alguien pueda ser committer y deciden los releases Apache es una meritocracia

29 Quién usa Hadoop? Amazon/A9 Facebook Google IBM Joost Last.fm New York Times PowerSet (now Microsoft) Quantcast Veoh Yahoo! More at

30 Q&A Más información: Website: Mailing lists:

Alessandro Chacón 05-38019. Ernesto Level 05-38402. Ricardo Santana 05-38928

Alessandro Chacón 05-38019. Ernesto Level 05-38402. Ricardo Santana 05-38928 Alessandro Chacón 05-38019 Ernesto Level 05-38402 Ricardo Santana 05-38928 CONTENIDO Universo Digital Hadoop HDFS: Hadoop Distributed File System MapReduce UNIVERSO DIGITAL 161 EB 2006 Fuente: International

Más detalles

CURSO: DESARROLLADOR PARA APACHE HADOOP

CURSO: DESARROLLADOR PARA APACHE HADOOP CURSO: DESARROLLADOR PARA APACHE HADOOP CAPÍTULO 3: HADOOP CONCEPTOS BÁSICOS www.formacionhadoop.com Índice 1 Introducción a Hadoop 1.1 Proyecto Hadoop 1.2 Conceptos de Hadoop 2 Cluster Hadoop 2.1 Demonios

Más detalles

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López APACHE HADOOP Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López Objetivos 1. Qué es Apache Hadoop? 2. Funcionalidad 2.1. Map/Reduce 2.2. HDFS 3. Casos prácticos 4. Hadoop

Más detalles

Big Data y Supercómputo. Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE)

Big Data y Supercómputo. Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) Big Data y Supercómputo Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) Big Data 2 Hasta qué cantidad de datos podemos procesar en nuestra

Más detalles

COMO USAR HADOOP. Y sobrevivir a la experiencia

COMO USAR HADOOP. Y sobrevivir a la experiencia COMO USAR HADOOP Y sobrevivir a la experiencia ORGANIZACIÓN Descripción Hadoop: Procesos involucrados Esquema de Funcionamiento Instalación de Hadoop Instalación Local Descripción de Instalación en Cluster

Más detalles

CURSOS DE VERANO 2014

CURSOS DE VERANO 2014 CURSOS DE VERANO 2014 APROXIMACIÓN PRÁCTICA A LA CIENCIA DE DATOS Y BIG DATA: HERRAMIENTAS KNIME, R, HADOOP Y MAHOUT. Entorno de Procesamiento Hadoop Sara Del Río García 1 Qué es Hadoop? Es un proyecto

Más detalles

FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS

FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS Introducción Los algoritmos utilizados para el procesamiento de imágenes son de complejidad computacional alta. Por esto

Más detalles

Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source

Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source Francisco Magaz Villaverde Consultor: Víctor Carceler Hontoria Junio 2012 Contenido Introducción Qué es Cloud Compu5ng?

Más detalles

The H Hour: Hadoop The awakening of the BigData. Antonio Soto SolidQ COO asoto@solidq.com @antoniosql

The H Hour: Hadoop The awakening of the BigData. Antonio Soto SolidQ COO asoto@solidq.com @antoniosql The H Hour: Hadoop The awakening of the BigData Antonio Soto SolidQ COO asoto@solidq.com @antoniosql Tendencias de la Industria El nuevo rol del operador El operador de ayer Sigue el proceso basado en

Más detalles

Resumen. Abstract. 2. Generalidades. 1. Introducción. Palabras Clave: Hadoop, MapReduce, Lynx, Búsquedas, Optimización.

Resumen. Abstract. 2. Generalidades. 1. Introducción. Palabras Clave: Hadoop, MapReduce, Lynx, Búsquedas, Optimización. Búsquedas optimizadas en la página web de la ESPOL Jorge Herrera Medina (1), Carlos Rodríguez Rivera (2), Vanesa Cedeño Mieles (3) Facultad de Ingeniería en Electricidad y Computación (FIEC) Escuela Superior

Más detalles

Big data A través de una implementación

Big data A través de una implementación Big data A través de una implementación Lic. Diego Krauthamer Profesor Adjunto Interino del Área Base de Datos Universidad Abierta Interamericana Facultad de Tecnología Informática Buenos Aires. Argentina

Más detalles

Hadoop. Cómo vender un cluster Hadoop?

Hadoop. Cómo vender un cluster Hadoop? Hadoop Cómo vender un cluster Hadoop? ÍNDICE Problema Big Data Qué es Hadoop? Descripción HDSF Map Reduce Componentes de Hadoop Hardware Software 3 EL PROBLEMA BIG DATA ANTES Los datos los generaban las

Más detalles

SISTEMA PARA GENERAR GRÁFICAS A PARTIR DE LOGS TCPDUMP USANDO HADOOP. Ángel Stalin Cruz Palaquibay Pedro Alfredo Torres Arellano

SISTEMA PARA GENERAR GRÁFICAS A PARTIR DE LOGS TCPDUMP USANDO HADOOP. Ángel Stalin Cruz Palaquibay Pedro Alfredo Torres Arellano SISTEMA PARA GENERAR GRÁFICAS A PARTIR DE LOGS TCPDUMP USANDO HADOOP Ángel Stalin Cruz Palaquibay Pedro Alfredo Torres Arellano Descripción general 2 El Problema Motivación Objetivos Metodología del proyecto

Más detalles

Evaluación de la herramienta de código libre Apache Hadoop Universidad Carlos III de Madrid Escuela Politécnica Superior

Evaluación de la herramienta de código libre Apache Hadoop Universidad Carlos III de Madrid Escuela Politécnica Superior Evaluación de la herramienta de código libre Apache Hadoop Universidad Carlos III de Madrid Escuela Politécnica Superior Proyecto Fin de Carrera INGENIERÍA TÉCNICA DE TELECOMUNICACIÓN: TELEMÁTICA Autora:

Más detalles

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Informe de materia de graduación Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Franklin Parrales Bravo Marco Calle Jaramillo Contenido o Herramientas o Motivación o Servicios y herramientas

Más detalles

Qué significa Hadoop en el mundo del Big Data?

Qué significa Hadoop en el mundo del Big Data? Qué significa Hadoop en el mundo del Big Data? Un contenido para perfiles técnicos 2 ÍNDICE Qué significa Hadoop en el Universo Big Data?.... 3 El planteamiento: big data y data science.... 3 Los desafíos

Más detalles

# the. in the next command references the cloudera home directory # in hdfs, /user/cloudera

# the. in the next command references the cloudera home directory # in hdfs, /user/cloudera Una rápida introducción a HDFS y MapReduce Antes de iniciar a mover datos entre su base de datos relacional y Hadoop, usted necesita una rápida introducción a HDFS y a MapReduce. Hay muchos tutoriales

Más detalles

BIG DATA. Jorge Mercado. Software Quality Engineer

BIG DATA. Jorge Mercado. Software Quality Engineer BIG DATA Jorge Mercado Software Quality Engineer Agenda Big Data - Introducción Big Data - Estructura Big Data - Soluciones Conclusiones Q&A Big Data - Introducción Que es Big Data? Big data es el termino

Más detalles

Big Data. Analisís de grandes cantidades de datos. Sergio Marchena Quirós

Big Data. Analisís de grandes cantidades de datos. Sergio Marchena Quirós Big Data Analisís de grandes cantidades de datos Sergio Marchena Quirós Índice 1.0 Introducción...3 1.1 Objetivos del proyecto...3 1.1.1 Estudio Teórico...3 2.0 Big Data...3 2.1 las 5 V...3 2.2 Tipos de

Más detalles

Instalación Hadoop. Guía para Debian y derivados

Instalación Hadoop. Guía para Debian y derivados Instalación Hadoop Guía para Debian y derivados Índice Instalación Hadoop Hadoop Distributed File System a. NameNode b. DataNode. Requisitos Diferentes modos de configuración Instalación Java Instalación

Más detalles

Instituto Tecnológico de Costa Rica Escuela de Ingeniería en Computación

Instituto Tecnológico de Costa Rica Escuela de Ingeniería en Computación Instituto Tecnológico de Costa Rica Escuela de Ingeniería en Computación "Data Analytics, procesamiento de grandes volúmenes de información para generar inteligencia de negocios" Proyecto de Graduación

Más detalles

Comandos HDF Breve manual

Comandos HDF Breve manual Comandos HDF Breve manual Diego J. Bodas Sagi Julio de 2014 Índice Comandos Linux / Unix Comandos HDFS Ejemplos Resumen 2 Comandos interesantes para Data Science Tener soltura a la hora de interactuar

Más detalles

Sistema de reportes y análisis sobre tendencias en la Web de la ESPOL usando Hadoop para el procesamiento masivo de los datos.

Sistema de reportes y análisis sobre tendencias en la Web de la ESPOL usando Hadoop para el procesamiento masivo de los datos. Sistema de reportes y análisis sobre tendencias en la Web de la ESPOL usando Hadoop para el procesamiento masivo de los datos. Gallardo Luis, Bermeo Fabricio, Cedeño Vanessa Msc. Facultad de Ingeniería

Más detalles

public static void main(string[ ] args) { Numero f1 = new Numero(3); Numero f2 = new Numero(4); Numero f3 = f1; f1.value = f2.value; Numero f4 = null;

public static void main(string[ ] args) { Numero f1 = new Numero(3); Numero f2 = new Numero(4); Numero f3 = f1; f1.value = f2.value; Numero f4 = null; Examen de Programación Convocatoria de Septiembre 2005 Licenciatura de Lingüística y Nuevas Tecnologías Pregunta 1 Tenemos el siguiente programa: public class Numero { int value; public Numero(int i) {

Más detalles

Big Data con nombres propios

Big Data con nombres propios Febrero 2014 Big Data con Al hablar de tecnología Big Data se está obligado, sin duda alguna, a hablar de programación paralela y procesamiento distribuido, ya que éstas serán las características que permitirán

Más detalles

Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica

Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica Fundamentos Título de de Big la Data presentación utilizando MATLAB Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica 1 Agenda Qué es Big Data? Buenas prácticas en el manejo de memoria.

Más detalles

Comprender un poco más de los que es Apache Pig y Hadoop. El tutorial de cerdo muestra cómo ejecutar dos scripts de cerdo en modo local y el

Comprender un poco más de los que es Apache Pig y Hadoop. El tutorial de cerdo muestra cómo ejecutar dos scripts de cerdo en modo local y el APACHE PIG CONTENIDO 1. Introducción 3 1.1. Apache Pig 3 1.2. Propiedades 4 1.3. Requisitos para Apache Pig 4 1.4. Instalación de Hadoop 5 1.5. Instalación de java 5 1.6. Instalación de Pig 6 1.7. Ejecución

Más detalles

Conectores Pentaho Big Data Community VS Enterprise

Conectores Pentaho Big Data Community VS Enterprise Conectores Pentaho Big Data Community VS Enterprise Agosto 2014 Stratebi Business Solutions www.stratebi.com info@stratebi.com Índice 1. Resumen... 3 2. Introducción... 4 3. Objetivo... 4 4. Pentaho Community

Más detalles

Facultad Politécnica UNA Ing. Julio Paciello juliopaciello@gmail.com

Facultad Politécnica UNA Ing. Julio Paciello juliopaciello@gmail.com Facultad Politécnica UNA Ing. Julio Paciello juliopaciello@gmail.com Contenidos Clúster de Investigación Aplicada Proyectos HPC Clúster Hadoop para tecnologías de BI Una nube privada para la Administración

Más detalles

Big Data en la nube. Use los datos. Obtenga información. La pregunta clave es: Qué puede hacer Doopex por mi negocio?

Big Data en la nube. Use los datos. Obtenga información. La pregunta clave es: Qué puede hacer Doopex por mi negocio? Qué es Doopex? Big Data en la nube. Use los datos. Obtenga información. Seguramente, la pregunta clave no es Qué es Doopex?. La pregunta clave es: Qué puede hacer Doopex por mi negocio? El objetivo de

Más detalles

Desarrollo de un entorno basado en MapReduce para la ejecución distribuida de algoritmos genéticos paralelos

Desarrollo de un entorno basado en MapReduce para la ejecución distribuida de algoritmos genéticos paralelos UNIVERSIDADE DA CORUÑA FACULTAD DE INFORMÁTICA Departamento de Electrónica y Sistemas PROYECTO FIN DE CARRERA DE INGENIERÍA INFORMÁTICA Desarrollo de un entorno basado en MapReduce para la ejecución distribuida

Más detalles

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO PRESENTACIÓN ANTONIO GONZÁLEZ CASTRO IT SECURITY DIRECTOR EN PRAGSIS TECHNOLOGIES agcastro@pragsis.com antoniogonzalezcastro.es @agonzaca linkedin.com/in/agonzaca

Más detalles

Índice. Presentación Stratebi Introducción Qué es? Características Principales Instalación & Configuración Comandos

Índice. Presentación Stratebi Introducción Qué es? Características Principales Instalación & Configuración Comandos Hbase Up & Running Índice Presentación Stratebi Introducción Qué es? Características Principales Instalación & Configuración Comandos Sobre nosotros - Stratebi Confían en Business Intelligence Open Source

Más detalles

HDInsight. Big Data, al estilo Microsoft

HDInsight. Big Data, al estilo Microsoft HDInsight Big Data, al estilo Microsoft PABLO DOVAL SQL/BI Team Lead palvarez@plainconcepts.com http://geeks.ms/blogs/palvarez @PabloDoval Big Data ALGUNAS ESTADÍSTICAS DE SQL SERVER Categoría Metrica

Más detalles

La API Java MapReduce Una breve introducción

La API Java MapReduce Una breve introducción La API Java MapReduce Una breve introducción Diego J. Bodas Sagi Julio de 2014 Índice El entorno Configuración del proyecto Librerías MapReduce Introducción a la Java API Primeros ejemplos Resumen 2 Entorno

Más detalles

INTRODUCCIÓN A APACHE SPARK CON PYTHON

INTRODUCCIÓN A APACHE SPARK CON PYTHON Ls INTRODUCCIÓN A APACHE SPARK CON PYTHON Introducción a Apache Spark Jortilles.com info@jortilles.com Índice de contenido 1.Descripción...3 2.Cual es su ventaja competitiva...3 3.Instalación...3 4.Conceptos

Más detalles

ÍNDICE. Introducción... Capítulo 1. Conceptos de Big Data... 1

ÍNDICE. Introducción... Capítulo 1. Conceptos de Big Data... 1 ÍNDICE Introducción... XIII Capítulo 1. Conceptos de Big Data... 1 Definición, necesidad y características de Big Data... 1 Aplicaciones típicas de Big Data... 4 Patrones de detección del fraude... 4 Patrones

Más detalles

2875: INTEGRACIÓN DE HADOOP CON PLANIFICADORES BATCH

2875: INTEGRACIÓN DE HADOOP CON PLANIFICADORES BATCH 2875: INTEGRACIÓN DE HADOOP CON PLANIFICADORES BATCH Memoria del Proyecto Fin de Carrera de Ingeniería en Informática realizado por José Fidel Díaz Cañizares y dirigido por Porfidio Hernández Budé Bellaterra,

Más detalles

:Arquitecturas Paralela basada en clusters.

:Arquitecturas Paralela basada en clusters. Computación de altas prestaciones: Arquitecturas basadas en clusters Sesión n 1 :Arquitecturas Paralela basada en clusters. Jose Luis Bosque 1 Introducción Computación de altas prestaciones: resolver problemas

Más detalles

Manual de usuario TFGPredicción.

Manual de usuario TFGPredicción. Manual de usuario TFGPredicción. Solución para predicción de riesgo en países remotos. TFGPrediccion Versión 1.0 Autor: Alejandro Mejías Ríos. Organización: Universitat Oberta de Catalunya Manual TFGPrediccion

Más detalles

Big Data & Machine Learning. MSc. Ing. Máximo Gurméndez Universidad de Montevideo

Big Data & Machine Learning. MSc. Ing. Máximo Gurméndez Universidad de Montevideo Big Data & Machine Learning MSc. Ing. Máximo Gurméndez Universidad de Montevideo Qué es Big Data? Qué es Machine Learning? Qué es Data Science? Ejemplo: Predecir origen de artículos QUÉ DIARIO LO ESCRIBIÓ?

Más detalles

Roberto Díaz Morales rdiazm@tsc.uc3m.es MLG 24/06/2013

Roberto Díaz Morales rdiazm@tsc.uc3m.es MLG 24/06/2013 Roberto Díaz Morales rdiazm@tsc.uc3m.es MLG 24/06/2013 Indice Amazon AWS Servicios Capa gratuita Amazon S3 Amazon Elastic MapReduce Amazon Elastic Compute Cloud Amazon EBS Amazon AWS Amazon Web Services

Más detalles

Big Data: retos a nivel de desarrollo. Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co

Big Data: retos a nivel de desarrollo. Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co Big Data: retos a nivel de desarrollo Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co Cámara de Comercio de Bogotá Centro Empresarial Chapinero Agenda Introducción Bases de datos NoSQL Procesamiento

Más detalles

CURSO PRESENCIAL: DESARROLLADOR BIG DATA

CURSO PRESENCIAL: DESARROLLADOR BIG DATA CURSO PRESENCIAL: DESARROLLADOR BIG DATA Información detallada del curso www.formacionhadoop.com El curso se desarrolla durante 3 semanas de Lunes a Jueves. Se trata de un curso formato ejecutivo que permite

Más detalles

Universidad Autónoma de Aguascalientes Luis Eduardo Bautista Villalpando

Universidad Autónoma de Aguascalientes Luis Eduardo Bautista Villalpando Universidad Autónoma de Aguascalientes Luis Eduardo Bautista Villalpando Qué es Cloud Computing? Quién utiliza Cloud Computing? Plataformas utilizadas en Cloud Computing Investigación en Cloud Computing

Más detalles

UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS

UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS DEPARTAMENTO DE CIENCIAS DE LA COMPUTACIÓN PARALELIZACIÓN DE UN ALGORITMO PARA LA DETECCIÓN DE CÚMULOS DE GALAXIAS MEMORIA PARA OPTAR AL

Más detalles

Tecnologías de Big Data para resultados en tiempo casi real

Tecnologías de Big Data para resultados en tiempo casi real DOCUMENTO TÉCNICO Procesadores Intel Xeon Unidades de disco de estado sólido Intel (Intel SSDs) Adaptadores de Red Convergente Intel Ethernet Distribución de Intel para el software Hadoop* Tecnologías

Más detalles

Pruebas de unidad con JUnit

Pruebas de unidad con JUnit Pruebas de unidad con JUnit Cuando se implementa software, resulta recomendable comprobar que el código que hemos escrito funciona correctamente. Para ello, implementamos pruebas que verifican que nuestro

Más detalles

Manual de instalación y configuración de hadoop 1.0.3 en linux

Manual de instalación y configuración de hadoop 1.0.3 en linux Manual de instalación y configuración de hadoop 1.0.3 en linux Índice...2 Software utilizado...2 Requisitos...2 Java...2 Sistema Operativo...2 Crear grupo y usuario...2 Creación del grupo...2 Creación

Más detalles

FUNDAMENTOS DE PROGRAMACIÓN. SEPTIEMBRE 2005

FUNDAMENTOS DE PROGRAMACIÓN. SEPTIEMBRE 2005 Dpto. de Ingeniería de Sistemas Telemáticos E.T.S.I. Telecomunicación Universidad Politécnica de Madrid FUNDAMENTOS DE PROGRAMACIÓN. SEPTIEMBRE 2005 Normas de examen: Con libros y apuntes Duración: 2 horas

Más detalles

UNIDAD ZACATENCO DEPARTAMENTO DE COMPUTACIÓN. Optimización de consultas en Hive-MapReduce. Tesis que presenta. Alexis de la Cruz Toledo

UNIDAD ZACATENCO DEPARTAMENTO DE COMPUTACIÓN. Optimización de consultas en Hive-MapReduce. Tesis que presenta. Alexis de la Cruz Toledo Centro de Investigación y de Estudios Avanzados del Instituto Politécnico Nacional UNIDAD ZACATENCO DEPARTAMENTO DE COMPUTACIÓN Optimización de consultas en Hive-MapReduce Tesis que presenta Alexis de

Más detalles

Modelo de Gobierno de Datos con SPARK

Modelo de Gobierno de Datos con SPARK Página1 Configuración de la máquina maestra Para un sistema de Hadoop Para configurar una máquina como maestra en un cluster de Hadoop, es necesario modificar algunos archivos que se encuentran dentro

Más detalles

PROYECTO. Solución Empresarial Ingeniería y Desarrollo de Software www.solucionempresarial.com.ar - info@solucionempresarial.com.

PROYECTO. Solución Empresarial Ingeniería y Desarrollo de Software www.solucionempresarial.com.ar - info@solucionempresarial.com. PROYECTO 1 ÍNDICE 1. Presentación 2. Que es LDAP 3. Ventajas 4. Funcionamientos 5. Paquetes Adicionales 6. Requisitos 7. Objetivos 8. Presupuesto 7. Presupuesto 2 Presentación Se quiere implementar un

Más detalles

Nicolás Zarco Arquitectura Avanzada 2 Cuatrimestre 2011

Nicolás Zarco Arquitectura Avanzada 2 Cuatrimestre 2011 Clusters Nicolás Zarco Arquitectura Avanzada 2 Cuatrimestre 2011 Introducción Aplicaciones que requieren: Grandes capacidades de cómputo: Física de partículas, aerodinámica, genómica, etc. Tradicionalmente

Más detalles

Tema 1: Sistemas Informáticos Unit 1 : Computing systems. Parte 1: arquitectura de un ordenador personal Part 1 : architecture of a personal computer

Tema 1: Sistemas Informáticos Unit 1 : Computing systems. Parte 1: arquitectura de un ordenador personal Part 1 : architecture of a personal computer Tema 1: Sistemas Informáticos Unit 1 : Computing systems Parte 1: arquitectura de un ordenador personal Part 1 : architecture of a personal computer Qué vamos a ver? Qué es un sistema informático y qué

Más detalles

PROGRAMA FORMATIVO Desarrollador Big Data Cloudera Apache Hadoop

PROGRAMA FORMATIVO Desarrollador Big Data Cloudera Apache Hadoop PROGRAMA FORMATIVO Desarrollador Big Data Cloudera Apache Hadoop Julio 2015 DATOS GENERALES DE LA ESPECIALIDAD 1. Familia Profesional: INFORMÁTICA Y COMUNICACIONES (IFC) Área Profesional: DESARROLLO 2.

Más detalles

General Parallel File System

General Parallel File System General Parallel File System Introducción GPFS fue desarrollado por IBM, es un sistema que permite a los usuarios compartir el acceso a datos que están dispersos en múltiples nodos; permite interacción

Más detalles

Taller de Programación Estructurada en Java Tema 2. Fundamentos de la programación orientada a objetos

Taller de Programación Estructurada en Java Tema 2. Fundamentos de la programación orientada a objetos Taller de Programación Estructurada en Java Tema 2. Fundamentos de la programación orientada a objetos Ingeniero en Computación José Alfredo Cobián Campos josealfredocobian@gmail.com Facultad de Ciencias

Más detalles

Aprendizaje activo: flujos

Aprendizaje activo: flujos Clase 29 Aprendizaje activo: flujos La aplicación Logger 2 1 Objetivos En el marco de trabajo de la aplicación Logger, analizaremos tres formas de leer y escribir datos utilizando flujos de Java: 1. como

Más detalles

Petabytes de información: Repensando el modelamiento de base de datos. Ernesto Quiñones Azcárate ernestoq@apesol.org Presidencia Apesol 2006 2008

Petabytes de información: Repensando el modelamiento de base de datos. Ernesto Quiñones Azcárate ernestoq@apesol.org Presidencia Apesol 2006 2008 Petabytes de información: Repensando el modelamiento de base de datos Ernesto Quiñones Azcárate ernestoq@apesol.org Presidencia Apesol 2006 2008 Modelos de bases de datos para todos los gustos (según la

Más detalles

Modelo de Objetos Distribuidos

Modelo de Objetos Distribuidos Remote Method Invocation Modelo de Objetos Distribuidos Un objeto remoto es un objeto cuyos métodos pueden ser invocados desde otra máquina virtual de java, potencialmente en un host diferente. Modelo

Más detalles

1. Manejo de memoria estática 2. Manejo de memoria dinámica

1. Manejo de memoria estática 2. Manejo de memoria dinámica 1. Manejo de memoria estática 2. Manejo de memoria dinámica *La administración de memoria de una computadora es una tarea fundamental debido a que la cantidad de memoria es limitada. *El sistema operativo

Más detalles

De los casos de uso a los casos de prueba. Caso práctico. Aplicación web Javier Gutiérrez / javierj@us.es

De los casos de uso a los casos de prueba. Caso práctico. Aplicación web Javier Gutiérrez / javierj@us.es De los casos de uso a los casos de prueba Caso práctico. Aplicación web Javier Gutiérrez / javierj@us.es Objetivo Objetivo: Mostrar cómo aplicar el proceso ETUC para la generación de casos de prueba a

Más detalles

Software Libre para Aplicaciones de Big Data

Software Libre para Aplicaciones de Big Data Software Libre para Aplicaciones de Big Data Club de Investigación Tecnológica San José, Costa Rica 2014.07.16 Theodore Hope! hope@aceptus.com Big Data: Qué es?! Conjuntos de datos de: " Alto volumen (TBs

Más detalles

1 HILOS (THREADS) EN JAVA

1 HILOS (THREADS) EN JAVA 1 HILOS (THREADS) EN JAVA 1.1QUÉ ES UN THREAD La Máquina Virtual Java (JVM) es un sistema multihilo. Es decir, es capaz de ejecutar varios hilos de ejecución simultáneamente. La JVM gestiona todos los

Más detalles

Federico Peinado www.federicopeinado.es

Federico Peinado www.federicopeinado.es Federico Peinado www.federicopeinado.es Depto. de Ingeniería del Software e Inteligencia Artificial disia.fdi.ucm.es Facultad de Informática www.fdi.ucm.es Universidad Complutense de Madrid www.ucm.es

Más detalles

REQUISITOS DEL SISTEMA. Software Servidor. Cliente. Hardware Servidor. Cliente

REQUISITOS DEL SISTEMA. Software Servidor. Cliente. Hardware Servidor. Cliente MANUAL TECNICO INSTALACIÓN Y CONFIGURACIÓN DEL SISTEMA AARON A QUIEN VA DIRIGIDO El siguiente manual está dirigido al administrador encargado de la instalación y configuración del Sistema AARON. PRÓLOGO

Más detalles

UNIVERSIDAD TECNICA DEL NORTE Ing. Lenin Omar Lara Castro. BIG DATA

UNIVERSIDAD TECNICA DEL NORTE Ing. Lenin Omar Lara Castro. BIG DATA UNIVERSIDAD TECNICA DEL NORTE Ing. Lenin Omar Lara Castro. BIG DATA Historia del Arte: El Big Data o Datos Masivos se refieren a sistemas informáticos basados en la acumulación a gran escala de datos y

Más detalles

ESTUDIO, ANÁLISIS Y EVALUACIÓN DEL ENTORNO DE TRABAJO HADOOP. Entidad Colaboradora: ICAI Universidad Pontificia Comillas

ESTUDIO, ANÁLISIS Y EVALUACIÓN DEL ENTORNO DE TRABAJO HADOOP. Entidad Colaboradora: ICAI Universidad Pontificia Comillas ESTUDIO, ANÁLISIS Y EVALUACIÓN DEL ENTORNO DE TRABAJO HADOOP. Autor: Director: Rubio Echevarria, Raquel Contreras Bárcena, David Entidad Colaboradora: ICAI Universidad Pontificia Comillas RESUMEN DEL PROYECTO

Más detalles

COSC 1317 Verano 2015 Daniel E. Lopez Sesión #1

COSC 1317 Verano 2015 Daniel E. Lopez Sesión #1 COSC 1317 Verano 2015 Daniel E. Lopez Sesión #1 BIENVENIDOS AL CURSO La Informática La computadora personal Sistemas Operativos Aplicaciones Microsoft Word Microsoft Excel Microsoft Powerpoint Otras Aplicaciones

Más detalles

PROGRAMA FORMATIVO Administrador Big Data Cloudera Apache Hadoop

PROGRAMA FORMATIVO Administrador Big Data Cloudera Apache Hadoop PROGRAMA FORMATIVO Administrador Big Data Cloudera Apache Hadoop Julio 2015 DATOS GENERALES DE LA ESPECIALIDAD 1. Familia Profesional: INFORMÁTICA Y COMUNICACIONES (IFC) Área Profesional: SISTEMAS Y TELEMÁTICA

Más detalles

Introducción a Java LSUB. 15 de enero de 2015 GSYC

Introducción a Java LSUB. 15 de enero de 2015 GSYC Introducción a LSUB GSYC 15 de enero de 2015 (cc) 2014 Laboratorio de Sistemas, Algunos derechos reservados. Este trabajo se entrega bajo la licencia Creative Commons Reconocimiento - NoComercial - SinObraDerivada

Más detalles

Infraestructura de Big Data para el análisis y procesamiento de información generada por redes de sensores

Infraestructura de Big Data para el análisis y procesamiento de información generada por redes de sensores Infraestructura de Big Data para el análisis y procesamiento de información generada por redes de sensores Seminario internacional: Big Data para la Información Oficial y la Toma de Decisiones José A.

Más detalles

UNIVERSIDAD POLITÉCNICA DE PACHUCA SOCKETS EN JAVA

UNIVERSIDAD POLITÉCNICA DE PACHUCA SOCKETS EN JAVA SOCKETS EN JAVA Los sockets son puntos finales de enlaces de comunicaciones entre procesos. Los procesos los tratan como descriptores de ficheros, de forma que se pueden intercambiar datos con otros procesos

Más detalles

CONTENIDO. Serialización. Carga dinamica de stubs RMI AVANZADO. Callbacks. Carga dinámica de Stubs

CONTENIDO. Serialización. Carga dinamica de stubs RMI AVANZADO. Callbacks. Carga dinámica de Stubs CONTENIDO RMI AVANZADO Carga dinamica de stubs Callbacks Carga dinámica de Stubs Para tener acceso a un objeto remoto mediante RMI, el cliente debe recibir un stub serializado y deserializarlo. El stub

Más detalles

Índice. Introducción Qué es? Conceptos clave Instalación Ejemplo Hola Mundo Procedimientos Almacenados

Índice. Introducción Qué es? Conceptos clave Instalación Ejemplo Hola Mundo Procedimientos Almacenados VoltDB Up & Running Índice Introducción Qué es? Conceptos clave Instalación Ejemplo Hola Mundo Procedimientos Almacenados VoltDB :: Introducción Qué es? Base de datos en memoria y distribuida. No hay Base

Más detalles

CAPITULO 3 ARQUITECTURA DE COMPONENTES GIS EN INTERNET

CAPITULO 3 ARQUITECTURA DE COMPONENTES GIS EN INTERNET CAPITULO 3 ARQUITECTURA DE COMPONENTES GIS EN INTERNET 3.1- ARQUITECTURA DE COMPONENTES GIS La presente tesis trata del diseño y desarrollo de una aplicación basado en el Web para servir datos geográficos

Más detalles

Seminario. Cloud Computing. Granada, 20 al 22 de febrero de 2013

Seminario. Cloud Computing. Granada, 20 al 22 de febrero de 2013 Seminario Cloud Computing Granada, 20 al 22 de febrero de 2013 1 Plataformas Open Source para Cloud Computing Sergio Alonso (zerjioi@ugr.es) Universidad de Granada Seminario Cloud Computing Contenidos

Más detalles

Información del Producto: XenData X1500 LTO-5 Digital Video Archive System

Información del Producto: XenData X1500 LTO-5 Digital Video Archive System Información del Producto: XenData X1500 LTO-5 Digital Video Archive System Actualizado: 23 de mayo de 2012 Presentación El sistema XenData X1500 proporciona archivo rentable de ficheros de video en cintas

Más detalles

ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL. Facultad de Ingeniería en Electricidad y Computación TESINA DE SEMINARIO

ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL. Facultad de Ingeniería en Electricidad y Computación TESINA DE SEMINARIO ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL Facultad de Ingeniería en Electricidad y Computación Sistema de reportes y análisis sobre tendencias en la Web de la ESPOL usando Hadoop para el procesamiento masivo

Más detalles

Escuela Politécnica Superior de Ingeniería Departamento de Ingeniería Informática

Escuela Politécnica Superior de Ingeniería Departamento de Ingeniería Informática Escuela Politécnica Superior de Ingeniería Departamento de Ingeniería Informática Fundamentos de la informática 5. Gestión de ficheros de texto en Java Contenido Introducción La clase PrintWriter La clase

Más detalles

IBM Power Systems con Saytel. El motor para obtener información de valor de la forma más rápida

IBM Power Systems con Saytel. El motor para obtener información de valor de la forma más rápida IBM Power Systems con Saytel El motor para obtener información de valor de la forma más rápida El motor para obtener información de valor de la forma más rápida Los nuevos requerimientos cloud, analítica,

Más detalles

PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop

PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop Julio 2015 DATOS GENERALES DE LA ESPECIALIDAD 1. Familia Profesional: INFORMÁTICA Y COMUNICACIONES (IFC) Área Profesional: SISTEMAS

Más detalles

Herramientas para Mineria de Datos Masivos(Big Data)

Herramientas para Mineria de Datos Masivos(Big Data) Herramientas para Mineria de Datos Masivos(Big Data) Dr. Edgar Acuna Departamento de Ciencias Mathematicas y Programa Doctoral en Ciencias e Ingenieria de la Informacion y Computacion Universidad de Puerto

Más detalles

Capítulo 1: Marco teórico

Capítulo 1: Marco teórico Capítulo 1: Marco teórico Área de Soporte Técnico Dentro de Oracle, como en cualquier compañía de software existe el área de Soporte Técnico, cuyo objetivo principal es el de brindar asistencia y proveer

Más detalles

Programación en Java. Programación en OO

Programación en Java. Programación en OO Programación en OO Lección 4:Programación en OO 1. Herencia 2. Modificadores de Acceso 3. Interfaces Herencia Es la acción en la que una clase obtiene los métodos y propiedades definidos en otra clase,

Más detalles

2. Estructura de un programa en Java

2. Estructura de un programa en Java 24 A. García-Beltrán y J.M. Arranz 2. Estructura de un programa en Java Objetivos: a) Describir la estructura del código fuente de una aplicación Java b) Presentar los conceptos de comentario y de identificador

Más detalles

Elementos léxicos del lenguaje de programación Java

Elementos léxicos del lenguaje de programación Java Elementos léxicos del lenguaje de programación Java Elementos léxicos del lenguaje de programación Java Palabras reservadas Identificadores Literales Operadores Delimitadores Comentarios Apéndices Operadores

Más detalles

Toda la información de instalación se puede encontrar en el fichero "install.log".

Toda la información de instalación se puede encontrar en el fichero install.log. MAST STORAGE Instalación Linux 1. Descargue el archivo de instalación (obm-nix.tar.gz) y ejecútelo. 2. Descomprima el fichero de instalación en /usr/local/obm mkdir /usr/local/obm cd /usr/local/obm gunzip

Más detalles

Guía Rápida de uso de ZBox Backup Configuración y uso del servicio de respaldo en la nube.

Guía Rápida de uso de ZBox Backup Configuración y uso del servicio de respaldo en la nube. ZBox Backup Guía Rápida de uso de ZBox Backup Configuración y uso del servicio de respaldo en la nube. v 2014100701 1. Introducción Para comenzar a utilizar el servicio de respaldo de ZBox lo primero que

Más detalles

Lo que necesitaremos para programar en Java, será un editor de texto o IDE y la JDK.

Lo que necesitaremos para programar en Java, será un editor de texto o IDE y la JDK. Introducción Java surgió en 1991 dentro de la empresa Sun Microsystems como un lenguaje de programación sencillo y universal destinado a electrodomésticos. La reducida potencia de cálculo y memoria de

Más detalles

CURSOS DE VERANO 2014

CURSOS DE VERANO 2014 CURSOS DE VERANO 2014 CLOUD COMPUTING: LA INFORMÁTICA COMO SERVICIO EN INTERNET LA PLATAFORMA GOOGLE CLOUD PLATFORM. GOOGLE APP ENGINE Pedro A. Castillo Valdivieso Universidad de Granada http://bit.ly/unia2014

Más detalles

DISEÑO DE UNA ARQUITECTURA CLIENTE/SERVIDOR MEDIANTE OBJETOS DISTRIBUIDOS EN JAVA

DISEÑO DE UNA ARQUITECTURA CLIENTE/SERVIDOR MEDIANTE OBJETOS DISTRIBUIDOS EN JAVA DISEÑO DE UNA ARQUITECTURA CLIENTE/SERVIDOR MEDIANTE OBJETOS DISTRIBUIDOS EN JAVA José Luis Pastrana Brincones (pastrana@lcc.uma.es) Dpto. Lenguajes y Ciencias de la Computación. Universidad de Málaga

Más detalles

Tema: Configuración de arreglos redundantes de discos duros (RAID).

Tema: Configuración de arreglos redundantes de discos duros (RAID). 1 Tema: Configuración de arreglos redundantes de discos duros (RAID). Objetivo general Configurar arreglos RAID en discos duros para obtener una mayor tolerancia a fallos, rendimiento y capacidad. Objetivos

Más detalles

Instituto Profesional DuocUC Escuela de Ingeniería Visión Global Plataforma Oracle

Instituto Profesional DuocUC Escuela de Ingeniería Visión Global Plataforma Oracle Visión Global Plataforma Oracle Jaime Amigo P. 2006, Santiago - Chile Objetivos Después de completar esta lección, usted deberá.: Conocer historia de Oracle Corporation Conocer plataformas Soportadas de

Más detalles

Guía para la Instalación de MINIX

Guía para la Instalación de MINIX Guía para la Instalación de MINIX (Sobre UNIX) Laboratorio de Sistemas Operativos Guía para la Instalación de MINIX 1 Introducción 1 Instalación 1 Compilación del BOCHS 1 Generación de discos 1 Generación

Más detalles

La 6ª generación de LTO Ultrium

La 6ª generación de LTO Ultrium Tape Backup 02 La 6ª generación de LTO Ultrium 05 Aplicaciones de LTFS en entornos cloud 07 10 Razones para copiar en cinta 08 Nota técnica: Cómo configurar la funcionalidad LTFS La 6ª generación de LTO

Más detalles

Generar Temas de Colores y Cambiarlos Dinámicamente en ZK

Generar Temas de Colores y Cambiarlos Dinámicamente en ZK Generar Temas de Colores y Cambiarlos Dinámicamente en ZK Hola, mi nombre es Manuel Martínez y soy de Colombia. Voy a explicarles desde cómo construir temas de colores para las interfaces graficas de ZK

Más detalles