Escalar aplicaciones a cantidades masivas de datos Usando computadoras baratas muchas

Tamaño: px
Comenzar la demostración a partir de la página:

Download "Escalar aplicaciones a cantidades masivas de datos Usando computadoras baratas muchas"

Transcripción

1 Hadoop

2 Problema Escalar aplicaciones a cantidades masivas de datos Usando computadoras baratas muchas Problemas de fiabilidad: alta probabilidad de que falle una o más computadoras Necesitamos algo que escale, que sea eficiente, barato y fiable

3 Solución Proyecto Apache de código abierto El núcleo de Hadoop: HDFS (Hadoop Distributed File System) distribuye los datos Map/Reduce distribuye la aplicación Escrito en Java Corre sobre Linux, Mac OS/X, Windows y Solaris Hardware común

4 Clusters de computadoras comunes Típicamente, en arquitecturas de 2 niveles Los nodos son PCs Linux 40 nodos/rack La subida de cada rack es 8 gigabit La interna de cada rack es 1 gigabit all-to-all

5 Contenidos Sistema de archivos distribuído (HDFS) Map/Reduce Hardware

6 Contenidos Sistema de archivos distribuído (HDFS) Map/Reduce Hardware

7 Sistema de archivos distribuído (HDFS) Un único sistema de archivos para todo el cluster Lo maneja un solo nodo de nombres Los archivos se escriben, leen, renombran, borran, pero append-only Optimizado para lecturas de archivos grandes. Los archivos se parten en bloques grandes. Transparente para el cliente Los bloques suelen ser de 128 MB Cada bloque se replica en varios nodos de datos, para aumentar la fiabilidad Se accede desde Java, C, o línea de comandos.

8 Ubicación de los bloques Por defecto, 3 copias Los bloques se ubican (con escritura en pipeline): En el mismo nodo En distinto rack En otro rack Los clientes leen de la copia más cercana Si la copia de un bloque no anda bien, se repite automáticamente la copia.

9 Flujo de datos del HDFS

10 Correctitud de los datos Los datos se comprueban con CRC32 Al crear archivos... El cliente hace un checksum cada 512 byte El DataNode guarda el checksum Al acceder archivos... El client recupera los datos y el checksum del DataNode Si la validación dá error, el cliente busca otras copias El DataNode hace comprobaciones periódicas

11 Contenidos Sistema de archivos distribuído (HDFS) Map/Reduce Hardware

12 Map/Reduce Map/Reduce es un modelo de programación para computación distribuida eficiente Funciona como un pipeline de Unix : cat input grep sort uniq -c cat > output Input Map Shuffle & Sort Reduce Output Muy útil para muchas aplicaciones: Procesar logs Construcción de un índice de la Web Data mining y machine learning Otras?

13 Flujo de datos de Map/Reduce

14 Características de Map/Reduce APIs en Java, C++, y texto Interfaces de más alto nivel: Pig, Scoobi Ante un fallo, se ejecuta de vuelta automáticamente El JobTracker delega diferentes tareas Los TaskTracker ejecutan las tareas y devuelven los resultados al JobTracker también heartbeats Optimización de ubicación Para no saturar la red local con la gran cantidad de datos Map-Reduce se comunica con HDFS para conocer la ubicación de los datos El JobTracker ubica los TaskTrackers en nodos lo más cercanos posible

15 Contenidos Sistema de archivos distribuído (HDFS) Map/Reduce ejemplos Hardware

16 Ejemplo con conteo de palabras Mapper Input: valor: líneas de texto Output: llave: palabra, valor: 1 Reducer Input: llave: palabra, valor: conjunto de conteos Output: llave: palabra, valor: suma Programa que lanza el trabajo Define el trabajo Envía el trabajo al cluster

17 Flujo de datos de conteo de palabras

18 Ejemplo: Mapper de conteo de palabras public static class MapClass extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> { private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(longwritable key, Text value, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException { String line = value.tostring(); StringTokenizer itr = new StringTokenizer(line); while (itr.hasmoretokens()) { word.set(itr.nexttoken()); output.collect(word, one); } } }

19 Ejemplo: Reducer de conteo de palabras public static class Reduce extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable> { public void reduce(text key, Iterator<IntWritable> values, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException { int sum = 0; while (values.hasnext()) { sum += values.next().get(); } output.collect(key, new IntWritable(sum)); } }

20 Interfaz para conteo de palabras en Python (dumbo) import dumbo def mapper(key,value): for word in value.split(): yield word,1 def reducer(key,values): yield key,sum(values) if name == " main ": dumbo.run(mapper,reducer)

21 Contenidos Sistema de archivos distribuído (HDFS) Map/Reduce ejemplos Hardware

22 NY Times Needed offline conversion of public domain articles from Used Hadoop to convert scanned images to PDF Ran 100 Amazon EC2 instances for around 24 hours 4 TB of input 1.5 TB of output Published 1892, copyright New York Times

23 Contenidos Sistema de archivos distribuído (HDFS) Map/Reduce ejemplos Hardware

24 Terabyte Sort Benchmark Started by Jim Gray at Microsoft in 1998 Sorting 10 billion 100 byte records Hadoop won general category in 209 seconds (prev was 297 ) 910 nodes 2 quad-core 2.0Ghz / node 4 SATA disks / node 8 GB ram / node 1 gb ethernet / node and 8 gb ethernet uplink / rack 40 nodes / rack Only hard parts were: Getting a total order Converting the data generator to map/reduce

25 Contenidos Sistema de archivos distribuído (HDFS) Map/Reduce Hardware

26 Hadoop clusters We have ~20,000 machines running Hadoop Our largest clusters are currently 2000 nodes Several petabytes of user data (compressed, unreplicated) We run hundreds of thousands of jobs every month

27 Research Cluster Usage

28 Comunidad de Hadoop Apache se organiza en comunidades por proyecto, con: Usuarios Contributors Escriben parches Committers Pueden subir los parches (commit) Comité del Proyecto Votan para que alguien pueda ser committer y deciden los releases Apache es una meritocracia

29 Quién usa Hadoop? Amazon/A9 Facebook Google IBM Joost Last.fm New York Times PowerSet (now Microsoft) Quantcast Veoh Yahoo! More at

30 Q&A Más información: Website: Mailing lists:

CURSO: DESARROLLADOR PARA APACHE HADOOP

CURSO: DESARROLLADOR PARA APACHE HADOOP CURSO: DESARROLLADOR PARA APACHE HADOOP CAPÍTULO 3: HADOOP CONCEPTOS BÁSICOS www.formacionhadoop.com Índice 1 Introducción a Hadoop 1.1 Proyecto Hadoop 1.2 Conceptos de Hadoop 2 Cluster Hadoop 2.1 Demonios

Más detalles

Alessandro Chacón 05-38019. Ernesto Level 05-38402. Ricardo Santana 05-38928

Alessandro Chacón 05-38019. Ernesto Level 05-38402. Ricardo Santana 05-38928 Alessandro Chacón 05-38019 Ernesto Level 05-38402 Ricardo Santana 05-38928 CONTENIDO Universo Digital Hadoop HDFS: Hadoop Distributed File System MapReduce UNIVERSO DIGITAL 161 EB 2006 Fuente: International

Más detalles

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López APACHE HADOOP Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López Objetivos 1. Qué es Apache Hadoop? 2. Funcionalidad 2.1. Map/Reduce 2.2. HDFS 3. Casos prácticos 4. Hadoop

Más detalles

COMO USAR HADOOP. Y sobrevivir a la experiencia

COMO USAR HADOOP. Y sobrevivir a la experiencia COMO USAR HADOOP Y sobrevivir a la experiencia ORGANIZACIÓN Descripción Hadoop: Procesos involucrados Esquema de Funcionamiento Instalación de Hadoop Instalación Local Descripción de Instalación en Cluster

Más detalles

Big Data y Supercómputo. Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE)

Big Data y Supercómputo. Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) Big Data y Supercómputo Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) Big Data 2 Hasta qué cantidad de datos podemos procesar en nuestra

Más detalles

CURSOS DE VERANO 2014

CURSOS DE VERANO 2014 CURSOS DE VERANO 2014 APROXIMACIÓN PRÁCTICA A LA CIENCIA DE DATOS Y BIG DATA: HERRAMIENTAS KNIME, R, HADOOP Y MAHOUT. Entorno de Procesamiento Hadoop Sara Del Río García 1 Qué es Hadoop? Es un proyecto

Más detalles

The H Hour: Hadoop The awakening of the BigData. Antonio Soto SolidQ COO asoto@solidq.com @antoniosql

The H Hour: Hadoop The awakening of the BigData. Antonio Soto SolidQ COO asoto@solidq.com @antoniosql The H Hour: Hadoop The awakening of the BigData Antonio Soto SolidQ COO asoto@solidq.com @antoniosql Tendencias de la Industria El nuevo rol del operador El operador de ayer Sigue el proceso basado en

Más detalles

Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source

Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source Francisco Magaz Villaverde Consultor: Víctor Carceler Hontoria Junio 2012 Contenido Introducción Qué es Cloud Compu5ng?

Más detalles

Resumen. Abstract. 2. Generalidades. 1. Introducción. Palabras Clave: Hadoop, MapReduce, Lynx, Búsquedas, Optimización.

Resumen. Abstract. 2. Generalidades. 1. Introducción. Palabras Clave: Hadoop, MapReduce, Lynx, Búsquedas, Optimización. Búsquedas optimizadas en la página web de la ESPOL Jorge Herrera Medina (1), Carlos Rodríguez Rivera (2), Vanesa Cedeño Mieles (3) Facultad de Ingeniería en Electricidad y Computación (FIEC) Escuela Superior

Más detalles

Big data A través de una implementación

Big data A través de una implementación Big data A través de una implementación Lic. Diego Krauthamer Profesor Adjunto Interino del Área Base de Datos Universidad Abierta Interamericana Facultad de Tecnología Informática Buenos Aires. Argentina

Más detalles

FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS

FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS Introducción Los algoritmos utilizados para el procesamiento de imágenes son de complejidad computacional alta. Por esto

Más detalles

# the. in the next command references the cloudera home directory # in hdfs, /user/cloudera

# the. in the next command references the cloudera home directory # in hdfs, /user/cloudera Una rápida introducción a HDFS y MapReduce Antes de iniciar a mover datos entre su base de datos relacional y Hadoop, usted necesita una rápida introducción a HDFS y a MapReduce. Hay muchos tutoriales

Más detalles

Qué significa Hadoop en el mundo del Big Data?

Qué significa Hadoop en el mundo del Big Data? Qué significa Hadoop en el mundo del Big Data? Un contenido para perfiles técnicos 2 ÍNDICE Qué significa Hadoop en el Universo Big Data?.... 3 El planteamiento: big data y data science.... 3 Los desafíos

Más detalles

Evaluación de la herramienta de código libre Apache Hadoop Universidad Carlos III de Madrid Escuela Politécnica Superior

Evaluación de la herramienta de código libre Apache Hadoop Universidad Carlos III de Madrid Escuela Politécnica Superior Evaluación de la herramienta de código libre Apache Hadoop Universidad Carlos III de Madrid Escuela Politécnica Superior Proyecto Fin de Carrera INGENIERÍA TÉCNICA DE TELECOMUNICACIÓN: TELEMÁTICA Autora:

Más detalles

Hadoop. Cómo vender un cluster Hadoop?

Hadoop. Cómo vender un cluster Hadoop? Hadoop Cómo vender un cluster Hadoop? ÍNDICE Problema Big Data Qué es Hadoop? Descripción HDSF Map Reduce Componentes de Hadoop Hardware Software 3 EL PROBLEMA BIG DATA ANTES Los datos los generaban las

Más detalles

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop

Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Informe de materia de graduación Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Franklin Parrales Bravo Marco Calle Jaramillo Contenido o Herramientas o Motivación o Servicios y herramientas

Más detalles

SISTEMA PARA GENERAR GRÁFICAS A PARTIR DE LOGS TCPDUMP USANDO HADOOP. Ángel Stalin Cruz Palaquibay Pedro Alfredo Torres Arellano

SISTEMA PARA GENERAR GRÁFICAS A PARTIR DE LOGS TCPDUMP USANDO HADOOP. Ángel Stalin Cruz Palaquibay Pedro Alfredo Torres Arellano SISTEMA PARA GENERAR GRÁFICAS A PARTIR DE LOGS TCPDUMP USANDO HADOOP Ángel Stalin Cruz Palaquibay Pedro Alfredo Torres Arellano Descripción general 2 El Problema Motivación Objetivos Metodología del proyecto

Más detalles

Sistema de reportes y análisis sobre tendencias en la Web de la ESPOL usando Hadoop para el procesamiento masivo de los datos.

Sistema de reportes y análisis sobre tendencias en la Web de la ESPOL usando Hadoop para el procesamiento masivo de los datos. Sistema de reportes y análisis sobre tendencias en la Web de la ESPOL usando Hadoop para el procesamiento masivo de los datos. Gallardo Luis, Bermeo Fabricio, Cedeño Vanessa Msc. Facultad de Ingeniería

Más detalles

BIG DATA. Jorge Mercado. Software Quality Engineer

BIG DATA. Jorge Mercado. Software Quality Engineer BIG DATA Jorge Mercado Software Quality Engineer Agenda Big Data - Introducción Big Data - Estructura Big Data - Soluciones Conclusiones Q&A Big Data - Introducción Que es Big Data? Big data es el termino

Más detalles

Big Data. Analisís de grandes cantidades de datos. Sergio Marchena Quirós

Big Data. Analisís de grandes cantidades de datos. Sergio Marchena Quirós Big Data Analisís de grandes cantidades de datos Sergio Marchena Quirós Índice 1.0 Introducción...3 1.1 Objetivos del proyecto...3 1.1.1 Estudio Teórico...3 2.0 Big Data...3 2.1 las 5 V...3 2.2 Tipos de

Más detalles

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO PRESENTACIÓN ANTONIO GONZÁLEZ CASTRO IT SECURITY DIRECTOR EN PRAGSIS TECHNOLOGIES agcastro@pragsis.com antoniogonzalezcastro.es @agonzaca linkedin.com/in/agonzaca

Más detalles

Comandos HDF Breve manual

Comandos HDF Breve manual Comandos HDF Breve manual Diego J. Bodas Sagi Julio de 2014 Índice Comandos Linux / Unix Comandos HDFS Ejemplos Resumen 2 Comandos interesantes para Data Science Tener soltura a la hora de interactuar

Más detalles

HDInsight. Big Data, al estilo Microsoft

HDInsight. Big Data, al estilo Microsoft HDInsight Big Data, al estilo Microsoft PABLO DOVAL SQL/BI Team Lead palvarez@plainconcepts.com http://geeks.ms/blogs/palvarez @PabloDoval Big Data ALGUNAS ESTADÍSTICAS DE SQL SERVER Categoría Metrica

Más detalles

2875: INTEGRACIÓN DE HADOOP CON PLANIFICADORES BATCH

2875: INTEGRACIÓN DE HADOOP CON PLANIFICADORES BATCH 2875: INTEGRACIÓN DE HADOOP CON PLANIFICADORES BATCH Memoria del Proyecto Fin de Carrera de Ingeniería en Informática realizado por José Fidel Díaz Cañizares y dirigido por Porfidio Hernández Budé Bellaterra,

Más detalles

Tecnologías de Big Data para resultados en tiempo casi real

Tecnologías de Big Data para resultados en tiempo casi real DOCUMENTO TÉCNICO Procesadores Intel Xeon Unidades de disco de estado sólido Intel (Intel SSDs) Adaptadores de Red Convergente Intel Ethernet Distribución de Intel para el software Hadoop* Tecnologías

Más detalles

Big Data con nombres propios

Big Data con nombres propios Febrero 2014 Big Data con Al hablar de tecnología Big Data se está obligado, sin duda alguna, a hablar de programación paralela y procesamiento distribuido, ya que éstas serán las características que permitirán

Más detalles

La API Java MapReduce Una breve introducción

La API Java MapReduce Una breve introducción La API Java MapReduce Una breve introducción Diego J. Bodas Sagi Julio de 2014 Índice El entorno Configuración del proyecto Librerías MapReduce Introducción a la Java API Primeros ejemplos Resumen 2 Entorno

Más detalles

Desarrollo de un entorno basado en MapReduce para la ejecución distribuida de algoritmos genéticos paralelos

Desarrollo de un entorno basado en MapReduce para la ejecución distribuida de algoritmos genéticos paralelos UNIVERSIDADE DA CORUÑA FACULTAD DE INFORMÁTICA Departamento de Electrónica y Sistemas PROYECTO FIN DE CARRERA DE INGENIERÍA INFORMÁTICA Desarrollo de un entorno basado en MapReduce para la ejecución distribuida

Más detalles

CURSO PRESENCIAL: DESARROLLADOR BIG DATA

CURSO PRESENCIAL: DESARROLLADOR BIG DATA CURSO PRESENCIAL: DESARROLLADOR BIG DATA Información detallada del curso www.formacionhadoop.com El curso se desarrolla durante 3 semanas de Lunes a Jueves. Se trata de un curso formato ejecutivo que permite

Más detalles

Taller de Programación Estructurada en Java Tema 2. Fundamentos de la programación orientada a objetos

Taller de Programación Estructurada en Java Tema 2. Fundamentos de la programación orientada a objetos Taller de Programación Estructurada en Java Tema 2. Fundamentos de la programación orientada a objetos Ingeniero en Computación José Alfredo Cobián Campos josealfredocobian@gmail.com Facultad de Ciencias

Más detalles

Conectores Pentaho Big Data Community VS Enterprise

Conectores Pentaho Big Data Community VS Enterprise Conectores Pentaho Big Data Community VS Enterprise Agosto 2014 Stratebi Business Solutions www.stratebi.com info@stratebi.com Índice 1. Resumen... 3 2. Introducción... 4 3. Objetivo... 4 4. Pentaho Community

Más detalles

Instituto Tecnológico de Costa Rica Escuela de Ingeniería en Computación

Instituto Tecnológico de Costa Rica Escuela de Ingeniería en Computación Instituto Tecnológico de Costa Rica Escuela de Ingeniería en Computación "Data Analytics, procesamiento de grandes volúmenes de información para generar inteligencia de negocios" Proyecto de Graduación

Más detalles

Universidad Autónoma de Aguascalientes Luis Eduardo Bautista Villalpando

Universidad Autónoma de Aguascalientes Luis Eduardo Bautista Villalpando Universidad Autónoma de Aguascalientes Luis Eduardo Bautista Villalpando Qué es Cloud Computing? Quién utiliza Cloud Computing? Plataformas utilizadas en Cloud Computing Investigación en Cloud Computing

Más detalles

FUNDAMENTOS DE PROGRAMACIÓN. SEPTIEMBRE 2005

FUNDAMENTOS DE PROGRAMACIÓN. SEPTIEMBRE 2005 Dpto. de Ingeniería de Sistemas Telemáticos E.T.S.I. Telecomunicación Universidad Politécnica de Madrid FUNDAMENTOS DE PROGRAMACIÓN. SEPTIEMBRE 2005 Normas de examen: Con libros y apuntes Duración: 2 horas

Más detalles

UNIVERSIDAD TECNICA DEL NORTE Ing. Lenin Omar Lara Castro. BIG DATA

UNIVERSIDAD TECNICA DEL NORTE Ing. Lenin Omar Lara Castro. BIG DATA UNIVERSIDAD TECNICA DEL NORTE Ing. Lenin Omar Lara Castro. BIG DATA Historia del Arte: El Big Data o Datos Masivos se refieren a sistemas informáticos basados en la acumulación a gran escala de datos y

Más detalles

PROGRAMA FORMATIVO Desarrollador Big Data Cloudera Apache Hadoop

PROGRAMA FORMATIVO Desarrollador Big Data Cloudera Apache Hadoop PROGRAMA FORMATIVO Desarrollador Big Data Cloudera Apache Hadoop Julio 2015 DATOS GENERALES DE LA ESPECIALIDAD 1. Familia Profesional: INFORMÁTICA Y COMUNICACIONES (IFC) Área Profesional: DESARROLLO 2.

Más detalles

UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS

UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS DEPARTAMENTO DE CIENCIAS DE LA COMPUTACIÓN PARALELIZACIÓN DE UN ALGORITMO PARA LA DETECCIÓN DE CÚMULOS DE GALAXIAS MEMORIA PARA OPTAR AL

Más detalles

Instalación Hadoop. Guía para Debian y derivados

Instalación Hadoop. Guía para Debian y derivados Instalación Hadoop Guía para Debian y derivados Índice Instalación Hadoop Hadoop Distributed File System a. NameNode b. DataNode. Requisitos Diferentes modos de configuración Instalación Java Instalación

Más detalles

ESTUDIO, ANÁLISIS Y EVALUACIÓN DEL ENTORNO DE TRABAJO HADOOP. Entidad Colaboradora: ICAI Universidad Pontificia Comillas

ESTUDIO, ANÁLISIS Y EVALUACIÓN DEL ENTORNO DE TRABAJO HADOOP. Entidad Colaboradora: ICAI Universidad Pontificia Comillas ESTUDIO, ANÁLISIS Y EVALUACIÓN DEL ENTORNO DE TRABAJO HADOOP. Autor: Director: Rubio Echevarria, Raquel Contreras Bárcena, David Entidad Colaboradora: ICAI Universidad Pontificia Comillas RESUMEN DEL PROYECTO

Más detalles

Introducción a Java LSUB. 15 de enero de 2015 GSYC

Introducción a Java LSUB. 15 de enero de 2015 GSYC Introducción a LSUB GSYC 15 de enero de 2015 (cc) 2014 Laboratorio de Sistemas, Algunos derechos reservados. Este trabajo se entrega bajo la licencia Creative Commons Reconocimiento - NoComercial - SinObraDerivada

Más detalles

IBM Power Systems con Saytel. El motor para obtener información de valor de la forma más rápida

IBM Power Systems con Saytel. El motor para obtener información de valor de la forma más rápida IBM Power Systems con Saytel El motor para obtener información de valor de la forma más rápida El motor para obtener información de valor de la forma más rápida Los nuevos requerimientos cloud, analítica,

Más detalles

COSC 1317 Verano 2015 Daniel E. Lopez Sesión #1

COSC 1317 Verano 2015 Daniel E. Lopez Sesión #1 COSC 1317 Verano 2015 Daniel E. Lopez Sesión #1 BIENVENIDOS AL CURSO La Informática La computadora personal Sistemas Operativos Aplicaciones Microsoft Word Microsoft Excel Microsoft Powerpoint Otras Aplicaciones

Más detalles

UNIDAD ZACATENCO DEPARTAMENTO DE COMPUTACIÓN. Optimización de consultas en Hive-MapReduce. Tesis que presenta. Alexis de la Cruz Toledo

UNIDAD ZACATENCO DEPARTAMENTO DE COMPUTACIÓN. Optimización de consultas en Hive-MapReduce. Tesis que presenta. Alexis de la Cruz Toledo Centro de Investigación y de Estudios Avanzados del Instituto Politécnico Nacional UNIDAD ZACATENCO DEPARTAMENTO DE COMPUTACIÓN Optimización de consultas en Hive-MapReduce Tesis que presenta Alexis de

Más detalles

Facultad Politécnica UNA Ing. Julio Paciello juliopaciello@gmail.com

Facultad Politécnica UNA Ing. Julio Paciello juliopaciello@gmail.com Facultad Politécnica UNA Ing. Julio Paciello juliopaciello@gmail.com Contenidos Clúster de Investigación Aplicada Proyectos HPC Clúster Hadoop para tecnologías de BI Una nube privada para la Administración

Más detalles

public static void main(string[ ] args) { Numero f1 = new Numero(3); Numero f2 = new Numero(4); Numero f3 = f1; f1.value = f2.value; Numero f4 = null;

public static void main(string[ ] args) { Numero f1 = new Numero(3); Numero f2 = new Numero(4); Numero f3 = f1; f1.value = f2.value; Numero f4 = null; Examen de Programación Convocatoria de Septiembre 2005 Licenciatura de Lingüística y Nuevas Tecnologías Pregunta 1 Tenemos el siguiente programa: public class Numero { int value; public Numero(int i) {

Más detalles

Infraestructura de Big Data para el análisis y procesamiento de información generada por redes de sensores

Infraestructura de Big Data para el análisis y procesamiento de información generada por redes de sensores Infraestructura de Big Data para el análisis y procesamiento de información generada por redes de sensores Seminario internacional: Big Data para la Información Oficial y la Toma de Decisiones José A.

Más detalles

De los casos de uso a los casos de prueba. Caso práctico. Aplicación web Javier Gutiérrez / javierj@us.es

De los casos de uso a los casos de prueba. Caso práctico. Aplicación web Javier Gutiérrez / javierj@us.es De los casos de uso a los casos de prueba Caso práctico. Aplicación web Javier Gutiérrez / javierj@us.es Objetivo Objetivo: Mostrar cómo aplicar el proceso ETUC para la generación de casos de prueba a

Más detalles

Roberto Díaz Morales rdiazm@tsc.uc3m.es MLG 24/06/2013

Roberto Díaz Morales rdiazm@tsc.uc3m.es MLG 24/06/2013 Roberto Díaz Morales rdiazm@tsc.uc3m.es MLG 24/06/2013 Indice Amazon AWS Servicios Capa gratuita Amazon S3 Amazon Elastic MapReduce Amazon Elastic Compute Cloud Amazon EBS Amazon AWS Amazon Web Services

Más detalles

Big Data: retos a nivel de desarrollo. Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co

Big Data: retos a nivel de desarrollo. Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co Big Data: retos a nivel de desarrollo Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co Cámara de Comercio de Bogotá Centro Empresarial Chapinero Agenda Introducción Bases de datos NoSQL Procesamiento

Más detalles

Pruebas de unidad con JUnit

Pruebas de unidad con JUnit Pruebas de unidad con JUnit Cuando se implementa software, resulta recomendable comprobar que el código que hemos escrito funciona correctamente. Para ello, implementamos pruebas que verifican que nuestro

Más detalles

Big Data & Machine Learning. MSc. Ing. Máximo Gurméndez Universidad de Montevideo

Big Data & Machine Learning. MSc. Ing. Máximo Gurméndez Universidad de Montevideo Big Data & Machine Learning MSc. Ing. Máximo Gurméndez Universidad de Montevideo Qué es Big Data? Qué es Machine Learning? Qué es Data Science? Ejemplo: Predecir origen de artículos QUÉ DIARIO LO ESCRIBIÓ?

Más detalles

UNIVERSIDAD POLITÉCNICA DE PACHUCA SOCKETS EN JAVA

UNIVERSIDAD POLITÉCNICA DE PACHUCA SOCKETS EN JAVA SOCKETS EN JAVA Los sockets son puntos finales de enlaces de comunicaciones entre procesos. Los procesos los tratan como descriptores de ficheros, de forma que se pueden intercambiar datos con otros procesos

Más detalles

Manual de usuario TFGPredicción.

Manual de usuario TFGPredicción. Manual de usuario TFGPredicción. Solución para predicción de riesgo en países remotos. TFGPrediccion Versión 1.0 Autor: Alejandro Mejías Ríos. Organización: Universitat Oberta de Catalunya Manual TFGPrediccion

Más detalles

Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica

Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica Fundamentos Título de de Big la Data presentación utilizando MATLAB Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica 1 Agenda Qué es Big Data? Buenas prácticas en el manejo de memoria.

Más detalles

Lo que necesitaremos para programar en Java, será un editor de texto o IDE y la JDK.

Lo que necesitaremos para programar en Java, será un editor de texto o IDE y la JDK. Introducción Java surgió en 1991 dentro de la empresa Sun Microsystems como un lenguaje de programación sencillo y universal destinado a electrodomésticos. La reducida potencia de cálculo y memoria de

Más detalles

Federico Peinado www.federicopeinado.es

Federico Peinado www.federicopeinado.es Federico Peinado www.federicopeinado.es Depto. de Ingeniería del Software e Inteligencia Artificial disia.fdi.ucm.es Facultad de Informática www.fdi.ucm.es Universidad Complutense de Madrid www.ucm.es

Más detalles

Modelo de Objetos Distribuidos

Modelo de Objetos Distribuidos Remote Method Invocation Modelo de Objetos Distribuidos Un objeto remoto es un objeto cuyos métodos pueden ser invocados desde otra máquina virtual de java, potencialmente en un host diferente. Modelo

Más detalles

Tema 1: Sistemas Informáticos Unit 1 : Computing systems. Parte 1: arquitectura de un ordenador personal Part 1 : architecture of a personal computer

Tema 1: Sistemas Informáticos Unit 1 : Computing systems. Parte 1: arquitectura de un ordenador personal Part 1 : architecture of a personal computer Tema 1: Sistemas Informáticos Unit 1 : Computing systems Parte 1: arquitectura de un ordenador personal Part 1 : architecture of a personal computer Qué vamos a ver? Qué es un sistema informático y qué

Más detalles

:Arquitecturas Paralela basada en clusters.

:Arquitecturas Paralela basada en clusters. Computación de altas prestaciones: Arquitecturas basadas en clusters Sesión n 1 :Arquitecturas Paralela basada en clusters. Jose Luis Bosque 1 Introducción Computación de altas prestaciones: resolver problemas

Más detalles

Seminario. Cloud Computing. Granada, 20 al 22 de febrero de 2013

Seminario. Cloud Computing. Granada, 20 al 22 de febrero de 2013 Seminario Cloud Computing Granada, 20 al 22 de febrero de 2013 1 Plataformas Open Source para Cloud Computing Sergio Alonso (zerjioi@ugr.es) Universidad de Granada Seminario Cloud Computing Contenidos

Más detalles

Escuela Politécnica Superior de Ingeniería Departamento de Ingeniería Informática

Escuela Politécnica Superior de Ingeniería Departamento de Ingeniería Informática Escuela Politécnica Superior de Ingeniería Departamento de Ingeniería Informática Fundamentos de la informática 5. Gestión de ficheros de texto en Java Contenido Introducción La clase PrintWriter La clase

Más detalles

Modelo de Gobierno de Datos con SPARK

Modelo de Gobierno de Datos con SPARK Página1 Configuración de la máquina maestra Para un sistema de Hadoop Para configurar una máquina como maestra en un cluster de Hadoop, es necesario modificar algunos archivos que se encuentran dentro

Más detalles

Comprender un poco más de los que es Apache Pig y Hadoop. El tutorial de cerdo muestra cómo ejecutar dos scripts de cerdo en modo local y el

Comprender un poco más de los que es Apache Pig y Hadoop. El tutorial de cerdo muestra cómo ejecutar dos scripts de cerdo en modo local y el APACHE PIG CONTENIDO 1. Introducción 3 1.1. Apache Pig 3 1.2. Propiedades 4 1.3. Requisitos para Apache Pig 4 1.4. Instalación de Hadoop 5 1.5. Instalación de java 5 1.6. Instalación de Pig 6 1.7. Ejecución

Más detalles

1 HILOS (THREADS) EN JAVA

1 HILOS (THREADS) EN JAVA 1 HILOS (THREADS) EN JAVA 1.1QUÉ ES UN THREAD La Máquina Virtual Java (JVM) es un sistema multihilo. Es decir, es capaz de ejecutar varios hilos de ejecución simultáneamente. La JVM gestiona todos los

Más detalles

CAPÍTULO 4. DISEÑO DEL SOFTWARE PARA LOS SERVICIOS

CAPÍTULO 4. DISEÑO DEL SOFTWARE PARA LOS SERVICIOS CAPÍTULO 4. DISEÑO DEL SOFTWARE PARA LOS SERVICIOS DE SEGURIDAD BAJO JINI Y JAVA Las estrategias de cómputo usadas en un ambiente real varían dependiendo de la compañía o usuario que las implanten en sus

Más detalles

ÍNDICE. Introducción... Capítulo 1. Conceptos de Big Data... 1

ÍNDICE. Introducción... Capítulo 1. Conceptos de Big Data... 1 ÍNDICE Introducción... XIII Capítulo 1. Conceptos de Big Data... 1 Definición, necesidad y características de Big Data... 1 Aplicaciones típicas de Big Data... 4 Patrones de detección del fraude... 4 Patrones

Más detalles

Valentín Carretero Pastor Omar Marín Pastor BERKELEY DB. Historia:

Valentín Carretero Pastor Omar Marín Pastor BERKELEY DB. Historia: BERKELEY DB Historia: Berkeley DB pertenecía y era desarrollado por la compañía Sleepycat Software. Estaba disponible con código fuente y licencia de libre distribución (free software), ahora comprado

Más detalles

MONITORES EN JAVA. Antonio Tomeu Control de la Concurrencia en Java: API Estándar

MONITORES EN JAVA. Antonio Tomeu Control de la Concurrencia en Java: API Estándar MONITORES EN JAVA Un monitor es un objeto que implementa acceso bajo e.m. a todos sus métodos, y provee sincronización En Java, son objetos de una clase cuyos métodos públicos son todos synchronized Un

Más detalles

Java: Programación Multithread

Java: Programación Multithread Qué es un thread? Java: Programación Multithread Hasta el momento hemos desarrollado programas secuenciales con un único thread: en cualquier instante durante la ejecución de un programa hay un único punto

Más detalles

Repaso de las características más importantes de la programación Java y su adaptación a Android

Repaso de las características más importantes de la programación Java y su adaptación a Android Repaso de las características más importantes de la programación Java y su adaptación a Android 1. Entorno de programación en java 2. Variables y tipos de datos 3. Operaciones y operadores 4. Clases y

Más detalles

Identificadores, palabras reservadas, tipos de datos, operadores aritméticos y el sistema estándar de salida en Java

Identificadores, palabras reservadas, tipos de datos, operadores aritméticos y el sistema estándar de salida en Java Identificadores, palabras reservadas, tipos de datos, operadores aritméticos y el sistema estándar de salida en Java Identificadores Las variables se utilizan en programación para almacenar temporalmente

Más detalles

Elementos léxicos del lenguaje de programación Java

Elementos léxicos del lenguaje de programación Java Elementos léxicos del lenguaje de programación Java Elementos léxicos del lenguaje de programación Java Palabras reservadas Identificadores Literales Operadores Delimitadores Comentarios Apéndices Operadores

Más detalles

Big Data en la nube. Use los datos. Obtenga información. La pregunta clave es: Qué puede hacer Doopex por mi negocio?

Big Data en la nube. Use los datos. Obtenga información. La pregunta clave es: Qué puede hacer Doopex por mi negocio? Qué es Doopex? Big Data en la nube. Use los datos. Obtenga información. Seguramente, la pregunta clave no es Qué es Doopex?. La pregunta clave es: Qué puede hacer Doopex por mi negocio? El objetivo de

Más detalles

Software Libre para Aplicaciones de Big Data

Software Libre para Aplicaciones de Big Data Software Libre para Aplicaciones de Big Data Club de Investigación Tecnológica San José, Costa Rica 2014.07.16 Theodore Hope! hope@aceptus.com Big Data: Qué es?! Conjuntos de datos de: " Alto volumen (TBs

Más detalles

Java RMI. las RPC de Java. Parte I. Luis Fernando Llana Díaz. Departamento de Sistemas Informáticos y ProgramaciónUniversidad Complutense de Madrid

Java RMI. las RPC de Java. Parte I. Luis Fernando Llana Díaz. Departamento de Sistemas Informáticos y ProgramaciónUniversidad Complutense de Madrid las RPC de Java. Parte I Departamento de Sistemas Informáticos y Programación Universidad Complutense de Madrid de marzo de 006 RMI y RPC RPC: Remote Procedure Call. RMI y RPC RPC: Remote Procedure Call.

Más detalles

DISEÑO DE UNA ARQUITECTURA CLIENTE/SERVIDOR MEDIANTE OBJETOS DISTRIBUIDOS EN JAVA

DISEÑO DE UNA ARQUITECTURA CLIENTE/SERVIDOR MEDIANTE OBJETOS DISTRIBUIDOS EN JAVA DISEÑO DE UNA ARQUITECTURA CLIENTE/SERVIDOR MEDIANTE OBJETOS DISTRIBUIDOS EN JAVA José Luis Pastrana Brincones (pastrana@lcc.uma.es) Dpto. Lenguajes y Ciencias de la Computación. Universidad de Málaga

Más detalles

Java nos ofrece la clase Thread y la interfaz Runable que permiten que varios procesos estén funcionando de forma concurrente.

Java nos ofrece la clase Thread y la interfaz Runable que permiten que varios procesos estén funcionando de forma concurrente. Threads (hilos) Java nos ofrece la clase Thread y la interfaz Runable que permiten que varios procesos estén funcionando de forma concurrente. Conceptos: Proceso (thread o hilo): es un programa en ejecución

Más detalles

Generar Temas de Colores y Cambiarlos Dinámicamente en ZK

Generar Temas de Colores y Cambiarlos Dinámicamente en ZK Generar Temas de Colores y Cambiarlos Dinámicamente en ZK Hola, mi nombre es Manuel Martínez y soy de Colombia. Voy a explicarles desde cómo construir temas de colores para las interfaces graficas de ZK

Más detalles

Big Data y NO-SQL el futuro de la Arquitectura de Información

Big Data y NO-SQL el futuro de la Arquitectura de Información Big Data y NO-SQL el futuro de la Arquitectura de Información Jorge Mario Calvo L. EMPRENDEMICO = EMPRENdedor + academico http://jorgemariocalvo.net http://www.emprendemico.com Twitter: @Emprendemico Conocimiento

Más detalles

PROYECTO. Solución Empresarial Ingeniería y Desarrollo de Software www.solucionempresarial.com.ar - info@solucionempresarial.com.

PROYECTO. Solución Empresarial Ingeniería y Desarrollo de Software www.solucionempresarial.com.ar - info@solucionempresarial.com. PROYECTO 1 ÍNDICE 1. Presentación 2. Que es LDAP 3. Ventajas 4. Funcionamientos 5. Paquetes Adicionales 6. Requisitos 7. Objetivos 8. Presupuesto 7. Presupuesto 2 Presentación Se quiere implementar un

Más detalles

Big Data. Jose Alvarez Gómez jose.alvarez@oracle.com OCM - Oracle Database 11g Certified Master Oracle University

Big Data. Jose Alvarez Gómez jose.alvarez@oracle.com OCM - Oracle Database 11g Certified Master Oracle University Big Data Jose Alvarez Gómez jose.alvarez@oracle.com OCM - Oracle Database 11g Certified Master Oracle University Agenda Introducción a Big Data Casos de Uso Tecnología Adquirir Organizar Analizar y Decidir

Más detalles

Profesor: José Luis Montoya Restrepo

Profesor: José Luis Montoya Restrepo Profesor: José Luis Montoya Restrepo AGENDA Presentación Profesor y Alumnos. Importancia de los sistemas distribuidos. Objetivos y contenido del curso. Profesor José Luis Montoya Ingeniero Electrónico

Más detalles

Introducción a Hadoop

Introducción a Hadoop Introducción a Hadoop Patrocinado por Bahía Software Tomás Fernández Pena Centro Singular de Investigación en Tecnoloxías da Información Universidade de Santiago de Compostela citius.usc.es Qué es MapReduce?

Más detalles

3.9 Patrón Distributed callback

3.9 Patrón Distributed callback 3.9 Patrón Distributed callback Motivación (1) Queremos que la aplicación de administración de los termostatos Monitorize la temperatura de algunos termostatos, avisándonos si ésta baja o sube por encima

Más detalles

Práctica 3 mtp. metodoloxía e tecnoloxía da programación. Presentar detalles básicos sobre la sintaxis del lenguaje de programación Java.

Práctica 3 mtp. metodoloxía e tecnoloxía da programación. Presentar detalles básicos sobre la sintaxis del lenguaje de programación Java. Práctica 3 mtp metodoloxía e tecnoloxía da programación Objetivos: Duración: Presentar detalles básicos sobre la sintaxis del lenguaje de programación Java. 1 semana 1.- Identificadores Los identificadores

Más detalles

2. Estructura de un programa en Java

2. Estructura de un programa en Java 24 A. García-Beltrán y J.M. Arranz 2. Estructura de un programa en Java Objetivos: a) Describir la estructura del código fuente de una aplicación Java b) Presentar los conceptos de comentario y de identificador

Más detalles

1. Manejo de memoria estática 2. Manejo de memoria dinámica

1. Manejo de memoria estática 2. Manejo de memoria dinámica 1. Manejo de memoria estática 2. Manejo de memoria dinámica *La administración de memoria de una computadora es una tarea fundamental debido a que la cantidad de memoria es limitada. *El sistema operativo

Más detalles

Programación en Java. Programación en OO

Programación en Java. Programación en OO Programación en OO Lección 4:Programación en OO 1. Herencia 2. Modificadores de Acceso 3. Interfaces Herencia Es la acción en la que una clase obtiene los métodos y propiedades definidos en otra clase,

Más detalles

Índice. Presentación Stratebi Introducción Qué es? Características Principales Instalación & Configuración Comandos

Índice. Presentación Stratebi Introducción Qué es? Características Principales Instalación & Configuración Comandos Hbase Up & Running Índice Presentación Stratebi Introducción Qué es? Características Principales Instalación & Configuración Comandos Sobre nosotros - Stratebi Confían en Business Intelligence Open Source

Más detalles

Global File System (GFS)...

Global File System (GFS)... Global File System (GFS)... Diferente a los sistemas de ficheros en red que hemos visto, ya que permite que todos los nodos tengan acceso concurrente a los bloques de almacenamiento compartido (a través

Más detalles

El papel del Cloud Computing en BD & DS. Javier Cacheiro López jlopez@cesga.es

El papel del Cloud Computing en BD & DS. Javier Cacheiro López jlopez@cesga.es El papel del Cloud Computing en BD & DS Javier Cacheiro López jlopez@cesga.es Contenido Soluciones Cloud Cloud Federado: EGI FedCloud BigData en FedCloud Conclusiones Cloud Cloud Modelos Cloud Infrastructure

Más detalles

MÓDULO DE RECOMENDACIONES DE PÁGINAS A VISITAR EN LA WIKIPEDIA, BASADO EN LAS APORTACIONES EFECTUADAS POR LA COMUNIDAD DE USUARIOS USANDO HADOOP

MÓDULO DE RECOMENDACIONES DE PÁGINAS A VISITAR EN LA WIKIPEDIA, BASADO EN LAS APORTACIONES EFECTUADAS POR LA COMUNIDAD DE USUARIOS USANDO HADOOP ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL Facultad de Ingeniería en Electricidad y Computación MÓDULO DE RECOMENDACIONES DE PÁGINAS A VISITAR EN LA WIKIPEDIA, BASADO EN LAS APORTACIONES EFECTUADAS POR LA

Más detalles

Qué ofrece Autentia Real Business Solutions S.L?

Qué ofrece Autentia Real Business Solutions S.L? Qué ofrece Autentia Real Business Solutions S.L Somos su empresa de Soporte a Desarrollo Informático. Ese apoyo que siempre quiso tener... Avenida de Castilla, - Edificio Best Point - Oficina B 0 San Fernando

Más detalles

Grados Ing. Inf. y Mat. Inf. Julio 2014 Algoritmos y Estructura de Datos Página 1 de 6

Grados Ing. Inf. y Mat. Inf. Julio 2014 Algoritmos y Estructura de Datos Página 1 de 6 Grados Ing. Inf. y Mat. Inf. Julio 201 Algoritmos y Estructura de Datos Página 1 de 6 Algoritmos y Estructura de Datos: Examen Julio (Solución) Grados Ing. Inf. y Mat. Inf. Julio 201 Departamento de Lenguajes,

Más detalles

Resumen. Abstract. 1. Introducción

Resumen. Abstract. 1. Introducción Utilización de la plataforma Hadoop para la implementación de un programa que permita determinar mensajes spam Gustavo Crespo P. (1) Susana Véliz M. (2) Vanessa Cedeño M. Msc. (3) (1) (2) (3) Facultad

Más detalles

Manual de Instalación

Manual de Instalación Manual de Instalación MANUAL DE INSTALACIÓN... 1 1. REQUERIMIENTOS DEL SISTEMA... 2 1.1 Hardware... 2 1.2 Software... 2 2. MANUAL DE INSTALACIÓN... 3 2.1 Descargar instalador Weka... 3 2.2 Instalación

Más detalles

CONTENIDO. Serialización. Carga dinamica de stubs RMI AVANZADO. Callbacks. Carga dinámica de Stubs

CONTENIDO. Serialización. Carga dinamica de stubs RMI AVANZADO. Callbacks. Carga dinámica de Stubs CONTENIDO RMI AVANZADO Carga dinamica de stubs Callbacks Carga dinámica de Stubs Para tener acceso a un objeto remoto mediante RMI, el cliente debe recibir un stub serializado y deserializarlo. El stub

Más detalles

INTRODUCCIÓN A APACHE SPARK CON PYTHON

INTRODUCCIÓN A APACHE SPARK CON PYTHON Ls INTRODUCCIÓN A APACHE SPARK CON PYTHON Introducción a Apache Spark Jortilles.com info@jortilles.com Índice de contenido 1.Descripción...3 2.Cual es su ventaja competitiva...3 3.Instalación...3 4.Conceptos

Más detalles