CURSOS DE VERANO 2014
|
|
- Eva Miguélez Giménez
- hace 2 años
- Vistas:
Transcripción
1 CURSOS DE VERANO 2014 APROXIMACIÓN PRÁCTICA A LA CIENCIA DE DATOS Y BIG DATA: HERRAMIENTAS KNIME, R, HADOOP Y MAHOUT. Entorno de Procesamiento Hadoop Sara Del Río García 1
2 Qué es Hadoop? Es un proyecto de código abierto escrito en Java administrado por la fundación Apache. Permite el almacenamiento y procesamiento distribuido de datos a gran escala en grandes clústeres de comodity hardware. Se inspiró en: Google s MapReduce. Google s GFS (Google Distributed File system). 2
3 Características de Hadoop Consta de dos servicios principales: Almacenamiento: HDFS. Procesamiento: MapReduce. Aporta una serie de ventajas: Bajo coste: clústeres baratos / cloud. Facilidad de uso. Tolerancia a fallos. 3
4 Esclavo Maestro Arquitectura Hadoop está diseñado para tener una arquitectura Maestro Esclavo. Maestro: NameNode, JobTracker Esclavo: {DataNode, TaskTraker},..., {DataNode, TaskTraker} Namenode JobTracker Secondary Namenode Single Box Single Box Single Box Optional to have in Two Box In Separate Box Datanode 1 Datanode 2 Datanode 3 Datanode N 4
5 Arquitectura HDFS Maestro: NameNode Esclavo: {DataNode},..., {DataNode} 5
6 Arquitectura MapReduce Maestro : JobTracker Esclavo : {tasktraker},, {Tasktraker} 6
7 Ecosistema de Hadoop en la fundación Apache (I) Algunas tecnologías relacionadas: Hbase (la base de datos): sistema de bases de datos NoSQL que corre sobre HDFS (inspirada en Google BigTable). Cassandra: Una base de datos escalable multi-master sin puntos individuales y fallo. Hive (el data warehouse): infraestructura de data warehouse construida sobre Hadoop. Sqoop (la herramienta de ETL): herramienta para transferencia eficiente de datos entre Hadoop y bases de datos relacionales. Mahout (la plataforma de data mining): algoritmos escalables de aprendizaje automático y minería de datos sobre Hadoop. 7
8 Ecosistema de Hadoop en la fundación Apache(II) ZooKeeper (la herramienta de sincronización): servicio centralizado de configuración, nombrado, sincronización distribuida y servicios de grupos para grandes sistemas distribuidos. Chukwa: Un sistema de recogida de datos para la gestión de grandes sistemas distribuidos. Avro (el sistema de serialización): una plataforma para codificar y homogeneizar los datos de forma que se puedan transmitir de forma óptima por la red. Tez: Sustituye al modelo MapShuffleReduce por un flujo de ejecución con grafos acíclico dirigido (DAG) 8
9 Ecosistema de Hadoop en la fundación Apache(III) Giraph: Procesamiento iterativo de grafos Pig (el helper para analizar grandes volúmenes de datos): lenguaje de alto nivel (de flujo de datos) para facilitar la escritura de programas MapReduce. Flume (el agregador de logs): capturar, analizar y monitorizar grandes ficheros de log. Y recientemente Apache Spark 9
10 Evolución de Hadoop (I) HDFS es la capa de almacenamiento de datos para Hadoop y MapReduce era la capa de procesamiento de datos. Sin embargo, MapReduce, por sí solo, no es suficiente para la gran variedad de casos de uso a resolver. 10
11 Evolución de Hadoop (II) Con YARN (Yet Another Resource Negotiator) Hadoop ahora tiene un entorno de gestión de recursos y aplicaciones distribuidas dónde se pueden implementar múltiples aplicaciones de procesamiento de datos totalmente personalizadas y específicas para realizar una tarea en cuestión. MapReduce es, ahora, una de estas aplicaciones. 11
12 Ejemplos de algunas aplicaciones de MapReduce En Facebook Minería de Datos Detección de SPAM Gestión de Logs En Google Construcción de índices para el buscador (pagerank) Clustering de artículos en Google News Búsqueda de rutas en Google Maps En I+D+I Análisis astronómico Bioinformática Simulación climática 12
13 Quien usa Hadoop? ebay Facebook IBM The New York Times Tuenti Twitter. muchos más 13
14 Primer hito de Hadoop: July Hadoop Wins Terabyte Sort Benchmark Uno de los grupos de Yahoo Hadoop ordenó 1 terabyte de datos en 209 segundos, superando el récord anterior de 297 segundos en la competición anual de ordenación de un terabyte (Daytona). Esta es la primera vez que un programa en Java de código abierto ganó la competición. 14
15 Hadoop Sorts a Petabyte in Hours and a Terabyte in 62 Seconds (2009) Yahoos Hammer Cluster 15
16 Instalación en un clúster Ejemplo ATLAS, infraestructura del grupo SCI 2 S Cluster ATLAS: 4 super servers from Super Micro Computer Inc. (4 nodes per server) Las características de cada nodo son: Microprocessors: 2 x Intel Xeon E (6 cores/12 threads, 2 GHz, 15 MB Cache) RAM 64 GB DDR3 ECC 1600MHz, Registered 1 HDD SATA 1TB, 3Gb/s; (system) 1 HDD SATA 2TB, 3Gb/s; (distributed file system) 16
17 Instalación (I) Fuentes: Sistemas pre-configurados proporcionados por empresas. Las tres distribuciones más extendidas son: Cloudera (www.cloudera.com): contribuidor activo al proyecto que proporciona una distribución comercial y nocomercial de Hadoop (CDH). MapR (www.mapr.com). Hortonworks (www.hortonworks.com). Cada proveedor ofrece imágenes de VM con Linux y Hadoop ya instalado. 17
18 Instalación (II) Modos de funcionamiento: En un nodo: Standalone (local): de forma predeterminada, Hadoop está configurado para ejecutarse en un modo no distribuido, como un único proceso Java. Útil para la depuración. Pseudo-Distribuido: cada demonio de Hadoop se ejecuta en un proceso Java independiente. En un clúster: Distribuido. 18
19 Instalación CDH4 con MRv1en un único nodo Linux (I) 1. Asegurarse de tener Oracle JDK instalado: 1. $ java -version 2. $ echo $JAVA_HOME 2. Para instalar Oracle JDK (32 Bit) (Si no está instalado): 1. Extraer e instalar el contenido del archivo binario RPM: 1. $ su 2. # cd /home/<user> 3. # chmod a+x jdk-6u45-linux-i586-rpm.bin 4. #./jdk-6u45-linux-i586-rpm.bin 2. Configurar la variable de entorno JAVA_HOME : 1. # export JAVA_HOME=/usr/java/jdk1.6.0_45 2. # export PATH=$JAVA_HOME/bin:$PATH 3. # env grep JAVA_HOME Donde <user> es el nombre de usuario Linux de cada usuario. 19
20 Instalación CDH4 con MRv1en un único nodo Linux (II) Instalación de CDH4 con con MRv1 en un único nodo bajo CentOS 6.5 en modo Pseudo-distribuido 1. Instalar el RPM para CDH4: 1. # cd /home/<user> 2. # yum --nogpgcheck localinstall cloudera-cdh-4-0.i386.rpm 2. Instalar Hadoop en modo Pseudo-distribuido: 1. # yum install hadoop-0.20-conf-pseudo Donde <user> es el nombre de usuario Linux de cada usuario. 20
21 Instalación CDH4 con MRv1en un único nodo Linux (III) 3. Iniciar Hadoop y verificar que funciona correctamente Para MRv1, una instalación de Hadoop Pseudo-distribuida consiste en un nodo que ejecuta los cinco demonios Hadoop: NameNode, secondarynamenode, ResourceManager, DataNodes y NodeManager. Para ver los archivos: # rpm -ql hadoop-0.20-conf-pseudo /etc/hadoop/conf.pseudo /etc/hadoop/conf.pseudo/readme /etc/hadoop/conf.pseudo/core-site.xml /etc/hadoop/conf.pseudo/hadoop-env.sh /etc/hadoop/conf.pseudo/hadoop-metrics.properties /etc/hadoop/conf.pseudo/hdfs-site.xml /etc/hadoop/conf.pseudo/log4j.properties /etc/hadoop/conf.pseudo/mapred-site.xml /etc/hadoop/conf.pseudo/yarn-site.xml 21
22 Instalación CDH4 con MRv1en un único nodo Linux (IV) 3. Iniciar Hadoop y verificar que funciona correctamente 1. Formatear el NameNode: Antes de iniciar el NameNode por primera vez es necesario formatear el sistema de archivos. # sudo -u hdfs hdfs namenode -format 2. Iniciar HDFS: # for x in `cd /etc/init.d ; ls hadoop-hdfs-*` ; do sudo service $x start ; done 22
23 Instalación CDH4 con MRv1en un único nodo Linux (V) 3. Iniciar Hadoop y verificar que funciona correctamente Podemos comprobar que los servicios se han iniciado correctamente accediendo a la consola web que proporciona el NameNode: 23
24 Instalación CDH4 con MRv1en un único nodo Linux (VI) 3. Iniciar Hadoop y verificar que funciona correctamente 3. Crear el directorio /tmp y establecer permisos: 1. # sudo -u hdfs hadoop fs -mkdir /tmp 2. # sudo -u hdfs hadoop fs -chmod -R 1777 /tmp 4. Crear los directorios del sistema MapReduce: 1. # sudo -u hdfs hadoop fs -mkdir -p /var/lib/hadoophdfs/cache/mapred/mapred/staging 2. # sudo -u hdfs hadoop fs -chmod 1777 /var/lib/hadoophdfs/cache/mapred/mapred/staging 3. # sudo -u hdfs hadoop fs -chown -R mapred /var/lib/hadoop-hdfs/cache/mapred 24
25 Instalación CDH4 con MRv1en un único nodo Linux (VII) 3. Iniciar Hadoop y verificar que funciona correctamente 5. Verificar la estructura de ficheros HDFS: # sudo -u hdfs hadoop fs -ls -R / Se mostrará lo siguiente: 25
26 Instalación CDH4 con MRv1en un único nodo Linux (VIII) 3. Iniciar Hadoop y verificar que funciona correctamente 6. Iniciar MapReduce # for x in `cd /etc/init.d ; ls hadoop mapreduce-*` ; do sudo service $x start ; done Podemos comprobar que los servicios se han iniciado correctamente accediendo a la consola web que proporciona el JobTracker : 26
27 Instalación CDH4 con MRv1en un único nodo Linux (IX) 3. Iniciar Hadoop y verificar que funciona correctamente 7. Crear los directorios de usuario # sudo -u hdfs hadoop fs -mkdir /user/<user> # sudo -u hdfs hadoop fs -chown <user> /user/<user> Donde <user> es el nombre de usuario Linux de cada usuario. 27
28 HDFS: Hadoop Distributed File System Hadoop puede acceder a diferentes tipos de sistemas de ficheros (local, HDFS, KFS, ). No obstante se recomienda el uso de HDFS. Entre sus ventajas destacan: Diseñado para almacenar ficheros muy grandes en commodity hardware. Elevado ancho de banda. Fiabilidad mediante replicación. También tiene algunos inconvenientes: Elevada latencia. Poco eficiente con muchos ficheros pequeños. 28
29 HDFS: Hadoop Distributed File System HDFS Cuenta con tres interfaces: API de programación. Interfaz web: Puerto del Namenode. Línea de comandos: HDSF tiene su propia shell. Ayuda: $ hadoop fs help 29
30 HDFS: Hadoop Distributed File System Algunos comandos: Comandos hadoop fs -ls <path> hadoop fs -cp <src> <dst> hadoop fs -mv <src> <dst> hadoop fs -rm <path> hadoop fs -rmr <path> hadoop fs -cat <path> hadoop fs -mkdir <path> hadoop fs -put <localsrc> <dst> hadoop fs -copytolocal <src> <localdst> Descripción Lista ficheros Copia ficheros de HDFS a HDFS Mueve ficheros de HDFS a HDFS Borra ficheros en HDFS Borra recursivamente Muestra fichero en HDFS Crea directorio en HDFS Copia ficheros de local a HDFS Copia ficheros de HDFS a local 30
31 Referencias CDH4 Quick Start Guide: Hadoop: 31
32 Happy Hadooping! 32
CURSO: DESARROLLADOR PARA APACHE HADOOP
CURSO: DESARROLLADOR PARA APACHE HADOOP CAPÍTULO 3: HADOOP CONCEPTOS BÁSICOS www.formacionhadoop.com Índice 1 Introducción a Hadoop 1.1 Proyecto Hadoop 1.2 Conceptos de Hadoop 2 Cluster Hadoop 2.1 Demonios
APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López
APACHE HADOOP Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López Objetivos 1. Qué es Apache Hadoop? 2. Funcionalidad 2.1. Map/Reduce 2.2. HDFS 3. Casos prácticos 4. Hadoop
Introducción a Hadoop
Introducción a Hadoop Patrocinado por Bahía Software Tomás Fernández Pena Centro Singular de Investigación en Tecnoloxías da Información Universidade de Santiago de Compostela citius.usc.es Qué es MapReduce?
Big Data. Analisís de grandes cantidades de datos. Sergio Marchena Quirós
Big Data Analisís de grandes cantidades de datos Sergio Marchena Quirós Índice 1.0 Introducción...3 1.1 Objetivos del proyecto...3 1.1.1 Estudio Teórico...3 2.0 Big Data...3 2.1 las 5 V...3 2.2 Tipos de
The H Hour: Hadoop The awakening of the BigData. Antonio Soto SolidQ COO asoto@solidq.com @antoniosql
The H Hour: Hadoop The awakening of the BigData Antonio Soto SolidQ COO asoto@solidq.com @antoniosql Tendencias de la Industria El nuevo rol del operador El operador de ayer Sigue el proceso basado en
Comandos HDF Breve manual
Comandos HDF Breve manual Diego J. Bodas Sagi Julio de 2014 Índice Comandos Linux / Unix Comandos HDFS Ejemplos Resumen 2 Comandos interesantes para Data Science Tener soltura a la hora de interactuar
BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO
BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO PRESENTACIÓN ANTONIO GONZÁLEZ CASTRO IT SECURITY DIRECTOR EN PRAGSIS TECHNOLOGIES agcastro@pragsis.com antoniogonzalezcastro.es @agonzaca linkedin.com/in/agonzaca
Qué significa Hadoop en el mundo del Big Data?
Qué significa Hadoop en el mundo del Big Data? Un contenido para perfiles técnicos 2 ÍNDICE Qué significa Hadoop en el Universo Big Data?.... 3 El planteamiento: big data y data science.... 3 Los desafíos
Instalación Hadoop. Guía para Debian y derivados
Instalación Hadoop Guía para Debian y derivados Índice Instalación Hadoop Hadoop Distributed File System a. NameNode b. DataNode. Requisitos Diferentes modos de configuración Instalación Java Instalación
Big data A través de una implementación
Big data A través de una implementación Lic. Diego Krauthamer Profesor Adjunto Interino del Área Base de Datos Universidad Abierta Interamericana Facultad de Tecnología Informática Buenos Aires. Argentina
Big Data y Supercómputo. Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE)
Big Data y Supercómputo Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) Big Data 2 Hasta qué cantidad de datos podemos procesar en nuestra
Big Data con nombres propios
Febrero 2014 Big Data con Al hablar de tecnología Big Data se está obligado, sin duda alguna, a hablar de programación paralela y procesamiento distribuido, ya que éstas serán las características que permitirán
CURSO PRESENCIAL: ADMINISTRADOR HADOOP
CURSO PRESENCIAL: ADMINISTRADOR HADOOP Información detallada del curso www.formacionhadoop.com El curso se desarrolla a lo largo de 4 semanas seguidas. Se trata de un curso formato ejecutivo que permite
Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source
Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source Francisco Magaz Villaverde Consultor: Víctor Carceler Hontoria Junio 2012 Contenido Introducción Qué es Cloud Compu5ng?
ÍNDICE. Introducción... Capítulo 1. Conceptos de Big Data... 1
ÍNDICE Introducción... XIII Capítulo 1. Conceptos de Big Data... 1 Definición, necesidad y características de Big Data... 1 Aplicaciones típicas de Big Data... 4 Patrones de detección del fraude... 4 Patrones
Hadoop. Cómo vender un cluster Hadoop?
Hadoop Cómo vender un cluster Hadoop? ÍNDICE Problema Big Data Qué es Hadoop? Descripción HDSF Map Reduce Componentes de Hadoop Hardware Software 3 EL PROBLEMA BIG DATA ANTES Los datos los generaban las
PROGRAMA FORMATIVO Administrador Big Data Cloudera Apache Hadoop
PROGRAMA FORMATIVO Administrador Big Data Cloudera Apache Hadoop Julio 2015 DATOS GENERALES DE LA ESPECIALIDAD 1. Familia Profesional: INFORMÁTICA Y COMUNICACIONES (IFC) Área Profesional: SISTEMAS Y TELEMÁTICA
Alessandro Chacón 05-38019. Ernesto Level 05-38402. Ricardo Santana 05-38928
Alessandro Chacón 05-38019 Ernesto Level 05-38402 Ricardo Santana 05-38928 CONTENIDO Universo Digital Hadoop HDFS: Hadoop Distributed File System MapReduce UNIVERSO DIGITAL 161 EB 2006 Fuente: International
Escalar aplicaciones a cantidades masivas de datos Usando computadoras baratas muchas
Hadoop Problema Escalar aplicaciones a cantidades masivas de datos Usando computadoras baratas muchas Problemas de fiabilidad: alta probabilidad de que falle una o más computadoras Necesitamos algo que
Índice. Presentación Stratebi Introducción Qué es? Características Principales Instalación & Configuración Comandos
Hbase Up & Running Índice Presentación Stratebi Introducción Qué es? Características Principales Instalación & Configuración Comandos Sobre nosotros - Stratebi Confían en Business Intelligence Open Source
Tecnologías de Big Data para resultados en tiempo casi real
DOCUMENTO TÉCNICO Procesadores Intel Xeon Unidades de disco de estado sólido Intel (Intel SSDs) Adaptadores de Red Convergente Intel Ethernet Distribución de Intel para el software Hadoop* Tecnologías
CURSO PRESENCIAL: DESARROLLADOR BIG DATA
CURSO PRESENCIAL: DESARROLLADOR BIG DATA Información detallada del curso www.formacionhadoop.com El curso se desarrolla durante 3 semanas de Lunes a Jueves. Se trata de un curso formato ejecutivo que permite
Infraestructura de Big Data para el análisis y procesamiento de información generada por redes de sensores
Infraestructura de Big Data para el análisis y procesamiento de información generada por redes de sensores Seminario internacional: Big Data para la Información Oficial y la Toma de Decisiones José A.
Manual de instalación y configuración de hadoop 1.0.3 en linux
Manual de instalación y configuración de hadoop 1.0.3 en linux Índice...2 Software utilizado...2 Requisitos...2 Java...2 Sistema Operativo...2 Crear grupo y usuario...2 Creación del grupo...2 Creación
MÁSTER: MÁSTER EXPERTO BIG DATA
MÁSTER: MÁSTER EXPERTO BIG DATA Información detallada del máster www.formacionhadoop.com Este máster online está enfocado a los ingenieros que quieran aprender el despliegue y configuración de un cluster
CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK. www.formacionhadoop.com
CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK www.formacionhadoop.com Índice 1 Qué es Big Data? 2 Problemas con los sistemas tradicionales 3 Qué es Spark? 3.1 Procesamiento de datos distribuido
Big Data Analytics: propuesta de una arquitectura
Big Data Analytics: propuesta de una arquitectura Jonathan Solano Rodriguez y Estefany Leiva Valverde Escuela de Ingeniería, Universidad Latinoamericana de Ciencia y Tecnología, ULACIT, Urbanización Tournón,
BIG DATA. Jorge Mercado. Software Quality Engineer
BIG DATA Jorge Mercado Software Quality Engineer Agenda Big Data - Introducción Big Data - Estructura Big Data - Soluciones Conclusiones Q&A Big Data - Introducción Que es Big Data? Big data es el termino
PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop
PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop Julio 2015 DATOS GENERALES DE LA ESPECIALIDAD 1. Familia Profesional: INFORMÁTICA Y COMUNICACIONES (IFC) Área Profesional: SISTEMAS
PROGRAMA FORMATIVO Desarrollador Big Data Cloudera Apache Hadoop
PROGRAMA FORMATIVO Desarrollador Big Data Cloudera Apache Hadoop Julio 2015 DATOS GENERALES DE LA ESPECIALIDAD 1. Familia Profesional: INFORMÁTICA Y COMUNICACIONES (IFC) Área Profesional: DESARROLLO 2.
CURSO: DESARROLLADOR PARA APACHE HADOOP
CURSO: DESARROLLADOR PARA APACHE HADOOP CAPÍTULO 1: INTRODUCCIÓN www.formacionhadoop.com Índice 1 Por qué realizar el curso de desarrollador para Apache Hadoop? 2 Requisitos previos del curso 3 Bloques
Conectores Pentaho Big Data Community VS Enterprise
Conectores Pentaho Big Data Community VS Enterprise Agosto 2014 Stratebi Business Solutions www.stratebi.com info@stratebi.com Índice 1. Resumen... 3 2. Introducción... 4 3. Objetivo... 4 4. Pentaho Community
ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIÓN
ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIÓN Titulación: INGENIERO TÉCNICO EN INFORMÁTICA DE GESTIÓN Título del proyecto: Benchmarking Distributed System in the Cloud: Yahoo!
Diseño de una arquitectura para Big Data
Diseño de una arquitectura para Big Data Esteban Sevilla Rivera y David Salas Vargas Escuela de Ingeniería, Universidad Latinoamericana de Ciencia y Tecnología, ULACIT, Urbanización Tournón, 10235-1000
Facultad Politécnica UNA Ing. Julio Paciello juliopaciello@gmail.com
Facultad Politécnica UNA Ing. Julio Paciello juliopaciello@gmail.com Contenidos Clúster de Investigación Aplicada Proyectos HPC Clúster Hadoop para tecnologías de BI Una nube privada para la Administración
HDInsight. Big Data, al estilo Microsoft
HDInsight Big Data, al estilo Microsoft PABLO DOVAL SQL/BI Team Lead palvarez@plainconcepts.com http://geeks.ms/blogs/palvarez @PabloDoval Big Data ALGUNAS ESTADÍSTICAS DE SQL SERVER Categoría Metrica
Big Data. Francisco Herrera. Research Group on Soft Computing and Information Intelligent Systems (SCI 2 S) University of Granada, Spain
Big Data Francisco Herrera Research Group on Soft Computing and Information Intelligent Systems (SCI 2 S) Dept. of Computer Science and A.I. University of Granada, Spain Email: herrera@decsai ugr es Email:
FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS
FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS Introducción Los algoritmos utilizados para el procesamiento de imágenes son de complejidad computacional alta. Por esto
IT@Intel Cómo TI de Intel migró con éxito hacia Cloudera Apache Hadoop*
Documento técnico de IT@Intel Marzo de 2015 IT@Intel Cómo TI de Intel migró con éxito hacia Cloudera Apache Hadoop* A partir de nuestra experiencia original con el software Apache Hadoop, TI de Intel identificó
Estamos inmersos en la era de la información, donde. Big data. Procesando los datos en la sociedad digital
Big data Procesando los datos en la sociedad digital Francisco Herrera Departamento de Ciencias de la Computación e Inteligencia Artificial de la Universidad de Granada Estamos inmersos en la era de la
Evaluación de la herramienta de código libre Apache Hadoop Universidad Carlos III de Madrid Escuela Politécnica Superior
Evaluación de la herramienta de código libre Apache Hadoop Universidad Carlos III de Madrid Escuela Politécnica Superior Proyecto Fin de Carrera INGENIERÍA TÉCNICA DE TELECOMUNICACIÓN: TELEMÁTICA Autora:
Resumen. Abstract. Palabras Claves: Hive, Hadoop, MapReduce, ESPOL.
Análisis de la información de una base de Datos Transaccional usando Hive sobre Hadoop Mercedes Alcívar (1), Iván Espinoza (2), Vanessa Cedeño (3) Facultad de Ingeniería en Electricidad y Computación (1)
Contenido CAPÍTULO 2 FUENTES DE GRANDES VOLÚMENES DE DATOS... 23. Parte I. La era de Big Data CAPÍTULO 1 QUÉ ES BIG DATA?... 1
Contenido Parte I. La era de Big Data CAPÍTULO 1 QUÉ ES BIG DATA?... 1 Definición de Big Data... 2 Tipos de datos... 3 Datos estructurados... 4 Datos semiestructurados... 4 Datos no estructurados... 5
Cocinando con Big Data
Cocinando con Big Data Javier Sánchez BDM Big Data jsanchez@flytech.es 91.300.51.09 21/11/2013 Javier Sánchez 1 Agenda Qué es Big Data? Receta Punto de Partida Para qué Big Data? Conclusiones 21/11/2013
Big Data: retos a nivel de desarrollo. Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co
Big Data: retos a nivel de desarrollo Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co Cámara de Comercio de Bogotá Centro Empresarial Chapinero Agenda Introducción Bases de datos NoSQL Procesamiento
INTRODUCCIÓN A APACHE SPARK CON PYTHON
Ls INTRODUCCIÓN A APACHE SPARK CON PYTHON Introducción a Apache Spark Jortilles.com info@jortilles.com Índice de contenido 1.Descripción...3 2.Cual es su ventaja competitiva...3 3.Instalación...3 4.Conceptos
Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica
Fundamentos Título de de Big la Data presentación utilizando MATLAB Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica 1 Agenda Qué es Big Data? Buenas prácticas en el manejo de memoria.
Monitorización de actividades de datos InfoSphere Guardium para Big Data
Monitorización de actividades de datos InfoSphere Guardium para Big Data Amal Mashlab IBM Software Group, Information Management Responsable de Ventas de Gobierno de la Información para Europa Cumplir
PREVIEW BIDOOP 2.0. Big Data Brunch
PREVIEW BIDOOP 2.0 Big Data Brunch 08 de Julio 2014 Quién soy? Trabajando con Hadoop desde 2010 sluangsay@pragsis.com @sourygna CTO de Pragsis Responsable departamento sistemas Preventa Instructor de Hadoop
III. INTRODUCCIÓN AL CLOUD COMPUTING
III. INTRODUCCIÓN AL CLOUD COMPUTING Definición (I) Qué es el cloud computing? Nuevo paradigma de computación distribuida Provee un servicio de acceso a recursos computacionales: servidores, almacenamiento,
Requisitos Hardware Big Data
Requisitos Hardware Big Data Apache Hadoop, Apache HBase, Apache Spark Document identifier: DO_SIS_Requisitos_Hardware_Big_Data_V9.odt Date: 16/03/2015 Document status: DRAFT Document link: License: Resumen:
Resumen. Abstract. 2. Generalidades. 1. Introducción. Palabras Clave: Hadoop, MapReduce, Lynx, Búsquedas, Optimización.
Búsquedas optimizadas en la página web de la ESPOL Jorge Herrera Medina (1), Carlos Rodríguez Rivera (2), Vanesa Cedeño Mieles (3) Facultad de Ingeniería en Electricidad y Computación (FIEC) Escuela Superior
Desarrollo de herramientas empresariales para la búsqueda de información utilizando Biginsights, Java y otras tecnologías de la informática
Desarrollo de herramientas empresariales para la búsqueda de información utilizando Biginsights, Java y otras tecnologías de la informática Índice Introducción Capítulo 1: Contexto General 1.1 Descripción
Big Data. Análisis de herramientas y soluciones
Big Data Análisis de herramientas y soluciones Big Data es el sector emergente dentro del área de las tecnologías de la información y la comunicación que se preocupa de cómo almacenar y tratar grandes
Log -Analytics con Apache-Flume Elasticsearch HDFS Kibana Master Experto en Cloud Computing U-TAD
Log -Analytics con Apache-Flume Elasticsearch HDFS Kibana Master Experto en Cloud Computing U-TAD Proyecto Final Master Felix Rodriguez Araujo 1 DESCRIPCIÓN GLOBAL DEL PROYECTO 2 TECNOLOGÍAS USADAS 3 WORKFLOW
Big Data en la nube. Use los datos. Obtenga información. La pregunta clave es: Qué puede hacer Doopex por mi negocio?
Qué es Doopex? Big Data en la nube. Use los datos. Obtenga información. Seguramente, la pregunta clave no es Qué es Doopex?. La pregunta clave es: Qué puede hacer Doopex por mi negocio? El objetivo de
COMO USAR HADOOP. Y sobrevivir a la experiencia
COMO USAR HADOOP Y sobrevivir a la experiencia ORGANIZACIÓN Descripción Hadoop: Procesos involucrados Esquema de Funcionamiento Instalación de Hadoop Instalación Local Descripción de Instalación en Cluster
Modelo de Gobierno de Datos con SPARK
Página1 Configuración de la máquina maestra Para un sistema de Hadoop Para configurar una máquina como maestra en un cluster de Hadoop, es necesario modificar algunos archivos que se encuentran dentro
CURSO: CURSO ADMINISTRADOR HADOOP
CURSO: CURSO ADMINISTRADOR HADOOP Información detallada del curso www.formacionhadoop.com Este curso online está enfocado a administradores de sistemas que quieran aprender a realizar el despliegue y mantenimiento
Software Libre para Aplicaciones de Big Data
Software Libre para Aplicaciones de Big Data Club de Investigación Tecnológica San José, Costa Rica 2014.07.16 Theodore Hope! hope@aceptus.com Big Data: Qué es?! Conjuntos de datos de: " Alto volumen (TBs
Big Data. Rodolfo Campos http://www.smartcamp.es/~camposer/tecnocom/bigdata
Big Data Rodolfo Campos http://www.smartcamp.es/~camposer/tecnocom/bigdata Madrid, Mayo de 2013 Agenda 1. Introducción a Big Data. 1.1. Definición / Justificación 1.2. Casos de Uso 2. NoSQL 1.1. Orientadas
UNIVERSIDAD TECNICA DEL NORTE Ing. Lenin Omar Lara Castro. BIG DATA
UNIVERSIDAD TECNICA DEL NORTE Ing. Lenin Omar Lara Castro. BIG DATA Historia del Arte: El Big Data o Datos Masivos se refieren a sistemas informáticos basados en la acumulación a gran escala de datos y
Curso de verano. Biología Computacional: Análisis masivo de datos ómicos
Curso de verano Biología Computacional: Análisis masivo de datos ómicos Centro Mediterráneo Universidad de Granada Con la colaboración de: Departamento de Arquitectura y Tecnología de Computadores Consejo
Uso básico de la terminal
Uso básico de la terminal Comandos básicos El CLI más utilizado en Linux se llama GNU/Bash (o solo Bash --Bourne Again Shell) algunas variables y comandos que son de utilidad son:. ruta actual ~ home del
Agente local Aranda GNU/Linux. [Manual Instalación] Todos los derechos reservados Aranda Software www.arandasoft.com [1]
Todos los derechos reservados Aranda Software www.arandasoft.com [1] Introducción El Agente Aranda para sistemas Linux se encarga de recolectar la siguiente información en cada una de las estaciones de
XII Encuentro Danysoft en Microsoft Abril 2015. Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código
Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código Ana María Bisbé York Servicios Profesionales sp@danysoft.com 916 638683 www.danysoft.com Abril 2015 Sala 1 SQL Server
Seminario. Cloud Computing. Granada, 20 al 22 de febrero de 2013
Seminario Cloud Computing Granada, 20 al 22 de febrero de 2013 1 Business Intelligence en Cloud Seminario Cloud Computing 21 de Febrero de 2012 Francisco Herrera E-mail: herrera@decsai.ugr.es Department
Contenidos. Sistemas operativos Tema 3: Estructura del sistema operativo. Componentes típicos de un SO. Gestión de procesos.
Contenidos Sistemas operativos Tema 3: Estructura del sistema operativo Componentes típicos del SO Servicios del SO Llamadas al sistema Programas del sistema El núcleo o kernel Modelos de diseño del SO
Comprender un poco más de los que es Apache Pig y Hadoop. El tutorial de cerdo muestra cómo ejecutar dos scripts de cerdo en modo local y el
APACHE PIG CONTENIDO 1. Introducción 3 1.1. Apache Pig 3 1.2. Propiedades 4 1.3. Requisitos para Apache Pig 4 1.4. Instalación de Hadoop 5 1.5. Instalación de java 5 1.6. Instalación de Pig 6 1.7. Ejecución
acenswhitepapers Bases de datos NoSQL. Qué son y tipos que nos podemos encontrar
s Bases de datos NoSQL. Qué son y tipos que nos podemos encontrar Introducción Son muchas las aplicaciones web que utilizan algún tipo de bases de datos para funcionar. Hasta ahora estábamos acostumbrados
IBM SPSS Analytic Server Versión 1. Instrucciones de instalación
IBM SPSS Analytic Server Versión 1 Instrucciones de instalación Contenido Instrucciones de instalación de IBM SPSS Analytic Server......... 1 Plataformas soportadas........... 1 Requisitos previos............
CURSOS DE VERANO 2014
CURSOS DE VERANO 2014 CLOUD COMPUTING: LA INFORMÁTICA COMO SERVICIO EN INTERNET LA PLATAFORMA GOOGLE CLOUD PLATFORM. GOOGLE APP ENGINE Pedro A. Castillo Valdivieso Universidad de Granada http://bit.ly/unia2014
Desarrollo de un entorno basado en MapReduce para la ejecución distribuida de algoritmos genéticos paralelos
UNIVERSIDADE DA CORUÑA FACULTAD DE INFORMÁTICA Departamento de Electrónica y Sistemas PROYECTO FIN DE CARRERA DE INGENIERÍA INFORMÁTICA Desarrollo de un entorno basado en MapReduce para la ejecución distribuida
CURSO SISTEMAS DISTRIBUIDOS
CURSO SISTEMAS DISTRIBUIDOS Introducción Tema 1 Hadoop Tema 2 Hive Tema 3 Sistemas NoSQL Tema 4 Cassandra Tema 5 MongoDB Introducción Durante esta documentación se hablará, a grandes rasgos, sobre diferentes
Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop
Informe de materia de graduación Evaluación de MapReduce, Pig y Hive, sobre la plataforma Hadoop Franklin Parrales Bravo Marco Calle Jaramillo Contenido o Herramientas o Motivación o Servicios y herramientas
PARADIGMA NOSQL: BASES DE DATOS COLUMNARES PARA AMBIENTE DATA WAREHOUSE
Universidad de San Carlos de Guatemala Facultad de Ingeniería Escuela de Ingeniería en Ciencias y Sistemas PARADIGMA NOSQL: BASES DE DATOS COLUMNARES PARA AMBIENTE DATA WAREHOUSE Erick Steve de la Cruz
Arancha Pintado. Perfiles Big Data. www.madridschoolofmarketing.es
Arancha Pintado Perfiles Big Data www.madridschoolofmarketing.es De dónde venimos? De dónde venimos? Cuál es la diferencia? Si se supiera cómo tratar esa información, cómo "sacarle el jugo", eso proporcionaría
Como instalar Jaspersoft Server en Canaima
Como instalar Jaspersoft Server en Canaima Con este manual podrás aprender como generar impresiones en PDF de tu programa Java en tu computador con Linux La misión de este manual, es enseñarte como instalar
Documento de implementación Servidor Web. Proyecto Laboratorio de Redes 2011-2
Documento de implementación Servidor Web Proyecto Laboratorio de Redes 2011-2 CONTROL DE REVISIONES Fecha Versión Autores Revisado y aprobado Modificación Camilo Ernesto Gaitán Riveros 18/11/2011 0.1 Luis
MÁSTER: MÁSTER DESARROLLADOR BIG DATA
MÁSTER: MÁSTER DESARROLLADOR BIG DATA Información detallada del máster www.formacionhadoop.com Este máster online está enfocado a los desarrolladores que quieran aprender a construir potentes aplicaciones
Diplomado en Big Data
160 horas Diplomado en Big Data BROCHURE, 2015 Contenido Quienes somos?... 3 Presentación del Programa... 4 Perfíl del Facilitador. 5 Objetivos.. 6 Información General.. 7 Plan de Estudio... 8-9 Plan de
Universidad Autónoma de Aguascalientes Luis Eduardo Bautista Villalpando
Universidad Autónoma de Aguascalientes Luis Eduardo Bautista Villalpando Qué es Cloud Computing? Quién utiliza Cloud Computing? Plataformas utilizadas en Cloud Computing Investigación en Cloud Computing
Instalación y configuración de herramientas software para Big Data
Escola Tècnica Superior d Enginyeria Informàtica Universitat Politècnica de València Instalación y configuración de herramientas software para Big Data Trabajo Fin de Grado Grado en Ingeniería Informática
Big Data y NO-SQL el futuro de la Arquitectura de Información
Big Data y NO-SQL el futuro de la Arquitectura de Información Jorge Mario Calvo L. EMPRENDEMICO = EMPRENdedor + academico http://jorgemariocalvo.net http://www.emprendemico.com Twitter: @Emprendemico Conocimiento
Google BigQuery. Luis Villalba 59191
Google BigQuery Luis Villalba 59191 Universidad Católica de Asunción, Departamento de Ciencias y Tecnologías, Sede Santa Librada, Asunción, Paraguay villalba.luifer@gmail.com Abstract. En este paper estaremos
CURSO PRESENCIAL: Apache Spark
CURSO PRESENCIAL: Apache Spark Información detallada del curso www.formacionhadoop.com El curso se desarrolla en 2 semanas seguidas. Se trata de un curso formato ejecutivo que permite compaginar la formación
Petabytes de información: Repensando el modelamiento de base de datos. Ernesto Quiñones Azcárate ernestoq@apesol.org Presidencia Apesol 2006 2008
Petabytes de información: Repensando el modelamiento de base de datos Ernesto Quiñones Azcárate ernestoq@apesol.org Presidencia Apesol 2006 2008 Modelos de bases de datos para todos los gustos (según la
Análisis de sentimientos de tweets.
Análisis de sentimientos de tweets. JIT-CITA 2013 Resumen Un sensor de sentimientos de tweets para identificar los mensajes positivos, negativos y neutros sobre cualquier trend que se tome sobre esta red
ERIKA FERNANDA SILVA BALOCCHI PROFESOR GUÍA: EDGARD PINEDA LEONE MIEMBROS DE LA COMISIÓN: JORGE PÉREZ ROJAS DIONISIO GONZÁLEZ GONZÁLEZ
UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y MATEMÁTICAS DEPARTAMENTO DE CIENCIAS DE LA COMPUTACIÓN ANÁLISIS Y COMPARACIÓN ENTRE EL MOTOR DE BASES DE DATOS ORIENTADO A COLUMNAS INFOBRIGHT Y EL FRAMEWORK
Francisco Herrera. Dpto. Ciencias de la Computación e I.A. Universidad de Granada
Francisco Herrera Dpto. Ciencias de la Computación e I.A. Universidad de Granada herrera@decsai.ugr.es Grupo de investigación SCI 2 S http://sci2s.ugr.es Big Data 2 Big Data Nuestro mundo gira en torno
Curso Big Data: Herramientas Tecnológicas y Aplicaciones para Negocio
Curso Big Data: Herramientas Tecnológicas y Aplicaciones para Negocio 20 horas Vitae Consultores 20, 21, 27 y 28 de mayo Big Data: Herramientas Tecnológicas y Aplicaciones para Negocio Introducción El
CURSO SERVICIO BIG DATA
CURSO SERVICIO BIG DATA 1 PRACTICAS Práctica 1: Utilizando el servicio cloud (Web)... 3 Práctica 2: Utilizando el servicio cloud (SSH)... 10 Práctica 3: Lanzar un cluster Hadoop... 12 Práctica 4: HDFS...
Manual de Instalación y configuración
Manual de Instalación y configuración Proceso de ETL y Transferencia de datos para el sistema de Información Hospitalaria, InfHos Diciembre 2013 Proceso de Extracción, Transformación, Carga y Transferencia
# the. in the next command references the cloudera home directory # in hdfs, /user/cloudera
Una rápida introducción a HDFS y MapReduce Antes de iniciar a mover datos entre su base de datos relacional y Hadoop, usted necesita una rápida introducción a HDFS y a MapReduce. Hay muchos tutoriales
Título: Yo RDD (Resilient Distributed Datasets) con la Bujía (SPARK)!!!
Título: Yo RDD (Resilient Distributed Datasets) con la Bujía (SPARK)!!! Autor: Dr. Gabriel Guerrero Ref: www.saxsa.com.mx/articulos/rdd Descripción: Una breve introducción al concepto de Conjuntos Distribuidos
Shell de Unix ProgPLN
Shell de Unix ProgPLN Víctor Peinado v.peinado@filol.ucm.es 9 de octubre de 2014 Never use the graphical tool; always learn the old Unix tool. You ll be far more effective over time and your data will
ADQUISICIÓN E IMPLANTACIÓN DE UN CLUSTER PARA COMPUTACIÓN DE ALTO RENDIMIENTO PLIEGO DE BASES TÉCNICAS
ADQUISICIÓN E IMPLANTACIÓN DE UN CLUSTER PARA COMPUTACIÓN DE ALTO RENDIMIENTO PLIEGO DE BASES TÉCNICAS 1 1. Objeto y alcance... 3 2. Características de los sistemas requeridos.... 1 2.1 Características