CURSOS DE VERANO 2014
|
|
|
- Eva Miguélez Giménez
- hace 10 años
- Vistas:
Transcripción
1 CURSOS DE VERANO 2014 APROXIMACIÓN PRÁCTICA A LA CIENCIA DE DATOS Y BIG DATA: HERRAMIENTAS KNIME, R, HADOOP Y MAHOUT. Entorno de Procesamiento Hadoop Sara Del Río García 1
2 Qué es Hadoop? Es un proyecto de código abierto escrito en Java administrado por la fundación Apache. Permite el almacenamiento y procesamiento distribuido de datos a gran escala en grandes clústeres de comodity hardware. Se inspiró en: Google s MapReduce. Google s GFS (Google Distributed File system). 2
3 Características de Hadoop Consta de dos servicios principales: Almacenamiento: HDFS. Procesamiento: MapReduce. Aporta una serie de ventajas: Bajo coste: clústeres baratos / cloud. Facilidad de uso. Tolerancia a fallos. 3
4 Esclavo Maestro Arquitectura Hadoop está diseñado para tener una arquitectura Maestro Esclavo. Maestro: NameNode, JobTracker Esclavo: {DataNode, TaskTraker},..., {DataNode, TaskTraker} Namenode JobTracker Secondary Namenode Single Box Single Box Single Box Optional to have in Two Box In Separate Box Datanode 1 Datanode 2 Datanode 3 Datanode N 4
5 Arquitectura HDFS Maestro: NameNode Esclavo: {DataNode},..., {DataNode} 5
6 Arquitectura MapReduce Maestro : JobTracker Esclavo : {tasktraker},, {Tasktraker} 6
7 Ecosistema de Hadoop en la fundación Apache (I) Algunas tecnologías relacionadas: Hbase (la base de datos): sistema de bases de datos NoSQL que corre sobre HDFS (inspirada en Google BigTable). Cassandra: Una base de datos escalable multi-master sin puntos individuales y fallo. Hive (el data warehouse): infraestructura de data warehouse construida sobre Hadoop. Sqoop (la herramienta de ETL): herramienta para transferencia eficiente de datos entre Hadoop y bases de datos relacionales. Mahout (la plataforma de data mining): algoritmos escalables de aprendizaje automático y minería de datos sobre Hadoop. 7
8 Ecosistema de Hadoop en la fundación Apache(II) ZooKeeper (la herramienta de sincronización): servicio centralizado de configuración, nombrado, sincronización distribuida y servicios de grupos para grandes sistemas distribuidos. Chukwa: Un sistema de recogida de datos para la gestión de grandes sistemas distribuidos. Avro (el sistema de serialización): una plataforma para codificar y homogeneizar los datos de forma que se puedan transmitir de forma óptima por la red. Tez: Sustituye al modelo MapShuffleReduce por un flujo de ejecución con grafos acíclico dirigido (DAG) 8
9 Ecosistema de Hadoop en la fundación Apache(III) Giraph: Procesamiento iterativo de grafos Pig (el helper para analizar grandes volúmenes de datos): lenguaje de alto nivel (de flujo de datos) para facilitar la escritura de programas MapReduce. Flume (el agregador de logs): capturar, analizar y monitorizar grandes ficheros de log. Y recientemente Apache Spark 9
10 Evolución de Hadoop (I) HDFS es la capa de almacenamiento de datos para Hadoop y MapReduce era la capa de procesamiento de datos. Sin embargo, MapReduce, por sí solo, no es suficiente para la gran variedad de casos de uso a resolver. 10
11 Evolución de Hadoop (II) Con YARN (Yet Another Resource Negotiator) Hadoop ahora tiene un entorno de gestión de recursos y aplicaciones distribuidas dónde se pueden implementar múltiples aplicaciones de procesamiento de datos totalmente personalizadas y específicas para realizar una tarea en cuestión. MapReduce es, ahora, una de estas aplicaciones. 11
12 Ejemplos de algunas aplicaciones de MapReduce En Facebook Minería de Datos Detección de SPAM Gestión de Logs En Google Construcción de índices para el buscador (pagerank) Clustering de artículos en Google News Búsqueda de rutas en Google Maps En I+D+I Análisis astronómico Bioinformática Simulación climática 12
13 Quien usa Hadoop? ebay Facebook IBM The New York Times Tuenti Twitter. muchos más 13
14 Primer hito de Hadoop: July Hadoop Wins Terabyte Sort Benchmark Uno de los grupos de Yahoo Hadoop ordenó 1 terabyte de datos en 209 segundos, superando el récord anterior de 297 segundos en la competición anual de ordenación de un terabyte (Daytona). Esta es la primera vez que un programa en Java de código abierto ganó la competición. 14
15 Hadoop Sorts a Petabyte in Hours and a Terabyte in 62 Seconds (2009) Yahoos Hammer Cluster 15
16 Instalación en un clúster Ejemplo ATLAS, infraestructura del grupo SCI 2 S Cluster ATLAS: 4 super servers from Super Micro Computer Inc. (4 nodes per server) Las características de cada nodo son: Microprocessors: 2 x Intel Xeon E (6 cores/12 threads, 2 GHz, 15 MB Cache) RAM 64 GB DDR3 ECC 1600MHz, Registered 1 HDD SATA 1TB, 3Gb/s; (system) 1 HDD SATA 2TB, 3Gb/s; (distributed file system) 16
17 Instalación (I) Fuentes: Sistemas pre-configurados proporcionados por empresas. Las tres distribuciones más extendidas son: Cloudera ( contribuidor activo al proyecto que proporciona una distribución comercial y nocomercial de Hadoop (CDH). MapR ( Hortonworks ( Cada proveedor ofrece imágenes de VM con Linux y Hadoop ya instalado. 17
18 Instalación (II) Modos de funcionamiento: En un nodo: Standalone (local): de forma predeterminada, Hadoop está configurado para ejecutarse en un modo no distribuido, como un único proceso Java. Útil para la depuración. Pseudo-Distribuido: cada demonio de Hadoop se ejecuta en un proceso Java independiente. En un clúster: Distribuido. 18
19 Instalación CDH4 con MRv1en un único nodo Linux (I) 1. Asegurarse de tener Oracle JDK instalado: 1. $ java -version 2. $ echo $JAVA_HOME 2. Para instalar Oracle JDK (32 Bit) (Si no está instalado): 1. Extraer e instalar el contenido del archivo binario RPM: 1. $ su 2. # cd /home/<user> 3. # chmod a+x jdk-6u45-linux-i586-rpm.bin 4. #./jdk-6u45-linux-i586-rpm.bin 2. Configurar la variable de entorno JAVA_HOME : 1. # export JAVA_HOME=/usr/java/jdk1.6.0_45 2. # export PATH=$JAVA_HOME/bin:$PATH 3. # env grep JAVA_HOME Donde <user> es el nombre de usuario Linux de cada usuario. 19
20 Instalación CDH4 con MRv1en un único nodo Linux (II) Instalación de CDH4 con con MRv1 en un único nodo bajo CentOS 6.5 en modo Pseudo-distribuido 1. Instalar el RPM para CDH4: 1. # cd /home/<user> 2. # yum --nogpgcheck localinstall cloudera-cdh-4-0.i386.rpm 2. Instalar Hadoop en modo Pseudo-distribuido: 1. # yum install hadoop-0.20-conf-pseudo Donde <user> es el nombre de usuario Linux de cada usuario. 20
21 Instalación CDH4 con MRv1en un único nodo Linux (III) 3. Iniciar Hadoop y verificar que funciona correctamente Para MRv1, una instalación de Hadoop Pseudo-distribuida consiste en un nodo que ejecuta los cinco demonios Hadoop: NameNode, secondarynamenode, ResourceManager, DataNodes y NodeManager. Para ver los archivos: # rpm -ql hadoop-0.20-conf-pseudo /etc/hadoop/conf.pseudo /etc/hadoop/conf.pseudo/readme /etc/hadoop/conf.pseudo/core-site.xml /etc/hadoop/conf.pseudo/hadoop-env.sh /etc/hadoop/conf.pseudo/hadoop-metrics.properties /etc/hadoop/conf.pseudo/hdfs-site.xml /etc/hadoop/conf.pseudo/log4j.properties /etc/hadoop/conf.pseudo/mapred-site.xml /etc/hadoop/conf.pseudo/yarn-site.xml 21
22 Instalación CDH4 con MRv1en un único nodo Linux (IV) 3. Iniciar Hadoop y verificar que funciona correctamente 1. Formatear el NameNode: Antes de iniciar el NameNode por primera vez es necesario formatear el sistema de archivos. # sudo -u hdfs hdfs namenode -format 2. Iniciar HDFS: # for x in `cd /etc/init.d ; ls hadoop-hdfs-*` ; do sudo service $x start ; done 22
23 Instalación CDH4 con MRv1en un único nodo Linux (V) 3. Iniciar Hadoop y verificar que funciona correctamente Podemos comprobar que los servicios se han iniciado correctamente accediendo a la consola web que proporciona el NameNode: 23
24 Instalación CDH4 con MRv1en un único nodo Linux (VI) 3. Iniciar Hadoop y verificar que funciona correctamente 3. Crear el directorio /tmp y establecer permisos: 1. # sudo -u hdfs hadoop fs -mkdir /tmp 2. # sudo -u hdfs hadoop fs -chmod -R 1777 /tmp 4. Crear los directorios del sistema MapReduce: 1. # sudo -u hdfs hadoop fs -mkdir -p /var/lib/hadoophdfs/cache/mapred/mapred/staging 2. # sudo -u hdfs hadoop fs -chmod 1777 /var/lib/hadoophdfs/cache/mapred/mapred/staging 3. # sudo -u hdfs hadoop fs -chown -R mapred /var/lib/hadoop-hdfs/cache/mapred 24
25 Instalación CDH4 con MRv1en un único nodo Linux (VII) 3. Iniciar Hadoop y verificar que funciona correctamente 5. Verificar la estructura de ficheros HDFS: # sudo -u hdfs hadoop fs -ls -R / Se mostrará lo siguiente: 25
26 Instalación CDH4 con MRv1en un único nodo Linux (VIII) 3. Iniciar Hadoop y verificar que funciona correctamente 6. Iniciar MapReduce # for x in `cd /etc/init.d ; ls hadoop mapreduce-*` ; do sudo service $x start ; done Podemos comprobar que los servicios se han iniciado correctamente accediendo a la consola web que proporciona el JobTracker : 26
27 Instalación CDH4 con MRv1en un único nodo Linux (IX) 3. Iniciar Hadoop y verificar que funciona correctamente 7. Crear los directorios de usuario # sudo -u hdfs hadoop fs -mkdir /user/<user> # sudo -u hdfs hadoop fs -chown <user> /user/<user> Donde <user> es el nombre de usuario Linux de cada usuario. 27
28 HDFS: Hadoop Distributed File System Hadoop puede acceder a diferentes tipos de sistemas de ficheros (local, HDFS, KFS, ). No obstante se recomienda el uso de HDFS. Entre sus ventajas destacan: Diseñado para almacenar ficheros muy grandes en commodity hardware. Elevado ancho de banda. Fiabilidad mediante replicación. También tiene algunos inconvenientes: Elevada latencia. Poco eficiente con muchos ficheros pequeños. 28
29 HDFS: Hadoop Distributed File System HDFS Cuenta con tres interfaces: API de programación. Interfaz web: Puerto del Namenode. Línea de comandos: HDSF tiene su propia shell. Ayuda: $ hadoop fs help 29
30 HDFS: Hadoop Distributed File System Algunos comandos: Comandos hadoop fs -ls <path> hadoop fs -cp <src> <dst> hadoop fs -mv <src> <dst> hadoop fs -rm <path> hadoop fs -rmr <path> hadoop fs -cat <path> hadoop fs -mkdir <path> hadoop fs -put <localsrc> <dst> hadoop fs -copytolocal <src> <localdst> Descripción Lista ficheros Copia ficheros de HDFS a HDFS Mueve ficheros de HDFS a HDFS Borra ficheros en HDFS Borra recursivamente Muestra fichero en HDFS Crea directorio en HDFS Copia ficheros de local a HDFS Copia ficheros de HDFS a local 30
31 Referencias CDH4 Quick Start Guide: Hadoop: 31
32 Happy Hadooping! 32
APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López
APACHE HADOOP Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López Objetivos 1. Qué es Apache Hadoop? 2. Funcionalidad 2.1. Map/Reduce 2.2. HDFS 3. Casos prácticos 4. Hadoop
Instalación Hadoop. Guía para Debian y derivados
Instalación Hadoop Guía para Debian y derivados Índice Instalación Hadoop Hadoop Distributed File System a. NameNode b. DataNode. Requisitos Diferentes modos de configuración Instalación Java Instalación
CURSO: DESARROLLADOR PARA APACHE HADOOP
CURSO: DESARROLLADOR PARA APACHE HADOOP CAPÍTULO 3: HADOOP CONCEPTOS BÁSICOS www.formacionhadoop.com Índice 1 Introducción a Hadoop 1.1 Proyecto Hadoop 1.2 Conceptos de Hadoop 2 Cluster Hadoop 2.1 Demonios
Hadoop. Cómo vender un cluster Hadoop?
Hadoop Cómo vender un cluster Hadoop? ÍNDICE Problema Big Data Qué es Hadoop? Descripción HDSF Map Reduce Componentes de Hadoop Hardware Software 3 EL PROBLEMA BIG DATA ANTES Los datos los generaban las
BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO
BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO PRESENTACIÓN ANTONIO GONZÁLEZ CASTRO IT SECURITY DIRECTOR EN PRAGSIS TECHNOLOGIES [email protected] antoniogonzalezcastro.es @agonzaca linkedin.com/in/agonzaca
Introducción a Hadoop
Introducción a Hadoop Patrocinado por Bahía Software Tomás Fernández Pena Centro Singular de Investigación en Tecnoloxías da Información Universidade de Santiago de Compostela citius.usc.es Qué es MapReduce?
Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source
Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source Francisco Magaz Villaverde Consultor: Víctor Carceler Hontoria Junio 2012 Contenido Introducción Qué es Cloud Compu5ng?
Comandos HDF Breve manual
Comandos HDF Breve manual Diego J. Bodas Sagi Julio de 2014 Índice Comandos Linux / Unix Comandos HDFS Ejemplos Resumen 2 Comandos interesantes para Data Science Tener soltura a la hora de interactuar
MÁSTER: MÁSTER EXPERTO BIG DATA
MÁSTER: MÁSTER EXPERTO BIG DATA Información detallada del máster www.formacionhadoop.com Este máster online está enfocado a los ingenieros que quieran aprender el despliegue y configuración de un cluster
CURSO: DESARROLLADOR PARA APACHE HADOOP
CURSO: DESARROLLADOR PARA APACHE HADOOP CAPÍTULO 1: INTRODUCCIÓN www.formacionhadoop.com Índice 1 Por qué realizar el curso de desarrollador para Apache Hadoop? 2 Requisitos previos del curso 3 Bloques
Índice. Presentación Stratebi Introducción Qué es? Características Principales Instalación & Configuración Comandos
Hbase Up & Running Índice Presentación Stratebi Introducción Qué es? Características Principales Instalación & Configuración Comandos Sobre nosotros - Stratebi Confían en Business Intelligence Open Source
Qué significa Hadoop en el mundo del Big Data?
Qué significa Hadoop en el mundo del Big Data? Un contenido para perfiles técnicos 2 ÍNDICE Qué significa Hadoop en el Universo Big Data?.... 3 El planteamiento: big data y data science.... 3 Los desafíos
Big data A través de una implementación
Big data A través de una implementación Lic. Diego Krauthamer Profesor Adjunto Interino del Área Base de Datos Universidad Abierta Interamericana Facultad de Tecnología Informática Buenos Aires. Argentina
The H Hour: Hadoop The awakening of the BigData. Antonio Soto SolidQ COO [email protected] @antoniosql
The H Hour: Hadoop The awakening of the BigData Antonio Soto SolidQ COO [email protected] @antoniosql Tendencias de la Industria El nuevo rol del operador El operador de ayer Sigue el proceso basado en
Big Data con nombres propios
Febrero 2014 Big Data con Al hablar de tecnología Big Data se está obligado, sin duda alguna, a hablar de programación paralela y procesamiento distribuido, ya que éstas serán las características que permitirán
CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK. www.formacionhadoop.com
CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK www.formacionhadoop.com Índice 1 Qué es Big Data? 2 Problemas con los sistemas tradicionales 3 Qué es Spark? 3.1 Procesamiento de datos distribuido
Big Data. Analisís de grandes cantidades de datos. Sergio Marchena Quirós
Big Data Analisís de grandes cantidades de datos Sergio Marchena Quirós Índice 1.0 Introducción...3 1.1 Objetivos del proyecto...3 1.1.1 Estudio Teórico...3 2.0 Big Data...3 2.1 las 5 V...3 2.2 Tipos de
Alessandro Chacón 05-38019. Ernesto Level 05-38402. Ricardo Santana 05-38928
Alessandro Chacón 05-38019 Ernesto Level 05-38402 Ricardo Santana 05-38928 CONTENIDO Universo Digital Hadoop HDFS: Hadoop Distributed File System MapReduce UNIVERSO DIGITAL 161 EB 2006 Fuente: International
General Parallel File System
General Parallel File System Introducción GPFS fue desarrollado por IBM, es un sistema que permite a los usuarios compartir el acceso a datos que están dispersos en múltiples nodos; permite interacción
PROGRAMA FORMATIVO Administrador Big Data Cloudera Apache Hadoop
PROGRAMA FORMATIVO Administrador Big Data Cloudera Apache Hadoop Julio 2015 DATOS GENERALES DE LA ESPECIALIDAD 1. Familia Profesional: INFORMÁTICA Y COMUNICACIONES (IFC) Área Profesional: SISTEMAS Y TELEMÁTICA
CURSO PRESENCIAL: ADMINISTRADOR HADOOP
CURSO PRESENCIAL: ADMINISTRADOR HADOOP Información detallada del curso www.formacionhadoop.com El curso se desarrolla a lo largo de 4 semanas seguidas. Se trata de un curso formato ejecutivo que permite
Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica
Fundamentos Título de de Big la Data presentación utilizando MATLAB Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica 1 Agenda Qué es Big Data? Buenas prácticas en el manejo de memoria.
FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS
FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS Introducción Los algoritmos utilizados para el procesamiento de imágenes son de complejidad computacional alta. Por esto
BIG DATA. Jorge Mercado. Software Quality Engineer
BIG DATA Jorge Mercado Software Quality Engineer Agenda Big Data - Introducción Big Data - Estructura Big Data - Soluciones Conclusiones Q&A Big Data - Introducción Que es Big Data? Big data es el termino
Manual de instalación y configuración de hadoop 1.0.3 en linux
Manual de instalación y configuración de hadoop 1.0.3 en linux Índice...2 Software utilizado...2 Requisitos...2 Java...2 Sistema Operativo...2 Crear grupo y usuario...2 Creación del grupo...2 Creación
ÍNDICE. Introducción... Capítulo 1. Conceptos de Big Data... 1
ÍNDICE Introducción... XIII Capítulo 1. Conceptos de Big Data... 1 Definición, necesidad y características de Big Data... 1 Aplicaciones típicas de Big Data... 4 Patrones de detección del fraude... 4 Patrones
CURSO PRESENCIAL: DESARROLLADOR BIG DATA
CURSO PRESENCIAL: DESARROLLADOR BIG DATA Información detallada del curso www.formacionhadoop.com El curso se desarrolla durante 3 semanas de Lunes a Jueves. Se trata de un curso formato ejecutivo que permite
Comprender un poco más de los que es Apache Pig y Hadoop. El tutorial de cerdo muestra cómo ejecutar dos scripts de cerdo en modo local y el
APACHE PIG CONTENIDO 1. Introducción 3 1.1. Apache Pig 3 1.2. Propiedades 4 1.3. Requisitos para Apache Pig 4 1.4. Instalación de Hadoop 5 1.5. Instalación de java 5 1.6. Instalación de Pig 6 1.7. Ejecución
Agente local Aranda GNU/Linux. [Manual Instalación] Todos los derechos reservados Aranda Software www.arandasoft.com [1]
Todos los derechos reservados Aranda Software www.arandasoft.com [1] Introducción El Agente Aranda para sistemas Linux se encarga de recolectar la siguiente información en cada una de las estaciones de
Big Data y Supercómputo. Dr. Jesús Antonio González ([email protected]) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE)
Big Data y Supercómputo Dr. Jesús Antonio González ([email protected]) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) Big Data 2 Hasta qué cantidad de datos podemos procesar en nuestra
Cocinando con Big Data
Cocinando con Big Data Javier Sánchez BDM Big Data [email protected] 91.300.51.09 21/11/2013 Javier Sánchez 1 Agenda Qué es Big Data? Receta Punto de Partida Para qué Big Data? Conclusiones 21/11/2013
CURSO: CURSO ADMINISTRADOR HADOOP
CURSO: CURSO ADMINISTRADOR HADOOP Información detallada del curso www.formacionhadoop.com Este curso online está enfocado a administradores de sistemas que quieran aprender a realizar el despliegue y mantenimiento
Big Data: retos a nivel de desarrollo. Ing. Jorge Camargo, MSc, PhD (c) [email protected]
Big Data: retos a nivel de desarrollo Ing. Jorge Camargo, MSc, PhD (c) [email protected] Cámara de Comercio de Bogotá Centro Empresarial Chapinero Agenda Introducción Bases de datos NoSQL Procesamiento
PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop
PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop Julio 2015 DATOS GENERALES DE LA ESPECIALIDAD 1. Familia Profesional: INFORMÁTICA Y COMUNICACIONES (IFC) Área Profesional: SISTEMAS
PROYECTO INTEGRADO CLUSTER DE ALTA DISPONIBILIDAD CON HAPROXY Y KEEPALIVED. Antonio Madrena Lucenilla 21 de Diciembre de 2012 I.E.S.
PROYECTO INTEGRADO CLUSTER DE ALTA DISPONIBILIDAD CON HAPROXY Y KEEPALIVED Obra bajo licencia Creative Commons Antonio Madrena Lucenilla 21 de Diciembre de 2012 I.E.S. Gonzalo Nazareno INDICE DE CONTENIDO
Modelo de Gobierno de Datos con SPARK
Página1 Configuración de la máquina maestra Para un sistema de Hadoop Para configurar una máquina como maestra en un cluster de Hadoop, es necesario modificar algunos archivos que se encuentran dentro
Uso básico de la terminal
Uso básico de la terminal Comandos básicos El CLI más utilizado en Linux se llama GNU/Bash (o solo Bash --Bourne Again Shell) algunas variables y comandos que son de utilidad son:. ruta actual ~ home del
MÁSTER: MÁSTER DESARROLLADOR BIG DATA
MÁSTER: MÁSTER DESARROLLADOR BIG DATA Información detallada del máster www.formacionhadoop.com Este máster online está enfocado a los desarrolladores que quieran aprender a construir potentes aplicaciones
DBSURE. Disponemos de una copia de la base de datos de forma remota, que podemos contabilizar como segundo juego de copias.
DBSURE Introducción Una base de datos Oracle en Standby es una copia exacta de una base de datos operativa en un servidor remoto, usada como backup, como copia para consulta, recuperación de desastres,
CI Politécnico Estella
SÍNTESIS DE LA PROGRAMACIÓN DEL MÓDULO/ASIGNATURA DEPARTAMENTO: INFORMÁTICA GRUPO/CURSO: 2º ASIR 2015-2016 MÓDULO: 10 ASGBD (Administración de Sistemas Gestores de Bases de Datos) PROFESOR: JULIA SEVILLA
Conectores Pentaho Big Data Community VS Enterprise
Conectores Pentaho Big Data Community VS Enterprise Agosto 2014 Stratebi Business Solutions www.stratebi.com [email protected] Índice 1. Resumen... 3 2. Introducción... 4 3. Objetivo... 4 4. Pentaho Community
Manual de Sistema. Contenido:
Manual de Sistema Contenido: 1. Introducción 2. Requerimientos 3. Instalación 4. Iniciar OpenWFE 5. Detener OpenWFE 6. Reiniciar OpenWFE 7. Respaldar Datos 8. Logs de Información 9. Referencia 1. Introducción
Escalar aplicaciones a cantidades masivas de datos Usando computadoras baratas muchas
Hadoop Problema Escalar aplicaciones a cantidades masivas de datos Usando computadoras baratas muchas Problemas de fiabilidad: alta probabilidad de que falle una o más computadoras Necesitamos algo que
Diplomado en Big Data
160 horas Diplomado en Big Data BROCHURE, 2015 Contenido Quienes somos?... 3 Presentación del Programa... 4 Perfíl del Facilitador. 5 Objetivos.. 6 Información General.. 7 Plan de Estudio... 8-9 Plan de
XII Encuentro Danysoft en Microsoft Abril 2015. Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código
Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código Ana María Bisbé York Servicios Profesionales [email protected] 916 638683 www.danysoft.com Abril 2015 Sala 1 SQL Server
Big Data en la nube. Use los datos. Obtenga información. La pregunta clave es: Qué puede hacer Doopex por mi negocio?
Qué es Doopex? Big Data en la nube. Use los datos. Obtenga información. Seguramente, la pregunta clave no es Qué es Doopex?. La pregunta clave es: Qué puede hacer Doopex por mi negocio? El objetivo de
Big Data y BAM con WSO2
Mayo 2014 Big Data y BAM con Leonardo Torres Centro Experto en SOA/BPM en atsistemas ofrece una completa suite de productos Open Source SOA y son contribuidores de muchos de los productos de Apache, como
Para poder instalar el producto, tendremos que obtener el instalador apropiado para nuestro entorno hardware y software.
Instalación de Oracle Service BUS (OSB) 1 DESCARGA DE INSTALADOR Para poder instalar el producto, tendremos que obtener el instalador apropiado para nuestro entorno hardware y software. En la siguiente
Curso: Sistemas Operativos II Plataforma: Linux SAMBA
Curso: Sistemas Operativos II Plataforma: Linux SAMBA Un servidor de archivos proporciona una ubicación central en la red, en la que puede almacenar y compartir los archivos con usuarios de la red, esta
Facultad Politécnica UNA Ing. Julio Paciello [email protected]
Facultad Politécnica UNA Ing. Julio Paciello [email protected] Contenidos Clúster de Investigación Aplicada Proyectos HPC Clúster Hadoop para tecnologías de BI Una nube privada para la Administración
BUSINESS INTELLIGENCE Y REDSHIFT
Whitepaper BUSINESS INTELLIGENCE Y REDSHIFT BEE PART OF THE CHANGE [email protected] www.beeva.com LAS SOLUCIONES QUE TU BI NECESITA Con Amazon Web Services (AWS) es posible disponer con solo unos clics
SISTEMA CABILDO MANUAL DE INSTALACIÓN CLIENTE ERP CABILDO LA SOLUCIÓN TECNOLÓGICA MÁS COMPLETA E INTEGRAL PARA GOBIERNOS LOCALES
PRISHARD PROFESIONALISMO CIA. LTDA. SISTEMA CABILDO LA SOLUCIÓN TECNOLÓGICA MÁS COMPLETA E INTEGRAL PARA GOBIERNOS LOCALES MANUAL DE INSTALACIÓN CLIENTE ERP CABILDO 2 Contenido 1. INTRODUCCIÓN 3 2. REQUERIMIENTOS
Global File System (GFS)...
Global File System (GFS)... Diferente a los sistemas de ficheros en red que hemos visto, ya que permite que todos los nodos tengan acceso concurrente a los bloques de almacenamiento compartido (a través
PVFS (Parallel Virtual File System)
Sergio González González Instituto Politécnico de Bragança, Portugal [email protected] Jónatan Grandmontagne García Universidad de Bragança, Portugal [email protected] Breve explicación
PROGRAMA FORMATIVO Desarrollador Big Data Cloudera Apache Hadoop
PROGRAMA FORMATIVO Desarrollador Big Data Cloudera Apache Hadoop Julio 2015 DATOS GENERALES DE LA ESPECIALIDAD 1. Familia Profesional: INFORMÁTICA Y COMUNICACIONES (IFC) Área Profesional: DESARROLLO 2.
III. INTRODUCCIÓN AL CLOUD COMPUTING
III. INTRODUCCIÓN AL CLOUD COMPUTING Definición (I) Qué es el cloud computing? Nuevo paradigma de computación distribuida Provee un servicio de acceso a recursos computacionales: servidores, almacenamiento,
PINOT. La ingestión near real time desde Kafka complementado por la ingestión batch desde herramientas como Hadoop.
PINOT Stratebi Paper (2015 [email protected] www.stratebi.com) Pinot es la herramienta de análisis en tiempo real desarrollada por LinkedIn que la compañía ha liberado su código bajo licencia Apache 2.0,
Descripción. Este Software cumple los siguientes hitos:
WWWMONITORDBACOM Descripción Este Software cumple los siguientes hitos: a- Consola de Monitoreo b- Envío de Alertas (correo, SMS) c- Gestión de Eventos desatendidos (sea capaz ejecutar script de solución
Laboratorio Nacional de Cómputo de Alto Desempeño: Fortalecimiento de la Infraestructura 2015
Anexo A. Partida 3 Laboratorio Nacional de Cómputo de Alto Desempeño: Fortalecimiento de la Infraestructura 2015 CLUSTER LANCAD3 El bien a adquirir se describe a continuación y consiste en cúmulo de supercómputo
Tecnologías de Big Data para resultados en tiempo casi real
DOCUMENTO TÉCNICO Procesadores Intel Xeon Unidades de disco de estado sólido Intel (Intel SSDs) Adaptadores de Red Convergente Intel Ethernet Distribución de Intel para el software Hadoop* Tecnologías
INTRODUCCIÓN A APACHE SPARK CON PYTHON
Ls INTRODUCCIÓN A APACHE SPARK CON PYTHON Introducción a Apache Spark Jortilles.com [email protected] Índice de contenido 1.Descripción...3 2.Cual es su ventaja competitiva...3 3.Instalación...3 4.Conceptos
Evaluación de la herramienta de código libre Apache Hadoop Universidad Carlos III de Madrid Escuela Politécnica Superior
Evaluación de la herramienta de código libre Apache Hadoop Universidad Carlos III de Madrid Escuela Politécnica Superior Proyecto Fin de Carrera INGENIERÍA TÉCNICA DE TELECOMUNICACIÓN: TELEMÁTICA Autora:
Capítulo 7. Implementación del Sistema
Capítulo 7. Implementación del Sistema 7.1 Servidor Web (Jakarta-Tomcat) Para el desarrollado de este proyecto se utilizó el servidor Web Jakarta-Tomcat, el cual soporta las tecnologías Java HTTP Servlets
Big Data Analytics: propuesta de una arquitectura
Big Data Analytics: propuesta de una arquitectura Jonathan Solano Rodriguez y Estefany Leiva Valverde Escuela de Ingeniería, Universidad Latinoamericana de Ciencia y Tecnología, ULACIT, Urbanización Tournón,
Manual de Instalación y configuración
Manual de Instalación y configuración Proceso de ETL y Transferencia de datos para el sistema de Información Hospitalaria, InfHos Diciembre 2013 Proceso de Extracción, Transformación, Carga y Transferencia
HDInsight. Big Data, al estilo Microsoft
HDInsight Big Data, al estilo Microsoft PABLO DOVAL SQL/BI Team Lead [email protected] http://geeks.ms/blogs/palvarez @PabloDoval Big Data ALGUNAS ESTADÍSTICAS DE SQL SERVER Categoría Metrica
Servidor FTP en Ubuntu Juan Antonio Fañas
Qué es FTP? FTP (File Transfer Protocol) o Protocolo de Transferencia de Archivos (o ficheros informáticos) es uno de los protocolos estándar más utilizados en Internet siendo el más idóneo para la transferencia
Actividad 1: Utilización cliente FTP (mediante línea de comandos, entornos gráficos y navegadores/exploradores) (I).
PRÁCTICAS SRI TEMA 5 (SERVIDOR FTP) Actividad 1: Utilización cliente FTP (mediante línea de comandos, entornos gráficos y navegadores/exploradores) (I). 1. Iniciamos sesión con un usuario nombre (miguel)
Estamos inmersos en la era de la información, donde. Big data. Procesando los datos en la sociedad digital
Big data Procesando los datos en la sociedad digital Francisco Herrera Departamento de Ciencias de la Computación e Inteligencia Artificial de la Universidad de Granada Estamos inmersos en la era de la
Servidores corporativos Linux
Servidores corporativos Linux Contenidos Contenidos... 1 Introducción... 2 Controlador de dominio Windows en Linux... 2 Servidor de ficheros e impresoras Linux... 3 Alta disponibilidad... 4 Otros servicios
MANUAL DE INSTALACIÓN GLPI 0.84.7 EN CANAIMA
MANUAL DE INSTALACIÓN GLPI 0.84.7 EN CANAIMA Caracas Noviembre del 2014 Desarrollado por Jaibol Santaella PREFACIO El presente documento fue desarrollado con la finalidad de explicar los pasos a seguir
acenswhitepapers Bases de datos NoSQL. Qué son y tipos que nos podemos encontrar
s Bases de datos NoSQL. Qué son y tipos que nos podemos encontrar Introducción Son muchas las aplicaciones web que utilizan algún tipo de bases de datos para funcionar. Hasta ahora estábamos acostumbrados
Infraestructura de Big Data para el análisis y procesamiento de información generada por redes de sensores
Infraestructura de Big Data para el análisis y procesamiento de información generada por redes de sensores Seminario internacional: Big Data para la Información Oficial y la Toma de Decisiones José A.
Studium, Campus Virtual de la Universidad de Salamanca.
Studium, Campus Virtual de la Universidad de Salamanca. Contenidos 1 Qué es Studium 2 Instalación de Studium en USAL 3 Atención a los usuarios 4 Instalación Moodle. MoodleWindowsInstaller 5 Moodle portable
CAPÍTULO 4 ANÁLISIS DE IMPLEMENTACIONES
CAPÍTULO 4 ANÁLISIS DE IMPLEMENTACIONES En el anterior capítulo se realizaron implementaciones en una red de datos para los protocolos de autenticación Kerberos, Radius y LDAP bajo las plataformas Windows
Manual de Referencia
Manual Manual de de instalación rápida DBF 1 BIENVENIDOS A ON THE MINUTE. Gracias por adquirir On The Minute. Este sistema le permitirá controlar las asistencias de los empleados de su empresa, así como
PROYECTO. Solución Empresarial Ingeniería y Desarrollo de Software www.solucionempresarial.com.ar - [email protected].
PROYECTO 1 ÍNDICE 1. Presentación 2. Que es LDAP 3. Ventajas 4. Funcionamientos 5. Paquetes Adicionales 6. Requisitos 7. Objetivos 8. Presupuesto 7. Presupuesto 2 Presentación Se quiere implementar un
CURSOS DE VERANO 2014
CURSOS DE VERANO 2014 CLOUD COMPUTING: LA INFORMÁTICA COMO SERVICIO EN INTERNET LA PLATAFORMA GOOGLE CLOUD PLATFORM. GOOGLE APP ENGINE Pedro A. Castillo Valdivieso Universidad de Granada http://bit.ly/unia2014
Servicios de impresión y de archivos (Windows 2008) www.adminso.es
Servicios de y de archivos (Windows 2008) www.adminso.es Servicios de y archivos (w2k8) COMPARTIR ARCHIVOS E IMPRESORAS Servicios de y archivos (w2k8) Los servicios de y de archivos permiten compartir
Infraestructura Tecnológica. Sesión 8: Configurar y administrar almacenamiento virtual
Infraestructura Tecnológica Sesión 8: Configurar y administrar almacenamiento virtual Contextualización Como sabemos, actualmente los servicios y medios de almacenamiento de información son muy variados,
Shell de Unix ProgPLN
Shell de Unix ProgPLN Víctor Peinado [email protected] 9 de octubre de 2014 Never use the graphical tool; always learn the old Unix tool. You ll be far more effective over time and your data will
Arquitectura de sistema de alta disponibilidad
Mysql Introducción MySQL Cluster esta diseñado para tener una arquitectura distribuida de nodos sin punto único de fallo. MySQL Cluster consiste en 3 tipos de nodos: 1. Nodos de almacenamiento, son los
Maxpho Commerce 11. Gestión CSV. Fecha: 20 Septiembre 2011 Versión : 1.1 Autor: Maxpho Ltd
Maxpho Commerce 11 Gestión CSV Fecha: 20 Septiembre 2011 Versión : 1.1 Autor: Maxpho Ltd Índice general 1 - Introducción... 3 1.1 - El archivo CSV... 3 1.2 - Módulo CSV en Maxpho... 3 1.3 - Módulo CSV
Servidores de aplicaciones. Sesión 1: Introducción a los servidores de aplicaciones. Instalación de BEA WebLogic
Servidores de aplicaciones 2003-2004 Depto. Ciencia Computación e IA Introducción a los S.A.-1 Especialista en Aplicaciones y Servicios Web con Java Enterprise Servidores de aplicaciones Sesión 1: Introducción
ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIÓN
ESCUELA TÉCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIÓN Titulación: INGENIERO TÉCNICO EN INFORMÁTICA DE GESTIÓN Título del proyecto: Benchmarking Distributed System in the Cloud: Yahoo!
Gestión Documental PREPARACION DEL ENTORNO DE DESARROLLO
Gestión Documental PREPARACION DEL ENTORNO DE DESARROLLO Versión 1.0 Área de Integración y Arquitectura de Aplicaciones 1 de 10 Hoja de Control Título Documento de Referencia Responsable PREPARACION DEL
1/ Implantación de Arquitectura Web
1/ Implantación de Arquitectura Web OBJETIVOS Analizar aspectos generales de arquitecturas web, sus características, ventajas e inconvenientes. Describir los fundamentos y protocolos en los que se basa
Volumen. Jun 09 2014. HELPPEOPLE SCAN CLOUD Manual de Usuario de la Versión v 1.0.0 s23. Elaborado por: Investigación y Desarrollo Helppeople Software
Volumen 1 Jun 09 2014 HELPPEOPLE SCAN CLOUD Manual de Usuario de la Versión v 1.0.0 s23 Elaborado por: Investigación y Desarrollo Helppeople Software Tabla de Contenido Generalidades.... 2 Scan Cloud Service
Documento de implementación Servidor Web. Proyecto Laboratorio de Redes 2011-2
Documento de implementación Servidor Web Proyecto Laboratorio de Redes 2011-2 CONTROL DE REVISIONES Fecha Versión Autores Revisado y aprobado Modificación Camilo Ernesto Gaitán Riveros 18/11/2011 0.1 Luis
Guía de Instalación de la JDK y del Eclipse
Guía de Instalación de la JDK y del Eclipse En esta guía tenemos por objetivo llevar a cabo la instalación de nuestro entorno de programación Java. En primer lugar, vamos a instalar el kit de desarrollo
Big Data. Rodolfo Campos http://www.smartcamp.es/~camposer/tecnocom/bigdata
Big Data Rodolfo Campos http://www.smartcamp.es/~camposer/tecnocom/bigdata Madrid, Mayo de 2013 Agenda 1. Introducción a Big Data. 1.1. Definición / Justificación 1.2. Casos de Uso 2. NoSQL 1.1. Orientadas
INSTRUCTIVO DE ADMINISTRADOR ALFRESCO COMMUNITY 4.2
INSTRUCTIVO DE ADMINISTRADOR ALFRESCO COMMUNITY 4.2 Grupo de Innovación y Apropiación de Tecnologías de la Información Archivística Compilador: Pedro Antonio Gómez Guarín INSTRUCTIVO DE ADMINISTRADOR ALFRESCO
GlusterFS. Una visión rápida a uno de los más innovadores sistema de archivos distribuido
GlusterFS Una visión rápida a uno de los más innovadores sistema de archivos distribuido Qué es GlusterFS? Es un sistema de archivos de alta disponibilidad y escalabilidad que puede brindar almacenamiento
(Soluciones ERPContable) Versión 3.0.n. Manual de instalación
Soluciones ERPContable Versión 3.0.n Manual de instalación (Soluciones ERPContable) Servidor Mono-puesto 1 El Siguiente Instructivo tiene como propósito guiarle en los procesos de instalación de la aplicación
JAVA EE 5. Arquitectura, conceptos y ejemplos.
JAVA EE 5. Arquitectura, conceptos y ejemplos. INTRODUCCIÓN. MODELO DE LA APLICACIÓN JEE5. El modelo de aplicación Java EE define una arquitectura para implementar servicios como lo hacen las aplicaciones
