CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK.

Tamaño: px
Comenzar la demostración a partir de la página:

Download "CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK. www.formacionhadoop.com"

Transcripción

1 CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK

2 Índice 1 Qué es Big Data? 2 Problemas con los sistemas tradicionales 3 Qué es Spark? 3.1 Procesamiento de datos distribuido Características principales de Spark 4 Por qué utilizar Spark? 2

3 ÍNDICE Qué es Big Data?

4 Por Big Data nos referimos exactamente a lo que su propio nombre indica: al tratamiento y análisis de enormes repositorios de datos, tan desproporcionadamente grandes que resulta imposible tratarlos con las herramientas de bases de datos y analíticas convencionales. La tendencia se encuadra en un entorno que no nos suena para nada extraño: la proliferación de páginas web, aplicaciones de imagen y vídeo, redes sociales, dispositivos móviles, sensores, etc. capaces de generar, según IBM, más de 2.5 quintillones de bytes al día, hasta el punto de que el 90% de los datos del mundo han sido creados durante los últimos dos años. Hablamos de un entorno absolutamente relevante para muchos aspectos, desde el análisis de fenómenos naturales como el clima o de datos sismográficos, hasta entornos como salud, seguridad y por supuesto el ámbito empresarial. 4

5 El Big Data nace para solucionar estos problemas: Como almacenar y trabajar con grandes volúmenes de datos. Como poder interpretar y analizar estos datos de naturaleza muy dispar. Si miramos alrededor nuestro vemos que cualquier dispositivo que usamos genera datos. De esta gran cantidad de datos que tenemos a nuestro alcance, sólo el 20% se trata de información estructura y el 80% son datos no estructurados. Estos últimos añaden complejidad a la hora de almacenarlos y analizarlos. 5

6 ÍNDICE Problemas con los sistemas tradicionales

7 Problemas con los supercomputadores : - Gran capacidad de procesamiento para datos de tamaño pequeño - Necesitamos mayor procesamiento: Más RAM - Todo esto tiene dos limitaciones muy importantes: - Alto coste - Limitada escalabilidad Problemas con los sistemas distribuidos actuales (MPI, Condor..): - Envío de datos a través de la red para el procesamiento de los datos (cuello de botella) - Dificultad de desarrollo (sincronización, tolerancia a fallos, distribución paralela..) - Consistencia de datos - Disponibilidad de los datos 7

8 La tecnología Hadoop nos ayuda a afrontar los problemas que están surgiendo a la hora de procesar grandes cantidades de datos. Las principales razones de por qué utilizar Hadoop son las siguientes: Los datos empiezan a ser un cuello de botella: La potencia de procesamiento se duplica cada 2 años. La velocidad de procesamiento ya no es problema. Obtener los datos de los procesadores se convierte en el cuello de botella. Cálculo rápido: Velocidad típica de disco en transferencia de datos : 75 MB/sec Tiempo necesario para procesar 100G al procesador : aproximadamente 22 minutos! En la actualidad será peor ya que la mayoría de los servidores tienen menos de 100GB de ram disponibles. Hadoop para solventar los problemas distribuye los datos a la vez que son almacenados y en caso de querer procesar los datos almacenados, Hadoop envía la computación a los datos para evitar tener que enviar los datos por la red. Spark nos proporcionará el siguiente nivel: Distribución de los datos en memoria! 8

9 ÍNDICE Qué es Spark?

10 Apache Spark es un proyecto open source. Spark es un potente motor de procesamiento de datos en memoria en un cluster. Originalmente en el año 2009 Spark fué desarrollado por AMPLab y UC Berkeley. Posteriormente los creadores de Spark fundaron Databricks para su comercialización. Mucho después, y gracias a Cloudera, Spark ha conseguido llegar a lo que es hoy: La herramienta escalable de procesamiento de datos in-memory. Gracias a Spark y a un cluster Hadoop seremos capaces de dar solución a diferentes problemas, que a día de hoy, a pesar que Hadoop nos proporciona unas inmejorables prestaciones, no está destinado al procesamiento de datos en tiempo real. 10

11 3.1 Procesamiento de datos distribuido El procesamiento de datos distribuido en Spark se divide en 3 partes: - SPARK - CLUSTER - ALMACENAMIENTO 11

12 3.1 Procesamiento de datos distribuido Spark: Spark proporciona una API con la que podremos realizar aplicaciones con un alto nivel de abstracción. Como ocurre con MapReduce, el programador podrá centrarse en el desarrollo de la aplicación, ya que Spark se encarga de realizar el procesamiento paralelo distribuyendo los datos a lo largo del cluster. Cluster: Spark realiza el procesamiento de los datos a lo largo de un cluster utilizando los recursos del mismo, por lo que el cluster deberá disponer del framework adecuado para poder determinar esos recursos. Existen 3 opciones: - Spark Standalone - YARN - Mesos Todas las opciones se comportan de la misma manera. Alojaran la aplicación a ejecutar en cada uno de los nodos del cluster, determinando los recursos a compartir de cada uno de ellos y llevando el seguimiento de la aplicación. La aplicación se ejecutará a lo largo del cluster a través de los worker nodes. Estos nodos son gestionados por un maestro y son escalables y tolerantes a fallos. Almacenamiento: Al utilizar el sistema de ficheros distribuido de Hadoop (HDFS), el almacenamiento cumple con los requisitos de Hadoop: - Los datos son distribuidos durante el almacenamiento - Los datos son replicados para aumentar la disponibilidad y cubrir la tolerancia a fallos - Cumple con la característica principal de Hadoop: Llevar la computación a los datos 12

13 3.2 Características principales de Spark Como hemos visto en la página anterior Spark cumple con todas las características de un cluster Hadoop, ya que utilizará como almacenamiento su sistema de ficheros (HDFS). A continuación un resumen de las características más importantes de Spark: - Alto nivel de abstracción: Como ocurre con el framework MapReduce, el desarrollador únicamente deberá estar pendiente de desarrollar la aplicación ( no tendrá que estar pendiente de la sincronización, distribución, posibles fallos, etc). - Computación de los datos: - Las aplicaciones son ejecutadas a lo largo del cluster en los worker nodes - Las aplicaciones son gestionadas por un maestro - Escalable y tolerante a fallos - Distribución de los datos: - Los datos son distribuidos a la vez que son almacenados en el cluster - Los datos son replicados n veces (3 por defecto) para incrementar el rendimiento y la tolerancia a fallos - La computación es enviada a los datos para evitar el trafico de red - Datos en memoria: - Spark da la posibilidad de cachear datos en memoria para ser utilizados en futuras iteraciones 13

14 ÍNDICE Por qué utilizar Spark?

15 Como hemos visto en los apartados anteriores, Spark nos va a proporcionar la seguridad de almacenamiento-procesamiento de datos de Hadoop, por lo que va a ser una herramienta muy importante en nuestro cluster para poder afrontar otros casos de uso en los cuales necesitemos una respuesta rápida. Spark también cumple con los beneficios generales de Hadoop: - Posibilidad de procesar y realizar análisis de datos que con las tecnologías actuales era imposible. - Bajo coste: Ya que en un cluster Hadoop vamos a utilizar comodity hardware los costes van a ser muchos más bajos que cualquier otro sistema. - Menor tiempo de procesamiento: Gracias a su procesamiento in-memory y a las características del cluster Hadoop, vamos a incrementar muchísimo el tiempo de procesamiento. - Flexibilidad a la hora de procesar datos no estructurados y poder almacenarlos a priori sin tener que determinar que vamos a necesitar. - Escalabilidad: Posibilidad de ir incrementando nuestro cluster a medida que vamos necesitando más almacenamiento o procesamiento. 15

16 Gracias a Spark vamos a consegui dar un salto de calidad: - Spark tiene mayor nivel de abstracción que el framework MapReduce a la hora de desarrollar las aplicaciones, lo que nos proporciona mayor facilidad a la hora de desarrollar. - Spark baja el tiempo de procesamiento gracias a su procesamiento in-memory. Vamos a poder procesar datos y obtener resultados en tiempo real. - Gracias al procesamiento in-memory incrementaremos en un 100% el rendimiento de una aplicación. 16

17 En la siguiente gráfica también podemos observar el incremento de velocidad de procesamiento respecto a un MapReduce gracias a Spark: Todo esto es debido a que en el último año Spark (gracias a su procesamiento in-memory y a la gran necesidad de obtener resultados en tiempo real) ha sido la herramienta más evolucionada: 17

18 Contacto TWITTER Twitter.com/formacionhadoop FACEBOOK Facebook.com/formacionhadoop LINKEDIN linkedin.com/company/formación-hadoop 18

BIG DATA. Jorge Mercado. Software Quality Engineer

BIG DATA. Jorge Mercado. Software Quality Engineer BIG DATA Jorge Mercado Software Quality Engineer Agenda Big Data - Introducción Big Data - Estructura Big Data - Soluciones Conclusiones Q&A Big Data - Introducción Que es Big Data? Big data es el termino

Más detalles

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López APACHE HADOOP Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López Objetivos 1. Qué es Apache Hadoop? 2. Funcionalidad 2.1. Map/Reduce 2.2. HDFS 3. Casos prácticos 4. Hadoop

Más detalles

Hadoop. Cómo vender un cluster Hadoop?

Hadoop. Cómo vender un cluster Hadoop? Hadoop Cómo vender un cluster Hadoop? ÍNDICE Problema Big Data Qué es Hadoop? Descripción HDSF Map Reduce Componentes de Hadoop Hardware Software 3 EL PROBLEMA BIG DATA ANTES Los datos los generaban las

Más detalles

MÁSTER: MÁSTER EXPERTO BIG DATA

MÁSTER: MÁSTER EXPERTO BIG DATA MÁSTER: MÁSTER EXPERTO BIG DATA Información detallada del máster www.formacionhadoop.com Este máster online está enfocado a los ingenieros que quieran aprender el despliegue y configuración de un cluster

Más detalles

Servicios avanzados de supercomputación para la ciència y la ingeniería

Servicios avanzados de supercomputación para la ciència y la ingeniería Servicios avanzados de supercomputación para la ciència y la ingeniería Servicios avanzados de supercomputación para la ciència y la ingeniería HPCNow! provee a sus clientes de la tecnología y soluciones

Más detalles

Big Data y BAM con WSO2

Big Data y BAM con WSO2 Mayo 2014 Big Data y BAM con Leonardo Torres Centro Experto en SOA/BPM en atsistemas ofrece una completa suite de productos Open Source SOA y son contribuidores de muchos de los productos de Apache, como

Más detalles

Alessandro Chacón 05-38019. Ernesto Level 05-38402. Ricardo Santana 05-38928

Alessandro Chacón 05-38019. Ernesto Level 05-38402. Ricardo Santana 05-38928 Alessandro Chacón 05-38019 Ernesto Level 05-38402 Ricardo Santana 05-38928 CONTENIDO Universo Digital Hadoop HDFS: Hadoop Distributed File System MapReduce UNIVERSO DIGITAL 161 EB 2006 Fuente: International

Más detalles

CURSO: DESARROLLADOR PARA APACHE HADOOP

CURSO: DESARROLLADOR PARA APACHE HADOOP CURSO: DESARROLLADOR PARA APACHE HADOOP CAPÍTULO 3: HADOOP CONCEPTOS BÁSICOS www.formacionhadoop.com Índice 1 Introducción a Hadoop 1.1 Proyecto Hadoop 1.2 Conceptos de Hadoop 2 Cluster Hadoop 2.1 Demonios

Más detalles

RAID. Redundant Array of Independent Disks. Rafael Jurado Moreno (rafa.eqtt@gmail.com) Fuente: Wikipedia

RAID. Redundant Array of Independent Disks. Rafael Jurado Moreno (rafa.eqtt@gmail.com) Fuente: Wikipedia RAID Redundant Array of Independent Disks Rafael Jurado Moreno (rafa.eqtt@gmail.com) Fuente: Wikipedia I.E.S. María Moliner. Segovia 2010 1.Introducción. En informática, el acrónimo RAID (del inglés Redundant

Más detalles

Análisis de sentimientos de tweets.

Análisis de sentimientos de tweets. Análisis de sentimientos de tweets. JIT-CITA 2013 Resumen Un sensor de sentimientos de tweets para identificar los mensajes positivos, negativos y neutros sobre cualquier trend que se tome sobre esta red

Más detalles

MÁSTER: MÁSTER DESARROLLADOR BIG DATA

MÁSTER: MÁSTER DESARROLLADOR BIG DATA MÁSTER: MÁSTER DESARROLLADOR BIG DATA Información detallada del máster www.formacionhadoop.com Este máster online está enfocado a los desarrolladores que quieran aprender a construir potentes aplicaciones

Más detalles

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO PRESENTACIÓN ANTONIO GONZÁLEZ CASTRO IT SECURITY DIRECTOR EN PRAGSIS TECHNOLOGIES agcastro@pragsis.com antoniogonzalezcastro.es @agonzaca linkedin.com/in/agonzaca

Más detalles

No se requiere que los discos sean del mismo tamaño ya que el objetivo es solamente adjuntar discos.

No se requiere que los discos sean del mismo tamaño ya que el objetivo es solamente adjuntar discos. RAIDS MODO LINEAL Es un tipo de raid que muestra lógicamente un disco pero se compone de 2 o más discos. Solamente llena el disco 0 y cuando este está lleno sigue con el disco 1 y así sucesivamente. Este

Más detalles

Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source

Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source Francisco Magaz Villaverde Consultor: Víctor Carceler Hontoria Junio 2012 Contenido Introducción Qué es Cloud Compu5ng?

Más detalles

FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS

FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS Introducción Los algoritmos utilizados para el procesamiento de imágenes son de complejidad computacional alta. Por esto

Más detalles

Nicolás Zarco Arquitectura Avanzada 2 Cuatrimestre 2011

Nicolás Zarco Arquitectura Avanzada 2 Cuatrimestre 2011 Clusters Nicolás Zarco Arquitectura Avanzada 2 Cuatrimestre 2011 Introducción Aplicaciones que requieren: Grandes capacidades de cómputo: Física de partículas, aerodinámica, genómica, etc. Tradicionalmente

Más detalles

Qué es un sistema de almacenamiento RAID?

Qué es un sistema de almacenamiento RAID? A la hora de adquirir un servidor donde poder alojar tus aplicaciones, te habrás encontrado con una gran cantidad de términos que pueden sonar a chino. Uno de ellos es el acrónimo RAID (Redundant Array

Más detalles

CURSO: CURSO DESARROLLADOR HADOOP

CURSO: CURSO DESARROLLADOR HADOOP CURSO: CURSO DESARROLLADOR HADOOP Información detallada del curso www.formacionhadoop.com Este curso online está enfocado a los desarrolladores que quieran aprender a construir potentes aplicaciones de

Más detalles

Habilitando la empresa ágil a través de datos unificados La travesía hacia la plataforma de datos analítico-transaccionales

Habilitando la empresa ágil a través de datos unificados La travesía hacia la plataforma de datos analítico-transaccionales Habilitando la empresa ágil a través de datos unificados Agosto de 2015 Cómo se utilizan los datos hoy Los datos analíticos se derivan y separan a partir de datos transaccionales. Requieren bases de datos

Más detalles

Global File System (GFS)...

Global File System (GFS)... Global File System (GFS)... Diferente a los sistemas de ficheros en red que hemos visto, ya que permite que todos los nodos tengan acceso concurrente a los bloques de almacenamiento compartido (a través

Más detalles

RAID. Los detalles de las características segunda y tercera, cambian según los distintos niveles RAID. RAID 0 no soporta la tercera característica.

RAID. Los detalles de las características segunda y tercera, cambian según los distintos niveles RAID. RAID 0 no soporta la tercera característica. RAID Como se dijo anteriormente, el ritmo de mejora de prestaciones en memoria secundaria ha sido considerablemente menor que en procesadores y en memoria principal. Esta desigualdad ha hecho, quizás,

Más detalles

Extractos de la conferencia: Supercomputación y Software Libre realizada por Linalco en la Universidad de Granada

Extractos de la conferencia: Supercomputación y Software Libre realizada por Linalco en la Universidad de Granada Extractos de la conferencia: Supercomputación y Software Libre realizada por Linalco en la Universidad de Granada Copyright 2006 Linalco Consulting, S.L. Linalco Consulting, S.L., autor de este documento,

Más detalles

CURSO: CURSO ADMINISTRADOR HADOOP

CURSO: CURSO ADMINISTRADOR HADOOP CURSO: CURSO ADMINISTRADOR HADOOP Información detallada del curso www.formacionhadoop.com Este curso online está enfocado a administradores de sistemas que quieran aprender a realizar el despliegue y mantenimiento

Más detalles

Jornadas INCATEC 2015

Jornadas INCATEC 2015 Jornadas INCATEC 2015 Dr. Pedro Nolasco Bonillo Ramos Ingeniero en Computación. USB Magíster en Ingeniería de Sistemas. USB Magíster en Gerencia de las Finanzas. UNY Doctor en Ciencias de la Computación.

Más detalles

Software Libre para Aplicaciones de Big Data

Software Libre para Aplicaciones de Big Data Software Libre para Aplicaciones de Big Data Club de Investigación Tecnológica San José, Costa Rica 2014.07.16 Theodore Hope! hope@aceptus.com Big Data: Qué es?! Conjuntos de datos de: " Alto volumen (TBs

Más detalles

INTRODUCCIÓN A APACHE SPARK CON PYTHON

INTRODUCCIÓN A APACHE SPARK CON PYTHON Ls INTRODUCCIÓN A APACHE SPARK CON PYTHON Introducción a Apache Spark Jortilles.com info@jortilles.com Índice de contenido 1.Descripción...3 2.Cual es su ventaja competitiva...3 3.Instalación...3 4.Conceptos

Más detalles

CENTRO DE DATOS Y POP

CENTRO DE DATOS Y POP Virtual y física. Pública y privada. Por horas o por meses. Nuestra plataforma unificada proporciona infraestructuras en la nube a nivel de Internet. Todo lo que quiera, desplegado bajo demanda y en tiempo

Más detalles

CURSO: DESARROLLADOR PARA APACHE HADOOP

CURSO: DESARROLLADOR PARA APACHE HADOOP CURSO: DESARROLLADOR PARA APACHE HADOOP CAPÍTULO 1: INTRODUCCIÓN www.formacionhadoop.com Índice 1 Por qué realizar el curso de desarrollador para Apache Hadoop? 2 Requisitos previos del curso 3 Bloques

Más detalles

Big Data con nombres propios

Big Data con nombres propios Febrero 2014 Big Data con Al hablar de tecnología Big Data se está obligado, sin duda alguna, a hablar de programación paralela y procesamiento distribuido, ya que éstas serán las características que permitirán

Más detalles

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting NewPoint IT Consulting BIG DATA WHITE PAPER NewPoint Information Technology Consulting Contenido 1 Big Data: Reto y Oportunidad para la Empresa... 3 2 Los drivers Técnicos y de Negocio de BIG DATA... 9

Más detalles

PRACTICA NO.24: CLUSTER

PRACTICA NO.24: CLUSTER PRACTICA NO.24: CLUSTER Jose Arturo Beltre Castro 2013-1734 ING. JOSE DOÑE Sistemas Operativos III Cluster El término clúster se aplica a los conjuntos o conglomerados de computadoras construidos mediante

Más detalles

Memoria Compartida Distribuida (DSM) Sistema de Archivos

Memoria Compartida Distribuida (DSM) Sistema de Archivos Memoria Compartida Distribuida (DSM) La memoria compartida distribuida es una abstracción que se propone como alternativa a la comunicación por mensajes. Memoria compartida basada en páginas: este esquema

Más detalles

Almacenamiento de gran capacidad para impulsar la innovación.

Almacenamiento de gran capacidad para impulsar la innovación. Almacenamiento de gran capacidad para impulsar la innovación. WD y el logotipo de WD son marcas comerciales registradas de Western Digital Technologies, lnc. en EE. UU. y otros países; WD Ae, WD Re+, WD

Más detalles

Cocinando con Big Data

Cocinando con Big Data Cocinando con Big Data Javier Sánchez BDM Big Data jsanchez@flytech.es 91.300.51.09 21/11/2013 Javier Sánchez 1 Agenda Qué es Big Data? Receta Punto de Partida Para qué Big Data? Conclusiones 21/11/2013

Más detalles

PINOT. La ingestión near real time desde Kafka complementado por la ingestión batch desde herramientas como Hadoop.

PINOT. La ingestión near real time desde Kafka complementado por la ingestión batch desde herramientas como Hadoop. PINOT Stratebi Paper (2015 info@stratebi.com www.stratebi.com) Pinot es la herramienta de análisis en tiempo real desarrollada por LinkedIn que la compañía ha liberado su código bajo licencia Apache 2.0,

Más detalles

CURSO PRESENCIAL: DESARROLLADOR BIG DATA

CURSO PRESENCIAL: DESARROLLADOR BIG DATA CURSO PRESENCIAL: DESARROLLADOR BIG DATA Información detallada del curso www.formacionhadoop.com El curso se desarrolla durante 3 semanas de Lunes a Jueves. Se trata de un curso formato ejecutivo que permite

Más detalles

Big Data en la nube. Use los datos. Obtenga información. La pregunta clave es: Qué puede hacer Doopex por mi negocio?

Big Data en la nube. Use los datos. Obtenga información. La pregunta clave es: Qué puede hacer Doopex por mi negocio? Qué es Doopex? Big Data en la nube. Use los datos. Obtenga información. Seguramente, la pregunta clave no es Qué es Doopex?. La pregunta clave es: Qué puede hacer Doopex por mi negocio? El objetivo de

Más detalles

RAID nivel 5 (RAID 5): En RAID 5 los bloques de datos que se almacenan en la unidad, y la información redundante de dichos bloques se distribuye cíclicamente entre todos los discos que forman el volumen

Más detalles

Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica

Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica Fundamentos Título de de Big la Data presentación utilizando MATLAB Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica 1 Agenda Qué es Big Data? Buenas prácticas en el manejo de memoria.

Más detalles

Es un software del tipo MAP-REDUCE realizada usando la librería MPI para la

Es un software del tipo MAP-REDUCE realizada usando la librería MPI para la Es un software del tipo MAP-REDUCE realizada usando la librería MPI para la ejecución de programas secuenciales de forma paralela con el requisito de no modificar los programas secuenciales. La idea fundamental

Más detalles

Conectores Pentaho Big Data Community VS Enterprise

Conectores Pentaho Big Data Community VS Enterprise Conectores Pentaho Big Data Community VS Enterprise Agosto 2014 Stratebi Business Solutions www.stratebi.com info@stratebi.com Índice 1. Resumen... 3 2. Introducción... 4 3. Objetivo... 4 4. Pentaho Community

Más detalles

Solución empresarial Hadoop de EMC. NAS de escalamiento horizontal Isilon y Greenplum HD

Solución empresarial Hadoop de EMC. NAS de escalamiento horizontal Isilon y Greenplum HD Informe técnico Solución empresarial Hadoop de EMC NAS de escalamiento horizontal Isilon y Greenplum HD Por Julie Lockner, analista ejecutivo, y Terri McClure, analista ejecutivo Febrero de 2012 Este Informe

Más detalles

DISCOS RAID. Se considera que todos los discos físicos tienen la misma capacidad, y de no ser así, en el que sea mayor se desperdicia la diferencia.

DISCOS RAID. Se considera que todos los discos físicos tienen la misma capacidad, y de no ser así, en el que sea mayor se desperdicia la diferencia. DISCOS RAID Raid: redundant array of independent disks, quiere decir conjunto redundante de discos independientes. Es un sistema de almacenamiento de datos que utiliza varias unidades físicas para guardar

Más detalles

Técnicas empleadas. además de los discos las controladoras.

Técnicas empleadas. además de los discos las controladoras. RAID Introducción En los últimos años, la mejora en la tecnología de semiconductores ha significado un gran incremento en la velocidad de los procesadores y las memorias principales que, a su vez, exigen

Más detalles

Sybase IQ Servidor analítico con arquitectura basada en columnas

Sybase IQ Servidor analítico con arquitectura basada en columnas Sybase IQ Servidor analítico con arquitectura basada en columnas www.sybase.es Sybase IQ Descripción Tener acceso a toda la información de que dispone su organización, con el fin de analizarla no es hoy

Más detalles

REDES INFORMATICAS 1. CONCEPTO DE RED. PDF created with pdffactory trial version www.pdffactory.com. Departamento de Tecnología 4º E.S.O.

REDES INFORMATICAS 1. CONCEPTO DE RED. PDF created with pdffactory trial version www.pdffactory.com. Departamento de Tecnología 4º E.S.O. REDES INFORMATICAS Departamento de Tecnología INDICE 1. CONCEPTO DE RED. 2. CLASIFICACION DE LAS REDES. 3. COMPONENTES HARDWARE DE UNA RED. 4. TOPOLOGIA DE LAS REDES. 5. CONTROL DE ACCESO AL MEDIO DE TRANSMISION.

Más detalles

Análisis de desempeño y modelo de escalabilidad para SGP

Análisis de desempeño y modelo de escalabilidad para SGP Análisis de desempeño y modelo de escalabilidad para SGP Este documento es producto de la experiencia de Analítica en pruebas de stress sobre el software SGP. Estas pruebas se realizaron sobre un proceso

Más detalles

Vielka Mari Utate Tineo 2013-1518. Instituto Tecnológico de las Américas ITLA. Profesor José Doñé PRATICA NO. 24, CLUSTER

Vielka Mari Utate Tineo 2013-1518. Instituto Tecnológico de las Américas ITLA. Profesor José Doñé PRATICA NO. 24, CLUSTER Vielka Mari Utate Tineo 2013-1518 Instituto Tecnológico de las Américas ITLA Profesor José Doñé PRATICA NO. 24, CLUSTER CREAR UN HOWTO CON EL PROCEDIMIENTO NECESARIO PARA LA IMPLEMENTACION DE CLUSTER DE

Más detalles

Redes de Altas Prestaciones

Redes de Altas Prestaciones Redes de Altas Prestaciones TEMA 3 Redes SAN -Alta disponibilidad -Sistemas Redundantes -Curso 2010 Redes de Altas Prestaciones - Indice Conceptos Componentes de un SAN Términos más utilizados Topología

Más detalles

Big data A través de una implementación

Big data A través de una implementación Big data A través de una implementación Lic. Diego Krauthamer Profesor Adjunto Interino del Área Base de Datos Universidad Abierta Interamericana Facultad de Tecnología Informática Buenos Aires. Argentina

Más detalles

Mr. Nodus Eternus CD10000

Mr. Nodus Eternus CD10000 Mr. Nodus Eternus CD10000 Hola a todos! Soy Mr. Nodus la última creación de Fujitsu. Estoy aquí para presentarles un sistema innovador y revolucionario en almacenamiento, del que soy una parte fundamental.

Más detalles

RAID 0 : No redundante

RAID 0 : No redundante RAID ECP RAID RAID - Redundant Array of Independent Discs, 1987 Combinar varios discos, pequeños y baratos, en un sólo dispositivo lógico de disco y distribuir los datos a través de las unidades físicas

Más detalles

IBM Power Systems con Saytel. El motor para obtener información de valor de la forma más rápida

IBM Power Systems con Saytel. El motor para obtener información de valor de la forma más rápida IBM Power Systems con Saytel El motor para obtener información de valor de la forma más rápida El motor para obtener información de valor de la forma más rápida Los nuevos requerimientos cloud, analítica,

Más detalles

UNIVERSIDAD DE ORIENTE FACULTAD DE ICIENCIAS ECONOMICAS LAS REDES I. Licda. Consuelo Eleticia Sandoval

UNIVERSIDAD DE ORIENTE FACULTAD DE ICIENCIAS ECONOMICAS LAS REDES I. Licda. Consuelo Eleticia Sandoval UNIVERSIDAD DE ORIENTE FACULTAD DE ICIENCIAS ECONOMICAS LAS REDES I Licda. Consuelo Eleticia Sandoval OBJETIVO: ANALIZAR LAS VENTAJAS Y DESVENTAJAS DE LAS REDES DE COMPUTADORAS. Que es una red de computadoras?

Más detalles

13º Unidad Didáctica. RAID (Redundant Array of Independent Disks) Eduard Lara

13º Unidad Didáctica. RAID (Redundant Array of Independent Disks) Eduard Lara 13º Unidad Didáctica RAID (Redundant Array of Independent Disks) Eduard Lara 1 RAID: INTRODUCCIÓN Sistema de almacenamiento que usa múltiples discos duros entre los que distribuye o replica los datos.

Más detalles

Almacenamiento y estructura de archivos

Almacenamiento y estructura de archivos Bases de Datos Almacenamiento y estructura de archivos Almacenamiento y Estructura de Archivos Introducción a los medios de almacenamiento Discos Magnéticos RAID Almacenamiento Terciario Acceso de almacenamiento

Más detalles

Datos e información. Código de barra. Los datos son la mínima unidad semántica, y se corresponden con elementos primarios de información.

Datos e información. Código de barra. Los datos son la mínima unidad semántica, y se corresponden con elementos primarios de información. Datos e información Los datos son la mínima unidad semántica, y se corresponden con elementos primarios de información. Código de barra La información es el resultado de un proceso de transformación de

Más detalles

Conceptos básicos de Big Data

Conceptos básicos de Big Data Conceptos básicos de Big Data Este documento no podrá ser reproducido, total o parcialmente, sin el permiso expreso de TRC Informática, S.L. Correos electrónicos, mensajes de textos, datos en formularios

Más detalles

Seminario Electrónico de Soluciones Tecnológicas sobre Content Networking

Seminario Electrónico de Soluciones Tecnológicas sobre Content Networking Seminario Electrónico de Soluciones Tecnológicas sobre Content Networking 1 de 13 Seminario Electrónico de Soluciones Tecnológicas sobre Content Networking 3 Bienvenida. 4 Objetivos. 5 Soluciones comerciales

Más detalles

RAID (Redundant Array of Independents Disk) Presentado por: María Veloz

RAID (Redundant Array of Independents Disk) Presentado por: María Veloz RAID (Redundant Array of Independents Disk) Presentado por: María Veloz 1 Contenido 1) Términos RAID 2) Que es RAID? 3) Historia 4) Niveles RAID estándard RAID 0 RAID 1 RAID 2 RAID 3 RAID 4 RAID 5 RAID

Más detalles

D.4.3.1 Definición de la infraestructura de soporte.

D.4.3.1 Definición de la infraestructura de soporte. D.4.3.1 Definición de la infraestructura de soporte. RESUMEN EJECUTIVO El proyecto CloudPYME ha analizado, desarrollado y probado tres servicios de valor añadido para las PYME de la Euroregión Galicia-Norte

Más detalles

Tiempos de respuesta menores a un segundo con la nueva analítica en memoria de MicroStrategy 10. Fernando Gutiérrez-Cabello

Tiempos de respuesta menores a un segundo con la nueva analítica en memoria de MicroStrategy 10. Fernando Gutiérrez-Cabello Tiempos de respuesta menores a un segundo con la nueva analítica en memoria de MicroStrategy 10 Fernando Gutiérrez-Cabello El alto rendimiento ya no es solo un plus en las aplicaciones analíticas Los usuarios

Más detalles

Sistemas de Información para la Gestión

Sistemas de Información para la Gestión Sistemas de Información para la Gestión UNIDAD 2: RECURSOS DE TI Bases de Datos UNIDAD 2: RECURSOS DE TECNOLOGÍA DE INFORMACIÓN Información 1. La Información: Propiedades de la Información. Sistemas de

Más detalles

aspectos y no estaríamos donde estamos hoy, si hubiéramos utilizado otra herramienta.

aspectos y no estaríamos donde estamos hoy, si hubiéramos utilizado otra herramienta. 4D es una plataforma de aplicación Web, flexible, potente y muy escalable. Este documento examina los requerimientos comunes para servidores de aplicación Web, y discute las ventajas ofrecidas por la línea

Más detalles

Hostaliawhitepapers. Las ventajas de los Servidores dedicados. www.hostalia.com. Cardenal Gardoki, 1 48008 BILBAO (Vizcaya) Teléfono: 902 012 199

Hostaliawhitepapers. Las ventajas de los Servidores dedicados. www.hostalia.com. Cardenal Gardoki, 1 48008 BILBAO (Vizcaya) Teléfono: 902 012 199 Las ventajas de los Servidores dedicados Cardenal Gardoki, 1 48008 BILBAO (Vizcaya) Teléfono: 902 012 199 www.hostalia.com A la hora de poner en marcha una aplicación web debemos contratar un servicio

Más detalles

Redes de Altas Prestaciones

Redes de Altas Prestaciones Redes de Altas Prestaciones TEMA 3 Tecnologías Soporte tolerante a fallos -Curso 2010 Redes de Altas Prestaciones - Indice Conceptos Topología en Alta Disponibilidad Tecnologías disponibles Tecnología

Más detalles

:Arquitecturas Paralela basada en clusters.

:Arquitecturas Paralela basada en clusters. Computación de altas prestaciones: Arquitecturas basadas en clusters Sesión n 1 :Arquitecturas Paralela basada en clusters. Jose Luis Bosque 1 Introducción Computación de altas prestaciones: resolver problemas

Más detalles

Módulo: Modelos de programación para Big Data

Módulo: Modelos de programación para Big Data Program. paralela/distribuida Módulo: Modelos de programación para Big Data (título original: Entornos de programación paralela basados en modelos/paradigmas) Fernando Pérez Costoya Introducción Big Data

Más detalles

BIG DATA Desde que se cronometran las carreras, se corre más rápido

BIG DATA Desde que se cronometran las carreras, se corre más rápido BIG DATA Desde que se cronometran las carreras, se corre más rápido Santa Cruz, Bolivia 2014 Manual para aprender @sorprendida @sorprendida HACE UN BILLÓN DE: HORAS nació el homo sapiens MINUTOS empezó

Más detalles

XII Encuentro Danysoft en Microsoft Abril 2015. Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código

XII Encuentro Danysoft en Microsoft Abril 2015. Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código Ana María Bisbé York Servicios Profesionales sp@danysoft.com 916 638683 www.danysoft.com Abril 2015 Sala 1 SQL Server

Más detalles

CURSO PRESENCIAL: ADMINISTRADOR HADOOP

CURSO PRESENCIAL: ADMINISTRADOR HADOOP CURSO PRESENCIAL: ADMINISTRADOR HADOOP Información detallada del curso www.formacionhadoop.com El curso se desarrolla a lo largo de 4 semanas seguidas. Se trata de un curso formato ejecutivo que permite

Más detalles

VDI Xen Server. Estés donde estés... preocúpate de encontrar una buena silla. Las tenemos todas conectadas a la nube.

VDI Xen Server. Estés donde estés... preocúpate de encontrar una buena silla. Las tenemos todas conectadas a la nube. Estés donde estés... preocúpate de encontrar una buena silla. Las tenemos todas conectadas a la nube. Céntrate en tu negocio. Déjanos la tecnología. Solución alta disponibilidad VDI Xen Server Estés donde

Más detalles

PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop

PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop Julio 2015 DATOS GENERALES DE LA ESPECIALIDAD 1. Familia Profesional: INFORMÁTICA Y COMUNICACIONES (IFC) Área Profesional: SISTEMAS

Más detalles

Claves Tecnológicas. Cloud, big data, redes sociales, consumerización, seguridad...

Claves Tecnológicas. Cloud, big data, redes sociales, consumerización, seguridad... núm. 02 Noviembre 2012 Claves Tecnológicas Cloud, big data, redes sociales, consumerización, seguridad... Retrato Grady Booch, Evangelist & IBM Fellow SAPPHIRE NOW Sven Denecken, VP & Head of Co-Innovation

Más detalles

Minería de datos en la nube. Patricia Rayón Villela

Minería de datos en la nube. Patricia Rayón Villela Minería de datos en la nube Patricia Rayón Villela 1 Contenido Big-Data BI en la nube Analítica Texto Video Visual 2 Big data Problemas que eran difíciles o imposibles de resolver antes de ahora son manejables.

Más detalles

CURSO: CURSO ANALISTA DE DATOS

CURSO: CURSO ANALISTA DE DATOS CURSO: CURSO ANALISTA DE DATOS Información detallada del curso www.formacionhadoop.com Este curso online está enfocado a conocer en profundidad las herramientas del ecosistema Hadoop Hive, Impala y Pig.

Más detalles

Big Data: retos a nivel de desarrollo. Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co

Big Data: retos a nivel de desarrollo. Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co Big Data: retos a nivel de desarrollo Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co Cámara de Comercio de Bogotá Centro Empresarial Chapinero Agenda Introducción Bases de datos NoSQL Procesamiento

Más detalles

The H Hour: Hadoop The awakening of the BigData. Antonio Soto SolidQ COO asoto@solidq.com @antoniosql

The H Hour: Hadoop The awakening of the BigData. Antonio Soto SolidQ COO asoto@solidq.com @antoniosql The H Hour: Hadoop The awakening of the BigData Antonio Soto SolidQ COO asoto@solidq.com @antoniosql Tendencias de la Industria El nuevo rol del operador El operador de ayer Sigue el proceso basado en

Más detalles

[TECNOLOGÍA RAID] Documentos de formación de SM Data: http://www.smdata.com/formacion.php

[TECNOLOGÍA RAID] Documentos de formación de SM Data: http://www.smdata.com/formacion.php 2011 Documentos de formación de SM Data: http://www.smdata.com/formacion.php [] Introducción a la tecnología RAID; Qué es RAID?; ventajas de RAID; definición de los más populares niveles de RAID y diferentes

Más detalles

EMC Forum 2014. EMC ViPR y ECS: Una vuelta por los servicios definidos por software

EMC Forum 2014. EMC ViPR y ECS: Una vuelta por los servicios definidos por software EMC Forum 2014 EMC ViPR y ECS: Una vuelta por los servicios definidos por software 1 Programa de la sesión Dinámica del mercado Descripción general de EMC ViPR Novedades en ViPR Controller Novedades en

Más detalles

PVFS (Parallel Virtual File System)

PVFS (Parallel Virtual File System) Sergio González González Instituto Politécnico de Bragança, Portugal sergio.gonzalez@hispalinux.es Jónatan Grandmontagne García Universidad de Bragança, Portugal thestalker44@hotmail.com Breve explicación

Más detalles

5. MODELOS DE CLIENTE Y SERVIDOR ORIENTADOS A AGENTES MÓVILES

5. MODELOS DE CLIENTE Y SERVIDOR ORIENTADOS A AGENTES MÓVILES SISTEMAS DISTRIBUIDOS DE REDES 5. MODELOS DE CLIENTE Y SERVIDOR ORIENTADOS A AGENTES MÓVILES Programación remota: Introducción y generalidades INTRODUCCIÓN Debido a la dificultad de la arquitectura actual

Más detalles

Almacenamiento orientado a las necesidades del negocio. Sistema de almacenamiento Scale-out Multi-Petabyte FUJITSU ETERNUS CD10000

Almacenamiento orientado a las necesidades del negocio. Sistema de almacenamiento Scale-out Multi-Petabyte FUJITSU ETERNUS CD10000 Almacenamiento orientado a las necesidades del negocio Sistema de almacenamiento Scale-out Multi-Petabyte FUJITSU ETERNUS CD10000 Abra paso a nuevas oportunidades de negocio. Libere el potencial de los

Más detalles

Arquitectura de sistema de alta disponibilidad

Arquitectura de sistema de alta disponibilidad Mysql Introducción MySQL Cluster esta diseñado para tener una arquitectura distribuida de nodos sin punto único de fallo. MySQL Cluster consiste en 3 tipos de nodos: 1. Nodos de almacenamiento, son los

Más detalles

Como extender la capacidad Analítica conectando fuentes de datos Big Data en ArcGIS

Como extender la capacidad Analítica conectando fuentes de datos Big Data en ArcGIS Como extender la capacidad Analítica conectando fuentes de datos Big Data en ArcGIS César Rodríguez Reinaldo Cartagena Agenda Fundamentos para Big Data La Analítica y Big Data generar conocimiento ArcGIS

Más detalles

Arquitecturas de Bases de Datos. Carlos A. Olarte (carlosolarte@puj.edu.co) BDII

Arquitecturas de Bases de Datos. Carlos A. Olarte (carlosolarte@puj.edu.co) BDII Carlos A. Olarte (carlosolarte@puj.edu.co) BDII Contenido 1 Introducción 2 Arquitectura Centralizada 3 Arquitectura Cliente-Servidor 4 Arquitecturas Paralelas 5 Bases de Datos Distribuidas Introducción

Más detalles

Mineria de Grafos en Redes Sociales usando MapReduce

Mineria de Grafos en Redes Sociales usando MapReduce Mineria de Grafos en Redes Sociales usando MapReduce Jose Gamez 1 and Jorge Pilozo 1 Carrera de Ingeniería en Sistemas Computacionales Universidad de Guayaquil 1. Introduccion a la Problematica Recordemos

Más detalles

Redes de Almacenamiento

Redes de Almacenamiento Redes de Almacenamiento Las redes de respaldo o backend se utilizan para interconectar grandes sistemas tales como computadores centrales y dispositivos de almacenamiento masivo, el requisito principal

Más detalles

IaaS en los estudios de informática

IaaS en los estudios de informática IaaS en los estudios de informática Proyecto de Innovación. Implantación y puesta a punto de la infraestructura de un cloud computing privado para el despliegue de servicios en la nube IES Gonzalo Nazareno

Más detalles

MF0952_2: Publicación de páginas web

MF0952_2: Publicación de páginas web MF0952_2: Publicación de páginas web TEMA 1. Características de seguridad en la publicación de páginas web TEMA 2. Herramientas de transferencia de archivos TEMA 3. Publicación de páginas web TEMA 4. Pruebas

Más detalles

Tema 11. Soporte del Sistema Operativo 11.1. REQUERIMIENTOS DE LOS SISTEMAS OPERATIVOS. 11.1.1. MULTIPROGRAMACIÓN.

Tema 11. Soporte del Sistema Operativo 11.1. REQUERIMIENTOS DE LOS SISTEMAS OPERATIVOS. 11.1.1. MULTIPROGRAMACIÓN. Tema 11 Soporte del Sistema Operativo 11.1. REQUERIMIENTOS DE LOS SISTEMAS OPERATIVOS. El sistema operativo es básicamente un programa que controla los recursos del computador, proporciona servicios a

Más detalles

Introducción al Cluster

Introducción al Cluster Centro de Teleinformática y Producción Industrial - Regional Cauca Pág. 1 de 11 Nombre del Introducción al Cluster Historial Fecha Razón de cambio (s) Autor(es) 26 / 10 /2011 Documento Inicial, Primer

Más detalles

El ABC de Big Data: Analytics, Bandwidth and Content

El ABC de Big Data: Analytics, Bandwidth and Content Documento técnico El ABC de Big Data: Analytics, Bandwidth and Content Richard Treadway e Ingo Fuchs, NetApp, Noviembre de 2011 WP-7147 RESUMEN EJECUTIVO Las empresas entran en una nueva era en la que

Más detalles

Google BigQuery. Luis Villalba 59191

Google BigQuery. Luis Villalba 59191 Google BigQuery Luis Villalba 59191 Universidad Católica de Asunción, Departamento de Ciencias y Tecnologías, Sede Santa Librada, Asunción, Paraguay villalba.luifer@gmail.com Abstract. En este paper estaremos

Más detalles

Los mayores cambios se dieron en las décadas de los setenta, atribuidos principalmente a dos causas:

Los mayores cambios se dieron en las décadas de los setenta, atribuidos principalmente a dos causas: SISTEMAS DISTRIBUIDOS DE REDES 1. SISTEMAS DISTRIBUIDOS Introducción y generalidades La computación desde sus inicios ha sufrido muchos cambios, desde los grandes equipos que permitían realizar tareas

Más detalles

Petabytes de información: Repensando el modelamiento de base de datos. Ernesto Quiñones Azcárate ernestoq@apesol.org Presidencia Apesol 2006 2008

Petabytes de información: Repensando el modelamiento de base de datos. Ernesto Quiñones Azcárate ernestoq@apesol.org Presidencia Apesol 2006 2008 Petabytes de información: Repensando el modelamiento de base de datos Ernesto Quiñones Azcárate ernestoq@apesol.org Presidencia Apesol 2006 2008 Modelos de bases de datos para todos los gustos (según la

Más detalles

Problemas de Arquitectura de Redes, Sistemas y Servicios 2 o Grado en Ingeniería en Tecnologías de Telecomunicación Conjunto de problemas 6

Problemas de Arquitectura de Redes, Sistemas y Servicios 2 o Grado en Ingeniería en Tecnologías de Telecomunicación Conjunto de problemas 6 Problemas de Arquitectura de Redes, Sistemas y Servicios 2 o Grado en Ingeniería en Tecnologías de Telecomunicación Conjunto de problemas 6 Problema 6.1: Se pretende utilizar una red de area local de 10Mbps

Más detalles

Tú negocio siempre contigo

Tú negocio siempre contigo Tú negocio siempre contigo EL ERP CLOUD QUE CUBRE TODAS TUS NECESIDADES Toda la potencia de un ERP en la nube accesible desde cualquier dispositivo. QuartUp es un completo ERP en la nube que te proporciona

Más detalles

Cómo instalar un sistema operativo en VirtualBox http://www.noticiasubuntu.com/

Cómo instalar un sistema operativo en VirtualBox http://www.noticiasubuntu.com/ 1 de 16 Cómo instalar un sistema operativo en VirtualBox http://www.noticiasubuntu.com/ Este tutorial va dedicado a todos aquellos que estáis dando vuestros primeros pasos en VirtualBox. Vamos a aprender

Más detalles

Ventajas del almacenamiento de datos de nube

Ventajas del almacenamiento de datos de nube Ventajas del almacenamiento de datos de nube Almacenar grandes volúmenes de información en una red de área local (LAN) es caro. Dispositivos de almacenamiento electrónico de datos de alta capacidad como

Más detalles