CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK.

Tamaño: px
Comenzar la demostración a partir de la página:

Download "CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK. www.formacionhadoop.com"

Transcripción

1 CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK

2 Índice 1 Qué es Big Data? 2 Problemas con los sistemas tradicionales 3 Qué es Spark? 3.1 Procesamiento de datos distribuido Características principales de Spark 4 Por qué utilizar Spark? 2

3 ÍNDICE Qué es Big Data?

4 Por Big Data nos referimos exactamente a lo que su propio nombre indica: al tratamiento y análisis de enormes repositorios de datos, tan desproporcionadamente grandes que resulta imposible tratarlos con las herramientas de bases de datos y analíticas convencionales. La tendencia se encuadra en un entorno que no nos suena para nada extraño: la proliferación de páginas web, aplicaciones de imagen y vídeo, redes sociales, dispositivos móviles, sensores, etc. capaces de generar, según IBM, más de 2.5 quintillones de bytes al día, hasta el punto de que el 90% de los datos del mundo han sido creados durante los últimos dos años. Hablamos de un entorno absolutamente relevante para muchos aspectos, desde el análisis de fenómenos naturales como el clima o de datos sismográficos, hasta entornos como salud, seguridad y por supuesto el ámbito empresarial. 4

5 El Big Data nace para solucionar estos problemas: Como almacenar y trabajar con grandes volúmenes de datos. Como poder interpretar y analizar estos datos de naturaleza muy dispar. Si miramos alrededor nuestro vemos que cualquier dispositivo que usamos genera datos. De esta gran cantidad de datos que tenemos a nuestro alcance, sólo el 20% se trata de información estructura y el 80% son datos no estructurados. Estos últimos añaden complejidad a la hora de almacenarlos y analizarlos. 5

6 ÍNDICE Problemas con los sistemas tradicionales

7 Problemas con los supercomputadores : - Gran capacidad de procesamiento para datos de tamaño pequeño - Necesitamos mayor procesamiento: Más RAM - Todo esto tiene dos limitaciones muy importantes: - Alto coste - Limitada escalabilidad Problemas con los sistemas distribuidos actuales (MPI, Condor..): - Envío de datos a través de la red para el procesamiento de los datos (cuello de botella) - Dificultad de desarrollo (sincronización, tolerancia a fallos, distribución paralela..) - Consistencia de datos - Disponibilidad de los datos 7

8 La tecnología Hadoop nos ayuda a afrontar los problemas que están surgiendo a la hora de procesar grandes cantidades de datos. Las principales razones de por qué utilizar Hadoop son las siguientes: Los datos empiezan a ser un cuello de botella: La potencia de procesamiento se duplica cada 2 años. La velocidad de procesamiento ya no es problema. Obtener los datos de los procesadores se convierte en el cuello de botella. Cálculo rápido: Velocidad típica de disco en transferencia de datos : 75 MB/sec Tiempo necesario para procesar 100G al procesador : aproximadamente 22 minutos! En la actualidad será peor ya que la mayoría de los servidores tienen menos de 100GB de ram disponibles. Hadoop para solventar los problemas distribuye los datos a la vez que son almacenados y en caso de querer procesar los datos almacenados, Hadoop envía la computación a los datos para evitar tener que enviar los datos por la red. Spark nos proporcionará el siguiente nivel: Distribución de los datos en memoria! 8

9 ÍNDICE Qué es Spark?

10 Apache Spark es un proyecto open source. Spark es un potente motor de procesamiento de datos en memoria en un cluster. Originalmente en el año 2009 Spark fué desarrollado por AMPLab y UC Berkeley. Posteriormente los creadores de Spark fundaron Databricks para su comercialización. Mucho después, y gracias a Cloudera, Spark ha conseguido llegar a lo que es hoy: La herramienta escalable de procesamiento de datos in-memory. Gracias a Spark y a un cluster Hadoop seremos capaces de dar solución a diferentes problemas, que a día de hoy, a pesar que Hadoop nos proporciona unas inmejorables prestaciones, no está destinado al procesamiento de datos en tiempo real. 10

11 3.1 Procesamiento de datos distribuido El procesamiento de datos distribuido en Spark se divide en 3 partes: - SPARK - CLUSTER - ALMACENAMIENTO 11

12 3.1 Procesamiento de datos distribuido Spark: Spark proporciona una API con la que podremos realizar aplicaciones con un alto nivel de abstracción. Como ocurre con MapReduce, el programador podrá centrarse en el desarrollo de la aplicación, ya que Spark se encarga de realizar el procesamiento paralelo distribuyendo los datos a lo largo del cluster. Cluster: Spark realiza el procesamiento de los datos a lo largo de un cluster utilizando los recursos del mismo, por lo que el cluster deberá disponer del framework adecuado para poder determinar esos recursos. Existen 3 opciones: - Spark Standalone - YARN - Mesos Todas las opciones se comportan de la misma manera. Alojaran la aplicación a ejecutar en cada uno de los nodos del cluster, determinando los recursos a compartir de cada uno de ellos y llevando el seguimiento de la aplicación. La aplicación se ejecutará a lo largo del cluster a través de los worker nodes. Estos nodos son gestionados por un maestro y son escalables y tolerantes a fallos. Almacenamiento: Al utilizar el sistema de ficheros distribuido de Hadoop (HDFS), el almacenamiento cumple con los requisitos de Hadoop: - Los datos son distribuidos durante el almacenamiento - Los datos son replicados para aumentar la disponibilidad y cubrir la tolerancia a fallos - Cumple con la característica principal de Hadoop: Llevar la computación a los datos 12

13 3.2 Características principales de Spark Como hemos visto en la página anterior Spark cumple con todas las características de un cluster Hadoop, ya que utilizará como almacenamiento su sistema de ficheros (HDFS). A continuación un resumen de las características más importantes de Spark: - Alto nivel de abstracción: Como ocurre con el framework MapReduce, el desarrollador únicamente deberá estar pendiente de desarrollar la aplicación ( no tendrá que estar pendiente de la sincronización, distribución, posibles fallos, etc). - Computación de los datos: - Las aplicaciones son ejecutadas a lo largo del cluster en los worker nodes - Las aplicaciones son gestionadas por un maestro - Escalable y tolerante a fallos - Distribución de los datos: - Los datos son distribuidos a la vez que son almacenados en el cluster - Los datos son replicados n veces (3 por defecto) para incrementar el rendimiento y la tolerancia a fallos - La computación es enviada a los datos para evitar el trafico de red - Datos en memoria: - Spark da la posibilidad de cachear datos en memoria para ser utilizados en futuras iteraciones 13

14 ÍNDICE Por qué utilizar Spark?

15 Como hemos visto en los apartados anteriores, Spark nos va a proporcionar la seguridad de almacenamiento-procesamiento de datos de Hadoop, por lo que va a ser una herramienta muy importante en nuestro cluster para poder afrontar otros casos de uso en los cuales necesitemos una respuesta rápida. Spark también cumple con los beneficios generales de Hadoop: - Posibilidad de procesar y realizar análisis de datos que con las tecnologías actuales era imposible. - Bajo coste: Ya que en un cluster Hadoop vamos a utilizar comodity hardware los costes van a ser muchos más bajos que cualquier otro sistema. - Menor tiempo de procesamiento: Gracias a su procesamiento in-memory y a las características del cluster Hadoop, vamos a incrementar muchísimo el tiempo de procesamiento. - Flexibilidad a la hora de procesar datos no estructurados y poder almacenarlos a priori sin tener que determinar que vamos a necesitar. - Escalabilidad: Posibilidad de ir incrementando nuestro cluster a medida que vamos necesitando más almacenamiento o procesamiento. 15

16 Gracias a Spark vamos a consegui dar un salto de calidad: - Spark tiene mayor nivel de abstracción que el framework MapReduce a la hora de desarrollar las aplicaciones, lo que nos proporciona mayor facilidad a la hora de desarrollar. - Spark baja el tiempo de procesamiento gracias a su procesamiento in-memory. Vamos a poder procesar datos y obtener resultados en tiempo real. - Gracias al procesamiento in-memory incrementaremos en un 100% el rendimiento de una aplicación. 16

17 En la siguiente gráfica también podemos observar el incremento de velocidad de procesamiento respecto a un MapReduce gracias a Spark: Todo esto es debido a que en el último año Spark (gracias a su procesamiento in-memory y a la gran necesidad de obtener resultados en tiempo real) ha sido la herramienta más evolucionada: 17

18 Contacto TWITTER Twitter.com/formacionhadoop FACEBOOK Facebook.com/formacionhadoop LINKEDIN linkedin.com/company/formación-hadoop 18

BIG DATA. Jorge Mercado. Software Quality Engineer

BIG DATA. Jorge Mercado. Software Quality Engineer BIG DATA Jorge Mercado Software Quality Engineer Agenda Big Data - Introducción Big Data - Estructura Big Data - Soluciones Conclusiones Q&A Big Data - Introducción Que es Big Data? Big data es el termino

Más detalles

CURSO: DESARROLLADOR PARA APACHE HADOOP

CURSO: DESARROLLADOR PARA APACHE HADOOP CURSO: DESARROLLADOR PARA APACHE HADOOP CAPÍTULO 3: HADOOP CONCEPTOS BÁSICOS www.formacionhadoop.com Índice 1 Introducción a Hadoop 1.1 Proyecto Hadoop 1.2 Conceptos de Hadoop 2 Cluster Hadoop 2.1 Demonios

Más detalles

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López APACHE HADOOP Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López Objetivos 1. Qué es Apache Hadoop? 2. Funcionalidad 2.1. Map/Reduce 2.2. HDFS 3. Casos prácticos 4. Hadoop

Más detalles

MÁSTER: MÁSTER EXPERTO BIG DATA

MÁSTER: MÁSTER EXPERTO BIG DATA MÁSTER: MÁSTER EXPERTO BIG DATA Información detallada del máster www.formacionhadoop.com Este máster online está enfocado a los ingenieros que quieran aprender el despliegue y configuración de un cluster

Más detalles

CURSO: CURSO DESARROLLADOR HADOOP

CURSO: CURSO DESARROLLADOR HADOOP CURSO: CURSO DESARROLLADOR HADOOP Información detallada del curso www.formacionhadoop.com Este curso online está enfocado a los desarrolladores que quieran aprender a construir potentes aplicaciones de

Más detalles

Alessandro Chacón 05-38019. Ernesto Level 05-38402. Ricardo Santana 05-38928

Alessandro Chacón 05-38019. Ernesto Level 05-38402. Ricardo Santana 05-38928 Alessandro Chacón 05-38019 Ernesto Level 05-38402 Ricardo Santana 05-38928 CONTENIDO Universo Digital Hadoop HDFS: Hadoop Distributed File System MapReduce UNIVERSO DIGITAL 161 EB 2006 Fuente: International

Más detalles

MÁSTER: MÁSTER DESARROLLADOR BIG DATA

MÁSTER: MÁSTER DESARROLLADOR BIG DATA MÁSTER: MÁSTER DESARROLLADOR BIG DATA Información detallada del máster www.formacionhadoop.com Este máster online está enfocado a los desarrolladores que quieran aprender a construir potentes aplicaciones

Más detalles

Software Libre para Aplicaciones de Big Data

Software Libre para Aplicaciones de Big Data Software Libre para Aplicaciones de Big Data Club de Investigación Tecnológica San José, Costa Rica 2014.07.16 Theodore Hope! hope@aceptus.com Big Data: Qué es?! Conjuntos de datos de: " Alto volumen (TBs

Más detalles

CURSO: DESARROLLADOR PARA APACHE HADOOP

CURSO: DESARROLLADOR PARA APACHE HADOOP CURSO: DESARROLLADOR PARA APACHE HADOOP CAPÍTULO 1: INTRODUCCIÓN www.formacionhadoop.com Índice 1 Por qué realizar el curso de desarrollador para Apache Hadoop? 2 Requisitos previos del curso 3 Bloques

Más detalles

CURSO: CURSO ADMINISTRADOR HADOOP

CURSO: CURSO ADMINISTRADOR HADOOP CURSO: CURSO ADMINISTRADOR HADOOP Información detallada del curso www.formacionhadoop.com Este curso online está enfocado a administradores de sistemas que quieran aprender a realizar el despliegue y mantenimiento

Más detalles

Hadoop. Cómo vender un cluster Hadoop?

Hadoop. Cómo vender un cluster Hadoop? Hadoop Cómo vender un cluster Hadoop? ÍNDICE Problema Big Data Qué es Hadoop? Descripción HDSF Map Reduce Componentes de Hadoop Hardware Software 3 EL PROBLEMA BIG DATA ANTES Los datos los generaban las

Más detalles

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO PRESENTACIÓN ANTONIO GONZÁLEZ CASTRO IT SECURITY DIRECTOR EN PRAGSIS TECHNOLOGIES agcastro@pragsis.com antoniogonzalezcastro.es @agonzaca linkedin.com/in/agonzaca

Más detalles

CURSO PRESENCIAL: DESARROLLADOR BIG DATA

CURSO PRESENCIAL: DESARROLLADOR BIG DATA CURSO PRESENCIAL: DESARROLLADOR BIG DATA Información detallada del curso www.formacionhadoop.com El curso se desarrolla durante 3 semanas de Lunes a Jueves. Se trata de un curso formato ejecutivo que permite

Más detalles

Análisis de sentimientos de tweets.

Análisis de sentimientos de tweets. Análisis de sentimientos de tweets. JIT-CITA 2013 Resumen Un sensor de sentimientos de tweets para identificar los mensajes positivos, negativos y neutros sobre cualquier trend que se tome sobre esta red

Más detalles

Big Data y BAM con WSO2

Big Data y BAM con WSO2 Mayo 2014 Big Data y BAM con Leonardo Torres Centro Experto en SOA/BPM en atsistemas ofrece una completa suite de productos Open Source SOA y son contribuidores de muchos de los productos de Apache, como

Más detalles

CURSO: CURSO ANALISTA DE DATOS

CURSO: CURSO ANALISTA DE DATOS CURSO: CURSO ANALISTA DE DATOS Información detallada del curso www.formacionhadoop.com Este curso online está enfocado a conocer en profundidad las herramientas del ecosistema Hadoop Hive, Impala y Pig.

Más detalles

INTRODUCCIÓN A APACHE SPARK CON PYTHON

INTRODUCCIÓN A APACHE SPARK CON PYTHON Ls INTRODUCCIÓN A APACHE SPARK CON PYTHON Introducción a Apache Spark Jortilles.com info@jortilles.com Índice de contenido 1.Descripción...3 2.Cual es su ventaja competitiva...3 3.Instalación...3 4.Conceptos

Más detalles

Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source

Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source Proyecto Fin de Carrera OpenNebula y Hadoop: Cloud Computing con herramientas Open Source Francisco Magaz Villaverde Consultor: Víctor Carceler Hontoria Junio 2012 Contenido Introducción Qué es Cloud Compu5ng?

Más detalles

FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS

FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS Introducción Los algoritmos utilizados para el procesamiento de imágenes son de complejidad computacional alta. Por esto

Más detalles

CENTRO DE DATOS Y POP

CENTRO DE DATOS Y POP Virtual y física. Pública y privada. Por horas o por meses. Nuestra plataforma unificada proporciona infraestructuras en la nube a nivel de Internet. Todo lo que quiera, desplegado bajo demanda y en tiempo

Más detalles

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting NewPoint IT Consulting BIG DATA WHITE PAPER NewPoint Information Technology Consulting Contenido 1 Big Data: Reto y Oportunidad para la Empresa... 3 2 Los drivers Técnicos y de Negocio de BIG DATA... 9

Más detalles

Jornadas INCATEC 2015

Jornadas INCATEC 2015 Jornadas INCATEC 2015 Dr. Pedro Nolasco Bonillo Ramos Ingeniero en Computación. USB Magíster en Ingeniería de Sistemas. USB Magíster en Gerencia de las Finanzas. UNY Doctor en Ciencias de la Computación.

Más detalles

Cocinando con Big Data

Cocinando con Big Data Cocinando con Big Data Javier Sánchez BDM Big Data jsanchez@flytech.es 91.300.51.09 21/11/2013 Javier Sánchez 1 Agenda Qué es Big Data? Receta Punto de Partida Para qué Big Data? Conclusiones 21/11/2013

Más detalles

Big Data con nombres propios

Big Data con nombres propios Febrero 2014 Big Data con Al hablar de tecnología Big Data se está obligado, sin duda alguna, a hablar de programación paralela y procesamiento distribuido, ya que éstas serán las características que permitirán

Más detalles

PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop

PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop PROGRAMA FORMATIVO Analista de Datos Big Data Cloudera Apache Hadoop Julio 2015 DATOS GENERALES DE LA ESPECIALIDAD 1. Familia Profesional: INFORMÁTICA Y COMUNICACIONES (IFC) Área Profesional: SISTEMAS

Más detalles

RAID. Redundant Array of Independent Disks. Rafael Jurado Moreno (rafa.eqtt@gmail.com) Fuente: Wikipedia

RAID. Redundant Array of Independent Disks. Rafael Jurado Moreno (rafa.eqtt@gmail.com) Fuente: Wikipedia RAID Redundant Array of Independent Disks Rafael Jurado Moreno (rafa.eqtt@gmail.com) Fuente: Wikipedia I.E.S. María Moliner. Segovia 2010 1.Introducción. En informática, el acrónimo RAID (del inglés Redundant

Más detalles

CURSO PRESENCIAL: ADMINISTRADOR HADOOP

CURSO PRESENCIAL: ADMINISTRADOR HADOOP CURSO PRESENCIAL: ADMINISTRADOR HADOOP Información detallada del curso www.formacionhadoop.com El curso se desarrolla a lo largo de 4 semanas seguidas. Se trata de un curso formato ejecutivo que permite

Más detalles

Big Data en la nube. Use los datos. Obtenga información. La pregunta clave es: Qué puede hacer Doopex por mi negocio?

Big Data en la nube. Use los datos. Obtenga información. La pregunta clave es: Qué puede hacer Doopex por mi negocio? Qué es Doopex? Big Data en la nube. Use los datos. Obtenga información. Seguramente, la pregunta clave no es Qué es Doopex?. La pregunta clave es: Qué puede hacer Doopex por mi negocio? El objetivo de

Más detalles

Claves Tecnológicas. Cloud, big data, redes sociales, consumerización, seguridad...

Claves Tecnológicas. Cloud, big data, redes sociales, consumerización, seguridad... núm. 02 Noviembre 2012 Claves Tecnológicas Cloud, big data, redes sociales, consumerización, seguridad... Retrato Grady Booch, Evangelist & IBM Fellow SAPPHIRE NOW Sven Denecken, VP & Head of Co-Innovation

Más detalles

Google BigQuery. Luis Villalba 59191

Google BigQuery. Luis Villalba 59191 Google BigQuery Luis Villalba 59191 Universidad Católica de Asunción, Departamento de Ciencias y Tecnologías, Sede Santa Librada, Asunción, Paraguay villalba.luifer@gmail.com Abstract. En este paper estaremos

Más detalles

Memoria Compartida Distribuida (DSM) Sistema de Archivos

Memoria Compartida Distribuida (DSM) Sistema de Archivos Memoria Compartida Distribuida (DSM) La memoria compartida distribuida es una abstracción que se propone como alternativa a la comunicación por mensajes. Memoria compartida basada en páginas: este esquema

Más detalles

Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica

Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica Fundamentos Título de de Big la Data presentación utilizando MATLAB Yersinio Jiménez Campos Analista de datos Banco Nacional de Costa Rica 1 Agenda Qué es Big Data? Buenas prácticas en el manejo de memoria.

Más detalles

Solución empresarial Hadoop de EMC. NAS de escalamiento horizontal Isilon y Greenplum HD

Solución empresarial Hadoop de EMC. NAS de escalamiento horizontal Isilon y Greenplum HD Informe técnico Solución empresarial Hadoop de EMC NAS de escalamiento horizontal Isilon y Greenplum HD Por Julie Lockner, analista ejecutivo, y Terri McClure, analista ejecutivo Febrero de 2012 Este Informe

Más detalles

Servicios avanzados de supercomputación para la ciència y la ingeniería

Servicios avanzados de supercomputación para la ciència y la ingeniería Servicios avanzados de supercomputación para la ciència y la ingeniería Servicios avanzados de supercomputación para la ciència y la ingeniería HPCNow! provee a sus clientes de la tecnología y soluciones

Más detalles

No se requiere que los discos sean del mismo tamaño ya que el objetivo es solamente adjuntar discos.

No se requiere que los discos sean del mismo tamaño ya que el objetivo es solamente adjuntar discos. RAIDS MODO LINEAL Es un tipo de raid que muestra lógicamente un disco pero se compone de 2 o más discos. Solamente llena el disco 0 y cuando este está lleno sigue con el disco 1 y así sucesivamente. Este

Más detalles

Big Data y Supercómputo. Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE)

Big Data y Supercómputo. Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) Big Data y Supercómputo Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) Big Data 2 Hasta qué cantidad de datos podemos procesar en nuestra

Más detalles

Big data A través de una implementación

Big data A través de una implementación Big data A través de una implementación Lic. Diego Krauthamer Profesor Adjunto Interino del Área Base de Datos Universidad Abierta Interamericana Facultad de Tecnología Informática Buenos Aires. Argentina

Más detalles

Conectores Pentaho Big Data Community VS Enterprise

Conectores Pentaho Big Data Community VS Enterprise Conectores Pentaho Big Data Community VS Enterprise Agosto 2014 Stratebi Business Solutions www.stratebi.com info@stratebi.com Índice 1. Resumen... 3 2. Introducción... 4 3. Objetivo... 4 4. Pentaho Community

Más detalles

Habilitando la empresa ágil a través de datos unificados La travesía hacia la plataforma de datos analítico-transaccionales

Habilitando la empresa ágil a través de datos unificados La travesía hacia la plataforma de datos analítico-transaccionales Habilitando la empresa ágil a través de datos unificados Agosto de 2015 Cómo se utilizan los datos hoy Los datos analíticos se derivan y separan a partir de datos transaccionales. Requieren bases de datos

Más detalles

Almacenamiento orientado a las necesidades del negocio. Sistema de almacenamiento Scale-out Multi-Petabyte FUJITSU ETERNUS CD10000

Almacenamiento orientado a las necesidades del negocio. Sistema de almacenamiento Scale-out Multi-Petabyte FUJITSU ETERNUS CD10000 Almacenamiento orientado a las necesidades del negocio Sistema de almacenamiento Scale-out Multi-Petabyte FUJITSU ETERNUS CD10000 Abra paso a nuevas oportunidades de negocio. Libere el potencial de los

Más detalles

BIG DATA Desde que se cronometran las carreras, se corre más rápido

BIG DATA Desde que se cronometran las carreras, se corre más rápido BIG DATA Desde que se cronometran las carreras, se corre más rápido Santa Cruz, Bolivia 2014 Manual para aprender @sorprendida @sorprendida HACE UN BILLÓN DE: HORAS nació el homo sapiens MINUTOS empezó

Más detalles

RAID. Los detalles de las características segunda y tercera, cambian según los distintos niveles RAID. RAID 0 no soporta la tercera característica.

RAID. Los detalles de las características segunda y tercera, cambian según los distintos niveles RAID. RAID 0 no soporta la tercera característica. RAID Como se dijo anteriormente, el ritmo de mejora de prestaciones en memoria secundaria ha sido considerablemente menor que en procesadores y en memoria principal. Esta desigualdad ha hecho, quizás,

Más detalles

Global File System (GFS)...

Global File System (GFS)... Global File System (GFS)... Diferente a los sistemas de ficheros en red que hemos visto, ya que permite que todos los nodos tengan acceso concurrente a los bloques de almacenamiento compartido (a través

Más detalles

EMC Forum 2014. EMC ViPR y ECS: Una vuelta por los servicios definidos por software

EMC Forum 2014. EMC ViPR y ECS: Una vuelta por los servicios definidos por software EMC Forum 2014 EMC ViPR y ECS: Una vuelta por los servicios definidos por software 1 Programa de la sesión Dinámica del mercado Descripción general de EMC ViPR Novedades en ViPR Controller Novedades en

Más detalles

Conceptos básicos de Big Data

Conceptos básicos de Big Data Conceptos básicos de Big Data Este documento no podrá ser reproducido, total o parcialmente, sin el permiso expreso de TRC Informática, S.L. Correos electrónicos, mensajes de textos, datos en formularios

Más detalles

CURSOS DE VERANO 2014

CURSOS DE VERANO 2014 CURSOS DE VERANO 2014 APROXIMACIÓN PRÁCTICA A LA CIENCIA DE DATOS Y BIG DATA: HERRAMIENTAS KNIME, R, HADOOP Y MAHOUT. Entorno de Procesamiento Hadoop Sara Del Río García 1 Qué es Hadoop? Es un proyecto

Más detalles

PRACTICA NO.24: CLUSTER

PRACTICA NO.24: CLUSTER PRACTICA NO.24: CLUSTER Jose Arturo Beltre Castro 2013-1734 ING. JOSE DOÑE Sistemas Operativos III Cluster El término clúster se aplica a los conjuntos o conglomerados de computadoras construidos mediante

Más detalles

ALMACENAMIENTO DEFINIDO POR SOFTWARE DE VIPR

ALMACENAMIENTO DEFINIDO POR SOFTWARE DE VIPR ALMACENAMIENTO DEFINIDO POR SOFTWARE DE VIPR Virtualice todo sin hacer concesiones. 1 Visión tradicional del centro de datos MENSAJERÍA ERP/CRM BASE DE DATOS MISIÓN CRÍTICA BIG DATA HPC 2 Administración

Más detalles

Almacenamiento de gran capacidad para impulsar la innovación.

Almacenamiento de gran capacidad para impulsar la innovación. Almacenamiento de gran capacidad para impulsar la innovación. WD y el logotipo de WD son marcas comerciales registradas de Western Digital Technologies, lnc. en EE. UU. y otros países; WD Ae, WD Re+, WD

Más detalles

Nicolás Zarco Arquitectura Avanzada 2 Cuatrimestre 2011

Nicolás Zarco Arquitectura Avanzada 2 Cuatrimestre 2011 Clusters Nicolás Zarco Arquitectura Avanzada 2 Cuatrimestre 2011 Introducción Aplicaciones que requieren: Grandes capacidades de cómputo: Física de partículas, aerodinámica, genómica, etc. Tradicionalmente

Más detalles

XII Encuentro Danysoft en Microsoft Abril 2015. Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código

XII Encuentro Danysoft en Microsoft Abril 2015. Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código Business Intelligence y Big Data XII Encuentro Danysoft en Microsoft Directos al código Ana María Bisbé York Servicios Profesionales sp@danysoft.com 916 638683 www.danysoft.com Abril 2015 Sala 1 SQL Server

Más detalles

CURSOS DE VERANO 2014

CURSOS DE VERANO 2014 CURSOS DE VERANO 2014 CLOUD COMPUTING: LA INFORMÁTICA COMO SERVICIO EN INTERNET LA PLATAFORMA GOOGLE CLOUD PLATFORM. GOOGLE APP ENGINE Pedro A. Castillo Valdivieso Universidad de Granada http://bit.ly/unia2014

Más detalles

DISCOS RAID. Se considera que todos los discos físicos tienen la misma capacidad, y de no ser así, en el que sea mayor se desperdicia la diferencia.

DISCOS RAID. Se considera que todos los discos físicos tienen la misma capacidad, y de no ser así, en el que sea mayor se desperdicia la diferencia. DISCOS RAID Raid: redundant array of independent disks, quiere decir conjunto redundante de discos independientes. Es un sistema de almacenamiento de datos que utiliza varias unidades físicas para guardar

Más detalles

:Arquitecturas Paralela basada en clusters.

:Arquitecturas Paralela basada en clusters. Computación de altas prestaciones: Arquitecturas basadas en clusters Sesión n 1 :Arquitecturas Paralela basada en clusters. Jose Luis Bosque 1 Introducción Computación de altas prestaciones: resolver problemas

Más detalles

Big Data Analytics: propuesta de una arquitectura

Big Data Analytics: propuesta de una arquitectura Big Data Analytics: propuesta de una arquitectura Jonathan Solano Rodriguez y Estefany Leiva Valverde Escuela de Ingeniería, Universidad Latinoamericana de Ciencia y Tecnología, ULACIT, Urbanización Tournón,

Más detalles

PROGRAMA FORMATIVO Administrador Big Data Cloudera Apache Hadoop

PROGRAMA FORMATIVO Administrador Big Data Cloudera Apache Hadoop PROGRAMA FORMATIVO Administrador Big Data Cloudera Apache Hadoop Julio 2015 DATOS GENERALES DE LA ESPECIALIDAD 1. Familia Profesional: INFORMÁTICA Y COMUNICACIONES (IFC) Área Profesional: SISTEMAS Y TELEMÁTICA

Más detalles

RAID nivel 5 (RAID 5): En RAID 5 los bloques de datos que se almacenan en la unidad, y la información redundante de dichos bloques se distribuye cíclicamente entre todos los discos que forman el volumen

Más detalles

Mr. Nodus Eternus CD10000

Mr. Nodus Eternus CD10000 Mr. Nodus Eternus CD10000 Hola a todos! Soy Mr. Nodus la última creación de Fujitsu. Estoy aquí para presentarles un sistema innovador y revolucionario en almacenamiento, del que soy una parte fundamental.

Más detalles

Título: Yo RDD (Resilient Distributed Datasets) con la Bujía (SPARK)!!!

Título: Yo RDD (Resilient Distributed Datasets) con la Bujía (SPARK)!!! Título: Yo RDD (Resilient Distributed Datasets) con la Bujía (SPARK)!!! Autor: Dr. Gabriel Guerrero Ref: www.saxsa.com.mx/articulos/rdd Descripción: Una breve introducción al concepto de Conjuntos Distribuidos

Más detalles

Roadmap para la adopción de nuevas arquitecturas de información

Roadmap para la adopción de nuevas arquitecturas de información Roadmap para la adopción de nuevas arquitecturas de información Qué es Big Data..? es el nombre que se le da a conjuntos de información que crecen de una manera tan exponencial que resulta prohibitivo

Más detalles

The H Hour: Hadoop The awakening of the BigData. Antonio Soto SolidQ COO asoto@solidq.com @antoniosql

The H Hour: Hadoop The awakening of the BigData. Antonio Soto SolidQ COO asoto@solidq.com @antoniosql The H Hour: Hadoop The awakening of the BigData Antonio Soto SolidQ COO asoto@solidq.com @antoniosql Tendencias de la Industria El nuevo rol del operador El operador de ayer Sigue el proceso basado en

Más detalles

RAID 0 : No redundante

RAID 0 : No redundante RAID ECP RAID RAID - Redundant Array of Independent Discs, 1987 Combinar varios discos, pequeños y baratos, en un sólo dispositivo lógico de disco y distribuir los datos a través de las unidades físicas

Más detalles

Arquitecturas de Bases de Datos. Carlos A. Olarte (carlosolarte@puj.edu.co) BDII

Arquitecturas de Bases de Datos. Carlos A. Olarte (carlosolarte@puj.edu.co) BDII Carlos A. Olarte (carlosolarte@puj.edu.co) BDII Contenido 1 Introducción 2 Arquitectura Centralizada 3 Arquitectura Cliente-Servidor 4 Arquitecturas Paralelas 5 Bases de Datos Distribuidas Introducción

Más detalles

IBM Power Systems con Saytel. El motor para obtener información de valor de la forma más rápida

IBM Power Systems con Saytel. El motor para obtener información de valor de la forma más rápida IBM Power Systems con Saytel El motor para obtener información de valor de la forma más rápida El motor para obtener información de valor de la forma más rápida Los nuevos requerimientos cloud, analítica,

Más detalles

Minería de datos en la nube. Patricia Rayón Villela

Minería de datos en la nube. Patricia Rayón Villela Minería de datos en la nube Patricia Rayón Villela 1 Contenido Big-Data BI en la nube Analítica Texto Video Visual 2 Big data Problemas que eran difíciles o imposibles de resolver antes de ahora son manejables.

Más detalles

ÍNDICE. Introducción... Capítulo 1. Conceptos de Big Data... 1

ÍNDICE. Introducción... Capítulo 1. Conceptos de Big Data... 1 ÍNDICE Introducción... XIII Capítulo 1. Conceptos de Big Data... 1 Definición, necesidad y características de Big Data... 1 Aplicaciones típicas de Big Data... 4 Patrones de detección del fraude... 4 Patrones

Más detalles

Estamos inmersos en la era de la información, donde. Big data. Procesando los datos en la sociedad digital

Estamos inmersos en la era de la información, donde. Big data. Procesando los datos en la sociedad digital Big data Procesando los datos en la sociedad digital Francisco Herrera Departamento de Ciencias de la Computación e Inteligencia Artificial de la Universidad de Granada Estamos inmersos en la era de la

Más detalles

Big Data: retos a nivel de desarrollo. Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co

Big Data: retos a nivel de desarrollo. Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co Big Data: retos a nivel de desarrollo Ing. Jorge Camargo, MSc, PhD (c) jcamargo@bigdatasolubons.co Cámara de Comercio de Bogotá Centro Empresarial Chapinero Agenda Introducción Bases de datos NoSQL Procesamiento

Más detalles

Como extender la capacidad Analítica conectando fuentes de datos Big Data en ArcGIS

Como extender la capacidad Analítica conectando fuentes de datos Big Data en ArcGIS Como extender la capacidad Analítica conectando fuentes de datos Big Data en ArcGIS César Rodríguez Reinaldo Cartagena Agenda Fundamentos para Big Data La Analítica y Big Data generar conocimiento ArcGIS

Más detalles

Qué es un sistema de almacenamiento RAID?

Qué es un sistema de almacenamiento RAID? A la hora de adquirir un servidor donde poder alojar tus aplicaciones, te habrás encontrado con una gran cantidad de términos que pueden sonar a chino. Uno de ellos es el acrónimo RAID (Redundant Array

Más detalles

[TECNOLOGÍA RAID] Documentos de formación de SM Data: http://www.smdata.com/formacion.php

[TECNOLOGÍA RAID] Documentos de formación de SM Data: http://www.smdata.com/formacion.php 2011 Documentos de formación de SM Data: http://www.smdata.com/formacion.php [] Introducción a la tecnología RAID; Qué es RAID?; ventajas de RAID; definición de los más populares niveles de RAID y diferentes

Más detalles

13º Unidad Didáctica. RAID (Redundant Array of Independent Disks) Eduard Lara

13º Unidad Didáctica. RAID (Redundant Array of Independent Disks) Eduard Lara 13º Unidad Didáctica RAID (Redundant Array of Independent Disks) Eduard Lara 1 RAID: INTRODUCCIÓN Sistema de almacenamiento que usa múltiples discos duros entre los que distribuye o replica los datos.

Más detalles

Vielka Mari Utate Tineo 2013-1518. Instituto Tecnológico de las Américas ITLA. Profesor José Doñé PRATICA NO. 24, CLUSTER

Vielka Mari Utate Tineo 2013-1518. Instituto Tecnológico de las Américas ITLA. Profesor José Doñé PRATICA NO. 24, CLUSTER Vielka Mari Utate Tineo 2013-1518 Instituto Tecnológico de las Américas ITLA Profesor José Doñé PRATICA NO. 24, CLUSTER CREAR UN HOWTO CON EL PROCEDIMIENTO NECESARIO PARA LA IMPLEMENTACION DE CLUSTER DE

Más detalles

Instalación y configuración de herramientas software para Big Data

Instalación y configuración de herramientas software para Big Data Escola Tècnica Superior d Enginyeria Informàtica Universitat Politècnica de València Instalación y configuración de herramientas software para Big Data Trabajo Fin de Grado Grado en Ingeniería Informática

Más detalles

Análisis de desempeño y modelo de escalabilidad para SGP

Análisis de desempeño y modelo de escalabilidad para SGP Análisis de desempeño y modelo de escalabilidad para SGP Este documento es producto de la experiencia de Analítica en pruebas de stress sobre el software SGP. Estas pruebas se realizaron sobre un proceso

Más detalles

Ingeniero en Informática

Ingeniero en Informática UNIVERSIDAD DE ALMERÍA Ingeniero en Informática CLÚSTER DE ALTO RENDIMIENTO EN UN CLOUD: EJEMPLO DE APLICACIÓN EN CRIPTOANÁLISIS DE FUNCIONES HASH Autor Directores ÍNDICE 1. Introducción 2. Elastic Cluster

Más detalles

VDI Xen Server. Estés donde estés... preocúpate de encontrar una buena silla. Las tenemos todas conectadas a la nube.

VDI Xen Server. Estés donde estés... preocúpate de encontrar una buena silla. Las tenemos todas conectadas a la nube. Estés donde estés... preocúpate de encontrar una buena silla. Las tenemos todas conectadas a la nube. Céntrate en tu negocio. Déjanos la tecnología. Solución alta disponibilidad VDI Xen Server Estés donde

Más detalles

Índice. 2 Nuevos datos, nuevos desafíos. 3 Visión general: REDES de datos en la memoria. la memoria

Índice. 2 Nuevos datos, nuevos desafíos. 3 Visión general: REDES de datos en la memoria. la memoria Informe técnico POTENCIE SUS APLICACIONES Y ALCANCE AGILIDAD COMERCIAL CON REDES DE DATOS INCLUIDAS EN LA MEMORIA Índice 2 Nuevos datos, nuevos desafíos 3 Visión general: REDES de datos 3 Los negocios

Más detalles

Contenido CAPÍTULO 2 FUENTES DE GRANDES VOLÚMENES DE DATOS... 23. Parte I. La era de Big Data CAPÍTULO 1 QUÉ ES BIG DATA?... 1

Contenido CAPÍTULO 2 FUENTES DE GRANDES VOLÚMENES DE DATOS... 23. Parte I. La era de Big Data CAPÍTULO 1 QUÉ ES BIG DATA?... 1 Contenido Parte I. La era de Big Data CAPÍTULO 1 QUÉ ES BIG DATA?... 1 Definición de Big Data... 2 Tipos de datos... 3 Datos estructurados... 4 Datos semiestructurados... 4 Datos no estructurados... 5

Más detalles

Facultad Politécnica UNA Ing. Julio Paciello juliopaciello@gmail.com

Facultad Politécnica UNA Ing. Julio Paciello juliopaciello@gmail.com Facultad Politécnica UNA Ing. Julio Paciello juliopaciello@gmail.com Contenidos Clúster de Investigación Aplicada Proyectos HPC Clúster Hadoop para tecnologías de BI Una nube privada para la Administración

Más detalles

PLATAFORMA SPARK: CATAPULTA MACHINE LEARNING

PLATAFORMA SPARK: CATAPULTA MACHINE LEARNING PLATAFORMA SPARK: CATAPULTA MACHINE LEARNING Dr. Gabriel Guerrero www.saxsa.com.mx 29 de julio de 2015 Introducción La catapulta de Leonardo, una herramienta genial. Permite con poco esfuerzo enviar un

Más detalles

CURSO PRESENCIAL: Apache Spark

CURSO PRESENCIAL: Apache Spark CURSO PRESENCIAL: Apache Spark Información detallada del curso www.formacionhadoop.com El curso se desarrolla en 2 semanas seguidas. Se trata de un curso formato ejecutivo que permite compaginar la formación

Más detalles

1. Introducción 2. Historia 3. Características clave 4. Cuestiones de diseño

1. Introducción 2. Historia 3. Características clave 4. Cuestiones de diseño Tema 1. Introducción a los sistemas distribuidos 1. Introducción 2. Historia 3. Características clave 4. Cuestiones de diseño Tema 1 Introducción a los Sistemas Distribuidos 1 Introducción y objetivos

Más detalles

Sistemas de Información para la Gestión

Sistemas de Información para la Gestión Sistemas de Información para la Gestión UNIDAD 2: RECURSOS DE TI Bases de Datos UNIDAD 2: RECURSOS DE TECNOLOGÍA DE INFORMACIÓN Información 1. La Información: Propiedades de la Información. Sistemas de

Más detalles

PROYECTO INTEGRADO CLUSTER DE ALTA DISPONIBILIDAD CON HAPROXY Y KEEPALIVED. Antonio Madrena Lucenilla 21 de Diciembre de 2012 I.E.S.

PROYECTO INTEGRADO CLUSTER DE ALTA DISPONIBILIDAD CON HAPROXY Y KEEPALIVED. Antonio Madrena Lucenilla 21 de Diciembre de 2012 I.E.S. PROYECTO INTEGRADO CLUSTER DE ALTA DISPONIBILIDAD CON HAPROXY Y KEEPALIVED Obra bajo licencia Creative Commons Antonio Madrena Lucenilla 21 de Diciembre de 2012 I.E.S. Gonzalo Nazareno INDICE DE CONTENIDO

Más detalles

IT@Intel Cómo TI de Intel migró con éxito hacia Cloudera Apache Hadoop*

IT@Intel Cómo TI de Intel migró con éxito hacia Cloudera Apache Hadoop* Documento técnico de IT@Intel Marzo de 2015 IT@Intel Cómo TI de Intel migró con éxito hacia Cloudera Apache Hadoop* A partir de nuestra experiencia original con el software Apache Hadoop, TI de Intel identificó

Más detalles

El camino de SAP hacia HANA

El camino de SAP hacia HANA A fondo Real-Time Business El camino de SAP hacia HANA La última gran transformación Conocida en el pasado como una compañía de soluciones empresariales y de ERP (Enterprise Resource Planning), SAP es

Más detalles

Tecnología Big Data para el Sector Salud del Estado de Guerrero

Tecnología Big Data para el Sector Salud del Estado de Guerrero Tecnología Big Data para el Sector Salud del Estado de Guerrero Elías Marino Escobar Ayona Universidad Autónoma de Guerrero Foro Antiiemperialista No. 227. Colonia Tribuna Nacional, C. P. 39038, Chilpancingo,

Más detalles

D.4.3.1 Definición de la infraestructura de soporte.

D.4.3.1 Definición de la infraestructura de soporte. D.4.3.1 Definición de la infraestructura de soporte. RESUMEN EJECUTIVO El proyecto CloudPYME ha analizado, desarrollado y probado tres servicios de valor añadido para las PYME de la Euroregión Galicia-Norte

Más detalles

Seminario Electrónico de Soluciones Tecnológicas sobre Content Networking

Seminario Electrónico de Soluciones Tecnológicas sobre Content Networking Seminario Electrónico de Soluciones Tecnológicas sobre Content Networking 1 de 13 Seminario Electrónico de Soluciones Tecnológicas sobre Content Networking 3 Bienvenida. 4 Objetivos. 5 Soluciones comerciales

Más detalles

PLATAFORMA CLÚSTER BASADA EN CENTOS

PLATAFORMA CLÚSTER BASADA EN CENTOS PLATAFORMA CLÚSTER BASADA EN CENTOS Área de conocimiento: Redes y Telecomunicaciones Raúl Hernández Palacios, Felipe de Jesús Núñez Cárdenas, Javier Hervert Hernández, Miriam De la Cruz Bautista. Área

Más detalles

Extractos de la conferencia: Supercomputación y Software Libre realizada por Linalco en la Universidad de Granada

Extractos de la conferencia: Supercomputación y Software Libre realizada por Linalco en la Universidad de Granada Extractos de la conferencia: Supercomputación y Software Libre realizada por Linalco en la Universidad de Granada Copyright 2006 Linalco Consulting, S.L. Linalco Consulting, S.L., autor de este documento,

Más detalles

UNIVERSIDAD TECNICA DEL NORTE Ing. Lenin Omar Lara Castro. BIG DATA

UNIVERSIDAD TECNICA DEL NORTE Ing. Lenin Omar Lara Castro. BIG DATA UNIVERSIDAD TECNICA DEL NORTE Ing. Lenin Omar Lara Castro. BIG DATA Historia del Arte: El Big Data o Datos Masivos se refieren a sistemas informáticos basados en la acumulación a gran escala de datos y

Más detalles

Big Data y Manejo de Datos Maestros

Big Data y Manejo de Datos Maestros Objetivos 1.- El alumno identificará el contexto, la problemática y utilizará diversas herramientas de Manejo de Datos Maestros. Esto permitirá formarse un criterio sobre cómo implementar un proyecto de

Más detalles

Monitorización de actividades de datos InfoSphere Guardium para Big Data

Monitorización de actividades de datos InfoSphere Guardium para Big Data Monitorización de actividades de datos InfoSphere Guardium para Big Data Amal Mashlab IBM Software Group, Information Management Responsable de Ventas de Gobierno de la Información para Europa Cumplir

Más detalles

Introducción. TEMA 3: Clusters de Computadores Personales

Introducción. TEMA 3: Clusters de Computadores Personales Introducción TEMA 3: Clusters de Computadores Personales Laboratorio de Arquitecturas Avanzadas de Computadores 5º de Ingeniería Superior de Informática 2008/09 Alberto Sánchez alberto.sanchez@urjc.es

Más detalles

Técnicas empleadas. además de los discos las controladoras.

Técnicas empleadas. además de los discos las controladoras. RAID Introducción En los últimos años, la mejora en la tecnología de semiconductores ha significado un gran incremento en la velocidad de los procesadores y las memorias principales que, a su vez, exigen

Más detalles

Tiempos de respuesta menores a un segundo con la nueva analítica en memoria de MicroStrategy 10. Fernando Gutiérrez-Cabello

Tiempos de respuesta menores a un segundo con la nueva analítica en memoria de MicroStrategy 10. Fernando Gutiérrez-Cabello Tiempos de respuesta menores a un segundo con la nueva analítica en memoria de MicroStrategy 10 Fernando Gutiérrez-Cabello El alto rendimiento ya no es solo un plus en las aplicaciones analíticas Los usuarios

Más detalles

Redes de Altas Prestaciones

Redes de Altas Prestaciones Redes de Altas Prestaciones TEMA 3 Redes SAN -Alta disponibilidad -Sistemas Redundantes -Curso 2010 Redes de Altas Prestaciones - Indice Conceptos Componentes de un SAN Términos más utilizados Topología

Más detalles