CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK.

Tamaño: px

Comenzar la demostración a partir de la página:

Download "CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK. www.formacionhadoop.com"

Rosario Plaza Martín
hace 8 años
Vistas:

1 CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK

2 Índice 1 Qué es Big Data? 2 Problemas con los sistemas tradicionales 3 Qué es Spark? 3.1 Procesamiento de datos distribuido Características principales de Spark 4 Por qué utilizar Spark? 2

3 ÍNDICE Qué es Big Data?

4 Por Big Data nos referimos exactamente a lo que su propio nombre indica: al tratamiento y análisis de enormes repositorios de datos, tan desproporcionadamente grandes que resulta imposible tratarlos con las herramientas de bases de datos y analíticas convencionales. La tendencia se encuadra en un entorno que no nos suena para nada extraño: la proliferación de páginas web, aplicaciones de imagen y vídeo, redes sociales, dispositivos móviles, sensores, etc. capaces de generar, según IBM, más de 2.5 quintillones de bytes al día, hasta el punto de que el 90% de los datos del mundo han sido creados durante los últimos dos años. Hablamos de un entorno absolutamente relevante para muchos aspectos, desde el análisis de fenómenos naturales como el clima o de datos sismográficos, hasta entornos como salud, seguridad y por supuesto el ámbito empresarial. 4

La tendencia se encuadra en un entorno que no nos suena para nada extraño: la proliferación de páginas web, aplicaciones de imagen y vídeo, redes sociales, dispositivos móviles, sensores, etc.

5 El Big Data nace para solucionar estos problemas: Como almacenar y trabajar con grandes volúmenes de datos. Como poder interpretar y analizar estos datos de naturaleza muy dispar. Si miramos alrededor nuestro vemos que cualquier dispositivo que usamos genera datos. De esta gran cantidad de datos que tenemos a nuestro alcance, sólo el 20% se trata de información estructura y el 80% son datos no estructurados. Estos últimos añaden complejidad a la hora de almacenarlos y analizarlos. 5

Si miramos alrededor nuestro vemos que cualquier dispositivo que usamos genera datos.

6 ÍNDICE Problemas con los sistemas tradicionales

Problemas con los supercomputadores : - Gran capacidad de procesamiento para datos de tamaño pequeño - Necesitamos mayor procesamiento: Más RAM - Todo esto tiene dos limitaciones muy importantes: -

7 Problemas con los supercomputadores : - Gran capacidad de procesamiento para datos de tamaño pequeño - Necesitamos mayor procesamiento: Más RAM - Todo esto tiene dos limitaciones muy importantes: - Alto coste - Limitada escalabilidad Problemas con los sistemas distribuidos actuales (MPI, Condor..): - Envío de datos a través de la red para el procesamiento de los datos (cuello de botella) - Dificultad de desarrollo (sincronización, tolerancia a fallos, distribución paralela..) - Consistencia de datos - Disponibilidad de los datos 7

sistemas distribuidos actuales (MPI, Condor.

8 La tecnología Hadoop nos ayuda a afrontar los problemas que están surgiendo a la hora de procesar grandes cantidades de datos. Las principales razones de por qué utilizar Hadoop son las siguientes: Los datos empiezan a ser un cuello de botella: La potencia de procesamiento se duplica cada 2 años. La velocidad de procesamiento ya no es problema. Obtener los datos de los procesadores se convierte en el cuello de botella. Cálculo rápido: Velocidad típica de disco en transferencia de datos : 75 MB/sec Tiempo necesario para procesar 100G al procesador : aproximadamente 22 minutos! En la actualidad será peor ya que la mayoría de los servidores tienen menos de 100GB de ram disponibles. Hadoop para solventar los problemas distribuye los datos a la vez que son almacenados y en caso de querer procesar los datos almacenados, Hadoop envía la computación a los datos para evitar tener que enviar los datos por la red. Spark nos proporcionará el siguiente nivel: Distribución de los datos en memoria! 8

La velocidad de procesamiento ya no es problema. Obtener los datos de los procesadores se convierte en el cuello de botella.

9 ÍNDICE Qué es Spark?

10 Apache Spark es un proyecto open source. Spark es un potente motor de procesamiento de datos en memoria en un cluster. Originalmente en el año 2009 Spark fué desarrollado por AMPLab y UC Berkeley. Posteriormente los creadores de Spark fundaron Databricks para su comercialización. Mucho después, y gracias a Cloudera, Spark ha conseguido llegar a lo que es hoy: La herramienta escalable de procesamiento de datos in-memory. Gracias a Spark y a un cluster Hadoop seremos capaces de dar solución a diferentes problemas, que a día de hoy, a pesar que Hadoop nos proporciona unas inmejorables prestaciones, no está destinado al procesamiento de datos en tiempo real. 10

Mucho después, y gracias a Cloudera, Spark ha conseguido llegar a lo que es hoy: La herramienta escalable de procesamiento de datos in-memory.

11 3.1 Procesamiento de datos distribuido El procesamiento de datos distribuido en Spark se divide en 3 partes: - SPARK - CLUSTER - ALMACENAMIENTO 11

12 3.1 Procesamiento de datos distribuido Spark: Spark proporciona una API con la que podremos realizar aplicaciones con un alto nivel de abstracción. Como ocurre con MapReduce, el programador podrá centrarse en el desarrollo de la aplicación, ya que Spark se encarga de realizar el procesamiento paralelo distribuyendo los datos a lo largo del cluster. Cluster: Spark realiza el procesamiento de los datos a lo largo de un cluster utilizando los recursos del mismo, por lo que el cluster deberá disponer del framework adecuado para poder determinar esos recursos. Existen 3 opciones: - Spark Standalone - YARN - Mesos Todas las opciones se comportan de la misma manera. Alojaran la aplicación a ejecutar en cada uno de los nodos del cluster, determinando los recursos a compartir de cada uno de ellos y llevando el seguimiento de la aplicación. La aplicación se ejecutará a lo largo del cluster a través de los worker nodes. Estos nodos son gestionados por un maestro y son escalables y tolerantes a fallos. Almacenamiento: Al utilizar el sistema de ficheros distribuido de Hadoop (HDFS), el almacenamiento cumple con los requisitos de Hadoop: - Los datos son distribuidos durante el almacenamiento - Los datos son replicados para aumentar la disponibilidad y cubrir la tolerancia a fallos - Cumple con la característica principal de Hadoop: Llevar la computación a los datos 12

13 3.2 Características principales de Spark Como hemos visto en la página anterior Spark cumple con todas las características de un cluster Hadoop, ya que utilizará como almacenamiento su sistema de ficheros (HDFS). A continuación un resumen de las características más importantes de Spark: - Alto nivel de abstracción: Como ocurre con el framework MapReduce, el desarrollador únicamente deberá estar pendiente de desarrollar la aplicación ( no tendrá que estar pendiente de la sincronización, distribución, posibles fallos, etc). - Computación de los datos: - Las aplicaciones son ejecutadas a lo largo del cluster en los worker nodes - Las aplicaciones son gestionadas por un maestro - Escalable y tolerante a fallos - Distribución de los datos: - Los datos son distribuidos a la vez que son almacenados en el cluster - Los datos son replicados n veces (3 por defecto) para incrementar el rendimiento y la tolerancia a fallos - La computación es enviada a los datos para evitar el trafico de red - Datos en memoria: - Spark da la posibilidad de cachear datos en memoria para ser utilizados en futuras iteraciones 13

A continuación un resumen de las características más importantes de Spark: - Alto nivel de abstracción: Como ocurre con el framework MapReduce, el desarrollador únicamente deberá estar pendiente de

14 ÍNDICE Por qué utilizar Spark?

Como hemos visto en los apartados anteriores, Spark nos va a proporcionar la seguridad de almacenamiento-procesamiento de datos de Hadoop, por lo que va a ser una herramienta muy importante en

15 Como hemos visto en los apartados anteriores, Spark nos va a proporcionar la seguridad de almacenamiento-procesamiento de datos de Hadoop, por lo que va a ser una herramienta muy importante en nuestro cluster para poder afrontar otros casos de uso en los cuales necesitemos una respuesta rápida. Spark también cumple con los beneficios generales de Hadoop: - Posibilidad de procesar y realizar análisis de datos que con las tecnologías actuales era imposible. - Bajo coste: Ya que en un cluster Hadoop vamos a utilizar comodity hardware los costes van a ser muchos más bajos que cualquier otro sistema. - Menor tiempo de procesamiento: Gracias a su procesamiento in-memory y a las características del cluster Hadoop, vamos a incrementar muchísimo el tiempo de procesamiento. - Flexibilidad a la hora de procesar datos no estructurados y poder almacenarlos a priori sin tener que determinar que vamos a necesitar. - Escalabilidad: Posibilidad de ir incrementando nuestro cluster a medida que vamos necesitando más almacenamiento o procesamiento. 15

Spark también cumple con los beneficios generales de Hadoop: - Posibilidad de procesar y realizar análisis de datos que con las tecnologías actuales era imposible.

Gracias a Spark vamos a consegui dar un salto de calidad: - Spark tiene mayor nivel de abstracción que el framework MapReduce a la hora de desarrollar las aplicaciones, lo que nos proporciona mayor

16 Gracias a Spark vamos a consegui dar un salto de calidad: - Spark tiene mayor nivel de abstracción que el framework MapReduce a la hora de desarrollar las aplicaciones, lo que nos proporciona mayor facilidad a la hora de desarrollar. - Spark baja el tiempo de procesamiento gracias a su procesamiento in-memory. Vamos a poder procesar datos y obtener resultados en tiempo real. - Gracias al procesamiento in-memory incrementaremos en un 100% el rendimiento de una aplicación. 16

- Spark baja el tiempo de procesamiento gracias a su procesamiento in-memory.

en el último año Spark (gracias a su procesamiento in-memory y a la gran

17 En la siguiente gráfica también podemos observar el incremento de velocidad de procesamiento respecto a un MapReduce gracias a Spark: Todo esto es debido a que en el último año Spark (gracias a su procesamiento in-memory y a la gran necesidad de obtener resultados en tiempo real) ha sido la herramienta más evolucionada: 17

Contacto administracion@formacionhadoop.com www.

18 Contacto TWITTER Twitter.com/formacionhadoop FACEBOOK Facebook.com/formacionhadoop LINKEDIN linkedin.com/company/formación-hadoop 18

Documentos relacionados

Big Data y BAM con WSO2

Big Data y BAM con WSO2 Mayo 2014 Big Data y BAM con Leonardo Torres Centro Experto en SOA/BPM en atsistemas ofrece una completa suite de productos Open Source SOA y son contribuidores de muchos de los productos de Apache, como