CURSO SERVICIO BIG DATA

Transcripción

1 CURSO SERVICIO BIG DATA 1

2 PRACTICAS Práctica 1: Utilizando el servicio cloud (Web)... 3 Práctica 2: Utilizando el servicio cloud (SSH) Práctica 3: Lanzar un cluster Hadoop Práctica 4: HDFS Práctica 5: Lanzando nuestro primer trabajo MapReduce Práctica 6: Desarrollar un trabajo MapReduce usando Streaming API Práctica 7: Desarrollar un trabajo MapReduce en Java Práctica 8: Procesado de datos con Hive Práctica 9: Machine learning con Mahout

3 Práctica 1: Utilizando el servicio cloud (Web) En esta práctica veremos como crear una máquina virtual usando el servicio cloud. Usaremos el método más sencillo que consiste en crear la máquina virtual a partir de una plantilla existente. Para la creación de la misma utilizaremos el interfaz web del servicio. 1. Primero tenemos que loguearnos al servicio cloud: 3

4 2. Pulsar el botón verde con el símbolo + para lanzar una nueva máquina virtual 4

5 3. Seleccionar la plantilla correspondiente a ttylinux que se encuentra en la tercera página de resultados. También podemos valernos de la opción de búsqueda y escribir allí ttylinux. 5

6 4. Le damos un nombre a la máquina y seleccionamos los recursos que queremos para la misma. La plantilla ya nos indica unos valores por defecto: 512MB de RAM y 1 CPU. Mantendremos esos valores y lanzaremos la máquina virtual pulsando en el botón verde crear. 6

7 5. Veremos como la máquina se crea y va pasando por distintos estados hasta que finalmente se pone en ejecución. 7

8 6. A través del interfaz web nos podemos conectar a la consola VNC de la máquina virtual. En general esta consola web se utiliza para resolver problemas que nos impidan la conexión remota directa a nuestra máquina virtual. 8

9 7. Finalmente borraremos la máquina virtual 9

10 Práctica 2: Utilizando el servicio cloud (SSH) En esta práctica repetiremos los pasos que hemos hecho en la práctica anterior pero usando el interfaz de línea de comandos del servicio cloud. 1. Primero tenemos que conectarnos al servicio cloud por SSH. ssh 2. En la primera conexión es necesario habilitar el servicio cloud en nuestra cuenta. Esto se consigue a través del comando enable_cloud. En general este paso sólo es necesario realizarlo la primera vez que nos conectamos al servicio, y sólo tendremos que repetirlo en el caso de que cambiemos la contraseña de la cuenta. [curso884@cloud ~]$ enable_cloud Este script habilitara la configuracion cloud en su cuenta. Desea continuar? [S/n] Porfavor introduzca su password de sistema para continuar. Password: Generando clave ssh... Generating public/private dsa key pair. Created directory '/home/cesga/cursos/curso884/.ssh'. Your identification has been saved in /home/cesga/cursos/curso884/.ssh/id_dsa. Your public key has been saved in /home/cesga/cursos/curso884/.ssh/id_dsa.pub. The key fingerprint is: 9b:31:28:4c:4e:3a:1c:d3:80:6b:dc:7e:f7:e8:96:27 curso884@cloud.cesga.es The key's randomart image is: +--[ DSA 1024] o X.. = +. S o o. =.. * E o o.o Leyendo clave publica: /home/cesga/cursos/curso884/.ssh/id_dsa.pub oneuser update curso884 -a /home/cesga/cursos/curso884/oneuser_template CONFIGURACION FINALIZADA En caso de errores contacte con sistemas@cesga.es 3. Para crear una instancia de una nueva máquina virtual la forma más sencilla es partir de una de las plantillas que ya están predefinidas. Para listar las plantillas disponibles ejecutaremos: [curso884@cloud ~]$ onetemplate list ID USER GROUP NAME REGTIME 177 sistemas users hadoop raw 07/01 10

11 10:43: sistemas users hadoop raw-master 10/15 18:27: sistemas users hadoop raw 05/06 17:14: grid users Ubuntu server x86_64 05/13 16:28: grid users Scientific Linux /13 16:51: grid users Ubtuntu Desktop /13 16:55: sistemas users hadoop raw-master 06/03 15:11: algarcia users CentOS 7 - APP - Devel 10/01 09:42: sistemas oneadmin hadoop.cesga.es-centos7 10/27 13:47: sistemas oneadmin CentOS 7 - TEMPLATE 10/27 13:50: alfeijoo users ttylinux - kvmalfeijoo 11/12 18:03: sistemas users EC2-TEST 12/03 15:16: dnieto elearning_g Seminar-Ubuntu /20 11:02: sistemas oneadmin ttylinux 05/19 19:49:09 4. Para esta práctica usaremos la plantilla ttylinux. Se trata de una distribución mínima de Linux que nos permitirá instanciar de modo rápido nuestra primera máquina virtual. [curso884@cloud ~]$ onetemplate instantiate name "mi primera maquina virtual" VM ID: Durante el arranque de la máquina virtual podemos ver como va cambiando el estado de la misma desde pending hasta running (pending prolog boot running). [curso884@cloud ~]$ onevm list ID USER GROUP NAME STAT UCPU UMEM HOST TIME curso884 users mi primera maquina virtual runn 0 0K nubacesga d 00h00 6. Finalmente borraremos la máquina virtual: [curso884@cloud ~]$ onevm delete

12 Práctica 3: Lanzar un cluster Hadoop En esta práctica lanzaremos nuestro primer cluster de Hadoop. 1. Para lanzar nuestro cluster Hadoop nos conectaremos por SSH al servicio cloud: ssh 2. (Este paso no es necesario hacerlo si completamos la práctica anterior) En la primera conexión es necesario habilitar el servicio cloud en nuestra cuenta ya que los clusters de Hadoop se lanzarán utilizando máquinas vituales. Esto se consigue a través del comando enable_cloud tal y como vimos en la práctica anterior. En general este paso sólo es necesario realizarlo la primera vez que nos conectamos al servicio, y sólo tendremos que repetirlo en el caso de que cambiemos la contraseña de la cuenta. [curso884@cloud ~]$ enable_cloud Este script habilitara la configuracion cloud en su cuenta. Desea continuar? [S/n] Porfavor introduzca su password de sistema para continuar. Password: Generando clave ssh... Generating public/private dsa key pair. Created directory '/home/cesga/cursos/curso884/.ssh'. Your identification has been saved in /home/cesga/cursos/curso884/.ssh/id_dsa. Your public key has been saved in /home/cesga/cursos/curso884/.ssh/id_dsa.pub. The key fingerprint is: 9b:31:28:4c:4e:3a:1c:d3:80:6b:dc:7e:f7:e8:96:27 curso884@cloud.cesga.es The key's randomart image is: +--[ DSA 1024] o X.. = +. S o o. =.. * E o o.o Leyendo clave publica: /home/cesga/cursos/curso884/.ssh/id_dsa.pub oneuser update curso884 -a /home/cesga/cursos/curso884/oneuser_template CONFIGURACION FINALIZADA En caso de errores contacte con sistemas@cesga.es 3. Para lanzar un cluster de hadoop basta con utilizar el comando hadoop-start [curso884@cloud ~]$ hadoop-start -s 3 mié may 27 17:39:22 CEST 2015 = Paso 1/3: Arrancando el cluster = Desplegando las maquinas en OpenNebula VM ID:

13 VM ID: VM ID: VM ID: Esperando a que arranquen los nodos 100% [========================================================================>] Arranque del cluster Finalizado. mié may 27 17:43:01 CEST 2015 = Paso 2/3: Obteniendo la lista de nodos = Lista de nodos obtenida. mié may 27 17:43:08 CEST 2015 = Paso 3/3: Configurando Hadoop = Esperando a que todos los slave esten configurados Configurando el master del cluster Configuracion finalizada!" Ya puede conectarse al nuevo cluster de hadoop a traves mediante ssh: ssh hadoop@ Tambien monitorizar el estado del cluster en las siguientes direcciones: JobTracker Web Interface: NameNode Web Interface: En caso de problemas no dude en contactar con el Dep. de Sistemas: sistemas@cesga.es Telefono: mié may 27 17:44:37 CEST Una vez arrancado podremos conectarnos a nuestro cluster hadoop utilizando el comando hadoop-connect y ya nos conectará automáticamente al nodo maestro de nuestro cluster: [curso884@cloud ~]$ hadoop-connect [hadoop@hadoop-master ~]$ 5. Podemos ver el estado del cluster usando el comando hadoop-status [curso884@cloud ~]$ hadoop-status ==> Hadoop cluster status Datanodes available: 3 (3 total, 0 dead) Tasktrackers available 3 ===> HDFS 13

14 Configured Capacity: (87.78 GB) Present Capacity: (85.65 GB) DFS Remaining: (85.65 GB) DFS Used: (120 KB) DFS Used%: 0% Under replicated blocks: 0 Blocks with corrupt replicas: 0 Missing blocks: Datanodes available: 3 (3 total, 0 dead) Name: :50010 Decommission Status : Normal Configured Capacity: (29.26 GB) DFS Used: (40 KB) Non DFS Used: ( MB) DFS Remaining: (28.55 GB) DFS Used%: 0% DFS Remaining%: 97.58% Last contact: Wed May 27 18:08:50 CEST 2015 Name: :50010 Decommission Status : Normal Configured Capacity: (29.26 GB) DFS Used: (40 KB) Non DFS Used: ( MB) DFS Remaining: (28.55 GB) DFS Used%: 0% DFS Remaining%: 97.58% Last contact: Wed May 27 18:08:50 CEST 2015 Name: :50010 Decommission Status : Normal Configured Capacity: (29.26 GB) DFS Used: (40 KB) Non DFS Used: ( MB) DFS Remaining: (28.55 GB) DFS Used%: 0% DFS Remaining%: 97.58% Last contact: Wed May 27 18:08:47 CEST 2015 ===> Task trackers tracker_hadoop-3:localhost/ :50697 tracker_hadoop-1:localhost/ :48392 tracker_hadoop-2:localhost/ : Por motivos de seguridad, para poder acceder al interfaz web de monitorización del cluster primero tendremos que añadir una regla en el firewall del mismo que nos permita acceder desde nuestra IP. Por ejemplo, si nuestra IP es abriremos el acceso a la misma con el siguiente comando (lanzado directamente desde el frontal cloud): 14

15 ~]$ ssh iptables-add Fijarse en que la conexión SSH se lanzar desde el frontal cloud. Para ver qué IP tiene nuestro PC podemos verlo conectándonos a 7. Una vez abierto el firewall ya podremos acceder a las páginas de monitorización del cluster: JobTracker Web Interface: NameNode Web Interface: 8. Tenemos la opción de realizar personalizaciones adicionales en el cluster, como por ejemplo instalar nuevos paquetes, para ello disponemos de acceso como root desde el frontal de cloud: [curso884@cloud ~]$ ssh root@ Por ejemplo podríamos instalar el editor de textos nano si no estamos acostumbrados a utilizar el editor de textos por defecto del sistema (vi): [root@hadoop-master ~]# yum install nano 9. El comando hadoop-start nos ofrece opciones adicionales que pueden sernos útiles a la hora de crear clusters. Podemos ver la lista completa de comandos disponibles lanzando hadoop-start -h: [curso884@cloud ~]$ hadoop-start -h Usage: hadoop-start [-s SIZE] [-r dfs.replication] [-b <dfs.block.size>] [-t <mapred.reduce.tasks>] Start a Hadoop cluster options include: -s SIZE Number of slaves in the Hadoop cluster (default 3) -r dfs.replication Number of replicas of each file (default 3) -b dfs.block.size HDFS block size (default 16MB) -t mapred.reduce.tasks Number of reduce tasks (default 1) -c clusterid Cluster ID (only for use within REST service calls) -R REST API mode (only for use within REST service calls) -h Print help 10. Aunque el comando hadoop-status nos da de una forma sencilla toda la información de nuestro cluster, también podemos ver el estado de la máquina virtuales que forman nuestro cluster con los comandos estandard del servicio cloud: [curso884@cloud ~]$ onevm list ID USER GROUP NAME STAT UCPU UMEM HOST TIME curso884 users hadoop runn 1 2G nubacesga d 00h curso884 users hadoop

16 runn M nubacesga d 00h curso884 users hadoop runn M nubacesga d 00h curso884 users hadoop runn M nubacesga d 00h Para parar el custer se usa el comando hadoop-stop. Una vez lanzado este comando se borrarán todos los datos del cluster por lo que es recomandable copiar toda la información que queramos guardar antes de parar un cluster. 16

17 Práctica 4: HDFS En esta práctica veremos los comandos básicos de HDFS. 1. Tenemos que tener un cluster Hadoop arrancado, una vez esté operativo nos conectarnos al mismo: ~]$ hadoop-connect ~]$ 2. Por defecto en el HDFS de nuestro cluster disponemos de varios directorios que podemos utilizar para subir nuestros ficheros: nuestro HOME (/user/hadoop) y un directorio /scratch [hadoop@hadoop-master ~]$ hadoop fs -ls / Found 4 items drwxrwxrwx - hadoop supergroup :22 /hive drwxr-xr-x - hadoop supergroup :22 /scratch drwxrwxrwx - hadoop supergroup :22 /tmp drwxr-xr-x - hadoop supergroup :22 /user Por defecto si no se especifica una ruta absoluta para los archivos, Hadoop los buscará en nuestro HOME: /user/hadoop 3. Podemos crear un directorio adicional en nuestro HOME: [hadoop@hadoop-master ~]$ hadoop fs -mkdir test [hadoop@hadoop-master ~]$ hadoop fs -ls Found 1 items drwxr-xr-x - hadoop supergroup :18 /user/hadoop/test 4. O también en el directorio /scratch [hadoop@hadoop-master ~]$ hadoop fs -mkdir /scratch/test [hadoop@hadoop-master ~]$ hadoop fs -ls /scratch Found 2 items drwxr-xr-x - hadoop supergroup :44 /scratch/hadoop drwxr-xr-x - hadoop supergroup :19 /scratch/test 5. Para subir un fichero local al HDFS [hadoop@hadoop-master ~]$ hadoop fs -put /etc/redhat-release /scratch/test/redhat-release 6. Podemos ver los contenidos con un cat [hadoop@hadoop-master ~]$ hadoop fs -cat /scratch/test/redhat-release Scientific Linux release 6.5 (Carbon) Si el fichero es muy grande es mejor usar la opción -tail para leer sólo el el final del fichero: 17

18 ~]$ hadoop fs -tail /scratch/test/redhat-release Scientific Linux release 6.5 (Carbon) 7. Podemos ver el estado del HDFS conéctandonos a su interfaz web de monitorización, aunque deberemos haber abierto el acceso en el firewall como se mostraba en la práctica anterior: NameNode Web Interface: Ahí podremos ver el estado de los DataNodes y la ocupación del sistema de ficheros. La parte de navegación del sistema de ficheros no está disponible ya que requiere acceso directo a los nodos del cluster y estos utilizan direcciones IP privadas. 8. Hay más comandos de HDFS que pueden sernos útiles, podemos ver la lista completa de comandos disponibles lanzando hadoop fs sin ninguna opción: [hadoop@hadoop-master ~]$ hadoop fs Usage: java FsShell [-ls <path>] [-lsr <path>] [-du <path>] [-dus <path>] [-count[-q] <path>] [-mv <src> <dst>] [-cp <src> <dst>] [-rm [-skiptrash] <path>] [-rmr [-skiptrash] <path>] [-expunge] [-put <localsrc>... <dst>] [-copyfromlocal <localsrc>... <dst>] [-movefromlocal <localsrc>... <dst>] [-get [-ignorecrc] [-crc] <src> <localdst>] [-getmerge <src> <localdst> [addnl]] [-cat <src>] [-text <src>] [-copytolocal [-ignorecrc] [-crc] <src> <localdst>] [-movetolocal [-crc] <src> <localdst>] [-mkdir <path>] [-setrep [-R] [-w] <rep> <path/file>] [-touchz <path>] [-test -[ezd] <path>] [-stat [format] <path>] [-tail [-f] <file>] [-chmod [-R] <MODE[,MODE]... OCTALMODE> PATH...] [-chown [-R] [OWNER][:[GROUP]] PATH...] [-chgrp [-R] GROUP PATH...] [-help [cmd]] Generic options supported are -conf <configuration file> specify an application configuration file -D <property=value> use value for given property -fs <local namenode:port> specify a namenode -jt <local jobtracker:port> specify a job tracker -files <comma separated list of files> specify comma separated files to be copied to the map reduce cluster -libjars <comma separated list of jars> specify comma separated jar files to include in the classpath. -archives <comma separated list of archives> specify comma separated archives to be unarchived on the compute machines. 18

19 The general command line syntax is bin/hadoop command [genericoptions] [commandoptions] 19

20 Práctica 5: Lanzando nuestro primer trabajo MapReduce En esta práctica lanzaremos nuestro primer trabajo MapReduce usando uno de los trabajos de ejemplo que vienen con la propia distribución de Hadoop. Este trabajo se denomina wordcount y básicamente cuenta el número de ocurrencias de cada palabra de un fichero. En posteriores prácticas veremos más detalles de como funciona este programa MapReduce. 1. Lo primero descargaremos, descomprimiremos los ficheros necesarios para las prácticas y entraremos en el directorio practicas: [hadoop@hadoop-master ~]$ wget [hadoop@hadoop-master ~]$ tar xzvf practicas.tar.gz [hadoop@hadoop-master ~]$ cd practicas [hadoop@hadoop-master practicas]$ 2. Subiremos el fichero de entrada (wordcount/entrada.txt) al HDFS: [hadoop@hadoop-master practicas]$ cd wordcount/ [hadoop@hadoop-master wordcount]$ hadoop fs -mkdir input [hadoop@hadoop-master wordcount]$ hadoop fs -put entrada.txt input/ 3. Lanzaremos el trabajo MapReduce de ejemplo: [hadoop@hadoop-master wordcount]$ hadoop jar /opt/cesga/hadoop-1.2.1/hadoopexamples jar wordcount input output-1 15/05/27 18:44:51 INFO input.fileinputformat: Total input paths to process : 1 15/05/27 18:44:51 WARN snappy.loadsnappy: Snappy native library is available 15/05/27 18:44:51 INFO util.nativecodeloader: Loaded the native-hadoop library 15/05/27 18:44:51 INFO snappy.loadsnappy: Snappy native library loaded 15/05/27 18:44:52 INFO mapred.jobclient: Running job: job_ _ /05/27 18:44:53 INFO mapred.jobclient: map 0% reduce 0% 15/05/27 18:45:03 INFO mapred.jobclient: map 100% reduce 0% 15/05/27 18:45:12 INFO mapred.jobclient: map 100% reduce 33% 15/05/27 18:45:14 INFO mapred.jobclient: map 100% reduce 100% 15/05/27 18:45:17 INFO mapred.jobclient: Job complete: job_ _ /05/27 18:45:17 INFO mapred.jobclient: Counters: 29 15/05/27 18:45:17 INFO mapred.jobclient: Job Counters 15/05/27 18:45:17 INFO mapred.jobclient: Launched reduce tasks=1 15/05/27 18:45:17 INFO mapred.jobclient: SLOTS_MILLIS_MAPS= /05/27 18:45:17 INFO mapred.jobclient: Total time spent by all reduces waiting after reserving slots (ms)=0 15/05/27 18:45:17 INFO mapred.jobclient: Total time spent by all maps waiting after reserving slots (ms)=0 15/05/27 18:45:17 INFO mapred.jobclient: Launched map tasks=1 15/05/27 18:45:17 INFO mapred.jobclient: Data-local map tasks=1 15/05/27 18:45:17 INFO mapred.jobclient: SLOTS_MILLIS_REDUCES= /05/27 18:45:17 INFO mapred.jobclient: File Output Format Counters 15/05/27 18:45:17 INFO mapred.jobclient: Bytes Written= /05/27 18:45:17 INFO mapred.jobclient: FileSystemCounters 20

21 15/05/27 18:45:17 INFO mapred.jobclient: FILE_BYTES_READ= /05/27 18:45:17 INFO mapred.jobclient: HDFS_BYTES_READ= /05/27 18:45:17 INFO mapred.jobclient: FILE_BYTES_WRITTEN= /05/27 18:45:17 INFO mapred.jobclient: HDFS_BYTES_WRITTEN= /05/27 18:45:17 INFO mapred.jobclient: File Input Format Counters 15/05/27 18:45:17 INFO mapred.jobclient: Bytes Read= /05/27 18:45:17 INFO mapred.jobclient: Map-Reduce Framework 15/05/27 18:45:17 INFO mapred.jobclient: Map output materialized bytes= /05/27 18:45:17 INFO mapred.jobclient: Map input records=19 15/05/27 18:45:17 INFO mapred.jobclient: Reduce shuffle bytes= /05/27 18:45:17 INFO mapred.jobclient: Spilled Records=272 15/05/27 18:45:17 INFO mapred.jobclient: Map output bytes= /05/27 18:45:17 INFO mapred.jobclient: Total committed heap usage (bytes)= /05/27 18:45:17 INFO mapred.jobclient: CPU time spent (ms)= /05/27 18:45:17 INFO mapred.jobclient: Combine input records=189 15/05/27 18:45:17 INFO mapred.jobclient: SPLIT_RAW_BYTES=121 15/05/27 18:45:17 INFO mapred.jobclient: Reduce input records=136 15/05/27 18:45:17 INFO mapred.jobclient: Reduce input groups=136 15/05/27 18:45:17 INFO mapred.jobclient: Combine output records=136 15/05/27 18:45:17 INFO mapred.jobclient: Physical memory (bytes) snapshot= /05/27 18:45:17 INFO mapred.jobclient: Reduce output records=136 15/05/27 18:45:17 INFO mapred.jobclient: Virtual memory (bytes) snapshot= /05/27 18:45:17 INFO mapred.jobclient: Map output records= Veremos que se han creado varios ficheros dentro del directorio de salida output-1 que habíamos indicado: wordcount]$ hadoop fs -ls output-1 Found 3 items -rw-r--r-- 3 hadoop supergroup :45 /user/hadoop/output-1/_success drwxr-xr-x - hadoop supergroup :44 /user/hadoop/output-1/_logs -rw-r--r-- 3 hadoop supergroup :45 /user/hadoop/output-1/part-r La salida de nuestro trabajo está en el fichero part-r [hadoop@hadoop-master wordcount]$ hadoop fs -cat output-1/part-r Podemos ver información adicional sobre nuestro trabajo en el interfaz web del JobTracker: JobTracker Web Interface: 21

22 Práctica 6: Desarrollar un trabajo MapReduce usando Streaming API En esta práctica desarrollaremos un trabajo MapReduce básico que contará el número de ocurrencias de cada palabra de un documento. Este trabajo se suele denominar wordcount y es el equivalente al programa Hello Word en Hadoop. Los ficheros necesarios para esta práctica están en el directorio wordcount. 1. (No es necesario si ya hemos hecho la práctica anterior) Lo primero subiremos el fichero de entrada (wordcount/entrada.txt) al HDFS: hadoop fs -mkdir input hadoop fs -put entrada.txt input/ 2. Crearemos los scripts que van a actuar como Mapper y Reducer. Se ofrece una plantilla del mapper y reducer en Perl en el directorio wordcount/streaming_api/ con comentarios para ayudar a su implementación. No es necesario realizar la práctica en Perl, se puede usar también Python o incluso es posible instalar otro lenguaje en el cluster. Se ofrece una posible solución en el directorio wordcount/streaming_api/solucion. 3. Lanzaremos nuestro trabajo MapReduce hadoop jar /opt/cesga/hadoop-1.2.1/contrib/streaming/hadoop-streaming jar -input input -output output -mapper mapper.pl -reducer reducer.pl -file mapper.pl -file reducer.pl 5. Y revisaremos la salida hadoop fs -cat output/part-r-* 22

23 Práctica 7: Desarrollar un trabajo MapReduce en Java En esta práctica desarrollaremos el mismo trabajo wordcount que implementamos en la práctica anterior utilizando Streaming API, pero en esta ocasión usaremos la API nativa de Hadoop en Java. 1. Usaremos el mismo fichero de entrada que en la práctica anterior (wordcount/entrada.txt). Recordamos aquí los pasos necesarios para subir el fichero de entrada al HDFS: hadoop fs -mkdir input hadoop fs -put entrada.txt input/ 2. Implementaremos las funciones map y reduce. Se ofrece una plantilla wordcount/java. La plantilla incluye el driver completo (WordCount.java), el Mapper (WordMapper.java) y el Reducer (SumReducer.java). Sólo es necesario completar la función map que se define dentro del Mapper y la función reduce que se define dentro del Reducer. Se ofrece una posible solución en el directorio wordcount/java/solucion. 3. Compilar el código y generar un fichero jar javac -classpath `hadoop classpath` *.java jar cvf wordcount.jar *.class 4. Por último lanzaremos nuestro trabajo MapReduce hadoop jar wordcount.jar WordCount input output-java 5. Y revisaremos la salida hadoop fs -cat output-java/part-r-* 23

24 Práctica 8: Procesado de datos con Hive En esta práctica veremos como Hive nos permite acceder a ficheros del HDFS como si se tratase de tablas de una base de datos, con un lenguaje llamado HiveQL que es muy similar a SQL. 1. Lo primero descargaremos el dataset que utilizaremos para la práctica. Se trata de un dataset libre de recomendaciones de películas llamado MovieLens y que es distribuido por GroupLens. [hadoop@hadoop-master ~]$ wget 2. Descomprimir el dataset [hadoop@hadoop-master ~]$ tar xzvf movielens-100k.tar.gz 3. Subirlo al HDFS [hadoop@hadoop-master ~]$ cd movielens-100k [hadoop@hadoop-master movielens-100k]$ hadoop fs -mkdir movierating [hadoop@hadoop-master movielens-100k]$ hadoop fs -put u*.base movierating Comprobaremos que todos los ficheros han sido subidos: [hadoop@hadoop-master movielens-100k]$ hadoop fs -ls movierating Found 7 items -rw-r--r-- 3 hadoop supergroup :48 /user/hadoop/movierating/u1.base -rw-r--r-- 3 hadoop supergroup :48 /user/hadoop/movierating/u2.base -rw-r--r-- 3 hadoop supergroup :48 /user/hadoop/movierating/u3.base -rw-r--r-- 3 hadoop supergroup :48 /user/hadoop/movierating/u4.base -rw-r--r-- 3 hadoop supergroup :48 /user/hadoop/movierating/u5.base -rw-r--r-- 3 hadoop supergroup :48 /user/hadoop/movierating/ua.base -rw-r--r-- 3 hadoop supergroup :48 /user/hadoop/movierating/ub.base cd movielens-100k 4. Podemos ver como es el contenido de uno de los ficheros del dataset (todos contienen la misma información): [hadoop@hadoop-master movielens-100k]$ hadoop fs -tail /user/hadoop/movierating/u2.base tail

25 Básicamente cada fichero que hemos subido al HDFS contiene la siguiente información separada por tabulaciones: user id item id rating timestamp 5. Lanzamos Hive [hadoop@hadoop-master movielens-100k]$ hive Logging initialized using configuration in jar:file:/opt/cesga/apache-hive bin/lib/hive-common jar!/hive-log4j.properties hive> 6. Creamos un mapeo para los ficheros que hemos subido al directorio movierating hive> create external table movierating (userid INT, movieid INT, rating INT) row format delimited fields terminated by '\t' location '/user/hadoop/movierating'; 7. Y ahora ya podemos ejecutar consultas sobre esos ficheros como si todos los ficheros del directorio se tratasen de una sola tabla de una base de datos SQL: hive> select count(*) from movierating; Query ID = hadoop_ _6acd64cd-3f12-479f-b2e f Total jobs = 1 Launching Job 1 out of 1 Number of reduce tasks determined at compile time: 1 In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer=<number> In order to limit the maximum number of reducers: set hive.exec.reducers.max=<number> In order to set a constant number of reducers: set mapred.reduce.tasks=<number> Starting Job = job_ _0001, Tracking URL = Kill Command = /opt/cesga/hadoop-1.2.1/libexec/../bin/hadoop job -kill job_ _0001 Hadoop job information for Stage-1: number of mappers: 1; number of reducers: :16:46,840 Stage-1 map = 0%, reduce = 0% :16:53,875 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 2.71 sec :17:02,923 Stage-1 map = 100%, reduce = 33%, Cumulative CPU 2.71 sec :17:05,942 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 5.16 sec MapReduce Total cumulative CPU time: 5 seconds 160 msec Ended Job = job_ _0001 MapReduce Jobs Launched: Stage-Stage-1: Map: 1 Reduce: 1 Cumulative CPU: 5.16 sec HDFS Read: HDFS Write: 7 SUCCESS Total MapReduce CPU Time Spent: 5 seconds 160 msec OK 25

26 Time taken: seconds, Fetched: 1 row(s) 8. También podemos poner restricciones en la consulta: hive> select * from movierating where userid=1 limit 5; OK Time taken: 0.12 seconds, Fetched: 5 row(s) 9. He incluso podemos crear nuevas tablas a partir de los resultados de una consulta: hive> create table newtable as select * from movierating where userid=1; Query ID = hadoop_ _3e348cf2-f5d e96-a709b704a47a Total jobs = 3 Launching Job 1 out of 3 Number of reduce tasks is set to 0 since there's no reduce operator Starting Job = job_ _0002, Tracking URL = Kill Command = /opt/cesga/hadoop-1.2.1/libexec/../bin/hadoop job -kill job_ _0002 Hadoop job information for Stage-1: number of mappers: 1; number of reducers: :22:33,991 Stage-1 map = 0%, reduce = 0% :22:41,018 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 3.0 sec :22:45,038 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 3.0 sec MapReduce Total cumulative CPU time: 3 seconds 0 msec Ended Job = job_ _0002 Stage-4 is selected by condition resolver. Stage-3 is filtered out by condition resolver. Stage-5 is filtered out by condition resolver. Moving data to: hdfs://hadoop-master:54310/user/hive/warehouse/.hivestaging_hive_ _ _816_ /-ext Moving data to: hdfs://hadoop-master:54310/user/hive/warehouse/oneuser Table default.oneuser stats: [numfiles=1, numrows=1612, totalsize=12256, rawdatasize=10644] MapReduce Jobs Launched: Stage-Stage-1: Map: 1 Cumulative CPU: 3.0 sec HDFS Read: HDFS Write: SUCCESS Total MapReduce CPU Time Spent: 3 seconds 0 msec OK Time taken: seconds 10. Para terminar la sesión interactiva: hive> quit ; 26

27 Práctica 9: Machine learning con Mahout En esta práctica veremos como utilizar la librería de machine learning Mahout para obtener recomendaciones del películas. 1. (Si ya hemos completado la práctica anterior esta parte no es necesaria) Primero descargaremos los datos que utilizaremos y los subiremos al HDFS. [hadoop@hadoop-master ~]$ wget [hadoop@hadoop-master ~]$ tar xzvf movielens-100k.tar.gz [hadoop@hadoop-master ~]$ cd movielens-100k [hadoop@hadoop-master movielens-100k]$ hadoop fs -mkdir movierating [hadoop@hadoop-master movielens-100k]$ hadoop fs -put u*.base movierating Podemos ver como es el contenido de uno de los ficheros del dataset (todos contienen la misma información): [hadoop@hadoop-master movielens-100k]$ hadoop fs -tail /user/hadoop/movierating/u2.base tail Básicamente cada fichero que hemos subido al HDFS contiene la siguiente información separada por tabulaciones: user id item id rating timestamp 2. Crearemos una lista con los identificadores de los usuarios de los cuales queremos obtener las recomendaciones. Para ello crearemos un fichero en el disco local llamado users y dentro de ese fichero pondremos el siguiente contenido (asegurarse de no dejar ninguna línea en blanco al final del fichero): Subiremos el fichero al HDFS [hadoop@hadoop-master ~]$ hadoop fs -put users users 4. Por último ejecutaremos el recomendador de Mahout: 27