Prácticas Hadoop: Instalación
En este curso de formación vamos a utilizar una máquina virtual que utiliza el HDP de Hortonworks para las prácticas de laboratorio. Para poder realizar los trabajos del curso, debe completar los pasos de este documento. A continuación se ofrece una descripción general de los pasos que deberá realizar: 1. Descargue el archivo de máquina virtual. El archivo VM está en una carpeta en línea que compartiremos con usted. El archivo es muy grande (~ 4 GB) y puede tardar varias horas en descargarse si tiene una conexión a Internet más lenta. 2. Debe instalar VMWare Player para abrir el archivo VM en Windows. En Mac, puede descargar una versión de prueba gratuita de VMWare Fusion en http://www.vmware.com/products/fusion/. 3. Debe iniciar la máquina virtual después de importarla a VMWare para verificar que se puede ejecutar en el hardware y el software de la máquina. 4. Es posible que necesite configurar el BIOS en su máquina Windows para habilitar la virtualización. NOTA: La máquina virtual ha sido probada en VirtualBox con éxito, en caso que el alumno tenga preferencia por este software. IMPORTANTE: Si alguno de los siguientes pasos falla, o si tiene algún problema o pregunta, envíe un correo electrónico a <definir un responsable> Requisitos del sistema A continuación se indican los requisitos mínimos de sistema recomendados: Hardware x86 / amd64 razonablemente potente. Cualquier procesador Intel o AMD reciente debería hacerlo. RAM: Al menos 8 GB Disco duro disponible: al menos 50 GB Sistema operativo de 64 bits (Windows 7, Windows 8 y Mac OSX) Pantalla de 800 x 600 como mínimo VMWare Player para Windows (o VMWare Fusion para Mac) La virtualización debe estar habilitada en BIOS para máquinas basadas en Windows
Los procedimientos para activar la configuración de virtualización en el BIOS de su computadora varían dependiendo del fabricante del BIOS. Revise la información que vino con su computadora o vaya al sitio web del fabricante de la computadora. Como alternativa, para averiguar si la CPU de su computadora es capaz de Hardware-assisted virtualization, puede descargar y ejecutar la herramienta de detección de virtualización asistida por hardware (http://www.microsoft.com/en-us/download/details.aspx?id=592) proporcionada por Microsoft. La conexión a Internet debe estar disponible en el sistema. Realice los siguientes pasos antes de comenzar a mirar los ejercicios: 1. Instale VMWare Player 1. En Windows, descargue la última versión de 64 bits de VMWare Player, http://www.vmware.com/support/download-player.html 2. En un Mac, descargue una versión de prueba gratuita de VMWare Fusion en http://www.vmware.com/products/fusion/. 3. Ejecute el archivo de instalación descargado. 2. Descargar la VM 1. Descargue la VM de http://tinyurl.com/baseeuroperev2. Este archivo es de unos 4 GB y puede tardar un par de horas para descargar, dependiendo de su conexión a Internet. 3. Descomprimir la máquina virtual 1. Descomprima el archivo que acaba de descargar, lo que puede tardar un par de minutos. NOTA: Algunas versiones de la herramienta de extracción de Windows integrada pueden causar problemas. Es posible que desee descomprimir el archivo utilizando una herramienta de terceros como 7-Zip. 4. Abra la VM con VMWare Player 1. Inicie la aplicación VMWare Player y seleccione la opción Abrir Maquina Virtual 2. Vaya a la carpeta que acaba de descomprimir, que debe llamarse HWX_classroom_base_2.1_RevN. 3. En la carpeta HWX_classroom_base_2.1_RevN.vmware, seleccione el archivo HWX_classroom_2.1_RevN.vmx. 4. Haga clic en el botón Abrir. 5. Si aparece un cuadro de diálogo en el que se indica que la máquina virtual ya está en uso, haga clic en ll botón Tomar posesión.
5. Seleccione la pestaña Hardware. Asegúrese de que la VM está configurada para utilizar al menos 4076MB de memoria. Si su hardware tiene 16 GB o más de RAM, entonces siéntase libre de aumentar la memoria de esta VM a 6 o 8 GB. (Esto no es un requisito, solo una opción si el hardware tiene una gran cantidad de memoria física). 1. Haga clic en el botón Aceptar para cerrar el cuadro de diálogo Configuración de máquina virtual.
6. Inicie la VM 1. Haga clic en el vínculo Reproducir máquina virtual para iniciar su VM HWX_Java. Si aparece un cuadro de diálogo preguntando si se ha movido o copiado la máquina virtual, haga clic en el botón "Lo copié": 7. Espere a que la VM se inicie. Cuando la máquina virtual ha iniciado correctamente, debería ver una pantalla de inicio de sesión: 8. Inicie sesión como usuario root. La contraseña es hadoop.
9. Cuando haya iniciado sesión, el escritorio de la máquina virtual debe mostrar: 10.Instalar los archivos del curso 1. Abra una ventana Terminal haciendo clic en el acceso directo Terminal en la barra de herramientas izquierda, o presionando Ctrl +Alt+T. 11.Ingrese el siguiente comando para descargar e instalar los archivos del curso: root@ubuntu:~#./install_course.sh Java_Rev3 12.Se están descargando e instalando algunos programas, así como los archivos de laboratorio. Por supuesto, esto puede tomar un minuto. 1. También debería ver una lista de subcarpetas en la carpeta /root/ java/labs: 13.Ejecutar un smoketests 1. Para comprobar que su máquina tiene suficiente memoria, intente iniciar un cluster Hadoop en su VM. Introduzca el siguiente
comando, que inicia un cluster Hadoop de 7 nodos en su máquina virtual: root@ubuntu:~# java_cluster.sh 2. Espere un minuto para que su cluster comience. 3. Para comprobar que se están ejecutando todos los componentes del cluster, ejecute lo siguiente comando. Debe ver una lista de cuatro DataNodes en su cluster root@ubuntu:~# hdfs dfsadmin -report more NOTA: El teclado de la máquina virtual esta en inglés. Es posible que el alumno quiera cambiar la configuración acorde a sus necesidades. IMPORTANTE: Si alguno de estos pasos falló o si tiene algún problema o pregunta, envíe un correo electrónico a <decidir contacto>
Configurar el entorno de programación Hadoop En estas prácticas vamos a usar el IDE de programación Eclipse que viene configurado en la máquina virtual. Para abrir el Eclipse, vaya al link Files en la barra lateral y pulse el acceso directo en la carpeta Home > eclipse. Asegúrese que el workspace configurado es /root/java/ workspace
Crear un nuevo Projecto en Eclipse 1. Abra una ventana de Terminal. Desde el termina, vaya al directorio / root/java/workspace: 2. Cree un subdirectorio para el proyecto de ejemplo WordCount: # mkdir WordCount 3. Copie el fichero build.gradle proporcionado en /root/java/labs/ Lab1.1/WordCount: 4. Importe el proyecto en Eclipse. Para ello, vaya a File -> Import y seleccione el directorio creado como raíz del proyecto
5. Haga clic en el botón Construir modelo situado junto al botón Examinar... Esto hará que WordCount aparezca en la lista de proyectos disponibles. 6. Marque la casilla junto a WordCount: 7. Haga clic en el botón Finalizar. Espere a que el proyecto se importe en Eclipse. 8. Ahora debería ver WordCount como un proyecto Gradle en Eclipse en la ventana Explorador de proyectos. Su proyecto de Eclipse está listo para funcionar. Se utilizará en otros laboratorios para desarrollar aplicaciones MapReduce. Iniciar el clúster HDP 1. Desde la ventana Terminal, ejecute el siguiente comando (que debe estar en su PATH, para que pueda ejecutar el comando desde cualquier directorio): # java_cluster.sh 2. Espere a que se complete el script. Este script está iniciando 7 nodos (usando Docker) que crean un clúster HDP. Tres de los nodos son nodos maestros denominados namenode, resourcemanager y hiveserver. Los otros 4 nodos son nodos de trabajo llamados nodo1, nodo2, nodo3 y nodo4 y tienen los procesos DataNode y NodeManager ejecutándose en ellos. 3. Ejecute el siguiente comandoy verifique que el número de DataNodes disponibles sea 4: # hdfs dfsadmin -report 4. Introduzca el siguiente comando y compruebe que tiene 4 NodeManagers en su clúster: # yarn node -list
Definir un directorio de trabajo en HDFS 1. Liste los contenidos del directorio /user/root en HDFS: # hadoop fs ls No debería de ver ningún contenido en la carpeta puesto que no hemos creado ningún directorio de trabajo todavía. Si observa el contenido del directorio /user, debería de ver que HDFS tiene creado un directorio para cada usuario. Aquí es donde debemos colocar nuestros ficheros de trabajo # hadoop fs -ls -R /user 2. Defina un directorio de trabajo /user/root/dividends en HDFS: # hadoop fs -mkdir dividends 3. Verifique que el fichero se ha creado: # hadoop fs -ls /user/root/ Añadir ficheros a HDFS En este paso, subirá a HDFS un grupo de archivos que contienen información sobre dividendos de acciones negociadas en la Bolsa de Nueva York (NYSE). Los archivos están actualmente en su sistema de archivos local en ~/java/labs/data/stock_dividends. Introduzca el siguiente comando para colocar estos archivos en /user/ root/dividendends # hadoop fs -put * dividends/ Utilice el comando -ls para verificar que los archivos están en HDFS. # hadoop fs -ls dividends Resultado: Gradle y Eclipse están instalados en su máquina y ahora tiene un proyecto en Eclipse configurado y listo para desarrollar aplicaciones de MapReduce para Hadoop.