Manual de instalación y configuración de hadoop 1.0.3 en linux

Documentos relacionados

Instalación Hadoop. Guía para Debian y derivados

Modelo de Gobierno de Datos con SPARK

labs Linux para Administradores de Elastix Elastix Certification ELASTIX CERTIFICATION

Tema: SSH. Contenidos. Objetivos Específicos. Materiales y Equipo. Introducción Teórica. Bibliografía. Seguridad en redes.

Comprender un poco más de los que es Apache Pig y Hadoop. El tutorial de cerdo muestra cómo ejecutar dos scripts de cerdo en modo local y el

Software de Comunicaciones. Práctica 7 - Secure Shell. SSH

Proyecto Fortalecimiento de las capacidades TIC en PyMEs y Gobiernos Locales mediante el uso de software libre Manual de Instalación Openbravo POS

Sistema Integral de Gestión y Evaluación SIGEVA. GUÍA PARA LA MIGRACION A APACHE TOMCAT 6.x

Servidor Web Apache Knoppix Linux.-

Instituto Tecnológico Las Américas (ITLA) Sistemas Operativos 3 (SO3) Daniel Alejandro Moreno Martínez. Matrícula:

DOCENTES FORMADORES UGEL 03 PRIMARIA

Configuración de Aspel-SAE 5.0 para trabajar Remotamente

Configuración de Aspel-SAE 6.0 para trabajar Remotamente

Configuración de Aspel-SAE 6.0 para trabajar Remotamente

Acá vamos a ocuparnos de cómo realizar la instalación de una red intra-aula sobre Linux, concretamente en la distribución de GNU/Linux Ubuntu 9.04.

Instituto Tecnológico de Las América. Materia Sistemas operativos III. Temas. Facilitador José Doñe. Sustentante Robín Bienvenido Disla Ramirez

GUÍA PARA LA INSTALACIÓN DE MOODLE EN UN COMPUTADOR PERSONAL QUE USA EL SISTEMA OPERATIVO MS. WINDOWS

Manual de instalación de Java Runtime Environment.

Instituto Tecnológico de Las Américas (ITLA)

Ubuntu Server HOW TO : SERVIDOR VPN. EN ESTE SE REALIZA LO SIGUIENTE: En este how to se le va a enseñar como usar vpn. Qué es una VPN?

Configuración de Aspel SAE 5.0 para trabajar Remotamente. 2. Para configurar Aspel-SAE 5.0 como Servidor Remoto se necesita:

Instituto Tecnológico Las Américas (ITLA) Sistemas Operativos 3 (SO3) Daniel Alejandro Moreno Martínez. Matrícula:

Agente local Aranda GNU/Linux. [Manual Instalación] Todos los derechos reservados Aranda Software [1]

Uso básico de la terminal

Servidor FTP en Ubuntu Juan Antonio Fañas

Instituto Tecnológico de Las América. Materia Sistemas operativos III. Temas. Facilitador José Doñe. Sustentante Robín Bienvenido Disla Ramirez

HOW TO SOBRE FIREWALL

HOW TO SOBRE REMOTE ACCESS VPN MODE EN LINUX

Instituto Tecnológico Las Américas (ITLA) Sistemas Operativos 3 (SO3) Daniel Alejandro Moreno Martínez. Matrícula:

3. En la barra de menú del DIMM Anexos seleccione la opción Programa y luego Agregar Nuevos Programas.

MultiBase y Cosmos. Particularidades sobre la instalación del motor de base de datos en modo cliente servidor. BASE 100, S.A.

Vielka Mari Utate Tineo Instituto Tecnológico de las Américas ITLA. Profesor José Doñé PRACTICA NO. 7, SAMBA COMO GRUPO DE TRABAJO

El proceso de Instalación de Microsoft SQL Server 2008

Manual de Versión 4.0

PRACTICA NO.4: HOW TO INSTALL NFS

Gestión de Registros Parte I: rsyslog

SEGURIDAD EN REDES. NOMBRE: Daniel Leonardo Proaño Rosero. TEMA: SSH server

Instalando y configurando djbdns

INSTRUCTIVO DE INSTALACIÓN DE OMEKA 2.1.4

INSTITUTO TECNOLÓGICO DE LAS AMÉRICA ITLA

CONFIGURACION DE SERVIDOR SSH EN REDHAT. Redhat para todos. Breve manual de configuración de servidor FTP en redhat

SERVIDOR WEB. Servidores web IIS (Windows) / Apache (Windows y Linux)

GUIA COMPLEMENTARIA PARA EL USUARIO DE AUTOAUDIT. Versión N 02 Fecha: 2011-Febrero Apartado: Archivos Anexos ARCHIVOS ANEXOS

Conexión Remota Usando OpenSSH Con Claves Publicas Integrante: Felix Taborda.

P r á c t i c a 1 5. C o n f i g u r a c i ó n d e f i r e w a l l m e d i a n t e i p t a b l e s

MANUAL DE USUARIO PARA LA INSTALACION DE LOS AGENTES COMMVAULT SIMPANA 9.0

Instalación de Tomcat7 en Ubuntu

Acronis License Server. Guía del usuario

SYNCTHING. Herramienta de sincronización de datos vía LAN. Laboratorio de Sistemas Operativos y Redes. Caminos Diego; Zapatero R.

Informe de Desarrollo con la Plataforma Web Struts

Servicio de Informática Vicerrectorado de Tecnologías de la Información y la Comunicación

Instrucciones de instalación de IBM SPSS Statistics para Linux (Licencia de red)

Crear servidor NFS en Debian

Configuración del firewall en Linux con IPtables

Creación Servidor FTP

Sistema NFS para compartir archivos.

V i s i t a V i r t u a l e n e l H o s p i t a l

6.- Este software se instalara como una versión Demo con una duración de 25 días de uso. En el código de validación, se dejara la palabra Demo.

ESCUELA DE INGENIERIA EN COMPUTACION REDES INFORMATICAS SISTEMAS OPERATIVOS DE RED II

Copiar proyectos de Scratch a un pendrive

Instalación del sistema VSControl Total2012

Cluster Beowulf/MPI en Debian

Instalación de IBM SPSS Modeler Server Adapter

Servicio de VPN de la Universidad de Salamanca

Vielka Mari Utate Tineo Instituto Tecnológico de las Américas ITLA. Profesor José Doñé. Sistema Operativo 3 PRACTICA NO. 16, SERVIDOR

Manual de Instalación Declaración y Liquidación Modelos

Gestión de Registros Parte I: rsyslog

Fedora Como Desktop. How to (tutorial)

Servidor FTP. JEAN CARLOS FAMILIA Página 1

GUIA DE LABORATORIO #10 Nombre de la Practica: Proxy y Filtrado web en ClearOS Laboratorio de Redes Tiempo Estimado: 2 Horas y 30 Minutos

Práctica 1: Herramientas básicas:

Desarrollando con android sin conexión

Tutorial de instalación

Manual de Instalación Elaborado: IdeaSys, 30 de Junio de 2015 Departamento de documentación

INSTALACIÓN Y CONFIGURACIÓN SERVIDOR DE BASES DE DATOS POSTGRESQL ADMINISTRACIÓN DE SISTEMAS OPERATIVOS DE RED FRANCISCO JAVIER DUARTE GARCIA

Inducción al Laboratorio de Informática

PROYECTO FINAL Manual de Configuración Organización: Juan Lomo

ANÁLISIS DE HERRAMIENTAS PARA CLONAR DISCOS DUROS

Configuración de la red

TciSatSingleW32 Versión 3.1

Prácticas A.S.O./A.S.O.P. - Boletín L08 NFS y NIS

Publicar una página Web en el servidor de IIS

GUIA DE LABORATORIO # Nombre de la Practica: Antivirus Laboratorio de Redes Tiempo Estimado: 2 Horas y 30 Minutos

Profesor: José Luis Di Biase

Instrucciones de instalación de IBM SPSS Modeler (licencia de usuario autorizado)

Configuración de Internet Information Services 7 en Windows Server 2008 Enterprise

SERVICIO NACIONAL DE ADUANA DEL ECUADOR INSTRUCTIVO PARA DESCARGAR E INSTALAR EL AGENTE AVS PARA EL CHAT Y CONTROL REMOTO FEBRERO 2012

Guia rápida EPlus Cliente-Servidor

Tomcat Instalación. Norman Sáez 15 de agosto de 2007

Sistema de Captura Electrónica

Visor de presupuestos en Android

Instrucciones de instalación de IBM SPSS Modeler Server 16 para Windows

Laboratorio de Redes y Sistemas Operativos Trabajo Práctico Final

Cómo crear y configurar un servidor FTP

Transcripción:

Manual de instalación y configuración de hadoop 1.0.3 en linux Índice...2 Software utilizado...2 Requisitos...2 Java...2 Sistema Operativo...2 Crear grupo y usuario...2 Creación del grupo...2 Creación del usuario...3 Creación de contraseña al usuario hadoop...4 Configuración de SSH...5 Generar llaves...5 Habilitar acceso...7 Asignar permisos a archivos...8 Agregar reglas al firewall...10 Configuración del servicio...14 Prueba de conexión...17 Instalación de Hadoop...17 Extraer archivos...17 Variables de entorno...18 Localizar máquina virtual java (JVM)...18 Archivo.bashrc...21 Enlace al directorio hadoop...24 Asignar permisos a los archivos de hadoop...25 Configuración de hadoop...26 Nombre del host...28 Archivo hadoop-env.sh...28 Archivo core-site.xml...29 Archivo mapred-site.xml...32 Archivo hdfs-site.xml...33 Servicios de hadoop...33 Formato al namenode...33 Iniciar servicios...34 Servicios en ejecución...35 Detener servicios...36 Prueba de hadoop...37 Directorio de prueba...37 Permisos del directorio de prueba...38 Archivos de prueba...39 Reiniciar servicios hadoop...42 Agregar archivos a hadoop...43 Directorio y archivos en hadoop...44 Ejemplo en hadoop...46 Referencia...47

Hadoop es un framework escrito en Java que ejecuta aplicaciones en clusters de gran tamaño e incorpora características similares a las de Google File System (GFS) y del paradigma de computo MapReduce. El HDFS de Hadoop es un sistema de archivos distribuido altamente tolerante a fallas y, en general Hadoop, ha sido diseñado para trabajar en hardware de bajo costo. Hadoop provee un alto rendimiento para el acceso a la aplicación de datos y es adecuado para aplicaciones que poseen enormes conjuntos de datos. Software utilizado La configuración e instalación han sido probadas en las siguientes versiones de software: CentOS 6.4 x86_64 Hadoop 1.0.3 OpenJDK 1.6 Requisitos Java Hadoop requiere trabajar con instalaciones de Java 1.5 o posteriores. Sin embargo, es recomendable utilizar la versión 1.6 de Java, en este tutorial se utiliza la versión 1.6 de OpenJDK. Sistema Operativo CentOS 6.4 x86_64 Crear grupo y usuario Se recomienda crear un grupo y un usuario para la instalación, configuración y operación de Hadoop. Creación del grupo En una terminal linux ejecutar el siguiente comando: groupadd hadoop groupadd Comando para crear un grupo. hadoop Parámetro para especificar el nombre del grupo. Tabla 1: Creación del grupo.

Imagen 1: Creación del grupo. Creación del usuario En una terminal linux ejecutar el siguiente comando: useradd g hadoop G users hadoop useradd Comando para crear un usuario. -g Opción para especificar el grupo principal del usuario. hadoop Nombre del grupo principal del usuario. -G Opción para especificar el grupo secundario del usuario. users Nombre del grupo secundario del usuario. hadoop Nombre del usuario que se crea. Tabla 2: Creación del usuario.

Imagen 2: Creación del usuario. Creación de contraseña al usuario hadoop En una terminal linux ejecutar el siguiente comando: passwd hadoop Y escribir lo que se solicita. passwd Comando para asignar una contraseña. hadoop Nombre del usuario al que se le creará la contraseña. Tabla 3: Creación de contraseña al usuario hadoop.

Imagen3: Creación de contraseña al usuario hadoop. Configuración de SSH Hadoop necesita acceso vía SSH para administrar sus nodos. Para la configuración (single-node) de este tutorial, se necesita configura el acceso vía SSH a localhost para el usuario hadoop que fue creado en la sección anterior. Asumiendo que en el sistema operativo ya esta instalado y ejecutandose SSH en la máquina y configurado el acceso vía SSH por autenticación de llave pública. Si no, aquí hay una guía disponible para la instalación y aquí hay una guía para la configuración. Generar llaves Se debe generar un par de llaves SSH (llave privada y llave pública) para el usuario hadoop, ejecutar en una terminal linux el siguiente comando:

ssh keygen t rsa P f ~/.ssh/id_rsa ssh-keygen Comando para generar el par de llaves. -t Opción para especificar el tipo de llaves a generar. rsa Tipo de la llave a generar. -P Opción para especificar una contraseña para la llave. Parámetro para no especificar contraseña. -f Opción para especificar el archivo donde se genera las llaves. ~ Parámetro que sirve de alias al directorio home del usuario. /.ssh/ Directorio donde se encuentran los archivos de las llaves. id_rsa Archivo con la llave privada. Tabla 4: Creación de llaves SSH. Imagen 4: Creación de llaves SSH.

Imagen 5: Lista de llaves SSH. Habilitar acceso Habilitar el acceso a la máquina local (localhost) con la llava nueva que se creó. En una terminal linux ejecutar el siguiente comando: cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys cat Comando para mostrar el contenido de un archivo. ~ Parámetro que sirve de alias al directorio home del usuario. /.ssh/ Directorio donde se encuentran los archivos de las llaves. id_rsa.pub Archivo con la llave pública >> Parámetro para agregar la salida de un archivo a otro. authorized_keys Archivo al que se agregara el contenido del archivo con la llave pública. Tabla 5: Habilitar acceso a la máquina local.

Imagen 6: Habilitar acceso a la máquina local. Asignar permisos a archivos Ahora hay que cambiar permisos al directorio donde se encuentran los archivos que se utilizan para el acceso vía SSH. Ejecutar el siguiente comando para cambiar permisos al directorio.ssh: chmod 755 ~/.ssh chmod Comando para asignar permisos. 755 Permisos que serán asignados. ~ Parámetro para especificar el directorio hogar del usuario. /.ssh Directorio al que se asignarán permisos. Tabla 6: Asignar permisos al directorio.ssh.

Imagen 7: Asignar permisos al directorio.ssh. Ejecutar el siguiente comando para cambiar permisos al archivo authorized_keys: chmod 644 ~/.ssh/authorized_keys chmod Comando para asignar permisos. 644 Permisos que serán asignados. ~ Parámetro para especificar el directorio hogar del usuario. /.ssh Directorio donde se encuentra el archivo al que se asignarán permisos. authorized_keys Archivo al cual se le asignarán permisos. Tabla 7: Asignar permisos al archivo authorized_keys.

Imagen 8: Asignar permisos al archivo authorized_keys. Agregar reglas al firewall Agregar una regla al firewall para el servicio SSH. Ejecutar el siguiente comandoen una terminal linux y como usuario root: iptables A INPUT m state state NEW m tcp p tcp dport 22 j ACCEPT

iptables Comando para agregar reglas al firewall. -A Opción para agregar una regla al firewall. INPUT Tipo de regla a agregar. -m Opción para extender la aplicación de la regla. state Parámetro para especificar paquetes. --state Opción para especificar el tipo de paquetes. NEW Tipo de paquetes que se aceptarán. -m Opción para extender la aplicación de la regla. tcp Protocolo con el cual se extenderá la regla. -p Opción para especificar el protocolo a utilizar. tcp Protocolo que se utiliza en la regla a agregar. --dport Opción para especificar un puerto. 22 Puerto que se utiliza en la regla a agregar. -j Opción para especificar el objetivo de la regla que se agrega. ACCEPT Objetivo de la regla. Tabla 8: Agregar regla a al firewall.

Imagen 9: Agregar regla a al firewall. Y después guardar la configuración del firewall con el siguiente comando: service iptables save service Comando para especificar servicios. iptables Servicio el cual se guardará la configuración. save Opción que sirve para guardar la configuración del servicio. Tabla 9: Guardar configuración del servicio iptables.

Imagen 10: Guardar configuración del servicio iptables. Y por último reiniciar el servicio iptables con el siguiente comando: service iptables restart service Comando para especificar servicios. iptables Servicio el cual se guardará la configuración. restart Opción que sirve para reiniciar el servicio iptables. Tabla 10: Reiniciar el servicio iptables.

Imagen 11: Reiniciar el servicio iptables. Configuración del servicio Es necesario realizar modificaciones al archivo de configuración del servicio SSH, editar el archivo /etc/ssh/sshd_config. Localizar la línea #Port 22 y cambiarla por Port 22 Localizar la línea #ListenAddress 0.0.0.0 y cambiarla por ListenAddress 0.0.0.0 Imagen 12: Archivo de configuración del servicio SSH.

Localizar la línea #PermitRootLogin yes y cambiarla por PermitRootLogin no Localizar la línea #PubkeyAuthentification yes y cambiarla por PubkeyAuthentification yes Localizar la línea #AuthorizedKeysFile.ssh/authorized_keys y cambiarla por AuthorizedKeysFile.ssh/authorized_keys Imagen 13: Archivo de configuración del servicio SSH. Localizar la línea #UsePAM yes y cambiarla por UsePAM yes Localizar la línea #AcceptEnv XMODIFIERS y cambiarla por #AcceptEnv XMODIFIERS Localizar la línea #AllowUsers y cambiarla por Allowusers hadoop root Localizar la línea #X11Forwarding yes y cambiarla por X11Forwarding yes

Imagen 14: Archivo de configuración del servicio SSH. Localizar la línea #UseDNS yes y cambiarla por UseDNS no Imagen 15: Archivo de configuración del servicio SSH.

Prueba de conexión Ahora sólo hay que probarla conexión vía SSH a localhost, ejecutar el siguiente comando: ssh localhost ssh Comando para conectarse vía SSH. localhost Nombre del host al que se va a conectar. Tabla 11: Conexión vía SSH. Imagen 16: Conexión vía SSH. Instalación de Hadoop Para esta parte hay que elegir un directorio en el cual se instalará hadoop, en es tutorial se eligió el directorio /usr/local. Extraer archivos Ya que se tenga el archivo.tar.gz de hadoop hay que extraerlo para iniciar la instalación, ejecutar el siguiente comando en una terminal linux: tar zxf hadoop 1.0.3.tar.gz

tar Comando para extraer el contenido de un archivo tar. zxf Opciones para extraer el contenido de un archivo.tar.gz. hadoop-1.0.3.tar.gz Nombre del archivo del cual se extrae su contenido. Tabla 12: Extraer contenido de un archivo.tar.gz. Imagen 17: Extraer contenido de un archivo.tar.gz. Variables de entorno Localizar máquina virtual java (JVM) Se debe ubicar primero donde están los ejecutables de java en el sistema. Ejecutar los siguientes comados en una terminal linux: whereis java whereis Localiza binarios, source y manuales para un comando. java Binario, source o manual a buscar. Tabla 13: Buscar ejecutables de java.

Imagen 18: Buscar ejecutables de java. Se debe ubicar primero donde están los ejecutables de java en el sistema. Ejecutar los siguientes comados en una terminal linux: ls lah /usr/bin/java ls Comando para listar los archivos de un directorio. -lah Opciones para lista la información del archivo correspondiente a un enlace simbólico. /usr/bin/java Archivo del cual se busca el enlace simbólico. Tabla 14: Buscar ejecutables de java.

Imagen 19: Buscar ejecutables de java. Se debe ubicar primero donde están los ejecutables de java en el sistema. Ejecutar los siguientes comados en una terminal linux: ls lah /etc/alternatives/java ls Comando para listar los archivos de un directorio. -lah Opciones para lista la información del archivo correspondiente a un enlace simbólico. /etc/alternatives/java Archivo del cual se busca el enlace simbólico. Tabla 15: Buscar ejecutables de java.

Imagen 20: Buscar ejecutables de java. Archivo.bashrc Ya localizada la ruta de los ejecutables de java, hay que agregar variables al PATH del usuario hadoop, se van agregar archivo.bashrc. Agregar dos variables: HADOOP_HOME JAVA_HOME Modificar la variable PATH.

Imagen 21: Agregar variables de entorno. Se debe recargar la configuración del archivo.bashrc, ejecutar el siguiente comando en una terminal linux y como el usuario al que se le asignaron las variables antes mencionadas. source.bashrc source Comando para recargar la configuración de un archivo..bashrc Archivo del cual se recarga la configuración. Tabla 16: Recargar archivo.bashrc.

Imagen 22: Recargar archivo.bashrc. También hay que reiniciar la terminal en la que se esta trabajando, ejecutar el siguiente comando: reset reset Comando para reiniciar la configuración de la terminal. Tabla 17: Reiniciar configuración de la terminal.

Imagen 23: Reiniciar configuración de la termina. Enlace al directorio hadoop Ahora hay que crear un enlace simbólico al directorio de hadoop, con el enlace simbólico es con que se se va a trabajar, ejecutar en una terminal linux y ubicados en el directorio de instalación de hadoop: ln s hadoop 1.0.3 hadoop ln Comando para crear enlaces. -s Opción para crear enlaces simbólicos. hadoop-1.0.3 Directorio origen. hadoop Nombre del enlace que se creará. Tabla 18: Crear enlace simbólico.

Imagen 24: Crear enlace simbólico. Asignar permisos a los archivos de hadoop Es necesario asignar permisos a los archivos de hadoop al usuario y grupo que va a utilizar hadoop, para esto hay que ejecutar el siguiente comando en una terminal linux: chown R hadoop.hadoop hadoop* chown Comando para asignar permisos. -R Opción para asignar permisos recursivamente. hadoop.hadoop Usuario y grupo al que se le asignarán permisos. hadoop* Archivos y/o directorios a los cuales se les asignarán permisos. Tabla 19: Asignar permisos a archivos de hadoop.

Imagen 25: Asignar permisos a archivos de hadoop. Configuración de hadoop Ahora hay que ubicarse en el directorio de instalación de hadoop, ejecutar el siguiente comando en una terminal linux: cd hadoop cd Comando para cambiar de directorio. hadoop Nombre del directorio al que se va a cambiar. Tabla 20: Ubicarse en el directorio de instalación de hadoop.

Imagen 26: Ubicarse en el directorio de instalación de hadoop. Ubicase en el directorio conf, ejecutar el siguiente comando en la terminal linux: cd conf cd Comando para cambiar de directorio. conf Nombre del directorio al que se va a cambiar. Tabla 21: Ubicarse en el directorio de configuración de hadoop. Imagen 27: Ubicarse en el directorio de configuración de hadoop.

Nombre del host Para la configuración de hadoop es necesario saber el nombre del host que se utilizará para trabajar, ejecutar el siguiente comando en la terminal linux para conoce el nombre del host: echo $HOSTNAME echo Comando para mostrar texto. $HOSTNAME Variable de la cual se quiere saber el valor. Tabla 22: Conocer nombre del host. Imagen 28: Conocer nombre del host. Archivo hadoop-env.sh En este archivo hay que agregar el valor que tiene la variable $JAVA_HOME y otra variable para deshabilitar conexiones IPv6.

Editar el archivo y modificar el valor de JAVA_HOME y HADOOP_OPTS. Imagen 29: Editar archivo hadoop-env.sh. Archivo core-site.xml En este archivo se especifica el directorio para el namenode y el nombre del namenode (se recomiendo que sea el nombre del host en el que se esta trabajando), en el caso de este tutorial debe quedar como se muestra a continuación:

Imagen 30: Editar archivo core-site.xml. Hay que crear el directorio que se utilizará para el namenode, ejecutar el siguiente comando den una terminal linux: mkdir p /app/hadoop/tmp mkdir Comando para crear un directorio. -p Opción para crear los directorios padre que falten. /app/hadoop/tmp Directorios a crear. Tabla 23: Crear directorio para el namenode.

Imagen 31: Crear directorio para el namenode. Ahora al directorio que se ha creado asignarle permisos al usuario y al grupo que utilizará hadoop para utilizarlo como namenode, ejecutar el siguiente comando: chown R hadoop.hadoop /app chown Comando para asignar permisos. -R Opción para asignar permisos recursivamente. hadoop.hadoop Usuario y grupo al que se le otorgarán permisos. /app Directorio al que se le asignaran permisos. Tabla 25: Asignar permisos al directorio del namenode.

Imagen 31: Asignar permisos al directorio del namenode. Archivo mapred-site.xml En este archivo se especifica el jobtracker, en el caso de este tutorial debe quedar como se muestra a continuación: Imagen 32: Editar archivo mapred-site.xml.

Archivo hdfs-site.xml En este archivo se especifica la cantidad de nodos a los que se replicará la información, en el caso de este tutorial debe quedar como se muestra a continuación: Imagen 33: Editar archivo hdfs-site.xml. Servicios de hadoop Formato al namenode hadoop namenode format Hadoop Comando para utilizar hadoop. namenode -format Opción para dar formato al namenode. Tabla 26: Dar formato al namenode.

Imagen 34: Dar formato al namenode. Iniciar servicios Es necesario después de terminar la configuración, probar que todo funcione, para eso hay que iniciar los servicios necesario para utilizar hadoop, ejecutar en la terminal linux el siguiente comando: start all.sh start-all.sh Comando para iniciar todos los servicios de hadoop. Tabla 26: Iniciar servicios de hadoop.

Imagen 35: Iniciar servicios de hadoop. Servicios en ejecución Para revisar que procesos de hadoop se están ejecutando hay que ejecutar en la terminal linux el siguiente comando: jps jps Comando para revisar que servicios de hadoop están activos. Tabla 27: Revisar servicios de hadoop.

Imagen 36: Revisar servicios de hadoop. Detener servicios SI es necesario o si se quieren detener los servicios de hadoop, hay que ejecutar en la terminal linux el comando siguiente: stop all.sh stop-all.sh Comando para detener todos los servicios de hadoop. Tabla 28: Detener servicios de hadoop.

Imagen 37: Detener servicios de hadoop. Prueba de hadoop Ya que se tiene la configuración, la instalación y la prueba de los servicios hay que hacer una prueba con algunos archivos de texto. Directorio de prueba Hay que crear un directorio para hacer pruebas con hadoop, ejecutar el siguiente comando en una terminal linux: mkdir /tmp/gutenberg mkdir Comando para crear directorios. /tmp/gutemberg Directorio que se creará. Tabla 29: Crear directorio de pruebas.

Imagen 38: Crear directorio de pruebas. Permisos del directorio de prueba AL directorio de pruebas hay que asignarle permisos para que el usuario y el grupo que trabajen con hadoop puedan utilizarlo. Es necesario ejecutar el siguiente comando en una terminal linux: chown R hadoop.hadoop /tmp/gutenberg chown Comando para asignar permisos. -R Opción para asignar permisos de form recursiva. hadoop.hadoop Usuario y grupo a los que se les dará permiso de trabajar con un directorio. /tmp/gutenberg Directorio al que se le asignarán permisos. Tabla 30: Asignar permisos al directorio de pruebas.

Imagen 39: Asignar permisos al directorio de pruebas. Archivos de prueba Se van a utilizar tres archivos para la prueba que se va hacer con hadoop. Es necesario descargarlos, se debe ejecutar el siguiente comando: wget http://www.gutenberg.org/ebooks/20417.txt.utf 8 wget Comando para descargar archivos. http://www.gutenberg.org/ebooks/20417.txt.utf- Archivo que se descargará. 8 Tabla 31: Descargar archivos para realizar prueba con hadoop.

Imagen 40: Descargar archivos para realizar prueba con hadoop. Después ejecutar el siguiente comando: wget http://www.gutenberg.org/ebooks/5000.txt.utf 8 wget Comando para descargar archivos. http://www.gutenberg.org/ebooks/5000.txt.utf-8 Archivo que se descargará. Tabla 32: Descargar archivos para realizar prueba con hadoop.

Imagen 41: Descargar archivos para realizar prueba con hadoop. Y por último ejecutar el siguiente comando: wget http://www.gutenberg.org/ebooks/4300.txt.utf 8 wget Comando para descargar archivos. http://www.gutenberg.org/ebooks/4300.txt.utf-8 Archivo que se descargará. Tabla 33: Descargar archivos para realizar prueba con hadoop.

Imagen 42: Descargar archivos para realizar prueba con hadoop. Los archivo que se descargaron deben estar en el directorio de pruebas que se creo anteriormente, porque se utilizarán más adelante. Reiniciar servicios hadoop Hay que reiniciar los servicios necesario para utilizar hadoop, ejecutar en la terminal linux el siguiente comando: start all.sh start-all.sh Comando para iniciar todos los servicios de hadoop. Tabla 34: Iniciar servicios de hadoop.

Imagen 43: Iniciar servicios de hadoop. Agregar archivos a hadoop Los archivo que se descargaron ahora se van a copiar a hadoop, esto con el objetivo de trabajar con ellos ya el sistema de archivos distribuidos, para ello hay que ejecutar el comando en la terminal linux: hadoop dfs copyfromlocal /tmp/gutenberg /user/hadoop/gutenberg hadoop Comando para trabajar con hadoop. dfs Parámetro que ejecuta un sistema de archivo genérico. -copyfromlocal Opción para copiar a hadoop. /tmp/gutenberg Directorio origen. /user/hadoop/gutenberg Directorio destino. Tabla 35: Copiar archivos a hadoop.

Imagen 44: Copiar archivos a hadoop. Directorio y archivos en hadoop Para revisar los directorios que se han copiado a hadoop es necesario ejecutar el siguiente comando en la terminal linux: hadoop dfs ls /user/hadoop hadoop Comando para trabajar con hadoop. dfs Parámetro que ejecuta un sistema de archivo genérico. -ls Opción para listar archivo de un directorio. /user/hadoop Directorio a listar. Tabla 36: Listar directorios en hadoop.

Imagen 45: Listar directorios en hadoop. Y para listar los archivos del directorio ejecutar el siguiente comando en la terminal linux: hadoop dfs ls /user/hadoop/gutenberg hadoop Comando para trabajar con hadoop. dfs Parámetro que ejecuta un sistema de archivo genérico. -ls Opción para listar archivo de un directorio. /user/hadoop/gutenberg Directorio a listar. Tabla 37: Listar archivos en hadoop.

Imagen 46: Listar archivos en hadoop. Ejemplo en hadoop A continuación se muestra un ejemplo de la ejecución de MapReduce, se debe ejecutar el siguiente comando en la terminal linux: hadoop jar $HADOOP_HOME/hadoop-examples-1.0.3.jar wordcount /user/hadoop/gutenberg /user/hadoop/gutenberg-output hadoop Comando para trabajar con hadoop. jar Opción para ejecutar un archivo.jar. $HADOOP_HOME/hadoop-examples-1.0.3.jar Archivo.jar a ejecutar. wordcount Parámetro que recibe el archivo.jar. /user/hadoop/gutenberg Directorio origen. /user/hadoop/gutenberg-output Archivo de salida. Tabla 38: Ejemplo de hadoop.

Imagen 47: Ejemplo de hadoop. Referencia http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/