Uso de recursos HPC para ATLAS Red Española de Supercomputación ** Lusitania **

Documentos relacionados
Acceso y portal de usuarios. VPN. Mayo 2017

Clúster ctcomp2. Diego Rodríguez Martínez

CAR. Responsable : María del Carmen Heras Sánchez. Asesores Técnicos : Daniel Mendoza Camacho Yessica Vidal Quintanar.

Módulo Call Center. Guía de instalación v 1.2

UT06: REDES LINUX Y REDES MIXTAS ADMINISTRACIÓN DE SISTEMAS OPERATIVOS

Rawel E. Luciano B Sistema Operativo III. 6- Creación de Script. José Doñe

Mendieta. Carlos Bederián IFEG-CONICET, FaMAF-UNC WHPC13

MANUAL DE USO Servidor de Cálculo TAYLOR ÍNDICE

2º curso / 2º cuatr. Arquitectura de Computadores. Grado en Ing. Informática. Seminario 0. Entorno de programación: atcgrid y gestor TORQUE

Installing_elecworks_ES (Ind : M) 05/10/2017. elecworks. Guía de instalación

ACARUS. Responsable : María del Carmen Heras Sánchez. Asesores Técnicos : Daniel Mendoza Camacho Yessica Vidal Quintanar

Examen Red Hat Certified System Administrator (RHCSA)

Guía básica para el uso de Leftraru

LINUX ENTERPRISE SERVER

R y HPC. (Uso de R en el CESGA). Aurelio Rodríguez V Xornadas R Galicia 28 de Octubre 2018 Santiago de Compostela

INSTALACION Y CONFIGURACION OPENSTACK. La instalación de OpenStack se realiza sobre el sistema operativo Ubuntu LTS Desktop.

Creación De Scripts Ejecutables

Fecha de entrega: Miércoles 4 de Septiembre. Campus: Villahermosa. Carrera : Ingeniería en Sistemas Compuacionales. Nombre del maestro: Carlos Castro

Optimización del framework de paralelización de tareas COMPSs

Velocidades Típicas de transferencia en Dispositivos I/O

ACCESO REMOTO VIA TMH 900-2H611 A UNA RED MPI

100 ejercicios básicos sobre Linux

GUÍA BÁSICA DE USO DEL CLUSTER HPC LOVELACE

UNIDAD DIDACTICA 6 PERMISOS DE LOS ARCHIVOS

Tema: Firewall basado en IPTABLES.

Acceso a los recursos de RES & PRACE

INDICE Introducción Parte I: las redes y las conexiones entre redes Capitulo I: Qué es una red? Capitulo 2: los componentes de una red y como operan

Guía básica para el uso de Leftraru

TEMA 3: IMPLANTACIÓN DE TÉCNICAS DE ACCESO REMOTO. Victor Martin

CygnusCloud: provisión de puestos de laboratorio virtuales bajo demanda

Instalación. La parte de cliente está instalado por defecto en todas las distribuciones. Quiere decir:

Proyecto de Inversiones PMS

Sistemas Operativos Distribuidos

Nodos de Cálculo i7/i9. Informática Personal. Servidores para cálculo científico. Clústers de computación. Almacenamiento de Datos.

MANUAL DE USO Servidor de Cálculo KRAMER ÍNDICE

ANEXO DESCRIPCIÓN ENTORNOS TRAVEL OPEN APPS

How to 4 Configuración NFS

INSTALACIÓN DE PROXMOX. Manuel Risueño Valle Fidel Navarro Martínez 2º ASIR N

SISTEMAS OPERATIVOS. Ing. Raúl Alberto Rojas Reátegui

Sun Grid Engine en entornos Grid. Isabel Campos BIFI

CARRERA DE CERTIFICACION LINUX REDHAT

Arquitectura de referencia para Oracle Linux

Tema 7:Línea de ordenes del sistema operativo.

Introducción a los Sistemas Operativos

Tema 12: El sistema operativo y los procesos

Windows PowerShell Administrar puestos cliente Windows

FUNDAMENTOS DE INFORMÁTICA. Principios Básicos de Sistemas Operativos. Definición de Sistema Operativo

Rawel E. Luciano B Sistema Operativo III 16- FIREWALL. José Doñe

Bloque II: Programación orientada al sistema

Virtualización Open Source. Virtulización basado en Linux para escritorios y servidores con compatibilidad para Microsoft Windows

Cómo puede yo automatizar o los respaldos de archivo de configuración del script?

Guía de Instalación de SIIL. SIIL Edición Red

FUNDAMENTOS DE SISTEMAS OPERATIVOS

GUÍA DE INSTALACIÓN Noviembre 3 de 2010

Tema 1: Introducción a los Sistemas Operativos

Administración de Linux

ADMINISTRACIÓN DE SISTEMAS OPERATIVOS. 2º ASIR. CURSO 17/18 NFS... 2 INTRODUCCIÓN. NFS... 2 HISTORIA... 2 INSTALACIÓN... 2

Prácticas Hadoop: Instalación!

Administración de sistemas UNIX/Linux Ejercicios prácticos VI

Hoja de respuestas. Examen tipo A

Sistema de análisis de vídeo basado en tecnología IP

Lustre. Álvaro Fernández / Alejandro Lamas / Javier Sánchez. 23 de junio de

Administrar un repositorio Git con Gogs

INFRAESTRUCTURA COMO SERVICIO Solución propuesta UTE VIRTUAL basado en solución propietaria Precio 9 copia de seguridad meses

Anexo Técnico Partida 2

How to 16 Firewall. Jesús Betances Página 1

ENTRADA-SALIDA. 2. Dispositivos de Carácter: Envía o recibe un flujo de caracteres No es direccionable, no tiene operación de búsqueda

REQUISITOS DEL SISTEMA

RHCE Certification lab with RHCSA and RHCE exams

Computación de Altas Prestaciones Sin miedo, es más fácil de lo que parece. Alex Ramírez Arquitecturas Heterogeneas Barcelona Supercomputing Centrer

Tema 7. Entrada / Salida

Introducción a los Sistemas Operativos

Arquitectura de Computadoras 2011

Servicio de alojamiento de la WEB de Canal Extremadura

Análisis de datos: Uso de GANGA

CONFIGURACIÓN DEL ENLACE DE INTOUCH DESDE UN PC CON WINDOWS XP CON PROFIBÚS MEDIANTE LA TARJETA CP5613.

Facilidad de cálculo científico. Universitat Jaume I

Aprovechando las ventajas de la interacción entre SAS y UNIX Copyright 2011, SAS Institute Inc. All rights reserved.

Estado del site UAM-LCG2. Barcelona, 16 de Noviembre del 2009

Guía de instalación de CivilFEM for ANSYS 17.1

SISTEMA CENTRALIZADO DE INSTALACIÓN DE Linex Colegios (Clonación por Red)

Introducción a la Computación. Capítulo 7 Entrada/Salida

Escalabilidad y Sharding. Pierre-Yves Duquesnoy Sales Engineer

ADMINISTRACIÓN DE USUARIOS Y GRUPOS

Tier 2 federado para ATLAS

Introducción a Linux. Ficheros de configuración

1 General Usuario... 8

NAUTILUS. El navegador de archivos Nautilus. nombre.extensión

Memoria de Prácticas. Creación de Wikis en Servidor

ING. JONATHAN QUIROGA TINOCO. Desarrollado por Ing. Jonathan Quiroga T.

SERVICIO NFS INDICE. Introducción Configuración del Servidor NFS Modo texto Modo Gráfico Configuración del Cliente NFS

TEMA 3. CONCEPTOS FUNDAMENTALES DEL NIVEL DEL SISTEMA OPERATIVO. Definición y objetivos de un S.O

Curso Introducción a Linux

Ramón Manjavacas Ortiz

Servidor DHCP Centos 7

Atlas WorkShop. Software de actualización firmware Atlas v2.0 rev5 Julio 2012

Anexo Técnico Partida 1

ESPECIFICACIÓN DE LOS REQUERIMIENTOS FUNCIONALES

DISPONE DE 50 MINUTOS PARA REALIZAR EL EJERCICIO

Transcripción:

VMGRID (ATLAS TIER2 ESPAÑA) Uso de recursos HPC para ATLAS Red Española de Supercomputación ** Lusitania ** Esteban Fullana, Santiago González, Javier Sánchez Instituto de Física Corpuscular (IFIC) Universitat de València - CSIC 12-Apr-2018 Uso de HPC: Lusitania 1

Red Española de Supercomputación Siguiendo el ejemplo de Andreu, Santiago solicitó horas de cálculo en la Red Española de Supercomputación (RES) Asignación de tiempo de uso: Andreu BSC (Barcelona) Cibeles (Madrid) Santiago Lusitania (Extremadura) No hemos obtenido tiempo en Valencia (Tirant) porque la Universitat de València está reformando su CPD y no está todavía listo 12-Apr-2018 Uso de HPC: Lusitania 2

Concepto general de HPC Infraestructura con un número muy alto de procesadores potentes con mucha memoria y un sistema de comunicación de alto ancho de banda y muy baja latencia. Optimizadas para cálculo paralelo. Suelen tener algunas limitaciones para nuestro uso: Arquitecturas exóticas No tienen almacenamiento local en los nodos No tienen acceso a la red Sistemas operativos distintos a SLC 6 12-Apr-2018 Uso de HPC: Lusitania 3

Lusitania II Lusitania es una infraestructura de HPC en extremadura que participa en la RES http://www.cenits.es/cenits/lusitania/caracteristicas-lusitania Tenemos acceso a 15 nodos 2 x Intel Xeon E5-2660v3 10 cores/c.u. 80 GB RAM RHEL 6.6 (Santiago) 2.6.32-504.8.1.el6.x86_64 5 TB + 5TB (scratch) en disco compartido (Lustre) 2 head nodes para ssh login (bajo un alias único) Sistema de colas SLURM Los nodos tiene comunicación externa via NAT 12-Apr-2018 Uso de HPC: Lusitania 4

Primera aproximación Puesto que los nodos tienen conectividad externa y tienen instalado RHEL 6, pensamos en cvmfs No podemos montar directamente cvmfs (kernel) Podemos correr en UserSpace => PARROT PARROT funciona correctamente pero genera mucho tráfico de red. No disponemos de un SQUID local Aun así pudimos generar MC sin problemas Al uso de la CPU hay que añadir el tiempo de importar los ficheros de datos y programas y el tiempo de exportar el output. Pensamos en correr el harvester en un cron en el headnode para la gestión de los trabajos de Panda 12-Apr-2018 Uso de HPC: Lusitania 5

Primera aproximación Preocupación de la comunidad HPC No quieren mucho I/O Quieren eficiencias altas en el uso de la CPU Quieren programas optimizados Esto nos lleva a una aproximación más clásica: Modo HPC ATLAS puro Todo el sw de ATLAS en una única imagen local La entrada y salida queda fuera del tiempo del trabajo La experiencia y el setup es usable en otros HPCs 12-Apr-2018 Uso de HPC: Lusitania 6

Solución ensayada ARC-CE Instalado un servidor ARC-CE en el IFIC Recibe los trabajos de Panda. Obtiene los ficheros de entrada y los scripts y los coloca en el sistema HPC Cuando lo tiene todo envía el trabajo a la cola de la HPC Al final recoge el output del HPC y lo envía a Panda y a los SEs Singularity La imagen que contiene el software de ATLAS + SO es de este tipo. Ocupa 450 GB que han de estar accesibles para los trabajos en el sistema HPC 12-Apr-2018 Uso de HPC: Lusitania 7

Singularity Permite correr un SO dentro de otro en un entorno aislado https://singularity.lbl.gov/ Este entorno usa los ficheros que tiene dentro de la imagen (container) y puede acceder a algunos directorios externos que previamente han sido ligados Algunos directorios y ficheros son montados o ligados (binding) automáticamente, como por ejemplo: /tmp, /var/tmp $HOME /etc/hosts 12-Apr-2018 Uso de HPC: Lusitania 8

Singularity Singularity controla y restringe que puntos son accesibles No puedo montar directorios externos en puntos del contenedor que no existen Para crear o modificar las imágenes hay que ser root Problema 1: Pedimos que instalaran singularity en Lusitania, pero no funcionaba porque el kernel es antiguo No es posible que actualicen el kernel Tras mucho probar conseguimos parchear una versión de singularity y que la instalasen 4.2.5, eliminando algunos checks de seguridad que no son posibles en esa versión del kernel 12-Apr-2018 Uso de HPC: Lusitania 9

Singularity Andreu nos proporcionó una imagen del SW de ATLAS con SLC 6 (450 GB) Es necesario modificar la imagen para añadir directorios que no existen o actualizar ficheros importantes: HOME: /lusitania_homes SLURM: /var/spool/slurmd LUSTRE: /lustre Actualizar: /cvmfs/atlas.cern.ch/repo/sw/local/etc/ Para cada modificación que hay que hacer en el IFIC como root, es necesario transferir la imagen de nuevo (450 GB) Es posible usar blocksync.py que sólo transfiere los cambios, pero es lento porque hay que leer en cada lado 450 GB y comparar checksums 12-Apr-2018 Uso de HPC: Lusitania 10

ARC-CE ARC-CE es el sistema empleado para controlar los trabajos y el flujo de ficheros de entrada y salida Después de configurar y comprobar que tenemos un ARC-CE funcional podemos integrar el sistema remoto Mapping de usuarios con LCMAPS Certificados, etc ARC-CE y Lusitania comparten el directorio session mediante sshfs. Este directorio pertenece físicamente al almacenamiento de Lusitania, pero es visible desde el ARC-CE. Este directorio ha de ser accesible por el trabajo en el sistema de batch local del HPC 12-Apr-2018 Uso de HPC: Lusitania 11

ARC-CE Asegurarse de las opciones de sshfs: allow_other,nonempty,reconnect,serveraliveinterval=15,serveralivec ountmax=3 Asegurarse que el uid y gid remoto es trasladado al usuario y grupo arc del ARC-CE con las opciones uid=xxxx gid=xxxx Para que sea un proceso automático sin password, creamos una clave de ssh y la registramos en el sistema remoto No queremos perder la comunicación con el HPC y el punto de montaje de session Ejemplo: sshfs -o allow_other,nonempty,reconnect,serveraliveinterval=15,server AliveCountMax=3 -o uid=1000 -o gid=1000 uv23819@lusitania2.cenits.es:/lusitania_homes/uv23/uv23819/a rc/session /opt/arc/session/ 12-Apr-2018 Uso de HPC: Lusitania 12

ARC-CE Configuramos ARC-CE como si el sistema de batch de Lusitania (SLURM) fuera local Creamos las herramientas impostoras de los comandos de SLURM de manera que ejecuten comandos remotos en Lusitania La receta no es nuestra, esta copiada de una presentación de CSCS HPC que a su vez lo llama Bern aproach Creamos un script llamado sshslurm y el resto de comandos SLURM con enlaces simbólicos a éste Nos aseguramos que el comando puede ejecutarse sin password mediante la clave de ssh 12-Apr-2018 Uso de HPC: Lusitania 13

#!/bin/bash source /opt/sshslurm/config/sshslurm-config SBINARY=$(basename "$0") SARGS="" for token in "$@"; do SARGS="$SARGS '$token'" done echo $(date) - $SBINARY "$SARGS" >> /tmp/sshslurm.log POST_EXEC="" [[ "$SBINARY" == "squeue" ]] && SBINARY="squeue_cenits" if [[ "$SBINARY" == "sbatch" && "$1"!= "" ]]; then batchscript=$(mktemp) cp "$1" $batchscript sed -i 's#/opt/arc/session#/lustre/lusitania_homes/uv23/uv23819/arc/session#ig' $batchscript sed -i 's#/opt/arc/runtime#/lustre/lusitania_homes/uv23/uv23819/arc/runtime#ig' $batchscript SARGS=$REMOTE_TEMP_PATH/$(basename "$1") $SCP_CMDLINE -q $batchscript "$SSHSLURM_HOST:$SARGS" POST_EXEC="rm -f $SARGS" fi $SSH_CMDLINE $SSHSLURM_HOST -- $REMOTE_SLURM_PATH/$SBINARY "$SARGS" \; $POST_EXEC 12-Apr-2018 Uso de HPC: Lusitania 14

ARC-CE Ahora ARC-CE debería de ser capaz de enviar trabajos a lusitania y recibir el ouput. El flujo a grandes rasgos es: El cliente envía el trabajo al ARC-CE El ARC-CE prepara el trabajo en un directorio de session obteniendo los ficheros de input El ARC-CE submite el trabajo al sistema BATCH local, pero en realidad es un ssh que ejecuta el comando en el sistema remoto El sistema SLURM de lusitania ejecuta el trabajo que tiene sus scripts en session El ARC-CE pregunta al sistema local de colas por el estado del trabajo, pero en realidad lo esta haciendo en el sistema remoto por ssh Cuando acaba el trabajo, el output que está en session es local para el ARC-CE al estar montado por sshfs 12-Apr-2018 Uso de HPC: Lusitania 15

ARC-CE Con algún detalle más ya está preparado el sistema para recibir trabajos de ATLAS. Añadir un directorio runtime que puede ser compartido entre el ARC-CE y Lusitania o simplemente copiar el contenido ya que éste es estático: arc/runtime/apps/hep/atlas-site Contiene variables de entorno necesarias para los trabajos de ATLAS Lo siguiente es que los trabajos en Lusitania se ejecuten dentro de singularity para que dispongan del entorno de SW apropiado para ATLAS 12-Apr-2018 Uso de HPC: Lusitania 16

ARC-CE Para ello, se modifica el script que genera los trabajos para SLURM del ARC-CE /usr/share/arc/submit-slurm-job añadiendo algo como: # force execution in container echo 'SINGULARITY_IMAGE="$HOME/singularity/centos6-cvmfsv2.atlas.cern.ch.img"' >> $LRMS_JOB_SCRIPT echo 'SINGULARITY_BIND="-B /lustre,/var/slurm/"' echo 'if [ -z $SINGULARITY_CONTAINER ]; then' >> $LRMS_JOB_SCRIPT >> $LRMS_JOB_SCRIPT echo ' exec /usr/bin/singularity exec $SINGULARITY_BIND $SINGULARITY_IMAGE $0' >> $LRMS_JOB_SCRIPT echo 'fi' >> $LRMS_JOB_SCRIPT De forma que el trabajo se ejecuta dentro de singularity desde el primer momento 12-Apr-2018 Uso de HPC: Lusitania 17

ARC-CE Una vez que el entorno de ARC-CE SLURM Singularity funciona, es el momento de crear una cola de test de PANDA en AGIS IFIC_ARC_TEST Ajustar todos los parámetros de forma correcta en especial los file movers Después de actualizar AGIS, hay que refrescar dentro de la imagen el directorio: /cvmfs/atlas.cern.ch/repo/sw/local/etc/ Asegurándose que la fuente en /cvmfs real está a su vez actualizada. Esperar los trabajos de HammerCloud y verificar que se ejecutan correctamente 12-Apr-2018 Uso de HPC: Lusitania 18

Status Ya tenemos la cadena completa Algunos trabajos fallan porque: No existe en la imagen de Singularity la release pedida. No existe en la imagen la versión de gcc pedida Son trabajos de derivation Hay algún problema en la trasferencia de los ficheros o en el ARC-CE Ya tenemos muchos trabajos que se ejecutan bien Estamos muy cerca que tener el sistema listo para la producción de MC en lusitania. 12-Apr-2018 Uso de HPC: Lusitania 19