Acceso al Cluster

Para poder acceder al cluster debe estar en el CAB o tener acceso VPN al CAB y un cliente ssh. Casi la totalidad de las distribuciones LINUX ya lo tienen preinstalado.

Si éste es su caso pude ejecutar el siguiente comando desde una terminal:

ssh Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.

En caso que quisiera iniciar lo conexión desde un WINDOWS tendrá que instalar el cliente ssh que mas le guste (openssh incluido en optional features de windows, putty, moabxterm, wsl, etc)

El nombre de USUARIO ha sido comunicada en el mail de confirmación de creación de la cuenta y será su nombre de usuario dentro de los clusters.

Si usted nos envió su llave pública de ssh, al conectarse al cluster no es necesario especificar un password.

Ejecución de trabajos

El cluster utiliza SGE como administrador de recursos

  • Para ejecutar un trabajo, primero se necesita crear un script de lanzamiento que describa los recursos requeridos por el trabajo y las tareas que realiza.
  • Para encolar un trabajo cuyo script de lanzmiento se llame submit.sh, ejecute qsub submit.sh que luego de encolar el trabajo le devolverá un número que lo identifica.

Ejemplos:

$ qsub submit.sh 
Your job 353496 ("prueba") has been submitted
  • Para ver el estado de sus trabajos: qstat
$ qstat
job-ID  prior   name       user         state submit/start at     queue                          slots ja-task-ID 
-----------------------------------------------------------------------------------------------------------------
 353496 0.51875 np-stabili tavo         qw    09/15/2021 16:23:27                                    1        
  • Eliminar un trabajo encolado: qdel id_del_trabajo
$ qdel 353496
tavo has deleted job 353496
  • Para ver todos los trabajos en ejecucion y encolados en el cluster qstat -f -u "*"
$ qstat -f -u "*"
queuename                      qtype resv/used/tot. load_avg arch          states
---------------------------------------------------------------------------------
Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.         BIP   0/0/8          0.01     lx-amd64      
---------------------------------------------------------------------------------
Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.         BIP   0/0/8          0.01     lx-amd64      
---------------------------------------------------------------------------------
Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.         BIP   0/0/8          0.01     lx-amd64      
.....recortado...... --------------------------------------------------------------------------------- Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo. BIP 0/2/8 -NA- lx-amd64 au 351457 0.55000 G2T angioloh dr 09/04/2021 05:29:25 1 4 351457 0.55000 G2T angioloh dr 09/04/2021 05:31:10 1 17
.....recortado..... --------------------------------------------------------------------------------- Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo. BIP 0/8/8 5.47 lx-amd64 353444 0.60000 gsmu0 karen r 09/15/2021 13:36:10 8 --------------------------------------------------------------------------------- Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo. P 0/9/16 6.84 lx-amd64 352085 0.50625 dmrg_basic nair.aucar r 09/07/2021 14:58:10 4 352954 0.51429 DOUBLE_SA guzman r 09/11/2021 12:48:55 1 353307 0.50625 cca_L8 nair.aucar r 09/14/2021 17:02:10 4 ---------------------------------------------------------------------------------
...recortado...
############################################################################ - PENDING JOBS - PENDING JOBS - PENDING JOBS - PENDING JOBS - PENDING JOBS ############################################################################ 352843 0.52250 mosquitas ana.gramajo qw 09/10/2021 12:11:29 1 353487 0.52045 python_job nelson.boliv qw 09/15/2021 15:06:39 1 353488 0.51023 python_job nelson.boliv qw 09/15/2021 15:06:41 1 ...recortado... 353445 0.00000 dynmu0 karen hqw 09/15/2021 13:36:14 4 1-64:1 353446 0.00000 dynmu0 karen hqw 09/15/2021 13:36:15 4 1-64:1
  • Estados de los trabajos informados con qstat:

Una combinación de: d(eletion), E(rror), h(old), q(ueued), r(unning), R(estarted), s(uspended), S(uspended), t(ransfering), T(hreshold), w(aiting), o z(ombie)

  • Estado de las colas informadas con qstat:

Una combinación de: u(nknown), a(larm), A(larm), C(alendar suspended), s(uspended), S(ubordinate), d(isabled), D(isabled), E(rror), c(configuration ambiguous), o(rphaned), P(reempted) 

 

Script de lanzamiento

Ejemplo de script serial:

Todos los parametros para el administrador de recursos comienzan con #$

#!/bin/bash

# Script para correr trabajo serial

# Directorio actual es el raiz
#$ -cwd

# Nombre del proceso
#$ -N nombre_ejemplo

# stdout y stderr al mismo archivo de salida
#$ -j y

# Usar bash como shell para los comandos que se ejecutaran
#$ -S /bin/bash

# Pido la cola a usar
#$ -q nombre_cola

# Pido 1GB RAM para el proceso (obligatorio)
#$ -l mem=1G

# Las variables de entorno actual son incluidas en el trabajo
#$ -V

# Comando para ejecutar el programa, tal cual lo llamaríamos desde la línea de comandos
./programa

Ejemplo de script para trabajo paralelo:

#!/bin/bash

# Directorio actual es el raiz
#$ -cwd
# Nombre del proceso
#$ -N impiTest
# stdout y stderr al mismo archivo de salida
#$ -j y
# Usar bash
#$ -S /bin/bash
# Pido la cola sumo (tiene infiniband) (Puedo usar otras colas si no requiero infiniband)
#$ -q sumo
# Pido 1GB RAM para el proceso (obligatorio)
#$ -l mem=1G
# Entorno paralelo mpi pide 10 slots (obligatorio en procesos paralelos)
#$ -pe mpi 10
# Reservo los slots a medida que otros procesos los liberan (opcional)
#$ -R y
# Tiempo de ejecución total de mi proceso (necesario si se reservan los slots)
#$ -l h_rt=1000

module load intel/2018 impi-2018


#binario compilado con compilador intel 2018 y bibliotecas intel mpi:
#module load intel/2018 impi-2018
#mpiicc test.c -o test

mpirun -np $NSLOTS -machinefile $TMPDIR/machines  ./test

Array de trabajos:

Los arreglos de job proveen un mecanismo para enviar un conjunto de jobs relacionados. A cada job se le asigna un ID de tarea que puede ser usado dentro del sript para controlar el comportamiento del job. Los jobs son enviados como un bloque y controlados por un ID de job. Esta forma de enviar jobs es util cuando se intenta enviar a correr un mismo programa muchas veces con diferentes datos de entrada. En vez de enviar cientos de jobs individuales, se puede enviar un único job que ejecute una tarea para cada input distinto. Como ejemplo, consideremos la siguiente tarea. Tenemos 50 archivos con datos de entrada (datos.1 a datos.50) para un programa (serie), el script quedaría:

#!/bin/bash
#
# Script para correr array de jobs seriales
#
# Opciones SGE

#$ -cwd # Cambia al directorio actual
#$ -V # Exporta las variables de entorno
#$ -t 1-50 # Setea el array de indices

# corre el programa

$HOME/programa < datos.$SGE_TASK_ID > output.$SGE_TASK_ID

El SGE utilizará tantos slots como haya disponibles para correr tantas tareas en forma concurrente como sea posible. También se pueden enviar arrays de jobs paralelos combinando las opciones t y pe.

Ejemplo uso de GPU

#! /bin/bash

# El sistema de cola devuelve una variable $SGE_GPU que contiene los IDs de los dispositivos requeridos (separados por coma). 
# Ejemplo: 0 o 0,1 dependiendo del numero de recursos pedidos
# Use este device ID para cudaSetDevice()

#$ -cwd
#$ -j y
#$ -S /bin/bash
#$ -q gpu
#$ -l gpu=1
#$ -l memoria_a_usar=1G
#$ -N NombreProceso
#
#cargar variables de entorno para encontrar cuda
module load cuda/11.1.1

echo DeviceID: $SGE_GPU
#ejecutar binario con sus respectivos argumentos
./ejecutable

Variables de entorno

Las variables de entorno mas utilizadas por el SGE son:

HOME         El directorio del usuario en el nodo de ejecución.
USER         La ID del propietario del trabajo.
JOB_ID       La ID del trabajo actual.
JOB_NAME     El nombre de del trabajo definido con la opción –N.
JOB_SCRIPT   Path al script que se está ejecutando.
HOSTNAME     Nombre de nodo de ejecución.
SHELL        Shell de login del usuario.
TMPDIR       Path absoluto al directorio temporal.
TMP          Lo mismo que TMPDIR.
NHOSTS       Nombres de nodos usado por el trabajo paralelo.
NSLOTS       Número de slots de la cola asignados al trabajo paralelo.
QUEUE        Nombre de cola en la cual corre el trabajo.

Monitorización

                                                      disponible en:
Software de monitorización                   Frontend | CAB o VPN | Internet
qstat                                            X     
qacct                                            X
ganglia: http://10.73.25.223/ganglia                        X
xdmod:   https://10.73.25.223                               X
phpqstat: https://10.73.25.223/phpqstat                     X
s-gae:   https://10.73.25.223/s-gae/user.php (tarda)        X
s-gae:   https://10.73.25.223/s-gae/cluster.php             X
ganglia: https://fisica.cab.cnea.gov.ar/monitorizacion                  X

Software disponible

El cluster cuenta con varios programas precompilados, compiladores, librerias, etc. Se pueden instalar mas si hay necesidad. Tambien puede instalarlos los usuarios en su home.

Módulos

Se puede acceder a software preinstalado a traves del comando module

module avail          (muestra los modulos disponibes)
module load   (carga el modulo indicado)
module list           (muestra los modulos cargados)
module show   (muestra el contenido del modulo: descripcion, que variables de entorno carga, etc)
module purge          (descarga todos los modulos cargados)

Python

Cuando necesite hacer uso de python puede cargar el modulo de miniconda

module load miniconda

Para ver que programas/librerias python están instaladas:

conda list

Si requiere de algún otro programa/libreria que lo usaran muchos usuarios envie un ticket de soporte a tavo_AT_cab.cnea.gov.ar

Tambien puede instalarlo en su home usando conda o pip:

 - Para asegurarse que no tenga conflictos con programas ya instalados puede crear su propio entorno de conda:
   * conda create --name mi_entorno
   Esto genera un entorno propio llamado mi_entorno en ~/.conda/envs/

 - Para activar el entorno use:
   * source activate mi_entorno
   (luego recuerde agregar este comando a su script de qsub)

 - Ahora puede instalar programas en ese entorno usando (por ejemplo scipy):
   * conda install scipy
   o con pip:
   * pip install --user scipy

 - Para salir del entorno:
   * source deactivate

 - Puede ver que entornos existen con:
   * conda info --envs

Contenedores

El cluster puede utilizar Singularity para ejecutar trabajos que requieran contenedores

Colas disponibles

Puede ver que colas estan disponibles con:

qstat  -g c
CLUSTER QUEUE                   CQLOAD   USED    RES  AVAIL  TOTAL aoACDS  cdsuE  
--------------------------------------------------------------------------------
be_caulle                         0.81      0      0     96     96      0      0 
be_copahue                        0.32      0      0     10    246    236      0 
be_sumo                           0.58      0      0      0     64     56      8 
caulle                            0.81     88      0      8     96      0      0 
copahue                           0.32    100      0    146    246      0      0 
cpuINgpu                          0.10      0      0     96     96      0      0 
gpu                               0.10     14      0    110    124      0      0 
gpushort                          0.09      0      0      4      4      0      0 
sumo                              0.58     54      0      2     64      0      8 

Políticas de las colas

  • El sistema de colas está configurado para fair share
  • Limites de tiempo:

Las colas sumo,caulle,copahue y sus subordinadas (be_*) no tienen limite de tiempo

La cola gpu tiene un limite de tiempo de 24hs

La cola cpuINgpu tiene un limite de 72hs

La cola gpushort tiene un limite de 20min

  • Los usuarios tienen un limite de procesos simultaneos que pueden ejecutar:

Slots de GPU: sin limite

Slots de CPU: 160 en general, 140 combinados en colas caulle y copahue

Puede consultar su quota de slots con qquota

  • Si hay una necesidad excepcional de recursos, debidamente justificada, comuniquense con el tavo_AT_cab.cnea.gov.ar para buscar la mejor solución posible
20210809
Incorporamos al cluster, a modo de prueba, cuatro colas nuevas:
be_sumo
be_puyehue
be_caulle
be_copahue
Estas colas ("best effort") tienen la particularidad de que no son contadas en la cuota.
De este modo un usuario puede usar todos los slots en las colas sumo, puyehue, caulle y/o copahue.
Estas colas no tienen ninguna prioridad ante un pedido de uso de un slot en las colas normales.
De esta forma si otro usuario pide uno de los slots en uso por una cola "best", al trabajo en la cola "best" se le manda una señal "kill".
Queda para el usuario que uso estas colas determinar como termino su trabajo. El modo mas simple es que el trabajo envie a pantalla un mensaje (por ejemplo "FIN") o puede ver el estado del trabajo usando
qacct -j $job_id
y buscando la expresión "failed". Un job terminado (kill) por el sistema de colas reporta
failed 100 : assumedly after job

Hardware disponible

Puede ver los nodos disponibles, la cantidiad de cpus, cores, memoria, carga, etc, usando el comando:

qhost
HOSTNAME                ARCH         NCPU NSOC NCOR NTHR  LOAD  MEMTOT  MEMUSE  SWAPTO  SWAPUS
----------------------------------------------------------------------------------------------
global                  -               -    -    -    -     -       -       -       -       -
compute-0-0             lx-amd64        8    2    8    8  7.97   15.5G    7.6G   23.6G     0.0
compute-0-1             lx-amd64        8    2    8    8  7.94   15.5G    7.7G   23.6G     0.0
compute-0-2             lx-amd64        8    2    8    8     -   15.5G       -   23.6G       -
compute-0-3             lx-amd64        8    2    8    8  6.96   15.5G    7.2G   23.6G     0.0
compute-0-4             lx-amd64        8    2    8    8  7.96   15.5G    8.4G   23.6G  205.8M
compute-0-5             lx-amd64        8    2    8    8  7.97   15.5G    7.7G   23.6G     0.0
compute-0-6             lx-amd64        8    2    8    8  6.84   15.5G    8.0G   23.6G     0.0
compute-0-7             lx-amd64        8    2    8    8  7.94   15.5G    7.7G   23.6G     0.0
compute-3-0             lx-amd64        8    2    8    8  7.68   23.3G    2.5G   35.3G  117.9M
compute-3-1             lx-amd64        8    2    8    8  5.89   23.3G    2.5G   35.3G  118.6M
compute-3-10            lx-amd64        8    2    8    8  7.38   23.3G  953.5M   35.3G   68.1M
compute-3-11            lx-amd64        8    2    8    8  7.43   23.3G    1.7G   35.3G  123.8M
compute-3-2             lx-amd64        8    2    8    8  7.35   23.3G    2.5G   35.3G  123.9M
compute-3-3             lx-amd64        8    2    8    8  7.74   23.3G    2.4G   35.3G  227.3M
compute-3-4             lx-amd64        8    2    8    8  4.77   11.5G    1.5G   17.6G  154.3M
compute-3-5             lx-amd64        8    2    8    8  4.21   11.5G    1.5G   17.6G  132.4M
compute-3-6             lx-amd64        8    2    8    8  6.27   23.3G    2.5G   35.3G  118.0M
compute-3-7             lx-amd64        8    2    8    8  7.57   23.3G    2.5G   35.3G  128.0M
compute-3-8             lx-amd64        8    2    8    8  7.77   23.3G    2.5G   35.3G  123.4M
compute-3-9             lx-amd64        8    2    8    8  7.50   23.3G    2.5G   35.3G  125.3M
compute-4-0             lx-amd64       16    2   16   16  3.35   31.2G    2.7G   47.2G  151.5M
compute-4-1             lx-amd64       16    2   16   16  5.04   62.7G    5.1G   94.4G  153.8M
compute-4-10            lx-amd64       16    1   16   16  3.64   62.4G    3.6G   93.9G  218.4M
compute-4-11            lx-amd64       16    1   16   16  6.45   62.4G    5.2G   93.9G  137.0M
compute-4-12            lx-amd64       10    1   10   10  7.26  125.4G    7.3G    4.0G     0.0
compute-4-13            lx-amd64       20    2   20   20  7.75  125.4G   10.0G    4.0G  145.1M
compute-4-14            lx-amd64       32    2   32   32  1.01  188.4G   12.7G    4.0G     0.0
compute-4-15            lx-amd64       32    2   32   32  0.01  188.4G    8.6G    4.0G     0.0
compute-4-16            lx-amd64       32    2   32   32  0.02  188.4G    8.6G    4.0G     0.0
compute-4-17            lx-amd64       32    2   32   32  0.01  188.4G    8.5G    4.0G   53.2M
compute-4-18            lx-amd64       32    2   32   32  0.01  188.4G    8.6G    4.0G     0.0
compute-4-2             lx-amd64       16    2   16   16  4.97   62.7G    5.4G   94.4G  147.6M
compute-4-3             lx-amd64       20    2   20   20  8.25   94.2G    6.3G    4.0G  656.0M
compute-4-4             lx-amd64       20    2   20   20  8.22  188.7G   10.3G    4.0G  145.7M
compute-4-5             lx-amd64       20    2   20   20  5.45  251.6G   10.7G   94.4G     0.0
compute-4-6             lx-amd64       20    2   20   20  6.10  125.7G    7.2G    4.0G  138.2M
compute-4-7             lx-amd64       20    2   20   20  3.79   30.9G    6.1G   46.7G  205.9M
compute-4-8             lx-amd64       20    2   20   20  2.92   31.1G    2.7G   47.1G  249.6M
compute-4-9             lx-amd64       16    1   16   16  6.15   62.4G    5.2G   93.9G  228.0M
compute-6-0             lx-amd64        8    1    4    8  0.99   23.4G    1.9G   35.4G  108.4M
compute-6-1             lx-amd64        8    1    4    8  0.70   31.2G   10.4G   47.3G     0.0
compute-6-2             lx-amd64        4    1    4    4  0.22   11.6G  542.3M   17.6G  631.7M
compute-6-3             lx-amd64       16    2   16   16  1.83   31.2G   19.0G   47.2G  664.1M
compute-6-4             lx-amd64       16    2   16   16  2.08   31.2G    2.2G   47.3G  243.8M
compute-6-5             lx-amd64       32    2   16   32  1.98   31.2G    2.7G   47.2G  808.3M
compute-6-6             lx-amd64       28    2   28   28  2.12   15.4G    2.3G   23.4G  115.0M
compute-6-7             lx-amd64       28    2   28   28  2.01   15.4G  959.1M   23.4G  905.7M
compute-6-8             lx-amd64       12    2   12   12  2.04   62.4G   24.9G   93.9G  283.0M

Nodos de calculo

Todos los nodos tienen un disco rigido de entre 500GB y 1TB para usar como espacio de scratch local.

La memoria de los nodos varía, verifique la tabla de arriba

Cola sumo - Dual Xeon - Interconección Infiniband SDR 10Gbs y Gigabit Ethernet:
compute-0-0: model name	: Intel(R) Xeon(R) CPU           L5420  @ 2.50GHz
compute-0-1: model name	: Intel(R) Xeon(R) CPU           L5420  @ 2.50GHz
compute-0-1: model name	: Intel(R) Xeon(R) CPU           L5420  @ 2.50GHz
compute-0-3: model name	: Intel(R) Xeon(R) CPU           L5420  @ 2.50GHz
compute-0-4: model name	: Intel(R) Xeon(R) CPU           L5420  @ 2.50GHz
compute-0-5: model name	: Intel(R) Xeon(R) CPU           L5420  @ 2.50GHz
compute-0-6: model name	: Intel(R) Xeon(R) CPU           L5420  @ 2.50GHz
compute-0-7: model name	: Intel(R) Xeon(R) CPU           L5420  @ 2.50GHz

Cola caulle - Dual Xeon - Interconección Gigabit Ethernet:
compute-3-0: model name	: Intel(R) Xeon(R) CPU           E5620  @ 2.40GHz
compute-3-10: model name	: Intel(R) Xeon(R) CPU           E5620  @ 2.40GHz
compute-3-11: model name	: Intel(R) Xeon(R) CPU           E5620  @ 2.40GHz
compute-3-1: model name	: Intel(R) Xeon(R) CPU           E5620  @ 2.40GHz
compute-3-2: model name	: Intel(R) Xeon(R) CPU           E5620  @ 2.40GHz
compute-3-3: model name	: Intel(R) Xeon(R) CPU           E5620  @ 2.40GHz
compute-3-4: model name	: Intel(R) Xeon(R) CPU           E5620  @ 2.40GHz
compute-3-5: model name	: Intel(R) Xeon(R) CPU           E5620  @ 2.40GHz
compute-3-6: model name	: Intel(R) Xeon(R) CPU           E5620  @ 2.40GHz
compute-3-7: model name	: Intel(R) Xeon(R) CPU           E5620  @ 2.40GHz
compute-3-8: model name	: Intel(R) Xeon(R) CPU           E5620  @ 2.40GHz
compute-3-9: model name	: Intel(R) Xeon(R) CPU           E5620  @ 2.40GHz

Cola copahue - Dual Xeon Interconección Gigabit Ethernet:
compute-4-0: model name	: Intel(R) Xeon(R) CPU E5-2650 0 @ 2.00GHz
compute-4-1: model name	: Intel(R) Xeon(R) CPU E5-2670 0 @ 2.60GHz
compute-4-2: model name	: Intel(R) Xeon(R) CPU E5-2670 0 @ 2.60GHz
compute-4-3: model name	: Intel(R) Xeon(R) CPU E5-2670 v2 @ 2.50GHz
compute-4-4: model name	: Intel(R) Xeon(R) CPU E5-2670 v2 @ 2.50GHz
compute-4-5: model name	: Intel(R) Xeon(R) CPU E5-2660 v3 @ 2.60GHz
compute-4-6: model name	: Intel(R) Xeon(R) CPU E5-2640 v4 @ 2.40GHz
compute-4-7: model name	: Intel(R) Xeon(R) Silver 4114 CPU @ 2.20GHz
compute-4-8: model name	: Intel(R) Xeon(R) CPU E5-2640 v4 @ 2.40GHz
compute-4-9: single Xeon	: Intel(R) Xeon(R) Gold 6130 CPU @ 2.10GHz
compute-4-10: single Xeon	: Intel(R) Xeon(R) Gold 6130 CPU @ 2.10GHz
compute-4-11: single Xeon	: Intel(R) Xeon(R) Gold 6130 CPU @ 2.10GHz
compute-4-12: single Xeon	: Intel(R) Xeon(R) Silver 4114 CPU @ 2.20GHz
compute-4-13: model name	: Intel(R) Xeon(R) Silver 4210R CPU @ 2.40GHz
compute-4-14: model name : Intel(R) Xeon(R) Gold 6226R CPU @ 2.90GHz
compute-4-15: model name : Intel(R) Xeon(R) Gold 6226R CPU @ 2.90GHz
compute-4-16: model name : Intel(R) Xeon(R) Gold 6226R CPU @ 2.90GHz
compute-4-17: model name : Intel(R) Xeon(R) Gold 6226R CPU @ 2.90GHz
compute-4-18: model name : Intel(R) Xeon(R) Gold 6226R CPU @ 2.90GHz

Cola gpu - Interconección Gigabit Ethernet:
compute-6-0: model name	: Intel(R) Core(TM) i7 CPU         960  @ 3.20GHz
compute-6-1: model name	: Intel(R) Core(TM) i7-3820 CPU @ 3.60GHz
compute-6-2: model name	: AMD Phenom(tm) II X4 955 Processor
compute-6-3: model name	: dual Intel(R) Xeon(R) CPU E5-2665 0 @ 2.40GHz
compute-6-4: model name	: dual Intel(R) Xeon(R) CPU E5-2665 0 @ 2.40GHz
compute-6-5: model name	: dual Intel(R) Xeon(R) CPU E5-2665 0 @ 2.40GHz
compute-6-6: model name	: dual Intel(R) Xeon(R) CPU E5-2680 v4 @ 2.40GHz
compute-6-7: model name	: dual Intel(R) Xeon(R) CPU E5-2680 v4 @ 2.40GHz
compute-6-8: model name	: dual Intel(R) Xeon(R) Bronze 3204 CPU @ 1.90GHz
compute-6-9: model name : dual Intel(R) Xeon(R) Bronze 3204 CPU @ 1.90GHz
compute-6-10: model name : dual Intel(R) Xeon(R) Bronze 3204 CPU @ 1.90GHz

Almacenamiento

Los homes de los usuarios estan almacenados en un unico servidor tipo NAS - RAID 6 (hw) - Gigabit Ethernet - de 22TB. Compartido por NFS a los nodos y frontend

La quota de almacenamiento es e 600GB soft / 800 GB hard

Puede ver sus datos de quota de almacenamiento con el comando quota -s

GPUs

#2022-02-10

rocks run host compute-6-% command="nvidia-smi | grep NVIDIA-SMI" collate=yes| sort
compute-6-0: | NVIDIA-SMI 460.56       Driver Version: 460.56       CUDA Version: 11.2     |
compute-6-10: | NVIDIA-SMI 510.47.03    Driver Version: 510.47.03    CUDA Version: 11.6     |
compute-6-1: | NVIDIA-SMI 460.56       Driver Version: 460.56       CUDA Version: 11.2     |
compute-6-2: | NVIDIA-SMI 450.51.06    Driver Version: 450.51.06    CUDA Version: 11.0     |
compute-6-3: | NVIDIA-SMI 460.56       Driver Version: 460.56       CUDA Version: 11.2     |
compute-6-4: | NVIDIA-SMI 460.56       Driver Version: 460.56       CUDA Version: 11.2     |
compute-6-5: | NVIDIA-SMI 430.50       Driver Version: 430.50       CUDA Version: 10.1     |
compute-6-6: | NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |
compute-6-7: | NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |
compute-6-8: | NVIDIA-SMI 460.56       Driver Version: 460.56       CUDA Version: 11.2     |
compute-6-9: | NVIDIA-SMI 460.56       Driver Version: 460.56       CUDA Version: 11.2     |

rocks run host compute-6-% command="nvidia-smi  -L " collate=yes| sort
compute-6-0: GPU 0: GeForce RTX 2080 Ti (UUID: GPU-e445d9be-0ed4-0cd6-d6a8-2241b0b25d98)
compute-6-10: GPU 0: NVIDIA GeForce RTX 3080 (UUID: GPU-4a766570-7605-aef1-9316-49d220f649eb)
compute-6-10: GPU 1: NVIDIA GeForce RTX 3080 (UUID: GPU-2c3e21fe-fdcf-0b0d-ca42-52038286937d)
compute-6-10: GPU 2: NVIDIA GeForce RTX 3080 (UUID: GPU-d4214048-db10-d24f-f20c-e73e5151448e)
compute-6-1: GPU 0: NVIDIA GeForce GTX 1080 Ti (UUID: GPU-2506bdf5-fa2a-44c9-d2a1-6825ef62a08c)
compute-6-2: GPU 0: GeForce GTX TITAN X (UUID: GPU-b428df97-2ca3-a8c2-0c86-e9ca5351e7a3)
compute-6-2: GPU 1: GeForce GTX TITAN Black (UUID: GPU-fb322e4d-732d-7ed3-0b29-344492291d47)
compute-6-3: GPU 0: GeForce RTX 2070 (UUID: GPU-8a4a9a30-98f3-91b6-508b-52b4da956574)
compute-6-3: GPU 1: GeForce RTX 2070 (UUID: GPU-bc5cd294-bf56-5549-b001-d53324fe4bb9)
compute-6-4: GPU 0: GeForce RTX 2080 Ti (UUID: GPU-959e4ef1-35a5-bcf9-b7dc-f2c9374a980d)
compute-6-5: GPU 0: GeForce RTX 2070 (UUID: GPU-4f46469b-c32b-9f61-f9c9-a6fff97eeffc)
compute-6-6: GPU 0: Tesla K20Xm (UUID: GPU-d8da7ebe-f8f9-645d-6e7b-88776d25ede3)
compute-6-6: GPU 1: Tesla K20Xm (UUID: GPU-93cad715-5b8e-220e-76b4-5a477d6430ec)
compute-6-7: GPU 0: Tesla K20Xm (UUID: GPU-0afae843-73c4-e2c5-03ec-d5fbd48d56d8)
compute-6-7: GPU 1: Tesla K20Xm (UUID: GPU-e2e754a7-e502-c044-6d4f-c460d94bc1f8)
compute-6-8: GPU 0: NVIDIA GeForce RTX 3080 (UUID: GPU-e7f77454-3e7a-b62b-fe1d-88f8419216dd)
compute-6-8: GPU 1: NVIDIA GeForce RTX 3080 Ti (UUID: GPU-58756a66-fff0-2549-6f85-ebcec9211929)
compute-6-9: GPU 0: GeForce RTX 3080 (UUID: GPU-6c89e3cc-8fd5-900c-a64f-426832b435bb)
compute-6-9: GPU 1: GeForce RTX 3080 (UUID: GPU-b59bdb32-e9c1-dcf3-a018-31f972d77d77)


Sala de servidores

La sala de servidores tiene ~40mts2 de espacio fisico para soportar 20 racks de 40u. Cuenta con 3 aires acondicionados y alimentación de los nodos de calculo mediante UPSs.

No se cuenta con generador electrico, con lo cual en caso de corte de luz el sistema debe suspender nodos para poder apagarlos y no generar una calor inmanejable por la falta de refrigeración.

   

TIPs

  • Puede acceder a sus datos en el cluster si monta su home por sshfs. De esta manera puede interactuar con sus archivos en el cluster utilizando los programas de su computadora.
  • Su programa utiliza mucho IO de disco? El NAS donde estan los home de usuarios no está pensado para eso. Copie los archivos que necesita al scratch local  $TMPDIR en el nodo de calculo antes de ejecutar su calculo y al finalizar vuelva a copiarlos a su home
  • man es tu amigo, confia en man sge_intro - qsub - qdel - qstat - qacct - qalter - qquota - qhold - qrls - etc
  • Si necesita conectarse a internet, por ejemplo para descargar software, necesita autenticarse (desde el frontend) con su cuenta de CNEA/IB en https://login.cnea.gob.ar:4100. Puede usar https://github.com/giox069/pyfauths/ para hacerlo desde la linea de comando. Ejemplo: python pyfauths.py login.cnea.gob.ar login cnea.ar usuario contraseña
  • Para usar aplicaciones graficas debe iniciar sesión ssh en el cluster con X11 Forwarding (ej: ssh -Y usuario@cluster). Luego usar qlogin para obtener una terminal interactiva en algun nodo (ej: qlogin -q sumo -l mem=1G,h_rt:24:00:00). Al obtener la terminal interactiva ejecute el programa grafico y verá dicha ventana en su monitor.
  • Para limpiar el estado de Error de un job que quedó en cola con Eqw, ejecute qmod -cj job_id. Si el problema persiste consulte al administrador