Utilización del cluster de cálculo
Acceso al Cluster
Para poder acceder al cluster debe estar en el CAB o tener acceso VPN al CAB y un cliente ssh. Casi la totalidad de las distribuciones LINUX ya lo tienen preinstalado.
Si éste es su caso pude ejecutar el siguiente comando desde una terminal:
ssh Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.
En caso que quisiera iniciar lo conexión desde un WINDOWS tendrá que instalar el cliente ssh que mas le guste (openssh incluido en optional features de windows, putty, moabxterm, wsl, etc)
El nombre de USUARIO ha sido comunicada en el mail de confirmación de creación de la cuenta y será su nombre de usuario dentro de los clusters.
Si usted nos envió su llave pública de ssh, al conectarse al cluster no es necesario especificar un password.
Ejecución de trabajos
El cluster utiliza SGE como administrador de recursos
- Para ejecutar un trabajo, primero se necesita crear un script de lanzamiento que describa los recursos requeridos por el trabajo y las tareas que realiza.
- Para encolar un trabajo cuyo script de lanzmiento se llame submit.sh, ejecute qsub submit.sh que luego de encolar el trabajo le devolverá un número que lo identifica.
Ejemplos:
$ qsub submit.sh
Your job 353496 ("prueba") has been submitted
- Para ver el estado de sus trabajos: qstat
$ qstat job-ID prior name user state submit/start at queue slots ja-task-ID ----------------------------------------------------------------------------------------------------------------- 353496 0.51875 np-stabili tavo qw 09/15/2021 16:23:27 1
- Eliminar un trabajo encolado: qdel id_del_trabajo
$ qdel 353496 tavo has deleted job 353496
- Para ver todos los trabajos en ejecucion y encolados en el cluster qstat -f -u "*":
$ qstat -f -u "*" queuename qtype resv/used/tot. load_avg arch states --------------------------------------------------------------------------------- Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo. BIP 0/0/8 0.01 lx-amd64 --------------------------------------------------------------------------------- Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo. BIP 0/0/8 0.01 lx-amd64 --------------------------------------------------------------------------------- Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo. BIP 0/0/8 0.01 lx-amd64
.....recortado...... --------------------------------------------------------------------------------- Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo. BIP 0/2/8 -NA- lx-amd64 au 351457 0.55000 G2T angioloh dr 09/04/2021 05:29:25 1 4 351457 0.55000 G2T angioloh dr 09/04/2021 05:31:10 1 17
.....recortado..... --------------------------------------------------------------------------------- Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo. BIP 0/8/8 5.47 lx-amd64 353444 0.60000 gsmu0 karen r 09/15/2021 13:36:10 8 --------------------------------------------------------------------------------- Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo. P 0/9/16 6.84 lx-amd64 352085 0.50625 dmrg_basic nair.aucar r 09/07/2021 14:58:10 4 352954 0.51429 DOUBLE_SA guzman r 09/11/2021 12:48:55 1 353307 0.50625 cca_L8 nair.aucar r 09/14/2021 17:02:10 4 ---------------------------------------------------------------------------------
...recortado...
############################################################################ - PENDING JOBS - PENDING JOBS - PENDING JOBS - PENDING JOBS - PENDING JOBS ############################################################################ 352843 0.52250 mosquitas ana.gramajo qw 09/10/2021 12:11:29 1 353487 0.52045 python_job nelson.boliv qw 09/15/2021 15:06:39 1 353488 0.51023 python_job nelson.boliv qw 09/15/2021 15:06:41 1 ...recortado... 353445 0.00000 dynmu0 karen hqw 09/15/2021 13:36:14 4 1-64:1 353446 0.00000 dynmu0 karen hqw 09/15/2021 13:36:15 4 1-64:1
- Estados de los trabajos informados con qstat:
Una combinación de: d(eletion), E(rror), h(old), q(ueued), r(unning), R(estarted), s(uspended), S(uspended), t(ransfering), T(hreshold), w(aiting), o z(ombie)
- Estado de las colas informadas con qstat:
Una combinación de: u(nknown), a(larm), A(larm), C(alendar suspended), s(uspended), S(ubordinate), d(isabled), D(isabled), E(rror), c(configuration ambiguous), o(rphaned), P(reempted)
Script de lanzamiento
Ejemplo de script serial:
Todos los parametros para el administrador de recursos comienzan con #$
#!/bin/bash # Script para correr trabajo serial # Directorio actual es el raiz #$ -cwd # Nombre del proceso #$ -N nombre_ejemplo # stdout y stderr al mismo archivo de salida #$ -j y # Usar bash como shell para los comandos que se ejecutaran #$ -S /bin/bash # Pido la cola a usar #$ -q nombre_cola # Pido 1GB RAM para el proceso (obligatorio) #$ -l mem=1G # Las variables de entorno actual son incluidas en el trabajo #$ -V # Comando para ejecutar el programa, tal cual lo llamaríamos desde la línea de comandos ./programa
Ejemplo de script para trabajo paralelo:
#!/bin/bash # Directorio actual es el raiz #$ -cwd # Nombre del proceso #$ -N impiTest # stdout y stderr al mismo archivo de salida #$ -j y # Usar bash #$ -S /bin/bash # Pido la cola sumo (tiene infiniband) (Puedo usar otras colas si no requiero infiniband) #$ -q sumo # Pido 1GB RAM para el proceso (obligatorio) #$ -l mem=1G # Entorno paralelo mpi pide 10 slots (obligatorio en procesos paralelos) #$ -pe mpi 10 # Reservo los slots a medida que otros procesos los liberan (opcional) #$ -R y # Tiempo de ejecución total de mi proceso (necesario si se reservan los slots) #$ -l h_rt=1000 module load intel/2018 impi-2018 #binario compilado con compilador intel 2018 y bibliotecas intel mpi: #module load intel/2018 impi-2018 #mpiicc test.c -o test mpirun -np $NSLOTS -machinefile $TMPDIR/machines ./test
Array de trabajos:
Los arreglos de job proveen un mecanismo para enviar un conjunto de jobs relacionados. A cada job se le asigna un ID de tarea que puede ser usado dentro del sript para controlar el comportamiento del job. Los jobs son enviados como un bloque y controlados por un ID de job. Esta forma de enviar jobs es util cuando se intenta enviar a correr un mismo programa muchas veces con diferentes datos de entrada. En vez de enviar cientos de jobs individuales, se puede enviar un único job que ejecute una tarea para cada input distinto. Como ejemplo, consideremos la siguiente tarea. Tenemos 50 archivos con datos de entrada (datos.1 a datos.50) para un programa (serie), el script quedaría:
#!/bin/bash # # Script para correr array de jobs seriales # # Opciones SGE #$ -cwd # Cambia al directorio actual #$ -V # Exporta las variables de entorno #$ -t 1-50 # Setea el array de indices # corre el programa $HOME/programa < datos.$SGE_TASK_ID > output.$SGE_TASK_ID
El SGE utilizará tantos slots como haya disponibles para correr tantas tareas en forma concurrente como sea posible. También se pueden enviar arrays de jobs paralelos combinando las opciones t y pe.
Ejemplo uso de GPU
#! /bin/bash # El sistema de cola devuelve una variable $SGE_GPU que contiene los IDs de los dispositivos requeridos (separados por coma). # Ejemplo: 0 o 0,1 dependiendo del numero de recursos pedidos # Use este device ID para cudaSetDevice() #$ -cwd #$ -j y #$ -S /bin/bash #$ -q gpu #$ -l gpu=1 #$ -l memoria_a_usar=1G #$ -N NombreProceso # #cargar variables de entorno para encontrar cuda module load cuda/11.1.1 echo DeviceID: $SGE_GPU #ejecutar binario con sus respectivos argumentos ./ejecutable
Variables de entorno
Las variables de entorno mas utilizadas por el SGE son:
HOME El directorio del usuario en el nodo de ejecución. USER La ID del propietario del trabajo. JOB_ID La ID del trabajo actual. JOB_NAME El nombre de del trabajo definido con la opción –N. JOB_SCRIPT Path al script que se está ejecutando. HOSTNAME Nombre de nodo de ejecución. SHELL Shell de login del usuario. TMPDIR Path absoluto al directorio temporal. TMP Lo mismo que TMPDIR. NHOSTS Nombres de nodos usado por el trabajo paralelo. NSLOTS Número de slots de la cola asignados al trabajo paralelo. QUEUE Nombre de cola en la cual corre el trabajo.
Monitorización
disponible en: Software de monitorización Frontend | CAB o VPN | Internet qstat X qacct X ganglia: http://10.73.25.223/ganglia X xdmod: https://10.73.25.223 X phpqstat: https://10.73.25.223/phpqstat X s-gae: https://10.73.25.223/s-gae/user.php (tarda) X s-gae: https://10.73.25.223/s-gae/cluster.php X ganglia: https://fisica.cab.cnea.gov.ar/monitorizacion X
Software disponible
El cluster cuenta con varios programas precompilados, compiladores, librerias, etc. Se pueden instalar mas si hay necesidad. Tambien puede instalarlos los usuarios en su home.
Módulos
Se puede acceder a software preinstalado a traves del comando module
module avail (muestra los modulos disponibes) module load (carga el modulo indicado) module list (muestra los modulos cargados) module show (muestra el contenido del modulo: descripcion, que variables de entorno carga, etc) module purge (descarga todos los modulos cargados)
Python
Cuando necesite hacer uso de python puede cargar el modulo de miniconda
module load miniconda
Para ver que programas/librerias python están instaladas:
conda list
Si requiere de algún otro programa/libreria que lo usaran muchos usuarios envie un ticket de soporte a tavo_AT_cab.cnea.gov.ar
Tambien puede instalarlo en su home usando conda o pip:
- Para asegurarse que no tenga conflictos con programas ya instalados puede crear su propio entorno de conda: * conda create --name mi_entorno Esto genera un entorno propio llamado mi_entorno en ~/.conda/envs/ - Para activar el entorno use: * source activate mi_entorno (luego recuerde agregar este comando a su script de qsub) - Ahora puede instalar programas en ese entorno usando (por ejemplo scipy): * conda install scipy o con pip: * pip install --user scipy - Para salir del entorno: * source deactivate - Puede ver que entornos existen con: * conda info --envs
Contenedores
El cluster puede utilizar Singularity para ejecutar trabajos que requieran contenedores
Colas disponibles
Puede ver que colas estan disponibles con:
qstat -g c CLUSTER QUEUE CQLOAD USED RES AVAIL TOTAL aoACDS cdsuE -------------------------------------------------------------------------------- be_caulle 0.81 0 0 96 96 0 0 be_copahue 0.32 0 0 10 246 236 0 be_sumo 0.58 0 0 0 64 56 8 caulle 0.81 88 0 8 96 0 0 copahue 0.32 100 0 146 246 0 0 cpuINgpu 0.10 0 0 96 96 0 0 gpu 0.10 14 0 110 124 0 0 gpushort 0.09 0 0 4 4 0 0 sumo 0.58 54 0 2 64 0 8
Políticas de las colas
- El sistema de colas está configurado para fair share
- Limites de tiempo:
Las colas sumo,caulle,copahue y sus subordinadas (be_*) no tienen limite de tiempo
La cola gpu tiene un limite de tiempo de 24hs
La cola cpuINgpu tiene un limite de 72hs
La cola gpushort tiene un limite de 20min
- Los usuarios tienen un limite de procesos simultaneos que pueden ejecutar:
Slots de GPU: sin limite
Slots de CPU: 160 en general, 140 combinados en colas caulle y copahue
Puede consultar su quota de slots con qquota
- Si hay una necesidad excepcional de recursos, debidamente justificada, comuniquense con el tavo_AT_cab.cnea.gov.ar para buscar la mejor solución posible
20210809 Incorporamos al cluster, a modo de prueba, cuatro colas nuevas: be_sumo be_puyehue be_caulle be_copahue Estas colas ("best effort") tienen la particularidad de que no son contadas en la cuota. De este modo un usuario puede usar todos los slots en las colas sumo, puyehue, caulle y/o copahue. Estas colas no tienen ninguna prioridad ante un pedido de uso de un slot en las colas normales. De esta forma si otro usuario pide uno de los slots en uso por una cola "best", al trabajo en la cola "best" se le manda una señal "kill". Queda para el usuario que uso estas colas determinar como termino su trabajo. El modo mas simple es que el trabajo envie a pantalla un mensaje (por ejemplo "FIN") o puede ver el estado del trabajo usando qacct -j $job_id y buscando la expresión "failed". Un job terminado (kill) por el sistema de colas reporta failed 100 : assumedly after job
Hardware disponible
Puede ver los nodos disponibles, la cantidiad de cpus, cores, memoria, carga, etc, usando el comando:
qhost HOSTNAME ARCH NCPU NSOC NCOR NTHR LOAD MEMTOT MEMUSE SWAPTO SWAPUS ---------------------------------------------------------------------------------------------- global - - - - - - - - - - compute-0-0 lx-amd64 8 2 8 8 7.97 15.5G 7.6G 23.6G 0.0 compute-0-1 lx-amd64 8 2 8 8 7.94 15.5G 7.7G 23.6G 0.0 compute-0-2 lx-amd64 8 2 8 8 - 15.5G - 23.6G - compute-0-3 lx-amd64 8 2 8 8 6.96 15.5G 7.2G 23.6G 0.0 compute-0-4 lx-amd64 8 2 8 8 7.96 15.5G 8.4G 23.6G 205.8M compute-0-5 lx-amd64 8 2 8 8 7.97 15.5G 7.7G 23.6G 0.0 compute-0-6 lx-amd64 8 2 8 8 6.84 15.5G 8.0G 23.6G 0.0 compute-0-7 lx-amd64 8 2 8 8 7.94 15.5G 7.7G 23.6G 0.0 compute-3-0 lx-amd64 8 2 8 8 7.68 23.3G 2.5G 35.3G 117.9M compute-3-1 lx-amd64 8 2 8 8 5.89 23.3G 2.5G 35.3G 118.6M compute-3-10 lx-amd64 8 2 8 8 7.38 23.3G 953.5M 35.3G 68.1M compute-3-11 lx-amd64 8 2 8 8 7.43 23.3G 1.7G 35.3G 123.8M compute-3-2 lx-amd64 8 2 8 8 7.35 23.3G 2.5G 35.3G 123.9M compute-3-3 lx-amd64 8 2 8 8 7.74 23.3G 2.4G 35.3G 227.3M compute-3-4 lx-amd64 8 2 8 8 4.77 11.5G 1.5G 17.6G 154.3M compute-3-5 lx-amd64 8 2 8 8 4.21 11.5G 1.5G 17.6G 132.4M compute-3-6 lx-amd64 8 2 8 8 6.27 23.3G 2.5G 35.3G 118.0M compute-3-7 lx-amd64 8 2 8 8 7.57 23.3G 2.5G 35.3G 128.0M compute-3-8 lx-amd64 8 2 8 8 7.77 23.3G 2.5G 35.3G 123.4M compute-3-9 lx-amd64 8 2 8 8 7.50 23.3G 2.5G 35.3G 125.3M compute-4-0 lx-amd64 16 2 16 16 3.35 31.2G 2.7G 47.2G 151.5M compute-4-1 lx-amd64 16 2 16 16 5.04 62.7G 5.1G 94.4G 153.8M compute-4-10 lx-amd64 16 1 16 16 3.64 62.4G 3.6G 93.9G 218.4M compute-4-11 lx-amd64 16 1 16 16 6.45 62.4G 5.2G 93.9G 137.0M compute-4-12 lx-amd64 10 1 10 10 7.26 125.4G 7.3G 4.0G 0.0 compute-4-13 lx-amd64 20 2 20 20 7.75 125.4G 10.0G 4.0G 145.1M compute-4-14 lx-amd64 32 2 32 32 1.01 188.4G 12.7G 4.0G 0.0 compute-4-15 lx-amd64 32 2 32 32 0.01 188.4G 8.6G 4.0G 0.0 compute-4-16 lx-amd64 32 2 32 32 0.02 188.4G 8.6G 4.0G 0.0 compute-4-17 lx-amd64 32 2 32 32 0.01 188.4G 8.5G 4.0G 53.2M compute-4-18 lx-amd64 32 2 32 32 0.01 188.4G 8.6G 4.0G 0.0 compute-4-2 lx-amd64 16 2 16 16 4.97 62.7G 5.4G 94.4G 147.6M compute-4-3 lx-amd64 20 2 20 20 8.25 94.2G 6.3G 4.0G 656.0M compute-4-4 lx-amd64 20 2 20 20 8.22 188.7G 10.3G 4.0G 145.7M compute-4-5 lx-amd64 20 2 20 20 5.45 251.6G 10.7G 94.4G 0.0 compute-4-6 lx-amd64 20 2 20 20 6.10 125.7G 7.2G 4.0G 138.2M compute-4-7 lx-amd64 20 2 20 20 3.79 30.9G 6.1G 46.7G 205.9M compute-4-8 lx-amd64 20 2 20 20 2.92 31.1G 2.7G 47.1G 249.6M compute-4-9 lx-amd64 16 1 16 16 6.15 62.4G 5.2G 93.9G 228.0M compute-6-0 lx-amd64 8 1 4 8 0.99 23.4G 1.9G 35.4G 108.4M compute-6-1 lx-amd64 8 1 4 8 0.70 31.2G 10.4G 47.3G 0.0 compute-6-2 lx-amd64 4 1 4 4 0.22 11.6G 542.3M 17.6G 631.7M compute-6-3 lx-amd64 16 2 16 16 1.83 31.2G 19.0G 47.2G 664.1M compute-6-4 lx-amd64 16 2 16 16 2.08 31.2G 2.2G 47.3G 243.8M compute-6-5 lx-amd64 32 2 16 32 1.98 31.2G 2.7G 47.2G 808.3M compute-6-6 lx-amd64 28 2 28 28 2.12 15.4G 2.3G 23.4G 115.0M compute-6-7 lx-amd64 28 2 28 28 2.01 15.4G 959.1M 23.4G 905.7M compute-6-8 lx-amd64 12 2 12 12 2.04 62.4G 24.9G 93.9G 283.0M
Nodos de calculo
Todos los nodos tienen un disco rigido de entre 500GB y 1TB para usar como espacio de scratch local.
La memoria de los nodos varía, verifique la tabla de arriba
Cola sumo - Dual Xeon - Interconección Infiniband SDR 10Gbs y Gigabit Ethernet: compute-0-0: model name : Intel(R) Xeon(R) CPU L5420 @ 2.50GHz compute-0-1: model name : Intel(R) Xeon(R) CPU L5420 @ 2.50GHz compute-0-1: model name : Intel(R) Xeon(R) CPU L5420 @ 2.50GHz compute-0-3: model name : Intel(R) Xeon(R) CPU L5420 @ 2.50GHz compute-0-4: model name : Intel(R) Xeon(R) CPU L5420 @ 2.50GHz compute-0-5: model name : Intel(R) Xeon(R) CPU L5420 @ 2.50GHz compute-0-6: model name : Intel(R) Xeon(R) CPU L5420 @ 2.50GHz compute-0-7: model name : Intel(R) Xeon(R) CPU L5420 @ 2.50GHz Cola caulle - Dual Xeon - Interconección Gigabit Ethernet: compute-3-0: model name : Intel(R) Xeon(R) CPU E5620 @ 2.40GHz compute-3-10: model name : Intel(R) Xeon(R) CPU E5620 @ 2.40GHz compute-3-11: model name : Intel(R) Xeon(R) CPU E5620 @ 2.40GHz compute-3-1: model name : Intel(R) Xeon(R) CPU E5620 @ 2.40GHz compute-3-2: model name : Intel(R) Xeon(R) CPU E5620 @ 2.40GHz compute-3-3: model name : Intel(R) Xeon(R) CPU E5620 @ 2.40GHz compute-3-4: model name : Intel(R) Xeon(R) CPU E5620 @ 2.40GHz compute-3-5: model name : Intel(R) Xeon(R) CPU E5620 @ 2.40GHz compute-3-6: model name : Intel(R) Xeon(R) CPU E5620 @ 2.40GHz compute-3-7: model name : Intel(R) Xeon(R) CPU E5620 @ 2.40GHz compute-3-8: model name : Intel(R) Xeon(R) CPU E5620 @ 2.40GHz compute-3-9: model name : Intel(R) Xeon(R) CPU E5620 @ 2.40GHz Cola copahue - Dual Xeon Interconección Gigabit Ethernet: compute-4-0: model name : Intel(R) Xeon(R) CPU E5-2650 0 @ 2.00GHz compute-4-1: model name : Intel(R) Xeon(R) CPU E5-2670 0 @ 2.60GHz compute-4-2: model name : Intel(R) Xeon(R) CPU E5-2670 0 @ 2.60GHz compute-4-3: model name : Intel(R) Xeon(R) CPU E5-2670 v2 @ 2.50GHz compute-4-4: model name : Intel(R) Xeon(R) CPU E5-2670 v2 @ 2.50GHz compute-4-5: model name : Intel(R) Xeon(R) CPU E5-2660 v3 @ 2.60GHz compute-4-6: model name : Intel(R) Xeon(R) CPU E5-2640 v4 @ 2.40GHz compute-4-7: model name : Intel(R) Xeon(R) Silver 4114 CPU @ 2.20GHz compute-4-8: model name : Intel(R) Xeon(R) CPU E5-2640 v4 @ 2.40GHz compute-4-9: single Xeon : Intel(R) Xeon(R) Gold 6130 CPU @ 2.10GHz compute-4-10: single Xeon : Intel(R) Xeon(R) Gold 6130 CPU @ 2.10GHz compute-4-11: single Xeon : Intel(R) Xeon(R) Gold 6130 CPU @ 2.10GHz compute-4-12: single Xeon : Intel(R) Xeon(R) Silver 4114 CPU @ 2.20GHz compute-4-13: model name : Intel(R) Xeon(R) Silver 4210R CPU @ 2.40GHz compute-4-14: model name : Intel(R) Xeon(R) Gold 6226R CPU @ 2.90GHz compute-4-15: model name : Intel(R) Xeon(R) Gold 6226R CPU @ 2.90GHz compute-4-16: model name : Intel(R) Xeon(R) Gold 6226R CPU @ 2.90GHz compute-4-17: model name : Intel(R) Xeon(R) Gold 6226R CPU @ 2.90GHz compute-4-18: model name : Intel(R) Xeon(R) Gold 6226R CPU @ 2.90GHz Cola gpu - Interconección Gigabit Ethernet: compute-6-0: model name : Intel(R) Core(TM) i7 CPU 960 @ 3.20GHz compute-6-1: model name : Intel(R) Core(TM) i7-3820 CPU @ 3.60GHz compute-6-2: model name : AMD Phenom(tm) II X4 955 Processor compute-6-3: model name : dual Intel(R) Xeon(R) CPU E5-2665 0 @ 2.40GHz compute-6-4: model name : dual Intel(R) Xeon(R) CPU E5-2665 0 @ 2.40GHz compute-6-5: model name : dual Intel(R) Xeon(R) CPU E5-2665 0 @ 2.40GHz compute-6-6: model name : dual Intel(R) Xeon(R) CPU E5-2680 v4 @ 2.40GHz compute-6-7: model name : dual Intel(R) Xeon(R) CPU E5-2680 v4 @ 2.40GHz compute-6-8: model name : dual Intel(R) Xeon(R) Bronze 3204 CPU @ 1.90GHz compute-6-9: model name : dual Intel(R) Xeon(R) Bronze 3204 CPU @ 1.90GHz compute-6-10: model name : dual Intel(R) Xeon(R) Bronze 3204 CPU @ 1.90GHz
Almacenamiento
Los homes de los usuarios estan almacenados en un unico servidor tipo NAS - RAID 6 (hw) - Gigabit Ethernet - de 22TB. Compartido por NFS a los nodos y frontend
La quota de almacenamiento es e 600GB soft / 800 GB hard
Puede ver sus datos de quota de almacenamiento con el comando quota -s
GPUs
#2022-02-10 rocks run host compute-6-% command="nvidia-smi | grep NVIDIA-SMI" collate=yes| sort compute-6-0: | NVIDIA-SMI 460.56 Driver Version: 460.56 CUDA Version: 11.2 | compute-6-10: | NVIDIA-SMI 510.47.03 Driver Version: 510.47.03 CUDA Version: 11.6 | compute-6-1: | NVIDIA-SMI 460.56 Driver Version: 460.56 CUDA Version: 11.2 | compute-6-2: | NVIDIA-SMI 450.51.06 Driver Version: 450.51.06 CUDA Version: 11.0 | compute-6-3: | NVIDIA-SMI 460.56 Driver Version: 460.56 CUDA Version: 11.2 | compute-6-4: | NVIDIA-SMI 460.56 Driver Version: 460.56 CUDA Version: 11.2 | compute-6-5: | NVIDIA-SMI 430.50 Driver Version: 430.50 CUDA Version: 10.1 | compute-6-6: | NVIDIA-SMI 460.32.03 Driver Version: 460.32.03 CUDA Version: 11.2 | compute-6-7: | NVIDIA-SMI 460.32.03 Driver Version: 460.32.03 CUDA Version: 11.2 | compute-6-8: | NVIDIA-SMI 460.56 Driver Version: 460.56 CUDA Version: 11.2 | compute-6-9: | NVIDIA-SMI 460.56 Driver Version: 460.56 CUDA Version: 11.2 | rocks run host compute-6-% command="nvidia-smi -L " collate=yes| sort compute-6-0: GPU 0: GeForce RTX 2080 Ti (UUID: GPU-e445d9be-0ed4-0cd6-d6a8-2241b0b25d98) compute-6-10: GPU 0: NVIDIA GeForce RTX 3080 (UUID: GPU-4a766570-7605-aef1-9316-49d220f649eb) compute-6-10: GPU 1: NVIDIA GeForce RTX 3080 (UUID: GPU-2c3e21fe-fdcf-0b0d-ca42-52038286937d) compute-6-10: GPU 2: NVIDIA GeForce RTX 3080 (UUID: GPU-d4214048-db10-d24f-f20c-e73e5151448e) compute-6-1: GPU 0: NVIDIA GeForce GTX 1080 Ti (UUID: GPU-2506bdf5-fa2a-44c9-d2a1-6825ef62a08c) compute-6-2: GPU 0: GeForce GTX TITAN X (UUID: GPU-b428df97-2ca3-a8c2-0c86-e9ca5351e7a3) compute-6-2: GPU 1: GeForce GTX TITAN Black (UUID: GPU-fb322e4d-732d-7ed3-0b29-344492291d47) compute-6-3: GPU 0: GeForce RTX 2070 (UUID: GPU-8a4a9a30-98f3-91b6-508b-52b4da956574) compute-6-3: GPU 1: GeForce RTX 2070 (UUID: GPU-bc5cd294-bf56-5549-b001-d53324fe4bb9) compute-6-4: GPU 0: GeForce RTX 2080 Ti (UUID: GPU-959e4ef1-35a5-bcf9-b7dc-f2c9374a980d) compute-6-5: GPU 0: GeForce RTX 2070 (UUID: GPU-4f46469b-c32b-9f61-f9c9-a6fff97eeffc) compute-6-6: GPU 0: Tesla K20Xm (UUID: GPU-d8da7ebe-f8f9-645d-6e7b-88776d25ede3) compute-6-6: GPU 1: Tesla K20Xm (UUID: GPU-93cad715-5b8e-220e-76b4-5a477d6430ec) compute-6-7: GPU 0: Tesla K20Xm (UUID: GPU-0afae843-73c4-e2c5-03ec-d5fbd48d56d8) compute-6-7: GPU 1: Tesla K20Xm (UUID: GPU-e2e754a7-e502-c044-6d4f-c460d94bc1f8) compute-6-8: GPU 0: NVIDIA GeForce RTX 3080 (UUID: GPU-e7f77454-3e7a-b62b-fe1d-88f8419216dd) compute-6-8: GPU 1: NVIDIA GeForce RTX 3080 Ti (UUID: GPU-58756a66-fff0-2549-6f85-ebcec9211929) compute-6-9: GPU 0: GeForce RTX 3080 (UUID: GPU-6c89e3cc-8fd5-900c-a64f-426832b435bb) compute-6-9: GPU 1: GeForce RTX 3080 (UUID: GPU-b59bdb32-e9c1-dcf3-a018-31f972d77d77)
Sala de servidores
La sala de servidores tiene ~40mts2 de espacio fisico para soportar 20 racks de 40u. Cuenta con 3 aires acondicionados y alimentación de los nodos de calculo mediante UPSs.
No se cuenta con generador electrico, con lo cual en caso de corte de luz el sistema debe suspender nodos para poder apagarlos y no generar una calor inmanejable por la falta de refrigeración.
TIPs
- Puede acceder a sus datos en el cluster si monta su home por sshfs. De esta manera puede interactuar con sus archivos en el cluster utilizando los programas de su computadora.
- Su programa utiliza mucho IO de disco? El NAS donde estan los home de usuarios no está pensado para eso. Copie los archivos que necesita al scratch local $TMPDIR en el nodo de calculo antes de ejecutar su calculo y al finalizar vuelva a copiarlos a su home
- man es tu amigo, confia en man sge_intro - qsub - qdel - qstat - qacct - qalter - qquota - qhold - qrls - etc
- Si necesita conectarse a internet, por ejemplo para descargar software, necesita autenticarse (desde el frontend) con su cuenta de CNEA/IB en https://login.cnea.gob.ar:4100. Puede usar https://github.com/giox069/pyfauths/ para hacerlo desde la linea de comando. Ejemplo: python pyfauths.py login.cnea.gob.ar login cnea.ar usuario contraseña
- Para usar aplicaciones graficas debe iniciar sesión ssh en el cluster con X11 Forwarding (ej: ssh -Y usuario@cluster). Luego usar qlogin para obtener una terminal interactiva en algun nodo (ej: qlogin -q sumo -l mem=1G,h_rt:24:00:00). Al obtener la terminal interactiva ejecute el programa grafico y verá dicha ventana en su monitor.
- Para limpiar el estado de Error de un job que quedó en cola con Eqw, ejecute qmod -cj job_id. Si el problema persiste consulte al administrador