Voici trois sbatch
scripts qui produisent des résultats à peu près semblables.questions sur d'autres façons d'exécuter 4 emplois parallèles
(je montre que les parties où les scripts diffèrent, le préfixe ##
indique la sortie obtenue en soumettant les scripts à sbatch
.)
Script 0
#SBATCH -n 4
srun -l hostname -s
## ==> slurm-7613732.out <==
## 0: node-73
## 1: node-73
## 2: node-73
## 3: node-73
Script 1
#SBATCH -n 1
#SBATCH -a 1-4
srun hostname -s
## ==> slurm-7613733_1.out <==
## node-72
##
## ==> slurm-7613733_2.out <==
## node-73
##
## ==> slurm-7613733_3.out <==
## node-72
##
## ==> slurm-7613733_4.out <==
## node-73
Script 2
#SBATCH -N 4
srun -l -n 4 hostname -s
## ==> slurm-7613738.out <==
## 0: node-74
## 2: node-76
## 1: node-75
## 3: node-77
Q: Pourquoi choisirait-on une telle approche par rapport aux autres?
(je vois que les travaux générés dynamiquement par script 0 coururent tous sur le même nœud, mais je ne peux pas dire si cela est une coïncidence.)
En outre, la variante suivante de Script 2 (la seule différence étant -N 2
au lieu de -N 4
) échoue:
Script 3
#SBATCH -N 2
srun -l -n 4 hostname -s
## ==> slurm-7614825.out <==
## srun: error: Unable to create job step: More processors requested than permitted
Idem pour la variante suivante de Script 2 (la seule différence entre ceci et Script 3 est que ici srun
a aussi le drapeau -c 2
):
Script 4
#SBATCH -N 2
srun -l -n 4 -c 2 hostname -s
## ==> slurm-7614827.out <==
## srun: error: Unable to create job step: More processors requested than permitted
Qs: sont les erreurs que je reçois avec Script 3 et Script 4 en raison de la syntaxe mal, mal sémantique, ou configs spécifiques au site? IOW, y a-t-il quelque chose de fondamentalement faux avec ces scripts (qui les ferait échouer sous n'importe quelle instance de SLURM), ou les erreurs sont-elles seulement dues à des violations de restrictions imposées par l'instance particulière de SLURM? Si c'est le cas, comment puis-je localiser les configs responsables de l'erreur?