2017-08-12 2 views
0

Je tente de créer mon propre cluster d'ordinateur (peut-être un Beowulf, bien que jeter autour de ce terme n'est pas cool) et ont installé Slurm comme mon ordonnanceur. Tout semble bien sur l'entrée sinfoSoumissions emplois dans Slurm n'apparaissant pas dans squeue, ne pas avoir planifié

[email protected]:~/Cluster/test$ sinfo 
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST 
debug*  up infinite  5 idle danny[1-5] 
[email protected]:~/Cluster/test$ 

Cependant, si je tente de soumettre un travail en utilisant le script suivant

[email protected]:~/Cluster/test$ cat script.sh 
#!/bin/bash -l 
#SBATCH --job-name=JOBNUMBA0NE 
#SBATCH --time=00-00:01:00 
#SBATCH --partition=debug 
#SBATCH --nodes=1 
#SBATCH --ntasks-per-node=1 
#SBATCH --cpus-per-task=1 
#SBATCH --mem-per-cpu=100 
#SBATCH -o stdout 
#SBATCH -e stderr 
#SBATCH --mail-type=END 
#SBATCH [email protected] 

gfortran -O3 -i8 0-hc1.f 

./a.out 

Je reçois une belle Submitted batch job 6, mais rien n'apparaît dans squeue, et aucun des résultats attendus fichiers matérialiser (le fichier exécutable a.out n'apparaît même pas). Je joindrai l'information associée pour scontrol show partition:

[email protected]:~/Cluster/test$ scontrol show partition 
PartitionName=debug 
    AllocNodes=ALL AllowGroups=ALL Default=YES 
    DefaultTime=NONE DisableRootJobs=NO GraceTime=0 Hidden=NO 
    MaxNodes=UNLIMITED MaxTime=UNLIMITED MinNodes=1 MaxCPUsPerNode=UNLIMITED 
    Nodes=danny[1-5] 
    Priority=1 RootOnly=NO ReqResv=NO Shared=NO PreemptMode=OFF 
    State=UP TotalCPUs=8 TotalNodes=5 SelectTypeParameters=N/A 
    DefMemPerNode=UNLIMITED MaxMemPerNode=UNLIMITED 

Des idées?

Répondre

0

J'ai vu ce comportement lorsque l'utilisateur soumettant le travail (ici danny) n'existe pas avec le même UID sur les nœuds de calcul. Assurez-vous que id danny indique la même sortie sur tous les nœuds Slurm. Vous devriez rechercher une confirmation dans le fichier journal slurm du noeud de traitement.