0

J'essaie d'utiliser CfnCluster 1.2.1 pour l'informatique GPU et j'utilise une AMI personnalisée basée sur l'AMI Ubuntu 14.04 CfnCluster.Tâches non exécutées par les nœuds de calcul dans Ubuntu CfnCluster image

Tout est créé correctement dans la console CloudFormation, mais lorsque je soumets une nouvelle tâche de test à Oracle Grid Engine à l'aide de qsub du serveur maître, elle n'est jamais exécutée dans la file d'attente conformément à qstat. Il reste toujours dans le statut "qw" et n'atteint jamais l'état "r".

Il semble fonctionner correctement avec l'Amazon Linux AMI (en utilisant l'utilisateur ec2 utilisateur au lieu d'ubuntu) et la même configuration. En outre, l'instance maître annonce le nombre de tâches restantes au cluster en tant que mesure et les nouvelles instances de calcul sont automatiquement mises à l'échelle.

Quels sont les mécanismes fournis par CfnCluster ou Oracle Grid Engine pour poursuivre le débogage? J'ai regardé les fichiers journaux, mais je n'ai rien trouvé de pertinent. Quelle pourrait être la cause de ce comportement?

Merci,

Diego

+0

Pouvez-vous dire si vous avez des nœuds de travail prêts pour la tâche? Si vous avez un accès en ligne de commande, exécutez "qhost" pour vérifier. –

+0

J'ai des nœuds de travail prêts pour la tâche, mais d'une manière ou d'une autre tous les champs sont vides. Je reçois cette sortie avec la commande qhost: $ qhost HOSTNAME ARCH NCPU NSOC NCOR NTHR CHAR MEMTOT MEMUSE SWAPTO SWAPUS -------------------------- -------------------------------------------------- ------------------ global - - - - - - - - - - ip-10-0-0-47 - - - - - - - - - - –

Répondre

0

Je pense avoir trouvé la solution. Il semble être la même question que celle décrite dans https://github.com/awslabs/cfncluster/issues/86#issuecomment-196966385

Je l'ai fixé en ajoutant la ligne suivante dans le fichier de configuration de CfnCluster:

base_os = ubuntu1404 

Si un custom_ami est spécifié, mais pas base_os est spécifié, il utilise par défaut Amazon Linux, qui utilise une méthode différente pour configurer SGE. Il peut y avoir des problèmes dans la configuration SGE effectuée par CfnCluster si base_os et os_personnalisé sont différents.

1

similaires à https://stackoverflow.com/a/37324418/704265

Depuis votre sortie qhost, il ressemble à votre machine "ip-10-0-0-47" est correctement configuré en SGE. Cependant, sur "ip-10-0-0-47", sge_execd n'est pas en cours d'exécution ou n'est pas configuré correctement. Si c'était le cas, qhost signalerait des statistiques pour "ip-10-0-0-47".