J'essaie d'utiliser CfnCluster 1.2.1 pour l'informatique GPU et j'utilise une AMI personnalisée basée sur l'AMI Ubuntu 14.04 CfnCluster.Tâches non exécutées par les nœuds de calcul dans Ubuntu CfnCluster image
Tout est créé correctement dans la console CloudFormation, mais lorsque je soumets une nouvelle tâche de test à Oracle Grid Engine à l'aide de qsub du serveur maître, elle n'est jamais exécutée dans la file d'attente conformément à qstat. Il reste toujours dans le statut "qw" et n'atteint jamais l'état "r".
Il semble fonctionner correctement avec l'Amazon Linux AMI (en utilisant l'utilisateur ec2 utilisateur au lieu d'ubuntu) et la même configuration. En outre, l'instance maître annonce le nombre de tâches restantes au cluster en tant que mesure et les nouvelles instances de calcul sont automatiquement mises à l'échelle.
Quels sont les mécanismes fournis par CfnCluster ou Oracle Grid Engine pour poursuivre le débogage? J'ai regardé les fichiers journaux, mais je n'ai rien trouvé de pertinent. Quelle pourrait être la cause de ce comportement?
Merci,
Diego
Pouvez-vous dire si vous avez des nœuds de travail prêts pour la tâche? Si vous avez un accès en ligne de commande, exécutez "qhost" pour vérifier. –
J'ai des nœuds de travail prêts pour la tâche, mais d'une manière ou d'une autre tous les champs sont vides. Je reçois cette sortie avec la commande qhost: $ qhost HOSTNAME ARCH NCPU NSOC NCOR NTHR CHAR MEMTOT MEMUSE SWAPTO SWAPUS -------------------------- -------------------------------------------------- ------------------ global - - - - - - - - - - ip-10-0-0-47 - - - - - - - - - - –