2017-08-16 3 views
0

J'ai réussi à installer le serveur pbs, à démarrer les services et à visualiser les nœuds à l'aide de la commande pbsnodes. La file d'attente est affichée correctement dans la commande qstat -q. Après avoir soumis un travail de test, les suivants viennent dans mon sched_log, server_log et dans le noeud mère fichiers mom_log:Erreur de communication PBS: Les nœuds ne peuvent pas communiquer

sched_log:

08/16/2017 14:18:48.476;64; pbs_sched.19885;Job;2.headnode;Job Run 
08/16/2017 14:19:28.215;02; pbs_sched.19885;Req;headnode3;Can not open connection to mom 
08/16/2017 14:19:28.215;02; pbs_sched.19885;Req;headnode4;Can not open connection to mom 
08/16/2017 14:19:28.238;02; pbs_sched.19885;Req;headnode5;Can not open connection to mom 
08/16/2017 14:19:28.239;02; pbs_sched.19885;Req;headnode6;Can not open connection to mom 

server_log:

08/16/2017 14:40:37.829;01;PBS_Server.27737;Svr;PBS_Server;LOG_ERROR::tcp_connect_sockaddr, Failed when trying to open tcp connection - connect() failed [rc = -2] [addr = 192.168.89.233:15003] 
08/16/2017 14:40:37.829;01;PBS_Server.27739;Svr;PBS_Server;LOG_ERROR::tcp_connect_sockaddr, Failed when trying to open tcp connection - connect() failed [rc = -2] [addr = 192.168.89.232:15003] 
08/16/2017 14:40:37.829;01;PBS_Server.27793;Svr;PBS_Server;LOG_ERROR::tcp_connect_sockaddr, Failed when trying to open tcp connection - connect() failed [rc = -2] [addr = 192.168.89.235:15003] 
08/16/2017 14:40:38.828;01;PBS_Server.27736;Svr;PBS_Server;LOG_ERROR::tcp_connect_sockaddr, Failed when trying to open tcp connection - connect() failed [rc = -2] [addr = 192.168.89.234:15003] 

mom_log:

08/16/2017 18:50:36.215;01; pbs_mom.10833;Svr;pbs_mom;LOG_ERROR::send_update_to_a_server, Status not successfully updated for 11123 MOM status update intervals 
08/16/2017 18:51:22.308;01; pbs_mom.10838;Svr;pbs_mom;LOG_ERROR::send_update_to_a_server, Could not contact any of the servers to send an update 
08/16/2017 18:51:22.308;01; pbs_mom.10838;Svr;pbs_mom;LOG_ERROR::send_update_to_a_server, Status not successfully updated for 11124 MOM status update intervals 
08/16/2017 18:52:06.402;01; pbs_mom.10859;Svr;pbs_mom;LOG_ERROR::send_update_to_a_server, Status update successfully sent after 11124 MOM status update intervals 
08/16/2017 18:53:21.555;02; pbs_mom.13039;Svr;pbs_mom;Torque Mom Version = 6.1.1.1, loglevel = 0 
08/16/2017 18:58:26.182;02; pbs_mom.13039;Svr;pbs_mom;Torque Mom Version = 6.1.1.1, loglevel = 0 
08/16/2017 19:03:31.815;02; pbs_mom.13039;Svr;pbs_mom;Torque Mom Version = 6.1.1.1, loglevel = 0 
08/16/2017 19:08:31.407;02; pbs_mom.13039;Svr;pbs_mom;Torque Mom Version = 6.1.1.1, loglevel = 0 
08/16/2017 19:13:37.039;02; pbs_mom.13039;Svr;pbs_mom;Torque Mom Version = 6.1.1.1, loglevel = 0 
08/16/2017 19:18:41.670;02; pbs_mom.13039;Svr;pbs_mom;Torque Mom Version = 6.1.1.1, loglevel = 0 
08/16/2017 19:23:46.455;02; pbs_mom.13039;Svr;pbs_mom;Torque Mom Version = 6.1.1.1, loglevel = 0 

Comment ce problème peut-il être résolu? Est-ce dû à un échec d'authentification? Dans ce cas, dois-je configurer les connexions authentifiées par clé ssh? Il est intéressant que j'ai un autre serveur avec Torque nommé headnode2 avec ip .89.231 qui ne montre aucune erreur. Je n'ai suivi aucune étape supplémentaire pour configurer celui-là.

Répondre

1

Vous devrez peut-être simplement configurer le pare-feu. Je courrais

# iptables-save > iptables.bak && iptables -F

sur le serveur et sur un nœud de test, puis soumettre un travail à ce nœud pour voir si elle fonctionne.