Je viens de compiler TensorFlow (maître) avec le support MPI et je spécifie maintenant le protocole "grpc + mpi" dans l'objet tf.train.Server. Cependant, lors d'une tentative de lancer la procédure de formation, il y a toujours exactement un travailleur qui échoue avec l'erreurUtilisation du protocole grpc + mpi dans le tensorflow distribué - Erreur
F ./tensorflow/contrib/mpi/mpi_utils.h:47] Failed to convert worker name to MPI index: ps:0:0
Chaque fois que je reproduis l'erreur, il est un travailleur différent qui ne parvient pas à « convertir ». Il est assez suspect pour moi que le nom qu'il ne parvient pas à convertir est un nom de «travailleur», étant donné qu'il ne peut pas réellement «convertir» une propriété du serveur de paramètres.
La procédure d'apprentissage complète fonctionne correctement avec le protocole "standard" "grpc".
Chaque opérateur ainsi que le serveur à un seul paramètre s'exécutent sur une machine dédiée (pas de machine partagée). La version OpenMPI est 2.1.1
Comment est-ce que j'aborderais le débogage ceci? Malheureusement, je n'ai pas beaucoup de connaissance de MPI.
Merci,
Mat