2017-07-04 2 views
-1

Je suis en train de construire a distribute tensorflow framwork template, mais il y a des problèmes serval me confus.plusieurs modèles en cours d'exécution sur un pas de train tensorflow distribués messd

  1. quand je --sync_replas=True dans le script, ça veut dire que j'utilise Synchronous training comme dans doc?
  2. pourquoi l'étape mondiale dans worker_0.log et worker_1.log n'est pas incrémenter successivement?
  3. pourquoi l'étape globale ne pas commencer par 0, mais comme celui-ci

1499169072.773628: Worker 0: training step 1 done (global step: 339)

  1. quelle est la relation entre training step et global step?

  2. Comme vous pouvez le voir sur le create cluster script, j'ai créé un cluster indépendant. Puis-je exécuter plusieurs modèles différents sur ce cluster en même temps?

Répondre

-1
  1. Probablement, mais dépend de la bibliothèque particulière
  2. Au cours de la formation distribuée il est possible d'avoir des conditions de course ainsi les incréments et lit de l'étape globale ne sont pas entièrement commandés. C'est bon.
  3. Ceci est probablement parce que vous chargez à partir d'un poste de contrôle?
  4. Pas clair, cela dépend de la bibliothèque que vous utilisez
  5. Un modèle par cluster est beaucoup plus facile à gérer. Il est bien de créer plusieurs clusters sur le même tf ensemble de machines, bien que.