Actuellement, j'utilise tensorflow slim pour former le modèle de scrach. Si je suis juste l'instruction ici https://github.com/tensorflow/models/tree/master/slim#training-a-model-from-scratch, tout est OK.tensorflow mince multi-GPU ne peut pas fonctionner
Cependant, je veux utiliser multi GPU, donc je définis --num_clones = 2 ou 4, les deux ne fonctionnent pas. Le résultat est que les deux sont bloqués à global_step/sec: 0. Ils ne peuvent pas continuer. Vous pouvez voir l'image résultat ici error result
DATASET_DIR=/tmp/imagenet
TRAIN_DIR=/tmp/train_logs
python train_image_classifier.py \
--num_clones=4 \
--train_dir=${TRAIN_DIR} \
--dataset_name=imagenet \
--dataset_split_name=train \
--dataset_dir=${DATASET_DIR} \
--model_name=inception_v3
quelqu'un L'espoir peut me aider, merci à l'avance. Par ailleurs, j'utilise tensorflow 1.1 & python 35 sur Ubuntu 16.04. Si vous avez besoin de plus d'informations, s'il vous plaît faites le moi savoir.
La génération du graphique prend plus de temps lorsque vous utilisez plusieurs GPU. Si vous attendez assez, voyez-vous un problème? Si vous tuez le programme avec ctrl + c, quelle est la trace de la pile? –
Bonjour, merci pour votre réponse. J'essaie à nouveau le programme et j'ai attendu plus d'une demi-heure. Il reste coincé au début. Cependant, je ne peux pas tuer le programme avec ctrl + c. Je peux seulement arrêter le programme en appuyant sur ctrl + z, mais les processus occupent toujours la ressource. J'ai donc besoin de libérer la ressource en utilisant kill -9 PID. J'ai aussi mis à jour l'image d'erreur, vous pouvez vous référer au 'résultat d'erreur' ci-dessus. – happenzZ