Lors de l'exécution de tensorflow avec la commande DISTANTE DISTRIBUÉE: après avoir spécifié "scale-tier STANDARD_1". Lot n'a pas réussi à exécuter .... Maintenant, je peux courir avec de simples seulement un seul nœud « échelle de niveau = BASIC »google ml moteur scale-tier ne fonctionne pas en formation distribuée à distance
gcloud ml-engine jobs submit training census_20171005_162623
--stream-logs --scale-tier STANDARD_1 --staging-bucket gs://dextest --runtime-version 1.2 --job-
dir gs://dextest/census_20171005_162623 --module-name trainer.task --package-path trainer/ --
region us-central1 -- --train-files
gs://cloudml-public/census/data/adult.data.csv --eval-files
gs://cloudml-public/census/data/adult.test.csv --train-steps 1000
--eval-steps 100
L'erreur que je reçois est
The replica worker 1 exited with a non-zero status of 1. Termination reason: Error.
du journal:
Retrying après gsutil commande d'exception '[' gsutil », '-q', 'cp',
u'gs: // dextest/census_20171005_161531/2211a814b974edbc3defee855046dd8e801393b7ff8154b084b081322167fe90/trai NER-0.0.0.tar.gz », u'trainer-0.0.0.tar.gz ']' retourné état de sortie non nul 1.
Le Maître avait initialisé et SUCCES copued le paquet" trainer-0.0.0.tar.gz " Toutefois, un problème est survenu lors de la copie de réplicas pour l'exécution. Il semble que le flux de travail ML a échoué pour gérer le nettoyage dans les répliques .... Les réplicas ont essayé de nettoyer le répertoire de travail "gs: // dextest/census_20171005_162623" avant de continuer. L'erreur s'est produite après la copie principale du package et les réplicas ont échoué pour ramasser le package pour l'exécution.
Je CommandException: Aucune URL correspond: gs: //dextest/census_20171005_161531/2211a814b974edbc3defee855046dd8e801393b7ff8154b084b081322167fe90/trainer-0.0.0.tar.gz E Retrying après exception gsutil commande '[' gsutil », '-q' , 'cp', u'gs: //dextest/census_20171005_161531/2211a814b974edbc3defee855046dd8e801393b7ff8154b084b081322167fe90/trainer-0.0.0.tar.gz ', u'trainer-0.0.0.tar.gz'] 'a renvoyé un état de sortie différent de zéro 1.
undefined