3

Lors de l'exécution de tensorflow avec la commande DISTANTE DISTRIBUÉE: après avoir spécifié "scale-tier STANDARD_1". Lot n'a pas réussi à exécuter .... Maintenant, je peux courir avec de simples seulement un seul nœud « échelle de niveau = BASIC »google ml moteur scale-tier ne fonctionne pas en formation distribuée à distance

gcloud ml-engine jobs submit training census_20171005_162623 
--stream-logs --scale-tier STANDARD_1 --staging-bucket gs://dextest --runtime-version 1.2 --job- 
dir gs://dextest/census_20171005_162623 --module-name trainer.task --package-path trainer/ -- 
region us-central1 -- --train-files 
gs://cloudml-public/census/data/adult.data.csv --eval-files 
gs://cloudml-public/census/data/adult.test.csv --train-steps 1000 
--eval-steps 100 

L'erreur que je reçois est

The replica worker 1 exited with a non-zero status of 1. Termination reason: Error. 

du journal:

Retrying après gsutil commande d'exception '[' gsutil », '-q', 'cp',
u'gs: // dextest/census_20171005_161531/2211a814b974edbc3defee855046dd8e801393b7ff8154b084b081322167fe90/trai NER-0.0.0.tar.gz », u'trainer-0.0.0.tar.gz ']' retourné état de sortie non nul 1.

Le Maître avait initialisé et SUCCES copued le paquet" trainer-0.0.0.tar.gz " Toutefois, un problème est survenu lors de la copie de réplicas pour l'exécution. Il semble que le flux de travail ML a échoué pour gérer le nettoyage dans les répliques .... Les réplicas ont essayé de nettoyer le répertoire de travail "gs: // dextest/census_20171005_162623" avant de continuer. L'erreur s'est produite après la copie principale du package et les réplicas ont échoué pour ramasser le package pour l'exécution.

Je CommandException: Aucune URL correspond: gs: //dextest/census_20171005_161531/2211a814b974edbc3defee855046dd8e801393b7ff8154b084b081322167fe90/trainer-0.0.0.tar.gz E Retrying après exception gsutil commande '[' gsutil », '-q' , 'cp', u'gs: //dextest/census_20171005_161531/2211a814b974edbc3defee855046dd8e801393b7ff8154b084b081322167fe90/trainer-0.0.0.tar.gz ', u'trainer-0.0.0.tar.gz'] 'a renvoyé un état de sortie différent de zéro 1.
undefined

Répondre

1

Il est évident de votre erreur mess age ("Le travailleur de réplique 1 est sorti avec un état non nul de 1. Motif de terminaison: Erreur.") que vous avez une erreur de programmation (syntaxe, indéfini, etc.).

Vérifiez la return code table

Return code -------------Meaning--------------- Cloud ML Engine response 

0 Successful completion Shuts down and releases job resources. 
1 - 128 Unrecoverable error Ends the job and logs the error. 

Trouver le bogue et le fixer puis essayez à nouveau.

Je recommande d'exécuter votre tâche localement (si votre configuration prend en charge) avant de soumettre dans le nuage. Si vous trouvez un bug, vous pouvez facilement le réparer dans votre machine locale.