2017-05-01 3 views
0

Je souhaite profiler le modèle Tensorflow sur CloudML. Quand j'utilise tf.RunOptions (trace_level = tf.RunOptions.FULL_TRACE), mon processus meurt avec un code de sortie différent de zéro, sans détails sur ce qui s'est passé.Processus des matrices si le profilage est activé

J'ai essayé d'ajouter et de supprimer le code qui active cette option, et il y a une corrélation de 100% entre cette option et la mort du processus.

Le message d'erreur est 'Le réplica maître 0 est sorti avec un état différent de zéro. Raison de la fin: erreur. Pour en savoir plus sur la raison de la fin de votre travail, veuillez consulter les journaux.

Comment puis-je diagnostiquer et résoudre ce problème?

+0

Je suis ingénieur sur Cloud ML Engine. Désolé pour le problème, cela vous dérangerait-il de partager un identifiant d'emploi? Si vous ne souhaitez pas l'afficher publiquement, vous pouvez nous l'envoyer par courrier électronique à l'adresse [email protected] –

+0

@JeremyLewi Merci pour la réponse rapide. C'est un exemple de jouet, j'apprends juste le tensorflow et j'expérimente avec l'ensemble de données de cifar sur gpu. L'ID du travail est cifar_20170430_215857 Si vous avez besoin d'autres informations, faites le moi savoir. –

+0

@JeremyLewi Y a-t-il des mises à jour? Est-ce que job_id vous a aidé à reproduire le problème? Si nécessaire, je peux vous envoyer le code entier si nécessaire pour le reproduire. –

Répondre

0

Il a été corrigé en utilisant tensorflow 1.1.0 au lieu de 1.0.0. Bien que, l'information de profilage n'a pas été montrée.

0

Pour votre question, fondamentalement le statut de sortie signifie que votre code a reçu un SIGABRT pendant l'exécution.

Mise à jour: Il y a un problème de chargement de libcupti. Cloud ML Engine a trouvé un bug lié à celui-ci. La correction est en cours. Le problème sera résolu dans la prochaine version.