1

Je suis le Tensorflow Object Detection API tutorial pour former un modèle F-RNCN sur mon propre ensemble de données sur Google Cloud. Mais l'erreur "manque de mémoire" suivante a continué à se produire.Erreur «mémoire insuffisante» du moteur Google Cloud ML lorsque l'utilisation de la mémoire est presque nulle

The replica master 0 ran out-of-memory and exited with a non-zero status of 247. 

Et selon les journaux, un état de sortie non nul a été retourné. Comme décrit dans the official documentation, un code de peut signifier que la formation utilise plus de mémoire que allouée.

Cependant, l'utilisation de la mémoire est inférieure à 0,2. Alors pourquoi j'ai le problème de mémoire? Si cela aide, the memory utilization graph is here.

Répondre

3

Le graphique d'utilisation de la mémoire est une moyenne pour tous les travailleurs. Dans le cas d'une erreur de mémoire insuffisante, il n'est pas non plus garanti que les points de données finaux soient exportés avec succès (par exemple, un énorme pic soudain de mémoire). Nous prenons des mesures pour rendre les graphiques d'utilisation de la mémoire plus utiles.

Si vous utilisez le maître pour effectuer également une évaluation (comme illustré dans la plupart des exemples), le maître utilise ~ 2x la RAM par rapport à un travailleur normal. Vous pourriez envisager d'utiliser le grand_modèle machine type.

+0

J'ai utilisé le type de machine large_model après avoir obtenu la même erreur, mais il a échoué après le même nombre d'étapes d'apprentissage que le niveau de la gamme STANDARD_1. Savez-vous ce qui pourrait être la solution à ce problème? – tzharg

+0

@ rhaertel80, Est-ce que de plus en plus de travailleurs résolvent ce problème, ou devons-nous utiliser le type de machine plus grand comme vous l'avez dit? – LittleZero

0

En regardant votre erreur, il semble que votre code ML consomme plus de mémoire à l'origine. Essayez avec un type de machine qui vous permet plus de mémoire comme "grand_modèle" ou "complexe_modèle_l". Utilisez un config.yaml pour le définir comme suit:

trainingInput: 
scaleTier: CUSTOM 
# 'large_model' for bigger model with lots of data 
masterType: large_model 
runtimeVersion: "1.4" 

Il y a une question similaire Google Cloud machine learning out of memory. S'il vous plaît se référer à ce lien pour la solution réelle.

+0

Cela ne répond pas vraiment à la question. Si vous avez une autre question, vous pouvez la poser en cliquant sur [Poser une question] (https://stackoverflow.com/questions/ask). Vous pouvez également [ajouter une prime] (https://stackoverflow.com/help/privileges/set-bounties) pour attirer plus d'attention à cette question une fois que vous avez assez de [réputation] (https://stackoverflow.com/help/ quoi-réputation). - [De l'examen] (/ review/low-quality-posts/18249256) –

0

Le didacticiel running_pets utilise le niveau BASIC_GPU, il est donc possible que le GPU manque de mémoire. Les graphiques sur le moteur ML affichent actuellement uniquement l'utilisation de la mémoire de la CPU.

Si tel est le cas, changer votre niveau en GPU plus gros résoudra le problème. Here est quelques informations sur les différents niveaux. Sur la même page, vous trouverez un exemple de fichier yaml expliquant comment le configurer.