2017-07-12 8 views
1

J'ai un modèle LSTM 1 couche en tensorflow et la température de mon GPU est plutôt élevée pendant la phase d'entraînement. Toujours variant entre 80 C et 90 C. Mon GPU est une édition gtx 1080 «Super-cadencée» refroidie par eau dans une pièce réfrigérée 24/7. Le modèle fonctionne, mais cette température m'inquiète. J'aimerais savoir si c'est normal et sûr.La température du GPU est de 88 C lors de l'entraînement d'un LSTM sur tensorflow

J'entraîne le LSTM pour un problème de prédiction de mot suivant avec des commentaires reddit tokenisés. J'ai eu l'idée de différents tutoriels dans wildml.com. Voici quelques détails à ce sujet:

  • tensorflow 1.2.1, Cuda tk 8.0, 6.0 Cudnn, Nvidia pilote 375,66
  • Mes données de formation se compose de 200 K commentaires reddit.
  • Mon dictionnaire de mots se compose de 8000 mots, ce qui signifie 8000 classes de classification pour chaque prédiction
  • J'utilise GANT pré-formé 100 Dimensions incorporations mots Wikipédia
  • Je ne suis pas à l'aide de caractères génériques pour nourrir mon entrée. Tout cela est fait avec TFRecordfiles lecteurs, quelle entrée les exemples à une file d'attente de lecture aléatoire aléatoire des capacités 100k
  • De la file d'attente de lecture aléatoire au hasard, il va à une file d'attente FIFO de remplissage, où j'ai produit zéro paddaded mini-lots de 20
  • Le 20 taille mini lots vont à un tf.dynamic_rnn() avec cellule LSTM avec la dimension cachée de 150
  • I masquent les pertes en utilisant tf.sign() et minimiser le résultat avec optimiseur Adam

J'ai remarqué que la température monte beaucoup quand j'élève la taille du mini-lot. 1 mini-lots de taille (exemples simples), il lit entre 72-75 C. Avec 10 mini-lots de taille, il va immédiatement à 78 C et reste dans la gamme de 78-84 C. Avec 20 mini-lots de taille, 84 -88 C. Avec 30 mini-lots de taille, 87-92 C.

Si j'augmente la dimension cachée à 200, 250, 300, etc., tout en maintenant la taille du minipatch fixée, j'obtiens également des augmentations de température similaires.

J'ai également entraîné le même modèle, mais en alimentant les données avec des espaces réservés uniquement, c'est-à-dire en n'utilisant pas TFRecord, les files d'attente et les mini-batchs. Il reste autour de 65 C, mais il est évidemment loin d'être optimisé et idéal pour utiliser des espaces réservés pour nourrir le net.

J'apprécie vraiment votre aide, je suis un peu désespérée, pour être honnête.

----------------- EDIT ---------------------

Il se trouve la pompe du refroidisseur d'eau a été configurée sur mon bios pour varier en fonction de la température du processeur ... Évidemment, la température du GPU ne l'affecterait pas et c'est ce qui est arrivé. Il fonctionnait à 50% de sa capacité. Eh bien, je l'ai ajusté pour rester 100% tout le temps et maintenant le même modèle fonctionne avec une température maximale d'env. 83 C. Toujours pas parfait, mais une énorme amélioration. J'imagine qu'avec la complexité de mon modèle + l'horloge 1,8 GHz de mon GPU, il n'y a pas grand-chose que je puisse faire.

+0

Étrange. 80+ degrés serait normal sans aucun refroidissement par eau. Mon 980 Ti avec refroidissement à l'eau à pleine charge va seulement à ~ 42 degrés. –

Répondre

1

La température de conception maximale de la GTX 1080 according to nvidia est de 94 C. Tout ce qui est en dessous de cela et vous devriez être en sécurité.

température GPU maximum (en C) 94

Le fait que la température du GPU augmente lorsque vous augmentez la taille mini-lot est un bon signe, cela signifie que votre GPU travaille aussi dur que ça peut. En fait, si votre GPU n'est pas à ~ 80-90 C, cela signifie qu'il ne fonctionne pas à pleine puissance et que vous perdez des performances.