2016-10-27 1 views
2

Parfois après la formation ou lorsque j'arrête la formation manuellement en appuyant sur CTRL + C Je reçois cette erreur cuda:Caffe: erreur GPU CUDA après l'entraînement: échec échec: erreur == cudaSuccess (30 vs. 0) erreur inconnue

Échec de la vérification: erreur == cudaSuccess (30 contre 0) erreur inconnue

Cela ne commencé à se produire récemment, cependant. Est-ce que quelqu'un en a déjà fait l'expérience ou savez-vous comment résoudre ce problème ou quel est le problème?

complète journal:

I1027 09:29:37.779079 11959 caffe.cpp:217] Using GPUs 0 
I1027 09:29:37.780676 11959 caffe.cpp:222] GPU 0: �|��� 
F1027 09:29:37.780697 11959 common.cpp:151] Check failed: error == cudaSuccess (30 vs. 0) unknown error 
*** Check failure stack trace: *** 
    @  0x7f6cc4f465cd google::LogMessage::Fail() 
    @  0x7f6cc4f48433 google::LogMessage::SendToLog() 
    @  0x7f6cc4f4615b google::LogMessage::Flush() 
    @  0x7f6cc4f48e1e google::LogMessageFatal::~LogMessageFatal() 
    @  0x7f6cc5558032 caffe::Caffe::SetDevice() 
    @   0x40b3f8 train() 
    @   0x407590 main 
    @  0x7f6cc3eb7830 __libc_start_main 
    @   0x407db9 _start 
    @    (nil) (unknown) 
+0

ce problème se produit en raison du programme 'caffe' exécute ou détient toujours des ressources. dans ce cas, il pourrait être tué, voir ma réponse ci-dessous –

Répondre

2

Utilisez la commande nvidia-smi pour voir quels programmes sont en cours d'exécution sur GPU & CPU. Si vous voyez une instance indésirable de caffe est toujours en cours d'exécution après avoir appuyé sur ctrl+c est enfoncé, vous devez tuer ceux avec l'ID de processus. Comme ci-dessous:

+------------------------------------------------------+      
| NVIDIA-SMI 352.63  Driver Version: 352.63   |      
|-------------------------------+----------------------+----------------------+ 
| GPU Name  Persistence-M| Bus-Id  Disp.A | Volatile Uncorr. ECC | 
| Fan Temp Perf Pwr:Usage/Cap|   Memory-Usage | GPU-Util Compute M. | 
|===============================+======================+======================| 
| 0 GeForce GTX 980 Ti Off | 0000:01:00.0  On |     N/A | 
| 58% 83C P2 188W/260W | 1164MiB/6142MiB |  96%  Default | 
+-------------------------------+----------------------+----------------------+ 
| 1 GeForce GTX 980 Ti Off | 0000:02:00.0  Off |     N/A | 
| 53% 73C P2 127W/260W | 585MiB/6143MiB |  35%  Default | 
+-------------------------------+----------------------+----------------------+ 

+-----------------------------------------------------------------------------+ 
| Processes:              GPU Memory | 
| GPU  PID Type Process name        Usage  | 
|=============================================================================| 
| 0  1101 C ...-xx/build/tools/caffe 788MiB | 
| 0  1570 G /usr/bin/X          235MiB | 
| 0  1594 C /usr/bin/python        102MiB | 
| 0  2387 G compiz           10MiB | 
| 0  3984 G /usr/local/MATLAB/R2016a/bin/glnxa64/MATLAB  2MiB | 
| 1  25056 C /usr/bin/caffe         563MiB | 
+-----------------------------------------------------------------------------+ 

vous devez tuer avec cette commande sudo kill -9 1101

+0

La chose est il n'y a rien qui est caffe. J'ai déjà essayé ça! Essayez simplement ceci: **/usr/lib/xorg/Xorg ** et ** compiz ** – thigi

+0

Essayez-le en (a) installant CUDA 8.0 et (b) changez le caffe makefile.config.example et changez le " 50 "s à" 61 " -gencode arch = calcul_50, code = sm_50 \ -gencode arch = compute_50, code = compute_50 –

+0

J'ai déjà CUDA 8.0. Mais je vais vérifier la deuxième option! Je vous ferai savoir! – thigi

0

essayer de faire make all ->make test ->make runtest. il devrait fonctionner

+0

ce problème se produit en raison de ressources de mémoire n'est pas libéré. Construire le café ne serait pas résoudre ce problème –

0

Après l'exécution de faire tout, remarqué quelques erreurs concernant libs libcudnn, je les avais duplicathed dans/usr/lib/x86_64-linux-gnu et/usr/local/cuda-8.0/lib64. Après avoir laissé seulement ceux dans/usr/lib/x86_64-linux-gnu et redémarrer l'ordinateur portable tout a fonctionné.

0

Erreur d'exécution CUDA (30) pouvant indiquer si votre programme est incapable de créer ou d'ouvrir le fichier de périphérique/dev/nvidia-uvm. Ceci est généralement fixé par le paquet installation nvidia-modprobe:

sudo apt-get install nvidia-modprobe

0

Essayez de réinstaller/construire le pilote nvidia pour le noyau actuel

sudo apt-get install --reinstall nvidia-375

0
sudo apt-get install nvidia-modprobe 

Erreur d'exécution CUDA (30) pouvant indiquer si votre programme ne parvient pas à créer ou à ouvrir le fichier de périphérique /dev/nvidia-uvm. Ceci est habituellement fixé en installant le paquet nvidia-modprobe:

(Source)