2017-05-10 2 views
0

Est-il toujours possible d'exécuter la formation dans une sorte de multigpu si j'ai Peer access not supported between device ordinals? (Si je comprends bien les GPU ne sont pas connectés) par exemple en calculant chaque lot séparément sur GPU et puis fusionner sur le processeur comme je comprends c'est la façon dont «l'accumulation par lots» fonctionne dans DIGITS avec Caffe backend.Tensorflow: L'accès par les pairs n'est pas pris en charge entre les périphériques

sortie brute:

2017-05-10 15:27:54.360688: I tensorflow/core/common_runtime/gpu/gpu_device.cc:779] Peer access not supported between device ordinals 0 and 1 
2017-05-10 15:27:54.360949: I tensorflow/core/common_runtime/gpu/gpu_device.cc:779] Peer access not supported between device ordinals 0 and 2 
2017-05-10 15:27:54.361504: I tensorflow/core/common_runtime/gpu/gpu_device.cc:779] Peer access not supported between device ordinals 0 and 3 
2017-05-10 15:27:54.361738: I tensorflow/core/common_runtime/gpu/gpu_device.cc:779] Peer access not supported between device ordinals 1 and 0 
2017-05-10 15:27:54.361892: I tensorflow/core/common_runtime/gpu/gpu_device.cc:779] Peer access not supported between device ordinals 1 and 2 
2017-05-10 15:27:54.362065: I tensorflow/core/common_runtime/gpu/gpu_device.cc:779] Peer access not supported between device ordinals 1 and 3 
2017-05-10 15:27:54.362263: I tensorflow/core/common_runtime/gpu/gpu_device.cc:779] Peer access not supported between device ordinals 2 and 0 
2017-05-10 15:27:54.362485: I tensorflow/core/common_runtime/gpu/gpu_device.cc:779] Peer access not supported between device ordinals 2 and 1 
2017-05-10 15:27:54.362693: I tensorflow/core/common_runtime/gpu/gpu_device.cc:779] Peer access not supported between device ordinals 2 and 3 
2017-05-10 15:27:54.362885: I tensorflow/core/common_runtime/gpu/gpu_device.cc:779] Peer access not supported between device ordinals 3 and 0 
2017-05-10 15:27:54.362927: I tensorflow/core/common_runtime/gpu/gpu_device.cc:779] Peer access not supported between device ordinals 3 and 1 
2017-05-10 15:27:54.362967: I tensorflow/core/common_runtime/gpu/gpu_device.cc:779] Peer access not supported between device ordinals 3 and 2 
2017-05-10 15:27:54.364638: I tensorflow/core/common_runtime/gpu/gpu_device.cc:908] DMA: 0 1 2 3 
2017-05-10 15:27:54.364668: I tensorflow/core/common_runtime/gpu/gpu_device.cc:918] 0: Y N N N 
2017-05-10 15:27:54.364687: I tensorflow/core/common_runtime/gpu/gpu_device.cc:918] 1: N Y N N 
2017-05-10 15:27:54.364702: I tensorflow/core/common_runtime/gpu/gpu_device.cc:918] 2: N N Y N 
2017-05-10 15:27:54.364717: I tensorflow/core/common_runtime/gpu/gpu_device.cc:918] 3: N N N Y 

Répondre

1

Ce message est bénin (il est un message "INFO", pas une erreur). Tout fonctionnera dans Tensorflow, mais peut-être plus lentement que sur un matériel différent qui prend en charge l'accès poste à poste. Le message signifie que le pilote NVIDIA indique que l'accès d'égal à égal n'est pas possible entre vos GPU. Voir: https://developer.nvidia.com/gpudirect pour plus d'informations.

Vous pouvez utiliser la commande

nvidia-smi topo -m 

pour afficher la topologie de bus.

+0

Sous Windows, nvidia-smi topo -m Combinaison d'arguments d'entrée incorrecte. Veuillez lancer 'nvidia-smi -h' pour obtenir de l'aide – empty

+0

@empty et que dit 'nvidia-smi -h'? certains programmes sur Windows prennent des arguments avec des barres obliques plutôt que des tirets. Peut-être que c'est aussi un cas? –

+0

@CiprianTomoiaga nvidia-smi -h donne "NVIDIA System Management Interface - v385.54" plus la liste des options et des drapeaux, dont aucun n'est 'topo'. La liste des options est: dmon, démon, replay, pmon, nvlink, horloges, encodersessions – empty