2016-11-02 1 views
0

mes collègues et moi envisageons d'acheter un nouveau serveur pour l'apprentissage en profondeur avec SXM2 NVlink etc Parce que son architecture power8 je m'attends à quelques difficultés de construire une pile habituelle sur elle par exemple. docker + tensorflow pour les frameworks d'apprentissage en profondeur. Est-ce que quelqu'un a de l'expérience si la configuration suivante va fonctionner ou dois-je m'attendre à des difficultés/impossibilités?apprentissage en profondeur sur power8 sxm2 nvlink avec ubuntu + p100

  • SXM2 Power8 - 4 x GPU P100 pour NVLINK
  • Os: Ubuntu 14,04/16,04 nu de l'installation de métal
  • manged via le programmateur de SLURM.
  • Cadres profonds d'apprentissage: Caffee et torche, tensorflow (coutume utilisateur construit)

Répondre

1

Pour la configuration décrite ci-dessus, nous avons compris que cela dépend fortement du cas d'utilisation. Alors, voici les résultats. Peut-être que cela aide les autres qui veulent plonger dans ce domaine de haute performance et ne savent pas quelle architecture acheter.

Cas d'utilisation: Notre cas d'utilisation est l'intégration dans l'architecture existante (SLURM) et des services de cloud computing (la plupart du temps x86, par exemple à SSFE). Par conséquent, j'ai parlé à nvidia et ils ont recommandé d'utiliser nvlink (sxm2) sur un x86. Le PCIe couvrira la communication socket standard vers GPU. Le SXM2 prend en charge de manière transparente la communication de la grille GPU. Cela aura l'avantage que la formation sur le GPU est ultra-rapide en déploiement pour x86 reste les mêmes (GPU se connectent également sur PCIe)

Power8 Si l'on veut la pleine puissance Power8 cas d'utilisation serait ici vrais niveaux HPC de la socket au GPU. Cela nécessiterait plus de complexité dans le déploiement. Une fois doit décider sur un niveau de cas d'utilisation (par exemple recherche haut de gamme) si le boost power8 est nécessaire.

Nvidia a un beau papier technique overview paper, expliquant les choses plus en détail.

1

Malheureusement nous n'avons pas beaucoup d'expérience avec les architectures de puissance pour tensorflow, et je l'ai vu aucun rapport de personnes dans la communauté en l'utilisant avec succès, cela peut impliquer un dépannage pour le faire fonctionner.