2017-06-16 2 views
1

J'ai installé DC/OS 1.9 sur ma propre VM trois, tous les nœuds n'ont pas de ressources GPU, et le nœud esclave/esclave-public a démarré avec succès. Dans un esclave LOGGUE ci-dessous montre:gpu/nvidia isolation en dc/os

Jun 15 04:43:28 localhost.localdomain mesos-agent[31752]: E0615 04:43:28.488627 31752 containerizer.cpp:335] Cannot create the Nvidia GPU isolator: NVML is not available 
Jun 15 04:43:28 localhost.localdomain mesos-agent[31752]: 2017-06-15 04:43:28,494:31752(0x7f9291dd8700):[email protected][email protected]: Client environment:zookeeper.version=zookeeper C client 3.4.8 
..... 
Jun 15 04:43:28 localhost.localdomain mesos-agent[31752]: I0615 04:43:28.495215 31752 slave.cpp:211] Mesos agent started on (1)@192.168.3.72:5051 

Dans mon autre environnement de test dont la version mesos est 1.0.1, je commence un esclave mesos (le noeud n'a pas non plus de ressources GPU) avec « cgroups/dispositifs, gpu/nvidia ", mais il a échoué à démarrer. Les journaux indiquent:

Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin linker-start-agent.sh[25300]: Failed to create a containerizer: Could not create MesosContainerizer: Failed to create isolator 'gpu/nvidia': Cannot create the Nvidia GPU isolator: NVML is not available 
Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin systemd[1]: dcos-mesos-slave.service: main process exited, code=exited, status=1/FAILURE 
Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin systemd[1]: Unit dcos-mesos-slave.service entered failed state. 
Jun 15 09:29:39 w-388965952-ClusterTest-sysadmin systemd[1]: dcos-mesos-slave.service failed. 

Je veux savoir: Est-ce qu'un nœud sans ressources GPU peut commencer mesos-Salve avec isolation gpu/nvidia? Si oui, comment?

Répondre

2

Le comportement ici pour DC/OS est légèrement différent de celui dans Mesilla vanille.

  • Avec Mesos vanille, l'agent refusera de démarrer si vous activez l'isolateur gpu/nvidia mais NVML n'est pas installé. Avec DC/OS, l'agent émet un message d'avertissement si NVML n'est pas installé (l'isolateur gpu/nvidia est toujours activé).

Note: la dépendance est sur les bibliothèques NVML, et non pas les ressources GPU réels. Si NVML est installé mais qu'aucun GPU n'est trouvé sur la boîte, l'agent ne manquera pas de démarrer avec l'isolateur gpu/nvidia activé.

+1

C'est là que cette différence vient de: https://github.com/mesosphere/mesos/commit/13783195d6ea8e34f528022cd13a5dba4bd32c62 – Till

+0

Je l'ai eu! Merci beaucoup! –