2017-10-11 2 views
1

J'ai décidé d'utiliser Google Cloud Datalab pour un petit projet sur lequel je travaille plutôt qu'un Jupyter Notebook dans un environnement Anaconda sur une instance AWS.Datalab - comment installer et conserver les paquets

Comment puis-je installer un package (par exemple OpenCV) sur la machine virtuelle Datalab pour ne pas avoir à le réinstaller à chaque redémarrage de ma machine virtuelle? Pourquoi les paquets disparaissent-ils après chaque redémarrage mais les blocs-notes mis à jour restent persistants? Toute aide répondant à ces questions et clarifiant le fonctionnement de la VM Datalab serait très utile.

Répondre

2

Les blocs-notes sont stockés dans un montage de volume docker qui représente un emplacement sur le disque persistant maintenu entre les redémarrages de la machine virtuelle.

Les packages que vous installez sont toutefois stockés dans le conteneur en cours d'exécution et donc perdus à chaque redémarrage.

Vous pouvez créer une image docker personnalisée et l'utiliser à la place. Sur la commande datalab create, voir l'argument --image-name.

Voici un exemple d'un Dockerfile vous souhaitez utiliser:

FROM gcr.io/cloud-datalab/datalab:latest 
RUN pip install opencv 

Notez que vous aurez besoin de construire l'image docker en utilisant ce fichier docker et appuyez sur l'image pour conteneur Google Registre. Ma mémoire est un peu floue à ce sujet, mais il est possible que cette image soit marquée comme publique.

Espérons que ça aide!

+1

Merci, Nikhil! Cela étant dit, j'ai du mal à voir les avantages de l'utilisation de Datalab par opposition à l'installation de Conda sur une machine virtuelle Compute Engine et à l'exécution des ordinateurs portables Jupyter. De cette façon, je pourrais facilement installer de nouveaux paquets et les garder sur l'instance de manière persistante. Je ne comprends toujours pas pourquoi je voudrais utiliser Datalab dans ce cas? J'ai lu la documentation, mais ce n'est toujours pas clair. – haroon7