Voici les étapes que j'ai prises jusqu'à présent:correctement la configuration PySpark et Anaconda3 sur Linux
- J'ai installé Anaconda3 et tout inclus dans le répertoire
$HOME/anaconda3/bin
. - J'ai cédé dans
$HOME/anaconda3/bin
et a couru la commande./conda install -c conda-forge pyspark
. C'était réussi. - Je n'ai rien fait d'autre. Plus précisément, il n'y a pas de variables sur mon
.bashrc
Voici quelques détails importants:
- Je suis sur un cluster distribué en cours d'exécution Hadoop, donc il pourrait y avoir d'autres répertoires en dehors de mon dossier que Je dois encore découvrir mais je pourrais avoir besoin. Je n'ai pas non plus d'accès administrateur.
- L'ordinateur portable Jupyter fonctionne très bien.
Voici mon objectif:
but. Pour faire quelque chose dans le sens de l'ajout de variables ou de la configuration de certains fichiers afin que je puisse exécuter pyspark sur Jupyter Notebook.
Quelles sont les autres étapes que je dois suivre après l'étape 3 pour atteindre cet objectif?
Si vous souhaitez utiliser des modules installés dans Anaconda dans un ordinateur portable Jupyter, alors votre meilleur pari est de lancer Jupyter lui-même sur votre Anaconda. –
Comment ferais-je cela? –
Je ne suis pas suffisamment familier avec Jupyter pour dire avec certitude. Cela peut être aussi simple que de s'assurer que le répertoire bin/Anaconda est au début de votre chemin. Cela pourrait nécessiter l'installation de votre propre copie de Jupyter dans votre Anaconda. Il y a d'autres possibilités. –