2017-10-13 16 views
0

Voici les étapes que j'ai prises jusqu'à présent:correctement la configuration PySpark et Anaconda3 sur Linux

  1. J'ai installé Anaconda3 et tout inclus dans le répertoire $HOME/anaconda3/bin.
  2. J'ai cédé dans $HOME/anaconda3/bin et a couru la commande ./conda install -c conda-forge pyspark. C'était réussi.
  3. Je n'ai rien fait d'autre. Plus précisément, il n'y a pas de variables sur mon .bashrc

Voici quelques détails importants:

  • Je suis sur un cluster distribué en cours d'exécution Hadoop, donc il pourrait y avoir d'autres répertoires en dehors de mon dossier que Je dois encore découvrir mais je pourrais avoir besoin. Je n'ai pas non plus d'accès administrateur.
  • L'ordinateur portable Jupyter fonctionne très bien.

Voici mon objectif:

but. Pour faire quelque chose dans le sens de l'ajout de variables ou de la configuration de certains fichiers afin que je puisse exécuter pyspark sur Jupyter Notebook.

Quelles sont les autres étapes que je dois suivre après l'étape 3 pour atteindre cet objectif?

+0

Si vous souhaitez utiliser des modules installés dans Anaconda dans un ordinateur portable Jupyter, alors votre meilleur pari est de lancer Jupyter lui-même sur votre Anaconda. –

+0

Comment ferais-je cela? –

+0

Je ne suis pas suffisamment familier avec Jupyter pour dire avec certitude. Cela peut être aussi simple que de s'assurer que le répertoire bin/Anaconda est au début de votre chemin. Cela pourrait nécessiter l'installation de votre propre copie de Jupyter dans votre Anaconda. Il y a d'autres possibilités. –

Répondre

0

Puisque vous avez installé pyspark avec conda, et comme vous le dites ordinateur portable Jupyter fonctionne bien (probablement pour la même distribution Anaconda), il n'y a pas d'autres mesures nécessaires - vous devriez être en mesure d'ouvrir un nouveau bloc-notes et import pyspark.

Notez cependant que l'installation de pyspark de cette façon (c'est-à-dire avec pip ou conda) ne donne qu'une fonctionnalité limitée; de l'emballage docs:

L'emballage Python Spark ne vise pas à remplacer tous les autres cas d'utilisation . Cette version empaquetée Python de Spark est compatible avec interagissant avec un cluster existant (que ce soit Spark autonome, YARN ou Mesos) - mais ne contient pas les outils requis pour configurer votre propre cluster Spark . Vous pouvez télécharger la version complète de Spark depuis la page de téléchargement d'Apache Spark.

Installation pyspark avec pip ou conda est une add-on relativement récente, qui vise les cas décrits dans les documents ci-dessus. Je ne sais pas à quelles limites vous pouvez faire face (je ne l'ai jamais essayé) mais si vous avez besoin de toutes les fonctionnalités, vous devez télécharger la distribution complète de Spark (dont pyspark fait partie intégrante).