Je voudrais utiliser Spyder avec pyspark (spark-2.1.1) mais je ne peux pas corriger une erreur Java plutôt frustrante. Je lance spyder à partir de la ligne de commande dans Windows 10 après l'activation d'un environnement de conda (la version de Python est 3.5.3). Ceci est mon code:Pyspark: la définition de SparkContext dans Spyder déclenche une erreur de passerelle Java
import pyspark
sc = pyspark.SparkContext("local")
file = sc.textFile("C:/test.log")
words = file.flatMap(lambda line : line.split(" "))
words.count()
Lorsque je tente de définir sc
i l'erreur suivante:
File "D:\spark-2.1.1-bin-hadoop2.7\python\pyspark\java_gateway.py", line 95, in launch_gateway
raise Exception("Java gateway process exited before sending the driver its port number")
Exception: Java gateway process exited before sending the driver its port number
Par souci d'exhaustivité:
si je lance
pyspark
de la ligne de commande après l'activation de l'environnement conda, il fonctionne et effectue correctement la tâche de compte de mots.Si je lance Spyder Desktop App à partir du menu Démarrer de Windows 10, tout fonctionne (mais je pense que je ne peux pas charger les modules python droit de mon environnement Conda dans ce cas).
Les variables d'environnement connexes semblent être ok:
echo% SPARK_HOME%
D: \ étincelle-2.1.1-bin-hadoop2.7
echo% JAVA_HOME%
C: \ Java \ jdk1.8.0_121
echo% PYTHONPATH%
D: \ spark-2.1.1-bin-hadoop2.7 \ python; D: \ étinc-2.1.1-bin-hadoop2.7 \ python \ lib \ py4j-0.10.4-src.zip; D: \ spark-2.1.1-bin-hadoop2.7 \ python \ lib; C: \ Users \ user \ Anaconda3
J'ai déjà essayé les solutions proposées here, mais rien ne fonctionnait pour moi. Toute suggestion est grandement appréciée!
Salut @ChiaraM Pouvez-vous s'il vous plaît laissez-moi savoir en détail votre premier point.Désolé que je suis nouveau à pyspark et essayant de faire la même chose que vous avez mais a rencontré la même erreur que vous avez. – JKC