0

Je suis nouveau sur Apache Spark et j'ai fait un projet lié à l'analyse des sentiments sur les données de Twitter qui implique le streaming d'étincelles et l'intégration de kafka. J'ai suivi le code GitHub (lien ci-dessous)Spark streaming et intégration Kafka

https://github.com/sridharswamy/Twitter-Sentiment-Analysis-Using-Spark-Streaming-And-Kafka Cependant, dans la dernière étape, qui est au cours de l'intégration de Kafka avec Apache Spark, les erreurs suivantes ont été obtenues

py4j.protocol.Py4JError: An error occurred while calling o24.createDirectStreamWithoutMessageHandler. Trace: 
py4j.Py4JException: Method createDirectStreamWithoutMessageHandler([class org.apache.spark.streaming.api.java.JavaStreamingContext, class java.util.HashMap, class java.util.HashSet, class java.util.HashMap]) does not exist 
    at py4j.reflection.ReflectionEngine.getMethod(ReflectionEngine.java:318) 
    at py4j.reflection.ReflectionEngine.getMethod(ReflectionEngine.java:326) 
    at py4j.Gateway.invoke(Gateway.java:272) 
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132) 
    at py4j.commands.CallCommand.execute(CallCommand.java:79) 
    at py4j.GatewayConnection.run(GatewayConnection.java:214) 
    at java.lang.Thread.run(Thread.java:745) 

Commande utilisée : bin/spark-submit --packages org.apache.spark:spark-streaming-kafka_2.10:1.5.1 twitterStream.py

Apache version Spark: spark-2.1.0-bin-hadoop2.4

Version Kafka: kafka_2.11-0.10.1.1

Je n'ai pas été en mesure de déboguer cela et toute aide serait très appréciée.

Répondre

0

L'exemple que vous essayez d'exécuter est conçu pour s'exécuter en étincelle 1.5. Vous devez soit télécharger spark 1.5 ou exécuter le spark-submit à partir de spark 2.1.0 mais avec le paquet kafka lié à 2.1.0, par exemple: ./bin/spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.1.0.

+0

Salut merci! Ça a marché comme sur des roulettes. –