étincelle en continu sur EMR et S3 source

amazon-s3
pyspark
emr

2017-04-27 1 views 0 likes

J'essaie d'imprimer un flux en utilisant s3 comme source en utilisant le cahier zeppelin dans EMR.étincelle en continu sur EMR et S3 source

%pyspark 
from pyspark.streaming import StreamingContext 
from pyspark.sql import Row, SparkSession 
ssc = StreamingContext(sc, 45) 
streams=ssc.textFileStream('s3://realtime-nyc-bike/') 
streams.pprint()

Cependant, rien ne s'imprime. Le nom du compartiment est correct. Quel peut être le problème?

Source

2017-04-27 Varun Mallya

Répondre

De Spark documentation en streaming:

Spark streaming définit seulement le calcul de son rendement lors de son démarrage, et aucun réel traitement n'a encore commencé. Pour commencer le traitement après que toutes les transformations aient été configurées, appelez finalement

ssc.start()    // Start the computation 
ssc.awaitTermination() // Wait for the computation to terminate

Source

2017-06-14 19:02:15

étincelle en continu sur EMR et S3 source

Répondre

Questions connexes