2017-04-27 1 views
0

J'essaie d'imprimer un flux en utilisant s3 comme source en utilisant le cahier zeppelin dans EMR.étincelle en continu sur EMR et S3 source

%pyspark 
from pyspark.streaming import StreamingContext 
from pyspark.sql import Row, SparkSession 
ssc = StreamingContext(sc, 45) 
streams=ssc.textFileStream('s3://realtime-nyc-bike/') 
streams.pprint() 

Cependant, rien ne s'imprime. Le nom du compartiment est correct. Quel peut être le problème?

Répondre

0

De Spark documentation en streaming:

Spark streaming définit seulement le calcul de son rendement lors de son démarrage, et aucun réel traitement n'a encore commencé. Pour commencer le traitement après que toutes les transformations aient été configurées, appelez finalement

ssc.start()    // Start the computation 
ssc.awaitTermination() // Wait for the computation to terminate