Je suis en train de créer une tâche aws datapipeline qui va créer un cluster EMR et exécuter un simple programme spark de wordcount.py. J'ai utilisé la définition de datapipeline où les étapes est simple:Comment ajouter une étape d'étincelle python dans EMR?
"myEmrStep": "s3://test/wordcount.py,s3://test/data/abc.txt,s3://test/output/outfile5/",
Maintenant, quand je la tâche activer, je reçois une erreur comme:
Exception dans le thread "principal" java.io.IOException: erreur pot de travail d'ouverture: /mnt/var/lib/hadoop/steps/s-187JR8H3XT8N7/wordcount.py à org.apache.hadoop.util.RunJar.run (RunJar.java:160) à org.apache. hadoop.util.RunJar.main (RunJar.java:136) Causé par: java.util.zip.ZipException: erreur dans l'ouverture du fichier zip au java.util.zip.ZipFile.open (Nativ Procédé e) à java.util.zip.ZipFile. (ZipFile.java:215) à
semble que les étapes tente d'exécuter le programme en utilisant java au lieu du python. Toute idée, s'il vous plaît.
Merci.