DirectFileOutputCommitter n'est plus disponible dans Spark 2.2.0. Cela signifie que l'écriture sur S3 prend énormément de temps (3 heures contre 2 minutes). Je suis en mesure de contourner cela en définissant la version FileOutputCommitter à 2 étincelles coquille en faisant cela,Spark 2.2.0 FileOutputCommitter
spark-shell --conf spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2
même ne fonctionne pas avec étincelle sql
spark-sql --conf spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2
La commande ci-dessus semble être la définition de la version = 2 mais quand la requête est exeucted il montre toujours le comportement de la version 1.
Deux questions,
1) Comment puis-je obtenir la version 2 FileOutputCommitter comportement à allumage commandé sql?
2) Est-ce que je peux toujours utiliser DirectFileOutputCommitter dans spark 2.2.0? [Je suis très bien avec la chance non nulle de données manquantes]
Articles connexes:
Spark 1.6 DirectFileOutputCommitter