Spark 2.2.0 FileOutputCommitter

DirectFileOutputCommitter n'est plus disponible dans Spark 2.2.0. Cela signifie que l'écriture sur S3 prend énormément de temps (3 heures contre 2 minutes). Je suis en mesure de contourner cela en définissant la version FileOutputCommitter à 2 étincelles coquille en faisant cela,Spark 2.2.0 FileOutputCommitter

spark-shell --conf spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2

même ne fonctionne pas avec étincelle sql

spark-sql --conf spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2

La commande ci-dessus semble être la définition de la version = 2 mais quand la requête est exeucted il montre toujours le comportement de la version 1.

Deux questions,

1) Comment puis-je obtenir la version 2 FileOutputCommitter comportement à allumage commandé sql?

2) Est-ce que je peux toujours utiliser DirectFileOutputCommitter dans spark 2.2.0? [Je suis très bien avec la chance non nulle de données manquantes]

Spark 2.2.0 FileOutputCommitter

Répondre

Questions connexes