J'utilise fastparquet pour convertir des fichiers de données pandas en fichiers de parquet. C'est beaucoup plus rapide que mon approche précédente qui utilisait pyspark.fastparquet: comment désactiver le codage rle
Je veux lire ces fichiers à l'aide parquet étincelle à savoir
sqlCtx.read.parquet('/tmp/parquet/test.parquet')
J'ai eu quelques problèmes que je réussi à résoudre. Le problème que j'ai maintenant est avec le codage RLE. Je reçois l'exception java suivante lorsque je tente de lire le fichier parquet avec pyspark:
Unsupported encoding: RLE
est-il un moyen de désactiver RLE lorsque vous utilisez la méthode fastparquet write
?