J'utilise Apache Parquet sur Hadoop et après un moment, j'ai une préoccupation. Quand je crée des parquets dans Spark sur Hadoop, ça peut être assez compliqué. Quand je dis désordonné, je veux dire que le travail Spark génère une grande quantité de fichiers parquet. Quand j'essaie de les interroger, je suis confronté à une requête de grande taille parce que Spark fusionne tous les fichiers ensemble.Comment faire face à un grand nombre de fichiers parquet
Pouvez-vous me montrer la bonne façon d'y faire face, ou peut-être que je ne les utilise pas correctement? L'avez-vous déjà traité et comment l'avez-vous résolu?
MISE À JOUR 1: Y a-t-il un "travail de côté" pour fusionner ces fichiers dans un seul parquet? Quelle taille de fichiers parquet est préférable d'utiliser, certaines limites haut et bas?
Si ces fichiers sont vides ou si la taille est petite <15mb, vous devez en effet répartir les données mais dans tous les cas, nous ne pouvons pas vous donner une réponse exacte avec les informations fournies. S'il vous plaît lire sur la façon de poser des questions sur SO https://stackoverflow.com/help/how-to-ask! – eliasah
Il existe également un utilitaire shell appelé 'parquet-tools' que vous pouvez utiliser, mais le repartitionnement devrait le faire pour vous. – philantrovert