Je voulais convertir des données avro d'un jour (~ 2 To) en parquet.Hive Augmentation considérable de la taille des données depuis la conversion d'avro en parquet
J'ai exécuté une requête Hive et les données ont été converties en parquet.
Mais la taille des données est passée à 6 To.
Qu'est-ce qui se serait passé que les données soient devenues trois fois plus grandes?
Avez-vous défini un codec de compression spécifique pour votre table de parquets? AFAIK il utilise Snappy par défaut - pas cher sur le CPU mais pas très efficace sur le disque ... –
Avez-vous essayé ORC au lieu de Parquet? * (le codec de compression par défaut est GZip, vous pouvez passer à Snappy ou None) * –
J'ai oublié de définir la propriété pour la compression. Peut-être que ce n'est pas compressé par défaut. – user2942227