2014-04-21 6 views

Répondre

1

lorsque vous avez des tables avec très grand nombre de colonnes et vous avez tendance à utiliser des colonnes spécifiques fréquemment, RC le format de fichier serait un bon choix. Plutôt que de lire la totalité de la ligne de données, vous récupérerez simplement les colonnes requises, ce qui vous fera gagner du temps. Les données sont divisées en groupes de lignes, qui sont ensuite divisés en groupes de colonnes.

Le fichier texte délimité est le format de fichier général.

1

Pour le format de fichier ORC, consultez la documentation de ruche qui a une description détaillée: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC

stocke les données de format de fichier Parquet sous forme de colonne. par exemple: Col1 Col2 A 1 B 2 C 3

données normale est mémorisée en tant A1B2C3. En utilisant Parquet, les données sont stockées comme ABC123. Pour le format de fichier de parquet, lire https://blog.twitter.com/2013/dremel-made-simple-with-parquet

1

Je vois qu'il y a quelques réponses mais comme votre question ne demandait pas de formats de fichiers particuliers, les réponses s'adressaient à l'un ou l'autre format de fichier.

Il existe un grand nombre de formats de fichiers que vous pouvez utiliser dans Hive. Les mentions notables sont AVRO, Parquet. RCFile & ORC. Il y a quelques bons documents disponibles en ligne auxquels vous pouvez vous référer si vous voulez comparer les performances et l'utilisation de l'espace de ces formats de fichiers. Suit quelques liens utiles qui vous mèneront.

This Blog Post

This link from MapR [They don't discuss Parquet though]

This link from Inquidia

Les liens ci-dessus seront donnés vous aller. J'espère que cette réponse répondra à votre requête.

Merci!

Questions connexes