Je commence à travailler avec Hive. Je voulais savoir quelles requêtes doivent utiliser pour chaque format de table entre les formats: rcfile, orcfile, parquet, texte délimitéFormats de fichier Hive avantages et inconvénients
Répondre
lorsque vous avez des tables avec très grand nombre de colonnes et vous avez tendance à utiliser des colonnes spécifiques fréquemment, RC le format de fichier serait un bon choix. Plutôt que de lire la totalité de la ligne de données, vous récupérerez simplement les colonnes requises, ce qui vous fera gagner du temps. Les données sont divisées en groupes de lignes, qui sont ensuite divisés en groupes de colonnes.
Le fichier texte délimité est le format de fichier général.
Pour le format de fichier ORC, consultez la documentation de ruche qui a une description détaillée: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC
stocke les données de format de fichier Parquet sous forme de colonne. par exemple: Col1 Col2 A 1 B 2 C 3
données normale est mémorisée en tant A1B2C3. En utilisant Parquet, les données sont stockées comme ABC123. Pour le format de fichier de parquet, lire https://blog.twitter.com/2013/dremel-made-simple-with-parquet
Je vois qu'il y a quelques réponses mais comme votre question ne demandait pas de formats de fichiers particuliers, les réponses s'adressaient à l'un ou l'autre format de fichier.
Il existe un grand nombre de formats de fichiers que vous pouvez utiliser dans Hive. Les mentions notables sont AVRO, Parquet. RCFile & ORC. Il y a quelques bons documents disponibles en ligne auxquels vous pouvez vous référer si vous voulez comparer les performances et l'utilisation de l'espace de ces formats de fichiers. Suit quelques liens utiles qui vous mèneront.
This link from MapR [They don't discuss Parquet though]
Les liens ci-dessus seront donnés vous aller. J'espère que cette réponse répondra à votre requête.
Merci!
- 1. Avantages et inconvénients du fichier .htc
- 2. Glassfish - Avantages et inconvénients
- 3. Avantages et inconvénients de DotNetNuke?
- 4. Avantages et inconvénients de READ_COMMITTED_SNAPSHOT
- 5. Avantages et inconvénients de CodeSmith
- 6. Avantages et inconvénients de MongoDB?
- 7. Avantages et inconvénients de XCODE4?
- 8. ServiceBus Architecture Avantages et inconvénients
- 9. Push Notification Avantages et inconvénients
- 10. Requêtes nommées Avantages et inconvénients
- 11. Avantages/Inconvénients de Frameworks
- 12. Avantages et inconvénients de DFC et DFS?
- 13. Avantages et inconvénients de la version javadoc
- 14. Avantages et inconvénients de l'utilisation de log4j
- 15. Avantages et inconvénients de la sécurité azure
- 16. Utilisation de WebServiceHostFactory Avantages et inconvénients
- 17. Avantages et inconvénients de la programmation CAS
- 18. Analyseur XML et ses avantages et inconvénients
- 19. Fichiers mappés en mémoire: avantages et inconvénients?
- 20. Avantages et inconvénients avec cache automatisé/manuel
- 21. Programmation sous machine virtuelle - avantages et inconvénients
- 22. Avantages et inconvénients pour CAAnimationGroup vs CAKeyframeAnimation
- 23. Avantages et inconvénients bean vs SSJS?
- 24. différence sélecteur XPath: avantages et les inconvénients
- 25. Annotations vs XML, avantages et inconvénients
- 26. Avantages et inconvénients des réseaux neuronaux
- 27. CCI vs. Mono.Cecil - avantages et inconvénients
- 28. Contenu binaire en XML - Avantages et inconvénients?
- 29. Avantages et inconvénients pour l'incorporation des manifestes
- 30. Doctrine ORM dans CodeIgniter - avantages et inconvénients?