Actuellement, j'apporte à Hadoop environ 10 tables d'un EDW (Enterprise Data Warehouse), ces tables sont étroitement liées à un modèle Star Schema. Je suis Usq Sqoop pour amener toutes ces tables à travers, résultant en 10 répertoires contenant des fichiers CSV.Modélisation des données dans Hadoop
Je suis à la recherche de meilleures façons de stocker ces fichiers avant de supprimer des travaux MR. Devrais-je suivre une sorte de modèle ou construire un agrégat avant de travailler sur des emplois MR? Je regarde essentiellement comment pourrait être un moyen de stocker des données connexes ensemble.
La plupart des choses que j'ai trouvées en cherchant stockent des fichiers csv triviaux et les lisent avec opencsv. Je cherche quelque chose d'un peu plus impliqué et pas seulement pour les fichiers CSV. Si passer à un autre format fonctionne mieux que csv, alors ce n'est pas un problème.
Se résume à: Comment mieux stocker un tas de données connexes dans HDFS pour avoir une bonne expérience avec MR.