Comment concevez-vous efficacement une table Hive/Impala en tenant compte des faits suivants?Partitionnement Hadoop. Comment concevez-vous efficacement une table Hive/Impala?
- La table reçoit des données d'outil d'environ 100 millions de lignes tous les jours . La date à laquelle il reçoit les données est stockée dans une colonne dans la table avec son ID d'outil.
- Chaque outil reçoit environ 500 courses par jour qui est identifiée par l'ID de la colonne. Chaque numéro d'exécution contient des données d'environ 1 mb.
- La taille par défaut du bloc est de 64 mb.
- La table peut être recherchée par date, identifiant d'outil et numéro d'identification dans cet ordre.
Qu'avez-vous considéré jusqu'à présent? – dg99
[Bienvenue sur SO!] (Http://stackoverflow.com/help/how-to-ask) s'il vous plaît mettre à jour vos conclusions, sinon la question deviendra trop large! –