2016-03-07 1 views
0

Nous utilisons Hive (version 1.2.1) pour lire avec des tables de type "sql like" sur accumulo (version 1.7.1).Réglages recommandés par Hive on Accumulo

Y at-il des paramètres spéciaux que nous pouvons configurer dans ruche ou quelque part pour gagner notre performance ou la stabilité?

Si nous utilisons la ruche de cette façon, est-il utile d'essayer une indexation de ruche ou d'autres paramètres comme "hive.auto.convert.join" ou cela fonctionne différemment et n'affecte pas vraiment dans ce cas?

Merci!

Répondre

0

Obligatoire: J'ai écrit (la plupart) de l'AccumuloStorageHandler, mais je ne suis en aucun cas un expert Hive. Le plus gros gain que vous pourrez probablement trouver est quand vous pouvez structurer votre requête de telle sorte que vous pouvez élaguer l'espace de ligne (via une déclaration dans la clause WHERE sur la colonne: rowid-mapped) . À ma connaissance, il n'y a pas beaucoup (aucune?) D'optimisation des requêtes qui est poussé vers le bas dans Accumulo lui-même.

En fonction de votre charge de travail, vous pouvez utiliser Hive pour générer vos propres "tables d'index" dans Accumulo. Si vous pouvez créer une table personnalisée dont la colonne que vous souhaitez interroger activement est stockée dans la ligne Accumulo, vos requêtes doivent s'exécuter beaucoup plus rapidement.