j'ai vu deux morceaux contradictoires de conseils en matière de conception ID de ligne dans HBase, (en particulier, mais je pense qu'il applique à Cassandra aussi.)ID de ligne séquentielle dans les DB axés sur les colonnes (HBase, Cassandra)?
- clés du groupe que vous regroupera des données ensemble souvent pour tirer parti de la localité de données. (Blanc, Hadoop: Le Guide Définitif et je me souviens de l'avoir vu sur le site HBase, mais je ne le trouve pas ...)
- Répartissez les touches de sorte que le travail puisse être réparti sur plusieurs machines (Twitter, Pig, and HBase at Twitter diapo 14)
Je suppose que la solution optimale peut dépendre de votre cas d'utilisation, mais est-ce que quelqu'un a de l'expérience avec l'une ou l'autre stratégie?