2016-02-12 2 views
0

Folks,Nombre de SSTtable pour une famille de colonnes donnée

Nous essayions d'évaluer CASSANDRA pour l'une des applications de production. Nous avons eu quelques questions de base que nous aimerions comprendre avant d'aller de l'avant.

ECRITURE:

Cassandra utilise un mécanisme hashage cohérent pour répartir uniformément sur clé nœuds. Donc, certaines clés seront disponibles sur certains nœuds Cassandra.

Nous avons également compris qu'il y aura une structure interne de SSTTable créée pour stocker ces données dans le nœud.

LIRE:

Lors de l'exécution d'un client de lecture envoie la demande à un nœud de cluster Cassandra et basé sur Cassandra hashage cohérent déterminera où la clé est située sur quel nœud.

Les choses suivantes ne sont pas claires.

1) Combien de SSTTables sont créés pour la famille espace clé/colonne donnée sur un nœud (est-il un nombre fixe ou seulement 1)

2) le document Cassandra décrit qu'il existe un filtre à balai (alternative à la norme hachage) qui est utilisé pour déterminer si la clé donnée est présente dans le SSTtable ou non (Que s'il y a 1000 tables SST, il y aura 1000 filtre bloom qui sera vérifié pour déterminer si la clé est présente ou non.)

Répondre

0

1) Le nombre de sstables dépend de la stratégie de compactage et de la charge. Pour avoir une idée, consultez log structured merge trees pour avoir une compréhension de base, puis regardez les différentes stratégies de compactage (taille à plusieurs niveaux, niveau, date à plusieurs niveaux).

2) Oui, il y a 1 filtre bloom par sstable pour donner une appartenance probabiliste à une partition existant dans ce sstable. La taille du filtre bloom dépend du nombre de partitions et du pourcentage de faux positifs cible. Ils sont tenus en tas et sont généralement de petite taille, donc moins un souci aujourd'hui que des versions antérieures.

La vérification des papiers de la dynamo et de la grande table peut aider à comprendre les principes qui sous-tendent le regroupement et le stockage. Il y a beaucoup de ressources gratuites sur le chemin de lecture/écriture et trop pour aller complètement dans une question de débordement de pile, donc je recommanderais de passer par un peu de matériel au datastax academy ou quelques présentations sur youtube.