Cassandra pour le stockage de documents

Je dirige actuellement un projet où nous devons stocker chaque année 40 milliards de documents (PDF, TIFF) pour environ 200 millions de comptes et je me demandais s'il était possible d'utiliser Cassandra pour cela? ceci est principalement dû à l'évolutivité, à la stabilité et à l'utilisation de plusieurs centres de données dans la conception de Cassandra.Cassandra pour le stockage de documents

Mais je me demande si c'est une bonne idée d'utiliser Cassandra pour cela - ou est-ce qu'une autre alternative comme CouchDB serait une meilleure option? Juste une note, nous n'avons pas besoin de recherche de texte complet dans les documents et pour chaque document il y aura seulement une limite de métadonnées attachées à chaque - comme la date, l'heure, l'origine, le propriétaire et l'ID unique, plus quelques mots clés. L'accès aux documents se fera normalement par le biais d'une requête sur l'identifiant du propriétaire et, à partir de là, choisira le document requis par l'origine et éventuellement la date/l'heure. Donc rien d'extraordinaire.

Merci pour vos commentaires à ce sujet.

Source

2011-09-22 MikeMike

Juste quelques pensées:

Vous pouvez également envisager un système de fichiers distribué tels que HDFS. 4012 par an est de 1361 par seconde - Cassandra peut gérer ce type de charge d'écriture, en supposant que les documents sont de taille modeste et pas tous les énormes fichiers multi-mégaoctets.

Quel type de charge de lecture prévoyez-vous?

Les documents seront-ils conservés pour toujours, soit 40 milliards de dollars par an, sans limite de temps?

Si un document est de 100 Ko (disons), cela représente 4 pétaoctets par an, je pense? Je n'ai pas entendu parler d'une grappe de Cassandra aussi grande - cela vaut la peine de demander sur le Cassandra mailing list (avec des chiffres réalistes plutôt que mes suppositions!). J'ai entendu dire qu'un nœud Cassandra peut généralement gérer 1 To sous une charge lourde, peut-être 10 To sous une charge légère. C'est donc au moins un cluster de 400 nœuds pour la première année, peut-être beaucoup plus, surtout si vous voulez une réplication.

This page donne des chiffres de 2009 pour les capacités HDFS - 14 pétaoctets (60 millions de fichiers) en utilisant 4000 nœuds, plus beaucoup d'autres détails intéressants (par exemple les nœuds de nom nécessitant 60 Go de RAM).

Source

2011-09-22 14:05:51 DNA

Cassandra pour le stockage de documents

Répondre

Questions connexes