2011-08-21 6 views
1

Je suis au courant de Twissandra qui est un exemple de clone de twitter en utilisant Cassandra mais j'étais intéressé de voir si quelqu'un a partagé un schéma de Cassandra de ne pas cloner Twitter, mais d'utiliser pour stocker les tweets provenant de Twitter API de streaming?Apache Cassandra Schéma de données pour Twitter Streaming API

+0

Avez-vous des mises à jour à ce sujet? Venez-vous avec un régime qui vous a été utile? – felipeclopes

+0

J'ai abandonné Cassandra et utilisé HBase à la place d'un schéma personnalisé –

Répondre

6

Cela dépend beaucoup du type de requêtes que vous voulez faire avec les données après l'avoir ingéré - Je vois de votre question précédente "Dumping Twitter Streaming API tweets ..." vous voulez probablement juste faire un gros traitement par lots dessus. Si c'est le cas, vous devez juste vous soucier de l'équilibrage de charge, en vous assurant que chaque nœud du cluster gère 1/n de la charge d'écriture et contient 1/n des données - en utilisant la partition aléatoire et en insérant une ligne par tweets avec l'identifiant d'état comme clé de ligne le permettra. Cependant, si vous voulez faire des requêtes comme "donnez-moi tous les tweets pour un utilisateur donné", vous aurez besoin d'un schéma légèrement plus compliqué, car le schéma suggéré ci-dessus vous demandera d'analyser toutes les données. Vous pouvez insérer plusieurs tweets par ligne, la clé de la ligne étant l'ID utilisateur, la clé de la colonne étant l'ID du tweet et la valeur étant le tweet. Ensuite, vous pouvez utiliser get_slice pour répondre à cette requête.

Un bon blog (peu lié): http://blog.insidesystems.net/basic-time-series-with-cassandra

Questions connexes