Je travaille sur un projet impliquant la surveillance d'un grand nombre de flux rss/atom. Je veux utiliser hbase pour le stockage de données et j'ai quelques problèmes pour concevoir le schéma. Pour la première itération, je veux être en mesure de générer un flux agrégé (les 100 derniers messages de tous les flux dans l'ordre chronologique inverse).Agrégateur de flux utilisant hbase. Comment concevoir le schéma?
Actuellement, je me sers deux tableaux:
Feeds: column families Content and Meta : raw feed stored in Content:raw
Urls: column families Content and Meta : raw post version store in Content:raw and the rest of the data found in RSS stored in Meta
je besoin d'une sorte de table d'index pour l'alimentation agrégée. Comment devrais-je construire cela? Est-ce que hbase est un bon choix pour ce genre d'application?
Mise à jour de la question: Est-il possible (dans hbase) de concevoir un schéma qui pourrait répondre efficacement à des requêtes comme celle ci-dessous?
SELECT data FROM Urls ORDER BY date DESC LIMIT 100