2010-10-21 5 views
0

Hey les gars, Je veux permettre aux gens de mettre en termes simples de recherche de texte, exécuter un travail de cochon (si c'est mieux? C'est ce que je connais le mieux) et afficher les résultats (les résultats du fichier tsv?) donc je peux leur montrer dans une interface web.Rapports ad hoc Hadoop

Y a-t-il quelque chose qui aborde ce problème? Une chose connue pour relier quelques morceaux disjoints du flux que je vais faire ensemble?

Merci,

Répondre

3

Pourquoi l'index vous pas les documents dans Lucene ou Solr? Ensuite, vous pouvez faire une recherche de texte en temps réel. Hadoop est conçu pour les processus orientés par lots, ce qui ne semble pas être ce que vous voulez dans ce cas.

+0

N'a jamais fait d'index solr. Je suppose que la preuve de concept est le premier pas que je vais faire et la mise en œuvre d'un indice Solr/Lucene pourrait être plus de démarrage que je le fais. – ButtersB

+0

Vraiment? Il pourrait être plus facile d'utiliser Solr pour un POC que d'utiliser Hadoop pour quelque chose pour lequel il n'était pas conçu. – bajafresh4life

1

Eh bien, cela dépend des exigences de votre projet. A-t-il besoin d'une faible latence et de la complexité de la recherche ad hoc? Eh bien, je pense que hbase + pig pourrait être une solution comprise. hbase peut être utilisé pour la recherche en temps réel (bien que sa fonction de recherche ne soit pas aussi puissante que le SGBDR) et pour le traitement par lots d'une grande quantité de données.

Questions connexes