2011-06-01 5 views
3

Nous exécutons Solr sur une instance Amazon Web Services EC2 avec un volume EBS de 1 To pour stocker l'index afin que nous puissions facilement lancer des serveurs supplémentaires avec le même index (en lecture seule). Cependant, notre index va bientôt dépasser 1TB, et je ne veux pas vraiment traiter le striping de plusieurs volumes EBS pour contenir l'indice. En outre, la régénération de l'index est très lente. Je voudrais déplacer la génération d'index - et peut-être l'hébergement - vers Hadoop, et de préférence vers Elastic MapReduce d'Amazon, bien que je puisse configurer des serveurs Hadoop distincts si nécessaire. Nous utilisons RightScale, donc leur bibliothèque de ServerTemplates est disponible pour nous.Quelle est la meilleure façon d'exécuter Lucene/Solr sur Hadoop?

Quel serait le meilleur endroit pour commencer à utiliser Lucene/Solr sur Hadoop?

+0

Avez-vous regardé Katta (http://katta.sourceforge.net/)? Il fournit les moyens de partitionner et de distribuer les indones Lucene. –

+0

Je voudrais vraiment que ma création d'index soit accélérée, pas seulement la livraison. Il semble que Katta aiderait avec la livraison, mais pas avec la création? –

Répondre

1

Jetez un coup d'oeil à ElasticSearch. Vous pouvez indexer à ElasticSearch à partir de Hadoop pour le chargement en bloc. Infochimps a ouvert un indexeur de masse ElasticSearch appelé Wonderdog que vous pouvez consulter pour une preuve de concept.

https://github.com/infochimps/wonderdog http://www.elasticsearch.com

Il est nuage convivial (voir plugin nuage Aws pour la découverte), et peut évoluer vers le haut/vers le bas en ajoutant des nœuds pour maintenir l'indice.

1

Votre index est-il partitionné? Vous pouvez partitionner l'index et distribuer des fragments sur plusieurs instances.

Questions connexes