2011-08-03 5 views
8

Est-ce que Lucene est capable d'indexer des documents texte 500M de 50K chacun? Quelles performances peut-on attendre d'un tel index, pour une recherche à un seul terme et pour une recherche à 10 termes?Lucene - est-ce la bonne réponse pour l'indice énorme?

Dois-je m'inquiéter et passer directement à l'environnement d'index distribué?

Saar

Répondre

7

Oui, Lucene devrait être en mesure de gérer cela, selon l'article suivant: http://www.lucidimagination.com/content/scaling-lucene-and-solr

Voici une citation:

En fonction d'une multitude de facteurs, un seul La machine peut facilement héberger un index Lucene/Solr de 5 à 80 millions de documents, tandis qu'une solution distribuée peut fournir des temps de réponse de recherche inférieurs à des milliards de documents.

L'article s'intéresse à la mise à l'échelle de plusieurs serveurs. Vous pouvez donc commencer petit et redimensionner si nécessaire.

Une grande ressource sur la performance de Lucene est le blog de Mike McCandless, qui participe activement au développement de Lucene: http://blog.mikemccandless.com/ Il utilise souvent le contenu de Wikipedia (25 Go) en entrée de test pour Lucene.

En outre, il pourrait être intéressant que la recherche en temps réel de Twitter est maintenant implémentée avec Lucene (voir http://engineering.twitter.com/2010/10/twitters-new-search-architecture.html). Cependant, je me demande si les chiffres que vous avez fournis sont corrects: 500 millions de documents x 50 Ko = ~ 23 To - Avez-vous vraiment autant de données?

+0

Peut-être passer directement à ElasticSearch, qui est essentiellement une solution distribuée Lucene – RobAu

+0

L'article n'est pas clair sur le fait que l'application Lucene normale soit réellement adaptée à la charge. L'auteur continue d'utiliser Lucene/Solr. Donc dans ce cas, comme dans le cas d'Elasticsearch où la structure sous-jacente est un indice Lucene, pouvons-nous dire que l'hypothèse selon laquelle Lucene est le bon choix pour manipuler un indice énorme est vraie? – eliasah

+0

Que ce soit Solr ou ES, ils sont tous les deux des indices Lucene distribués. Donc, en fait, le niveau d'abstraction plus élevé donné par ces deux cadres rend Lucène digne d'un énorme indice. – eliasah

Questions connexes