J'essaie d'indexer environ 3 millions de documents texte dans solr. Environ 1/3 de ces fichiers sont des emails qui contiennent environ 1 à 5 paragraphes de texte. Les fichiers 2/3 restants n'ont que quelques mots à chaque phrase.Optimisation de Lucid/Solr pour indexer de gros documents texte
Il faut près de 1 heure à Lucid/Solr pour indexer complètement l'ensemble de données complet avec lequel je travaille. J'essaie de trouver des façons d'optimiser cela. J'ai installé Lucid/Solr pour ne valider que tous les 100 000 fichiers, et il indexe les fichiers en lots de 50 000 fichiers à la fois. La mémoire n'est plus un problème, car il reste constamment autour de 1 Go de mémoire en raison du traitement par lots.
L'intégralité de l'ensemble de données doit être indexée initialement. C'est comme un système hérité qui doit être chargé sur un nouveau système, les données doivent donc être indexées et doivent être aussi rapides que possible, mais je ne suis pas certain des domaines à examiner pour optimiser cette période. Je pense que peut-être il y a beaucoup de petits mots comme "the, a, because, should, if, ..." qui causent beaucoup de frais généraux et ne sont que des mots "bruit". Je suis curieux si je les découpe si cela accélérerait considérablement le temps d'indexation. J'ai regardé les docs Lucid pendant un moment, mais je n'arrive pas à trouver un moyen de spécifier quels mots ne pas indexer. Je suis tombé sur le terme «liste d'arrêt» mais je n'ai pas vu beaucoup plus qu'une référence en passant.
Existe-t-il d'autres moyens de rendre cette indexation plus rapide ou suis-je simplement bloqué avec une heure d'indexation?
merci pour la réponse. Avez-vous des chiffres pour votre analyse comparative qui compare les temps de l'indice de solr aux temps de l'indice sphinx? Vous vous demandez si cela vaut vraiment la peine d'étudier l'accélération des temps d'indexation. Alors que les temps d'index sont importants pour mon application, je dois utiliser solr pour d'autres raisons. –