J'ai un index Lucene que je voudrais itérer (pour l'évaluation ponctuelle au stade actuel du développement) J'ai 4 documents avec chacun quelques centaines de milliers jusqu'à des millions d'entrées, que je veux itérer pour compter le nombre de mots pour chaque entrée (~ 2-10) et calculer la distribution de fréquence.Lucene: Itérer toutes les entrées
Ce que je fais en ce moment est la suivante:
for (int i = 0; i < reader.maxDoc(); i++) {
if (reader.isDeleted(i))
continue;
Document doc = reader.document(i);
Field text = doc.getField("myDocName#1");
String content = text.stringValue();
int wordLen = countNumberOfWords(content);
//store
}
Jusqu'à présent, il est quelque chose itération. Le débogage confirme qu'il fonctionne au moins sur les termes stockés dans le document, mais pour une raison quelconque, il ne traite qu'une petite partie des termes stockés. Je me demande ce que je fais mal? Je veux simplement parcourir tous les documents et tout ce qui y est stocké?