Obtenir mot de Résultats de recherche (nombre d'occurences) par document Lucene

Quelqu'un peut-il me suggérer la meilleure façon d'obtenir Hits (pas d'occurrences) d'un mot par document Lucene? ..Obtenir mot de Résultats de recherche (nombre d'occurences) par document Lucene

Source

2009-12-17 John

lucene java, ou lucene .net? – skaffman

SpanTermQuery.getSpans donnera une énumération des documents et où les termes apparaissent. Les documents sont triés, de sorte que vous pouvez simplement compter le nombre de fois que chaque document apparaît, en ignorant les informations de position.

Source

2009-12-18 02:33:43

Lucene utilise un index basé sur un champ plutôt que sur un document. Afin d'obtenir compte à terme par document:

itérer sur des documents en utilisant IndexReader.document() et isDeleted().
Dans le document d, parcourez les champs en utilisant Document.getFields().
Pour chaque champ f, obtenez des termes en utilisant getTermFreqVector().
Passez en revue le terme vecteur et les fréquences de somme par termes.
La somme des fréquences de termes par champ vous donnera le vecteur de fréquence de terme du document.

Source

2009-12-21 11:26:50

+1. Vous devrez peut-être considérer les transformations radicales et autres que le texte a subies. Par exemple, si vous avez recherché le mot «beauté» sur un champ en colonnes, le terme réel de l'index serait «beauti». –

Obtenir mot de Résultats de recherche (nombre d'occurences) par document Lucene

Répondre

Questions connexes