je stocke dans l'index de Lucene ngrams jusqu'au niveau 3. Quand je lis l'index et le calcul notation des termes et ngrams j'obtenir des résultats comme celui-ciFréquences de unigrammes Lucene et bigrams
TERM FREQUENCY.... TFIDF
minority 25 16.512926
minority report 24 16.179296
report 27 13.559037
cruise 12 11.440491
tom cruise 7 8.737819
Donc, si nous regardons l'exemple de "tom cruise", ensemble comme bigram il se produit 7 fois. Et à partir de cela, nous voyons que "croisière" se produit seul 5 fois. Donc, je ne veux pas de cette duplication de fréquence, parce que "croisière" seul a mieux marqué que "tom cruise", ce qui n'est pas vrai, car il est contenu à l'intérieur.
Désolé si j'explique mal je ne sais pas comment appeler ce type de notation, si quelqu'un sait pour expliquer ces mots techniques, s'il vous plaît modifier.
Merci
Merci beaucoup pour les conseils. Je suis allé pour le Kea, mais semble offrir plus de vocabulaires contrôlés spécifiques au domaine, mais de la page Kea j'ai lu à propos de Maui qui fait la même chose avec des fonctionnalités supplémentaires. http://code.google.com/p/maui-indexer/ Je vois que les résultats que je reçois sont très bons! Cependant, je vais creuser maintenant essayer de voir exactement les détails de l'algorithme et des calculs de notation .. Merci! – Julia