2010-08-27 7 views
0

je stocke dans l'index de Lucene ngrams jusqu'au niveau 3. Quand je lis l'index et le calcul notation des termes et ngrams j'obtenir des résultats comme celui-ciFréquences de unigrammes Lucene et bigrams

TERM    FREQUENCY....  TFIDF 
minority   25   16.512926 
minority report 24   16.179296 
report   27   13.559037 
cruise   12   11.440491 
tom cruise  7   8.737819 

Donc, si nous regardons l'exemple de "tom cruise", ensemble comme bigram il se produit 7 fois. Et à partir de cela, nous voyons que "croisière" se produit seul 5 fois. Donc, je ne veux pas de cette duplication de fréquence, parce que "croisière" seul a mieux marqué que "tom cruise", ce qui n'est pas vrai, car il est contenu à l'intérieur.

Désolé si j'explique mal je ne sais pas comment appeler ce type de notation, si quelqu'un sait pour expliquer ces mots techniques, s'il vous plaît modifier.

Merci

Répondre

3

Je crois avoir répondu à une question similaire que vous avez demandé il y a un certain temps. IIUC, vous voulez que les termes les plus importants se démarquent, et vous sentez que "tom cruise" est plus important que "cruise".

Cela ressemble à un problème dans votre modèle de données. TFIDF semble avoir tort pour ce que vous voulez. Vous pouvez essayer de créer un modèle de langage, comme décrit dans Peter Norvig's "Beautiful Data" chapter.

L'essentiel est:

  • Calculer une probabilité pour chaque Unigram bigramme et trigramme (vous aurez besoin de lissage ou à dévissage expliqué dans le document).
  • Choisissez vos termes par probabilité plutôt que TFIDF.

A Language Model Approach to Keyphrase Extraction semble faire des choses similaires. Certaines alternatives sont Kea (qui utilise TFIDF comme une caractéristique parmi plusieurs) et Peter Turney's Keyphrase extraction work.

+0

Merci beaucoup pour les conseils. Je suis allé pour le Kea, mais semble offrir plus de vocabulaires contrôlés spécifiques au domaine, mais de la page Kea j'ai lu à propos de Maui qui fait la même chose avec des fonctionnalités supplémentaires. http://code.google.com/p/maui-indexer/ Je vois que les résultats que je reçois sont très bons! Cependant, je vais creuser maintenant essayer de voir exactement les détails de l'algorithme et des calculs de notation .. Merci! – Julia