2017-04-19 4 views
1

J'adapte un modèle de sujet Hiérarchique Dirichlet Process (HDP) en utilisant le paquet python gensim sur l'ensemble de données 20newsgroups, et je découvre que mes sujets ne sont pas très informatifs (la probabilité de mot supérieur est très petite). J'utilise un pré-traitement de texte standard qui inclut la segmentation, la suppression des mots vides et le bourrage. Je pensais que la réduction de la taille du dictionnaire peut aider à générer des sujets plus significatifs. Quelles sont certaines des façons de réduire la taille du dictionnaire dans Gensim?Comment réduire la taille du dictionnaire dans Gensim?

Répondre

1

J'ai trouvé le code suivant a permis de réduire la taille du dictionnaire de façon spectaculaire et atteindre des sujets plus significatifs:

dictionary = corpora.Dictionary(docs, prune_at=num_features) 
dictionary.filter_extremes(no_below=10,no_above=0.5, keep_n=num_features) 
dictionary.compactify() 

La première tentative de réduire la taille du dictionnaire est le paramètre prune_at, la deuxième tentative est la fonction filter_extremes() défini à: gensim dictionary.