2017-07-26 2 views
1

Je suis relativement nouveau dans le monde de l'attribution de Dirichlet latent. Je suis capable de générer un modèle LDA suivant le didacticiel Wikipedia et je suis capable de générer un modèle LDA avec mes propres documents. Mon étape est maintenant essayer de comprendre comment puis-je utiliser un modèle généré par previus pour classer les documents non vus. je sauve mon « lda_wiki_model » avecgensim.interfaces.TransformedCorpus - Comment utiliser?

id2word =gensim.corpora.Dictionary.load_from_text('ptwiki_wordids.txt.bz2') 

    mm = gensim.corpora.MmCorpus('ptwiki_tfidf.mm') 

    lda = gensim.models.ldamodel.LdaModel(corpus=mm, id2word=id2word, num_topics=100, update_every=1, chunksize=10000, passes=1) 
    lda.save('lda_wiki_model.lda') 

Et je charge le même modèle avec:

new_lda = gensim.models.LdaModel.load(path + 'lda_wiki_model.lda') #carrega o modelo 

J'ai un « new_doc.txt », et je tourne mon document en id < -> dictionnaire terme et converti ce document à sous forme de jeton « matrice document terme »

Mais quand je lance new_topics = new_lda[corpus] je reçois un « gensim.interfaces.Trans objetCorpus formé à 0x7f0ecfa69d50 '

comment puis-je extraire des sujets de cela?

Je l'ai déjà essayé

`lsa = models.LdaModel(new_topics, id2word=dictionary, num_topics=1, passes=2) 
corpus_lda = lsa[new_topics] 
print(lsa.print_topics(num_topics=1, num_words=7) 

et

print(corpus_lda.print_topics(num_topics=1, num_words=7) `

mais que les sujets de retour ne relationed à mon nouveau document. Où est mon erreur? Je ne comprends pas quelque chose?

** Si une course un nouveau modèle en utilisant le dictionnaire et corpus créé ci-dessus, je reçois les sujets corrects, mon point est: comment réutiliser mon modèle? est correctement réutiliser ce wiki_model?

Merci.

Répondre

3

je faisais face au même problème. Ce code permettra de résoudre votre problème:

new_topics = new_lda[corpus] 

for topic in new_topics: 

     print(topic) 

Cela vous donnera une liste de tuples de la forme (numéro de sujet, probabilité)