id2word_token2Id confusion d'utilisation dans Gensim

Afin d'être clair, j'aimerais savoir si le code/l'utilisation de gensim est correct ou non?id2word_token2Id confusion d'utilisation dans Gensim

Merci d'avance pour votre précieux temps.

import gensim  

train = ["John likes to watch movies Mary likes movies too" , 
     "John also likes to watch football games" ] 

test = ["Football is my dream"] 

train_texts = [[word for word in document.lower().split()] for document in train] 
test_texts = [[word for word in document.lower().split()] for document in test] 

dictionary =gensim.corpora.Dictionary(train_texts) 

train_corpus = [dictionary.doc2bow(text) for text in train_texts] 
test_corpus = [dictionary.doc2bow(text) for text in test_texts] 

ldaModel = gensim.models.LdaModel(corpus=train_corpus , 
      id2word=dictionary , num_topics=2) 
bound_perplex = ldaModel.bound(test_corpus)

Source

2017-05-11 TheWho

J'objet d'une enquête avec d'autres personnes. C'est comme il est censé être. Je vous remercie – TheWho

L'utilisation du code est absolument correcte, mais il serait préférable d'utiliser le streaming de corpus pour les documents plus volumineux.

Vous pouvez obtenir plus d'informations sur les données en streaming ici -

Source

2017-05-14 06:10:59

id2word_token2Id confusion d'utilisation dans Gensim

Répondre

Questions connexes