0

Pour utiliser la méthode d'indexation sémantique latente de gensim, je veux commencer par un petit exemple "classique" comme:Latent Semantic Indexation avec gensim

import logging, gensim, bz2 
id2word = gensim.corpora.Dictionary.load_from_text('wiki_en_wordids.txt') 
mm = gensim.corpora.MmCorpus('wiki_en_tfidf.mm') 
lsi = gensim.models.lsimodel.LsiModel(corpus=mm, id2word=id2word, num_topics=400) 
etc.. 

Ma question est: Comment obtenir le corpus iterator 'wiki_en_tfidf.mm'? Dois-je le télécharger de quelque part? J'ai cherché sur Internet mais je n'ai rien trouvé. Aidez-moi, s'il vous plaît ?

Répondre

0

La première page des résultats de recherche comprend un lien vers: «D'abord nous allons charger le iterator corpus et le dictionnaire, créé dans la deuxième étape ci-dessus »

https://radimrehurek.com/gensim/wiki.html

qui dit

Étape 2 est

  1. Convertir les articles en texte brut (processus de balisage Wiki) et stocker le résultat en tant que vecteurs TF-IDF rares. En Python, ceci est facile à faire à la volée et nous n'avons même pas besoin de décompresser toute l'archive en disque . Il y a un script inclus dans gensim qui fait exactement cela, exécutez:

    $ python -m gensim.scripts.make_wiki