2017-02-08 2 views
1

J'utilise gensim pour extraire le vecteur de caractéristiques d'un document. J'ai téléchargé le modèle pré-formé de Google nommé GoogleNews-vectors-negative300.bin et je chargé ce modèle en utilisant la commande suivante:charger word2vec modèle pré-formé pour doc2vec

model = models.Doc2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True) 

Mon but est d'obtenir un vecteur caractéristique d'un document. Pour un mot, il est très facile d'obtenir le vecteur correspondant:

vector = model[word] 

Cependant, je ne sais pas comment faire pour un document. S'il te plait peux-tu aider?

Répondre

0

Un ensemble de vecteurs de mots (tel que GoogleNews-vectors-negative300.bin) n'est ni nécessaire ni suffisant pour le type de vecteurs de texte (Le/Mikolov 'Paragraph Vectors') créé par la classe Doc2Vec. Il s'attend plutôt à être formé avec des exemples de textes pour apprendre les vecteurs par document. Ensuite, également, le modèle formé peut être utilisé pour «déduire» des vecteurs pour d'autres nouveaux documents.

(La classe Doc2Vec ne supporte que la méthode load_word2vec_format() car elle hérite de la classe Word2Vec - non pas parce qu'elle a besoin de cette fonctionnalité.)

Il y a un autre type simple vecteur de texte qui peut être créé en faisant la moyenne simplement tous les mots dans le document, peut-être aussi selon une certaine pondération de signification par mot. Mais ce n'est pas ce que Doc2Vec fournit.