J'ai un modèle word2vec prêt à l'emploi que j'ai déjà formé. Je l'ai sérialisé en tant que fichier CSV:Comment charger un modèle pré-entraîné avec des gensim et entraîner doc2vec avec?
word, v0, v1, ..., vN
house, 0.1234, 0.4567, ..., 0.3461
car, 0.456, 0.677, ..., 0.3461
Ce que je voudrais savoir comment je peux charger ce modèle de vecteur de mot dans gensim
et l'utiliser pour former un paragraphe ou modèle doc2vec.
Cette Doc2Vec tutorial dit que je peux charger un modèle sous la forme d'un "# C text format
" mais je n'ai aucune idée de ce que cela signifie réellement. Qu'est-ce que le «format texte C» en premier lieu mais plus important:
- Comment puis-je charger mon modèle word2vec et l'utiliser pour la formation doc2vec?
Comment puis-je créer le vocabulaire de mon modèle word2vec?
Je ne peux pas prouver cette affirmation mais je pense que les vecteurs de document fonctionnent mieux si l'on fournit des vecteurs de mots pré-formés. Je l'ai seulement testé en commentant la partie intersectée et en comparant les résultats. Mais merci de fournir une réponse :) – displayname
Travailler mieux sur quelle tâche, avec combien de données, avec quels vecteurs pré-formés? – gojomo