2016-04-30 2 views
2

Je voudrais utiliser le modèle doc2vec genism pour une tâche de classification. Cependant, il semble que la mise en œuvre de doc2vec par gensim nécessite de voir tous les documents (former et tester) pour construire le vocabulaire avant d'entraîner le modèle. Sinon, vous obtenez keyerror si vous voulez obtenir le vecteur de document d'un document qui n'était pas présent lors de la construction du vocabulaire. Je me demande si ma compréhension est correcte! En pratique, on n'a pas accès aux données de test au moment de la formation.Obtenir la représentation du paragraphe pour les paragraphes invisibles dans doc2vec

Existe-t-il un moyen de mettre à jour le vocabulaire à l'heure du test pour pouvoir obtenir une représentation documentaire des documents de test?

Répondre

2

Vous pouvez uniquement rechercher des vecteurs de document appris pour du matériel présenté pendant l'entraînement. Mais, il existe une méthode infer_vector() qui peut fournir un nouveau document tokenisé au modèle gelé et entraîné, et renvoyer un vecteur 'best-fit'. Il se rapproche de ce qui aurait été retourné si le nouveau document était disponible pendant l'entraînement. Voir:

https://radimrehurek.com/gensim/models/doc2vec.html#gensim.models.doc2vec.Doc2Vec.infer_vector