2016-11-07 1 views
0

J'essaie de comprendre la relation entre les vecteurs word2vec et doc2vec dans la mise en œuvre de Gensim. Dans mon application, je suis en train d'étiqueter plusieurs documents avec la même étiquette (sujet), j'entraîne un modèle doc2vec sur mon corpus en utilisant dbow_words = 1 afin de former des vecteurs de mots. J'ai été en mesure d'obtenir des similitudes entre les vecteurs de mots et de documents de cette façon, ce qui fait beaucoup de sens Par ex. obtenir des documents d'étiquettes similaires à un doc2vec_model.docvecs.most_similar mot: (positif = [doc2vec_model [ "gestion"]], topn = 50))vecteur de mot et requête de vecteur de paragraphe

Ma question est cependant sur l'interprétation théorique de calcul de similarité entre les vecteurs word2vec et doc2vec . Serait-il prudent de supposer que lorsqu'ils sont formés sur le même corpus avec la même dimension (d = 200), les vecteurs de mots et les vecteurs de document peuvent toujours être comparés pour trouver des mots similaires pour un document. Toute suggestion/idée sont les bienvenues. Question 2: Mes autres questions portent sur l'impact de la haute/basse fréquence d'un mot dans le modèle final de word2vec. Si wordA et wordB ont des contextes similaires dans une étiquette (ensemble) de documents, mais que wordA a une fréquence beaucoup plus élevée que wordB, wordB aurait un score de similarité plus élevé avec l'étiquette doc correspondante ou non. J'essaie de former plusieurs modèles word2vec en échantillonnant les corpus de manière temporelle et je veux savoir si l'hypothèse que les mots deviennent de plus en plus fréquents, en supposant que le contexte reste relativement similaire, le score de similarité avec une étiquette de document augmenterait également. Ai-je tort de faire cette supposition? Toutes les suggestions/idées sont les bienvenues.

Merci, Manish

Répondre

0

Dans un mode de formation où mot-vecteurs et doctag vecteurs sont utilisés de façon interchangeable au cours de la formation, pour la même prédiction tâche surrounding-mots, ils ont tendance à être véritablement comparables. (Votre mode, DBOW avec formation de mots skip-gram entrelacé, correspond à ceci et est le mode utilisé par le document 'Document Embedding with Paragraph Vectors'.)

Votre deuxième question est abstraite et spéculative; Je pense que vous devriez tester ces idées vous-même. Les processus Word2Vec/Doc2Vec entraînent les vecteurs à être bons dans certaines tâches de prédiction de mots mécanistes, sous réserve des contraintes du modèle et des compromis avec la qualité d'autres vecteurs. Que l'arrangement spatial qui en résulte s'avère alors utile à d'autres fins - similarité ordonnée/absolue, similarité selon certaines lignes conceptuelles, classification, etc. - n'est alors qu'un avantage observé et pragmatique. C'est une «astuce qui fonctionne» et qui pourrait donner des aperçus, mais la plupart des façons dont les modèles changent en réponse à différents choix de paramètres ou de caractéristiques de corpus n'ont pas été théoriquement ou expérimentalement élaborées.