J'essaie de comprendre la relation entre les vecteurs word2vec et doc2vec dans la mise en œuvre de Gensim. Dans mon application, je suis en train d'étiqueter plusieurs documents avec la même étiquette (sujet), j'entraîne un modèle doc2vec sur mon corpus en utilisant dbow_words = 1 afin de former des vecteurs de mots. J'ai été en mesure d'obtenir des similitudes entre les vecteurs de mots et de documents de cette façon, ce qui fait beaucoup de sens Par ex. obtenir des documents d'étiquettes similaires à un doc2vec_model.docvecs.most_similar mot: (positif = [doc2vec_model [ "gestion"]], topn = 50))vecteur de mot et requête de vecteur de paragraphe
Ma question est cependant sur l'interprétation théorique de calcul de similarité entre les vecteurs word2vec et doc2vec . Serait-il prudent de supposer que lorsqu'ils sont formés sur le même corpus avec la même dimension (d = 200), les vecteurs de mots et les vecteurs de document peuvent toujours être comparés pour trouver des mots similaires pour un document. Toute suggestion/idée sont les bienvenues. Question 2: Mes autres questions portent sur l'impact de la haute/basse fréquence d'un mot dans le modèle final de word2vec. Si wordA et wordB ont des contextes similaires dans une étiquette (ensemble) de documents, mais que wordA a une fréquence beaucoup plus élevée que wordB, wordB aurait un score de similarité plus élevé avec l'étiquette doc correspondante ou non. J'essaie de former plusieurs modèles word2vec en échantillonnant les corpus de manière temporelle et je veux savoir si l'hypothèse que les mots deviennent de plus en plus fréquents, en supposant que le contexte reste relativement similaire, le score de similarité avec une étiquette de document augmenterait également. Ai-je tort de faire cette supposition? Toutes les suggestions/idées sont les bienvenues.
Merci, Manish