2017-04-06 5 views
0

J'ai un modèle de sujet LDA formé en utilisant MALLET mais je veux calculer la similarité en cosinus entre deux documents pour obtenir la similarité, mais je ne suis pas sûr du fichier dont sorties MALLET dont je calcule le cosinus.Comment obtenir la similitude cosinus entre deux documents dans MALLET?

Ma fonction de similarité de cosinus fonctionne bien mais je ne sais pas exactement ce que je compare dans MALLET.

Toute aide serait appréciée!

Répondre

2

Chaque document sera représenté par sa composition de sujet, vous devez donc les comparer. Utilisez le paramètre --output-doc-topics pour obtenir le fichier nécessaire.

Les lignes sont les documents et les colonnes sont les proportions de chaque sujet appartenant au document. Dans la version actuelle (2.0.8), les colonnes sont triées par ordre croissant d'ID de sujet - sinon elles sont triées de la plus haute à la plus faible probabilité.

Vous devez également prendre en compte différentes métriques, à l'exception de la similitude cosinus, par ex. la divergence (symétrique) de Kullback-Leibler ou la distance de Hellinger.