J'essaie de comparer en quelque sorte la distribution de sujet d'un document unique (en utilisant LDA) avec, d'autres fichiers et leurs distributions de sujet au sein d'un modèle sujet précédemment créé, en utilisant MALLET.Comment obtenir un vecteur sujet de nouveaux documents et comparer avec un modèle de sujet prédéfini dans Mallet?
Je sais que cela peut être fait par des commandes MALLET dans le terminal mais j'ai des problèmes pour trouver un moyen de l'implémenter en Java.
Pour donner un point essentiel de ce que la fonctionnalité de mon programme est:
Le modèle de sujet déjà créé a été créé avec un grand corpus de textes. Je veux utiliser ceci pour comparer les distributions de sujet avec un tweet qui contient un certain hashtag et ensuite retirer le fichier le plus similaire au tweet du corpus. J'ai lu les documents de l'API Java de Mallet, mais ils semblent très confus et pas vraiment explicatifs.
Si quelqu'un pouvait me donner quelques conseils que je vous en serais reconnaissant