Détermination de l'ID de document sur la sortie LDA Mahout

J'ai exécuté mahout lda avec succès et affiché la sortie en utilisant la commande mahout ldatopics.Détermination de l'ID de document sur la sortie LDA Mahout

Par exemple mes sujets sont la science et le sport. alors la sortie sera comme: sujet 0 basket-ball, jeu, baseball sujet 1 recherche, étude , philosophie

Ma question est maintenant comment puis-je, identifier le groupe ou le groupe de l'article individuel. Existe-t-il un numéro d'identification ou un type de suivi, de sorte que pour chaque nouvel article que j'ajoute, il sera groupé ou ajouté à un groupe/sujet spécifique.

Si j'ai déjà le cluster, quelle est la prochaine étape?

Merci

Source

2011-02-25 Pedro Pi

que je cherchais à travers le code source et je ne peux trouver aucune mention d'une matrice thêta pour calculer la probabilité de sujets donnés un document et comme il n'y a pas d'entrée pour une valeur Alpha pour estimer les sujets par document et la classe LDAState a une méthode logProbWordGivenTopic(int, int) mais rien de tel que getProbTopicGivenDocument() Je peux seulement supposer que l'implémentation de mahout de LDA ne traite pas de la découverte de la distribution de sujet pour des documents spécifiques. J'adorerais me tromper si quelqu'un d'autre sait mieux.

Source

2011-03-03 17:15:09 Kevin

Comme une vérification de mise à jour sur: https://issues.apache.org/jira/browse/MAHOUT-458?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=12896645#action_12896645 Il semble que cela a été corrigé dans les versions ultérieures – Kevin

Détermination de l'ID de document sur la sortie LDA Mahout

Répondre

Questions connexes