2012-03-07 1 views
4

J'ai étudié le modèle LDA et Topic pendant plusieurs semaines.Mais en raison de ma faible capacité en mathématiques, je ne peux pas entièrement comprendre ses algorithmes internes.J'ai utilisé l'implémentation de GibbsLDA, entré beaucoup de documents, et mis en numéro de sujet comme 100, j'ai obtenu un fichier nommé "final.theta" qui stocke la proportion de chaque sujet dans chaque document.Ce résultat est bon, je peux utiliser la proportion de sujet pour faire beaucoup d'autres choses. Mais quand j'ai essayé l'implémentation du langage C de Blei sur LDA, j'ai seulement un fichier nommé final.gamma, mais je ne sais pas comment transformer ce fichier en style de proportion de sujet. Quelqu'un peut-il m'aider. Et j'ai appris que le modèle LDA a beaucoup de version améliorée (comme CTM, HLDA), si je peux trouver un modèle de sujet similaire à LDA, je veux dire quand je saisis beaucoup de documents, il peut directement sortir la proportion documents. Merci beaucoup!LDA et modèle de sujet

+0

+1 pour la référence LDA - c'est une nouvelle idée pour moi. Je vous remercie. – duffymo

Répondre

1

Je pense que le problème avec la mise en œuvre Blei est que vous faites inférence variationnelle en exécutant:

$ LDA [args inf ...]

Lorsque vous voulez faire l'estimation du sujet, avec :

$ lda est [args ...]

une fois que cela fonctionne, il y aura un fichier « final.beta » soit dans le répertoire courant ou le répertoire spécifié par le dernier argument optionnel. Ensuite, vous lancez le script python "topics.py", inclus dans le tar. Le readme ici: http://www.cs.princeton.edu/~blei/lda-c/readme.txt décrit tout, en particulier les sections B et D.

(Si cela ne fonctionne toujours pas de sens, laissez-moi savoir)

En ce qui concerne les améliorations telles que CTM etc: Je ne sais pas Je sais quelque chose à propos de HLDA, mais j'ai déjà utilisé à la fois LDA et CTM dans le passé, et je peux dire que ni l'un ni l'autre n'est strictement meilleur que l'autre - c'est un cas d'être meilleur pour différentes données. CTM fait l'hypothèse que les documents sont corrélés, et utilise cette hypothèse pour améliorer les résultats tant que c'est vrai.

Espérons que cela aide!

+0

Merci pour votre aide, mais ce que je veux, c'est comment transférer les fichiers de résultats en proportion du sujet? Justement, je veux dire le thêta. – ShenYi

+0

Je pense que cette réponse est trompeuse. Alors que OP pose des questions sur les proportions des sujets (combien de fois chaque sujet apparaît dans le document - theta), la réponse est sur le sujet (distribution sur les mots - beta). – rarry

0

Pour obtenir E [θ] il suffit de normaliser les gammas dans chaque rangée. Il résulte des propriétés de la distribution de Dirichlet.

Questions connexes