J'ai étudié le modèle LDA et Topic pendant plusieurs semaines.Mais en raison de ma faible capacité en mathématiques, je ne peux pas entièrement comprendre ses algorithmes internes.J'ai utilisé l'implémentation de GibbsLDA, entré beaucoup de documents, et mis en numéro de sujet comme 100, j'ai obtenu un fichier nommé "final.theta" qui stocke la proportion de chaque sujet dans chaque document.Ce résultat est bon, je peux utiliser la proportion de sujet pour faire beaucoup d'autres choses. Mais quand j'ai essayé l'implémentation du langage C de Blei sur LDA, j'ai seulement un fichier nommé final.gamma, mais je ne sais pas comment transformer ce fichier en style de proportion de sujet. Quelqu'un peut-il m'aider. Et j'ai appris que le modèle LDA a beaucoup de version améliorée (comme CTM, HLDA), si je peux trouver un modèle de sujet similaire à LDA, je veux dire quand je saisis beaucoup de documents, il peut directement sortir la proportion documents. Merci beaucoup!LDA et modèle de sujet
Répondre
Je pense que le problème avec la mise en œuvre Blei est que vous faites inférence variationnelle en exécutant:
$ LDA [args inf ...]
Lorsque vous voulez faire l'estimation du sujet, avec :
$ lda est [args ...]
une fois que cela fonctionne, il y aura un fichier « final.beta » soit dans le répertoire courant ou le répertoire spécifié par le dernier argument optionnel. Ensuite, vous lancez le script python "topics.py", inclus dans le tar. Le readme ici: http://www.cs.princeton.edu/~blei/lda-c/readme.txt décrit tout, en particulier les sections B et D.
(Si cela ne fonctionne toujours pas de sens, laissez-moi savoir)
En ce qui concerne les améliorations telles que CTM etc: Je ne sais pas Je sais quelque chose à propos de HLDA, mais j'ai déjà utilisé à la fois LDA et CTM dans le passé, et je peux dire que ni l'un ni l'autre n'est strictement meilleur que l'autre - c'est un cas d'être meilleur pour différentes données. CTM fait l'hypothèse que les documents sont corrélés, et utilise cette hypothèse pour améliorer les résultats tant que c'est vrai.
Espérons que cela aide!
Merci pour votre aide, mais ce que je veux, c'est comment transférer les fichiers de résultats en proportion du sujet? Justement, je veux dire le thêta. – ShenYi
Je pense que cette réponse est trompeuse. Alors que OP pose des questions sur les proportions des sujets (combien de fois chaque sujet apparaît dans le document - theta), la réponse est sur le sujet (distribution sur les mots - beta). – rarry
Pour obtenir E [θ] il suffit de normaliser les gammas dans chaque rangée. Il résulte des propriétés de la distribution de Dirichlet.
- 1. LDA Sujet Modèles package
- 2. Affectation de sujet LDA Gensim
- 3. LDA Mahout un seul sujet
- 4. Obtenir le mot-sujet-matrice du modèle LDA-Mallet dans
- 5. Modélisation de sujet nmf/lda scikit-learn
- 6. Modèle LDA avec étincelle
- 7. modélisation de sujet et l'apprentissage machine avec LDA
- 8. Comment imprimer le modèle de sujet lda et le nuage de mots de chacun des sujets
- 9. comment imprimer mahout lda cvb sujet
- 10. Modélisation de sujet: LDA, fréquence des mots dans chaque sujet et Wordcloud
- 11. Présentation de la modélisation LDA/sujet - trop de chevauchement de sujet
- 12. Comment convertir un index de sujet en mots de sujet dans LDA
- 13. Amélioration de la probabilité de sujet de document dans LDA
- 14. calculer le poids de chaque sujet LDA dans le corpus
- 15. Insérer des mots dans un modèle de sujet LDA dans R
- 16. comment canaliser un modèle de sujet R LDA dans Topic Model Visualization Engine (TMVE)?
- 17. Problème dans la compréhension du modèle de sujet LDA dans MLlib
- 18. Comment obtenir des numéros de sujet dans le modèle LDA dans le gensim
- 19. R modélisation de modèle: fonction d'étiquetage de modèle lda
- 20. Extension du modèle LDA en utilisant Mallet
- 21. Puis-je créer un modèle de sujet (tel que LDA) à partir de la sortie du modèle doc2vec?
- 22. LDA peut-il attribuer plus d'un sujet à un mot?
- 23. Gensim: Impossible de former le modèle LDA
- 24. Récupérer des poids à terme d'un modèle LDA dans R
- 25. Vowpal Wabbit LDA: Sélection du modèle
- 26. LDA Mot Gensim -> Topic Ids Distribution au lieu de Sujet -> Distribution de mots
- 27. Comment créer une boucle pour Python pour le modèle LDA
- 28. Comment obtenir un vecteur sujet de nouveaux documents et comparer avec un modèle de sujet prédéfini dans Mallet?
- 29. Modèle pour un observateur et un sujet
- 30. Choisissez un sujet Modèle
+1 pour la référence LDA - c'est une nouvelle idée pour moi. Je vous remercie. – duffymo