Utilisation de LDA dans le moteur de recherche Galago

J'ai commencé à utiliser Galago pour la recherche documentaire. Je veux regrouper certains documents (documents initialement récupérés avec n'importe quel modèle) en utilisant LDA. Je préfère utiliser une implémentation basée sur Java qui peut être intégrée dans mon code en utilisant Galago. Je vous serais reconnaissant si vous pouviez me faire savoir ce que la mise en œuvre open source de LDA est plus approprié pour mon but.Utilisation de LDA dans le moteur de recherche Galago

Merci d'avance pour votre aide!

Source

2016-04-28 Magen

Il y a un algorithme rapide pour LDA de cet article:

S. Arora, R. Ge, Y. Halpern, D. Mimno, A. Moitra, D. Sontag, Y. Wu, M. Zhu. Un algorithme pratique pour la modélisation de sujets avec des garanties possibles. 30e Conférence internationale sur l'apprentissage machine (ICML), 2013.

qui a une implémentation Java par l'un des auteurs (D. Mimno) sur github ici: https://github.com/mimno/anchor

J'ai poussé autour de cette mise en œuvre brièvement, et a trouvé des résultats bons et rapides. Comme pour tous les modèles LDA/Topic, il peut être difficile d'obtenir le bon nombre de sujets.

Source

2016-04-28 12:37:21

Salut John, Merci pour votre aide. J'ai juste une question: dans le fichier de sortie de train-anchor spécifié par --topics-file, sont les probabilités p (topic | word) * p (word)? J'ai cette question parce que le manuel dit p (topic | word), mais dans le code, j'ai trouvé wordProb * weights [topic]; Merci encore! – Magen

Utilisation de LDA dans le moteur de recherche Galago

Répondre

Questions connexes