2016-04-28 2 views
2

J'ai commencé à utiliser Galago pour la recherche documentaire. Je veux regrouper certains documents (documents initialement récupérés avec n'importe quel modèle) en utilisant LDA. Je préfère utiliser une implémentation basée sur Java qui peut être intégrée dans mon code en utilisant Galago. Je vous serais reconnaissant si vous pouviez me faire savoir ce que la mise en œuvre open source de LDA est plus approprié pour mon but.Utilisation de LDA dans le moteur de recherche Galago

Merci d'avance pour votre aide!

Répondre

0

Il y a un algorithme rapide pour LDA de cet article:

S. Arora, R. Ge, Y. Halpern, D. Mimno, A. Moitra, D. Sontag, Y. Wu, M. Zhu. Un algorithme pratique pour la modélisation de sujets avec des garanties possibles. 30e Conférence internationale sur l'apprentissage machine (ICML), 2013.

qui a une implémentation Java par l'un des auteurs (D. Mimno) sur github ici: https://github.com/mimno/anchor

J'ai poussé autour de cette mise en œuvre brièvement, et a trouvé des résultats bons et rapides. Comme pour tous les modèles LDA/Topic, il peut être difficile d'obtenir le bon nombre de sujets.

+0

Salut John, Merci pour votre aide. J'ai juste une question: dans le fichier de sortie de train-anchor spécifié par --topics-file, sont les probabilités p (topic | word) * p (word)? J'ai cette question parce que le manuel dit p (topic | word), mais dans le code, j'ai trouvé wordProb * weights [topic]; Merci encore! – Magen