2011-09-28 3 views
0

J'ai un ensemble de documents dans lequel chaque ligne a un certain nombre de chaînes séparées par "\ t | \ t". Chaque chaîne (peut contenir des espaces entre les deux) est un élément de dictionnaire indivisible. Maintenant, je dois utiliser LDA pour trouver la corrélaion entre ces documents en ce qui concerne chaque mot dictionsr (chaîne dans mon vocabulaire).Mahout: Comment convertir un document personnalisé au format SparseVector pour utiliser LDA

S'il vous plaît me guider comment puis-je convertir ces documents en format vectoriel de pièces de rechange, puis comment appliquer LDA sur eux?

Répondre

Questions connexes