2017-03-28 5 views
1

J'ai besoin de comparer un grand nombre de tweets contenant un hashtag particulier pour afficher le tweet qui contient le contenu le plus élevé. Pour le même, j'ai besoin de trouver une similarité de cosinus par paire entre chacun d'eux et d'afficher le tweet avec la similarité de cosinus par paire la plus élevée en sortie. J'ai beaucoup lu sur les modèles d'espace vectoriel, les vecteurs tf-idf, word2vec/doc2vec etc. mais je n'ai rien compris. J'ai besoin de mettre en œuvre la même chose en utilisant Java. Existe-t-il une alternative au TfidfVectorizer de scikit-learn ou aux synsets de NLTK?Comment trouver une similarité de cosinus entre deux documents texte en utilisant Java?

Répondre

0

Vous pouvez utiliser Apache Mahout pour vectoriser tous les documents texte résidant dans un dossier.

La première étape consiste à créer des fichiers séquence puis créer vecteurs à partir de ces fichiers séquence .

Ce page décrit comment procéder. Vous pouvez ensuite utiliser la classe RowSimilarityJob pour calculer les similarités de cosinus.