2017-04-18 4 views
0

Je me demande pourquoi le «modèle fasttext» pré-formé avec wiki (coréen) ne semble pas bien fonctionner! :(Pourquoi la cosinusimilarité du modèle de pré-filiation de Fasttex est-elle élevée entre deux sentants?

model = fasttext.load_model ("./ fasttext/wiki.ko.bin ")

model.cosine_similarity (" 테스트 테스트 이건 테스트 문장", "지금 아무 관계 없는 글 정말로 정말로")

(en anglais) model.cosine_similarity ("test test c'est la peine de test", "maintenant pas tous vraiment vraiment documents relatifs")

0,99 .... ?? les phrase n'est pas tout ce qui est relatif, je pense que cosinus l'imilarité doit être inférieure, mais elle était de 0,997383 ...

Est-il impossible de comparer des sentinelles solitaires avec fasttext? Alors est-ce seulement la façon d'utiliser doc2vec?

Répondre

0

Quel paquet de code 'fasttext' utilisez-vous? Etes-vous sûr que son cosine_similarity() est conçu pour prendre de telles chaînes brutes, et automatiquement tokenize/combiner les mots de chaque exemple pour donner des similitudes au niveau des phrases? (Cette capacité est-elle impliquée par sa documentation ou des exemples illustratifs? Ou peut-être s'attendait-il à des listes de mots pré-tokenisées?)