2017-09-21 4 views
1

J'essaie de mesurer la similarité entre jetons. J'utilise le modèle par défaut en. La mesure de similarité fonctionne comme prévu lors de l'utilisation de noms singuliers mais renvoie zéro lorsque vous utilisez les mêmes noms au pluriel.Mesure de similarité dans les jetons Spacy

nlp = spacy.load('en') 
doc = nlp('apple orange') 
doc[0].similarity(doc[1]) 

retours 0.56189166448170025

doc = nlp('apples oranges') 
doc[0].similarity(doc[1]) 

retours 0.0

Y at-il des mesures de pré-traitement dont j'ai besoin de mettre en œuvre pour que la mesure fonctionne correctement? Merci.

+0

Pouvez-vous préciser quelle version de spacy utilisez-vous? –

Répondre

0

Je pense qu'il ne prend pas en charge la similarité syntagmatique; une alternative hacky est de tokenize votre phrase, où son score serait la moyenne des similitudes de chaque jeton. Vous pouvez également utiliser la similarité de phrasé here.