Mesure de similarité dans les jetons Spacy

J'essaie de mesurer la similarité entre jetons. J'utilise le modèle par défaut en. La mesure de similarité fonctionne comme prévu lors de l'utilisation de noms singuliers mais renvoie zéro lorsque vous utilisez les mêmes noms au pluriel.Mesure de similarité dans les jetons Spacy

nlp = spacy.load('en') 
doc = nlp('apple orange') 
doc[0].similarity(doc[1])

retours 0.56189166448170025

doc = nlp('apples oranges') 
doc[0].similarity(doc[1])

retours 0.0

Y at-il des mesures de pré-traitement dont j'ai besoin de mettre en œuvre pour que la mesure fonctionne correctement? Merci.

Source

2017-09-21 rajkiran

Pouvez-vous préciser quelle version de spacy utilisez-vous? –

Je pense qu'il ne prend pas en charge la similarité syntagmatique; une alternative hacky est de tokenize votre phrase, où son score serait la moyenne des similitudes de chaque jeton. Vous pouvez également utiliser la similarité de phrasé here.

Source

2017-09-23 14:46:52 Daniel

Mesure de similarité dans les jetons Spacy

Répondre

Questions connexes