2011-07-15 5 views
11

J'ai une collection de phrases, et j'ai besoin de les analyser pour voir à quel point elles sont similaires.Algorithme pour comparer la similarité des phrases anglaises

Existe-t-il des algorithmes établis pour cela?

Je me soucie de:

  • contenant les mêmes mots (sans tenir compte des flexions pour l'instant)
  • contenant les mêmes mots dans un ordre similaire

Je l'ai utilisé et la distance Levenshtein n grammes pour l'orthographe avant, bien que je ne suis pas entièrement confiant si ceux-ci traduisent à mes fins. Naïvement, "Je ne me soucie pas des différences d'orthographe, les fautes de frappe peuvent être traitées comme des mots différents", bien que ce serait peut-être agréable de tenir compte de cela.

peut-être un hybride de diviser la phrase à des espaces et l'un des algorithmes ci-dessus (ou autre) serait un point de départ

Quelles sont les options disponibles? Aucun conseil?

Merci!

Répondre

13

This paper compare plusieurs mesures de similarité de phrases. Peut-être pouvez-vous en utiliser un tel quel ou le modifier en fonction de vos besoins.

Sinon, mesure de similarité de phrase est un bon terme clé pour google for.

+1

hmmmmmmmm * tue le trait de la barbe *. Merci! –

+0

@Andrew en fait je viens de googler parce que la question a soulevé mon intérêt :) Je ne suis pas familier avec le sujet ... Je comprends que votre problème peut être dans les détails techniques, qui sont généralement ignorés dans ce document (faire l'orthographe erreur-resitant, inflexions, etc bon que les mots anglais sont à peine infléchis) – Szabolcs

Questions connexes