J'ai une collection de phrases, et j'ai besoin de les analyser pour voir à quel point elles sont similaires.Algorithme pour comparer la similarité des phrases anglaises
Existe-t-il des algorithmes établis pour cela?
Je me soucie de:
- contenant les mêmes mots (sans tenir compte des flexions pour l'instant)
- contenant les mêmes mots dans un ordre similaire
Je l'ai utilisé et la distance Levenshtein n grammes pour l'orthographe avant, bien que je ne suis pas entièrement confiant si ceux-ci traduisent à mes fins. Naïvement, "Je ne me soucie pas des différences d'orthographe, les fautes de frappe peuvent être traitées comme des mots différents", bien que ce serait peut-être agréable de tenir compte de cela.
peut-être un hybride de diviser la phrase à des espaces et l'un des algorithmes ci-dessus (ou autre) serait un point de départ
Quelles sont les options disponibles? Aucun conseil?
Merci!
hmmmmmmmm * tue le trait de la barbe *. Merci! –
@Andrew en fait je viens de googler parce que la question a soulevé mon intérêt :) Je ne suis pas familier avec le sujet ... Je comprends que votre problème peut être dans les détails techniques, qui sont généralement ignorés dans ce document (faire l'orthographe erreur-resitant, inflexions, etc bon que les mots anglais sont à peine infléchis) – Szabolcs