2010-07-13 18 views
3

Expliquant davantageComment calculer le pourcentage de similarité ou de différence entre deux textes/chaînes de caractères?

Supposons que j'ai deux chaînes comme ci-dessous

Je suis un super garçon qui peut voler! Vraiment .

Je suis un super garçon qui peut casser les murs! Vraiment.

Ainsi, certains caractères sont similaires I am super boy who can et Really .. Y at-il quelque chose de prêt à utiliser pour trouver le pourcentage de similarité/différence entre ces deux chaînes.

+0

Cela dépend de la façon dont vous définissez la similarité ... – Artefacto

+0

Je suis très curieux de voir votre implémentation. – Gertjan

+1

@Gertjan excuses, lire tard .PHP a des fonctions intégrées pour ces comparaisons. Une théorie/algo génial par Levenshtein http://php.net/manual/en/function.levenshtein.php, et la deuxième avec des résultats en pourcentage http://www.php.net/manual/en/function.similar-text. php. * J'AIME PHP *: P – Arshdeep

Répondre

0

Ce SO answer to a similar question donne le code PHP pour les algorithmes Levenshtein, Jaro Winkler et Smith Waterman Gotoh.

J'ai trouvé que Levenshtein et Jaro Winkler donnent généralement de bons résultats pour les fautes d'orthographe entre les plus petites chaînes. Alors que le Smith Waterman Gotoh is good at comparing sentences comme l'exemple dans votre question.

Questions connexes