Quel algorithme suggéreriez-vous pour identifier combien de 0 à 1 (float) deux textes sont identiques? Notez que je ne veux pas dire similaire (ie, ils disent la même chose mais d'une manière différente), je veux dire exactement les mêmes mots, mais l'un des deux textes pourrait avoir des mots supplémentaires ou des mots légèrement différents ou extra nouveaux des lignes et des trucs comme ça.Algorithme pour trouver le pourcentage de l'identique de deux textes
Un bon exemple de l'algorithme que je veux est celui que Google utilise pour identifier le contenu dupliqué dans les sites Web (X résultats de recherche très similaires à ceux qui ont été omis, cliquez ici pour les voir).
La raison pour laquelle j'en ai besoin est que mon site Web permet aux utilisateurs de poster des commentaires; Des pages similaires mais différentes ont actuellement leurs propres commentaires, donc beaucoup d'utilisateurs ont fini par copier & en collant leurs commentaires sur toutes les pages similaires. Maintenant, je veux les fusionner (toutes les pages similaires "partageront" les commentaires, et si vous les publiez sur la page A, ils apparaîtront sur la même page B), et je voudrais effacer par programme tous ces commentaires copiés de la même utilisateur.
J'ai quelques millions de commentaires mais la vitesse ne devrait pas être un problème car c'est une chose qui se déroulera en arrière-plan.
Le langage de programmation n'a pas vraiment d'importance (tant qu'il peut s'interfacer avec une base de données MySQL), mais je pensais le faire en C++.