Il ya quelque chose, j'écris small script en utilisant Text::DeDupe pour supprimer les doublons de billets de blog avant que je doive jeter les yeux sur eux. Après avoir lu le document Syntactic Clustering of the Web sur lequel repose la mise en œuvre, j'aimerais pouvoir trouver des documents qui se chevauchent (par exemple, des extraits de blogues par opposition à du texte intégral, peut-être aussi des citations). Connaissez-vous d'autres implémentations en C, C++ ou Perl que je peux essayer avant d'écrire la mienne?Comment détecter du texte en double avec un peu de fuzzyness
3
A
Répondre
2
SpotSigs semble adapter ma facture juste, voici quelques références:
- http://dbpubs.stanford.edu/pub/2008-10
- http://infoblog.stanford.edu/2008/08/spotsigs-are-stopwords-finally-good-for.html
- http://ilpubs.stanford.edu:8090/860/
Le code soruce pour ce module est hébergé sur GitHub:
+1
Ce lien Jerith Z. github n'est pas le lien vers la source. Si vous regardez ce repo, il est vide. La source de SpotSigs peut être trouvée ici: http://www.mpi-inf.mpg.de/~mtb/ –
+0
La page mentionnée par Nate a été déplacée, voici la nouvelle URL: http://adrem.ua.ac .be/~ tmartin / –
Questions connexes
- 1. Besoin d'un peu d'aide avec l'alignement du texte dans wordpress
- 2. Comment détecter les valeurs en double dans un tableau PHP?
- 3. Détection/hachage de texte en double
- 4. Comment détecter les fichiers JAR en double dans le classpath?
- 5. Remplacer du texte en html avec un bouton de lien
- 6. Supprimer des lignes en double à partir du fichier texte?
- 7. Existe-t-il un outil pour détecter les projets Visual Studio avec des GUID en double?
- 8. Besoin d'aide avec un peu de SQL
- 9. Comment créer un MenuItemImage avec du texte?
- 10. Comment donner à un champ de texte une police par défaut et un peu de remplissage?
- 11. Comment puis-je dessiner du texte en double hauteur à l'aide de Graphics.DrawString?
- 12. Comment vérifier les fichiers en double en php?
- 13. Un peu perdu avec jquery + php + JSON
- 14. Comment obtenir un texte de paragraphe unique à partir d'une zone richtext en double-cliquant dessus
- 15. Comment détecter un débordement en C++?
- 16. Comment convertir un double en hexadécimal?
- 17. requête MySQL Un peu complexes
- 18. Comment puis-je accéder à un peu du JSON avec jQuery?
- 19. Empêcher la sélection de texte après un double-clic
- 20. Variables en double dans JavaScript
- 21. Convertir un peu de JavaScript pour JQuery
- 22. Comment aligner du texte dans un élément de texte GnomeCanvas
- 23. Xcode: modification du comportement du double-clic sur un fichier
- 24. Comment transformer un texte en texte?
- 25. Comment rendre Dojo un peu plus léger?
- 26. Mécaniser la définition d'un champ avec un nom en double
- 27. Itinéraires peu profonds avec path_prefix?
- 28. comment convertir du texte en rtf, pour envoyer un email?
- 29. Comment dessiner du texte verticalement avec un cadre compact
- 30. Comment envoyer du texte à un objet dom avec jQuery?
Je pense que vous devrez utiliser des algorithmes de différenciation basés sur les lignes classiques: http://stackoverflow.com/questions/236031/how-to-realize-a-diff-function http://stackoverflow.com/ questions/145607/text-difference-algorithm http://stackoverflow.com/questions/3144/best-diff-algorithm –
Cela pourrait être une approche trop simpliste de la tâche à accomplir car je voudrais supprimer les quasi-doublons comme quelqu'un cite le plus de poste et en ajoutant quelque chose comme "moi aussi" qui est juste du spam. – dpavlin