2008-10-24 4 views
3

Il ya quelque chose, j'écris small script en utilisant Text::DeDupe pour supprimer les doublons de billets de blog avant que je doive jeter les yeux sur eux. Après avoir lu le document Syntactic Clustering of the Web sur lequel repose la mise en œuvre, j'aimerais pouvoir trouver des documents qui se chevauchent (par exemple, des extraits de blogues par opposition à du texte intégral, peut-être aussi des citations). Connaissez-vous d'autres implémentations en C, C++ ou Perl que je peux essayer avant d'écrire la mienne?Comment détecter du texte en double avec un peu de fuzzyness

+0

Je pense que vous devrez utiliser des algorithmes de différenciation basés sur les lignes classiques: http://stackoverflow.com/questions/236031/how-to-realize-a-diff-function http://stackoverflow.com/ questions/145607/text-difference-algorithm http://stackoverflow.com/questions/3144/best-diff-algorithm –

+0

Cela pourrait être une approche trop simpliste de la tâche à accomplir car je voudrais supprimer les quasi-doublons comme quelqu'un cite le plus de poste et en ajoutant quelque chose comme "moi aussi" qui est juste du spam. – dpavlin

Répondre

2

SpotSigs semble adapter ma facture juste, voici quelques références:

Le code soruce pour ce module est hébergé sur GitHub:

http://github.com/jzawodn/perl-text-spotsig

+1

Ce lien Jerith Z. github n'est pas le lien vers la source. Si vous regardez ce repo, il est vide. La source de SpotSigs peut être trouvée ici: http://www.mpi-inf.mpg.de/~mtb/ –

+0

La page mentionnée par Nate a été déplacée, voici la nouvelle URL: http://adrem.ua.ac .be/~ tmartin / –

Questions connexes