Comment détecter du texte en double avec un peu de fuzzyness

Il ya quelque chose, j'écris small script en utilisant Text::DeDupe pour supprimer les doublons de billets de blog avant que je doive jeter les yeux sur eux. Après avoir lu le document Syntactic Clustering of the Web sur lequel repose la mise en œuvre, j'aimerais pouvoir trouver des documents qui se chevauchent (par exemple, des extraits de blogues par opposition à du texte intégral, peut-être aussi des citations). Connaissez-vous d'autres implémentations en C, C++ ou Perl que je peux essayer avant d'écrire la mienne?Comment détecter du texte en double avec un peu de fuzzyness

Source

2008-10-24 dpavlin

Je pense que vous devrez utiliser des algorithmes de différenciation basés sur les lignes classiques: http://stackoverflow.com/questions/236031/how-to-realize-a-diff-function http://stackoverflow.com/ questions/145607/text-difference-algorithm http://stackoverflow.com/questions/3144/best-diff-algorithm –

Cela pourrait être une approche trop simpliste de la tâche à accomplir car je voudrais supprimer les quasi-doublons comme quelqu'un cite le plus de poste et en ajoutant quelque chose comme "moi aussi" qui est juste du spam. – dpavlin

SpotSigs semble adapter ma facture juste, voici quelques références:

Le code soruce pour ce module est hébergé sur GitHub:

http://github.com/jzawodn/perl-text-spotsig

Source

2010-04-26 17:44:36 dpavlin

Ce lien Jerith Z. github n'est pas le lien vers la source. Si vous regardez ce repo, il est vide. La source de SpotSigs peut être trouvée ici: http://www.mpi-inf.mpg.de/~mtb/ –

La page mentionnée par Nate a été déplacée, voici la nouvelle URL: http://adrem.ua.ac .be/~ tmartin / –

Comment détecter du texte en double avec un peu de fuzzyness

Répondre

Questions connexes