2010-10-03 10 views
3

Je suis à la recherche d'un utilitaire qui m'aidera à trouver des fichiers PDF en double. Le problème: j'ai un millier de fichiers PDF. Certains sont des doublons. Ils ne sont pas faciles à détecter en raison de noms de fichiers différents et de petites différences dans la taille du fichier. Y at-il un utilitaire/algorithme/bibliothèque qui peut m'aider à trouver les doublons ou à me montrer des fichiers qui sont très similaires (ou degré de différence)?Trouver des fichiers PDF en double

+0

Juste trouvé un utilitaire qui peut fonctionner: http://anti-twin.com/ – Elvin

Répondre

1

DiffPDF ressemble à quelque chose qui pourrait vous aider.

+0

DiffPDF compare 2 fichiers côte à côte. Malheureusement, j'ai des milliers de fichiers à comparer, donc une solution automatisée serait la meilleure. – Elvin

1

Créez un hachage MD5 pour chaque fichier et stockez-le dans une base de données. Les fichiers identiques seront ensuite triés les uns à côté des autres, ou vous pouvez rapidement rechercher une clé préexistante.

2

Si les fichiers ont été créés par les différents outils, ils peuvent avoir la même apparence mais générer des résultats très différents car ils sont structurés différemment. J'ai fait quelques suggestions dans un article de blog au https://blog.idrsolutions.com/2010/09/comparing-2-pdf-files/

1

Je me souviens qu'il y a un utilitaire UNIX appelé pdf2txt (voir le paquet poppler-utils). Vous pouvez essayer d'extraire le texte des fichiers et de faire un diff textuel.

1

Le problème n'a pas encore été résolu. Ce que je fais, est-ce que j'utilise fdupes http://premium.caribe.net/~adrian2/fdupes.html pour trouver des doublons exacts.

Mais par-dessus tout, j'utilise un flux de travail qui minimise les doublons. Chaque document qui entre dans mon système est indexé avec ce script perl que j'ai écrit: http://seegras.discordia.ch/Programs/fileindex qui met un nom et une somme md5 dans ~/.fileindex.md5 Maintenant, je peux changer les métadonnées des fichiers PDF locaux ou quoi que ce soit (et Exécuter fileindex à nouveau), et chaque fois que je télécharge accidentellement le même fichier à nouveau, je vais avoir la somme md5 du fichier original, et peut ainsi détecter s'il s'agit d'un doublon.

Il existe également des fonctions exif-meta et exif-rename sur http://seegras.discordia.ch/Programs/ qui aident à définir les métadonnées PDF et à renommer les fichiers PDF en fonction des métadonnées; et si vous étiquetez tous les fichiers correctement, vous vous retrouverez avec des noms de fichiers en double, indiquant qu'il pourrait s'agir du même document dans un fichier différent.

Questions connexes