Trouver des fichiers PDF en double

Je suis à la recherche d'un utilitaire qui m'aidera à trouver des fichiers PDF en double. Le problème: j'ai un millier de fichiers PDF. Certains sont des doublons. Ils ne sont pas faciles à détecter en raison de noms de fichiers différents et de petites différences dans la taille du fichier. Y at-il un utilitaire/algorithme/bibliothèque qui peut m'aider à trouver les doublons ou à me montrer des fichiers qui sont très similaires (ou degré de différence)?Trouver des fichiers PDF en double

Source

2010-10-03 Elvin

Juste trouvé un utilitaire qui peut fonctionner: http://anti-twin.com/ – Elvin

DiffPDF ressemble à quelque chose qui pourrait vous aider.

Source

2010-10-03 15:19:07

DiffPDF compare 2 fichiers côte à côte. Malheureusement, j'ai des milliers de fichiers à comparer, donc une solution automatisée serait la meilleure. – Elvin

Créez un hachage MD5 pour chaque fichier et stockez-le dans une base de données. Les fichiers identiques seront ensuite triés les uns à côté des autres, ou vous pouvez rapidement rechercher une clé préexistante.

Source

2010-10-04 12:25:25 Jaydee

Si les fichiers ont été créés par les différents outils, ils peuvent avoir la même apparence mais générer des résultats très différents car ils sont structurés différemment. J'ai fait quelques suggestions dans un article de blog au https://blog.idrsolutions.com/2010/09/comparing-2-pdf-files/

Source

2010-10-08 07:02:55

Je me souviens qu'il y a un utilitaire UNIX appelé pdf2txt (voir le paquet poppler-utils). Vous pouvez essayer d'extraire le texte des fichiers et de faire un diff textuel.

Source

2010-10-08 07:08:12

Le problème n'a pas encore été résolu. Ce que je fais, est-ce que j'utilise fdupes http://premium.caribe.net/~adrian2/fdupes.html pour trouver des doublons exacts.

Mais par-dessus tout, j'utilise un flux de travail qui minimise les doublons. Chaque document qui entre dans mon système est indexé avec ce script perl que j'ai écrit: http://seegras.discordia.ch/Programs/fileindex qui met un nom et une somme md5 dans ~/.fileindex.md5 Maintenant, je peux changer les métadonnées des fichiers PDF locaux ou quoi que ce soit (et Exécuter fileindex à nouveau), et chaque fois que je télécharge accidentellement le même fichier à nouveau, je vais avoir la somme md5 du fichier original, et peut ainsi détecter s'il s'agit d'un doublon.

Il existe également des fonctions exif-meta et exif-rename sur http://seegras.discordia.ch/Programs/ qui aident à définir les métadonnées PDF et à renommer les fichiers PDF en fonction des métadonnées; et si vous étiquetez tous les fichiers correctement, vous vous retrouverez avec des noms de fichiers en double, indiquant qu'il pourrait s'agir du même document dans un fichier différent.

Source

2013-04-22 06:25:10 Seegras

Trouver des fichiers PDF en double

Répondre

Questions connexes