Je suis à la recherche d'un utilitaire qui m'aidera à trouver des fichiers PDF en double. Le problème: j'ai un millier de fichiers PDF. Certains sont des doublons. Ils ne sont pas faciles à détecter en raison de noms de fichiers différents et de petites différences dans la taille du fichier. Y at-il un utilitaire/algorithme/bibliothèque qui peut m'aider à trouver les doublons ou à me montrer des fichiers qui sont très similaires (ou degré de différence)?Trouver des fichiers PDF en double
Répondre
Créez un hachage MD5 pour chaque fichier et stockez-le dans une base de données. Les fichiers identiques seront ensuite triés les uns à côté des autres, ou vous pouvez rapidement rechercher une clé préexistante.
Si les fichiers ont été créés par les différents outils, ils peuvent avoir la même apparence mais générer des résultats très différents car ils sont structurés différemment. J'ai fait quelques suggestions dans un article de blog au https://blog.idrsolutions.com/2010/09/comparing-2-pdf-files/
Je me souviens qu'il y a un utilitaire UNIX appelé pdf2txt (voir le paquet poppler-utils
). Vous pouvez essayer d'extraire le texte des fichiers et de faire un diff textuel.
Le problème n'a pas encore été résolu. Ce que je fais, est-ce que j'utilise fdupes http://premium.caribe.net/~adrian2/fdupes.html pour trouver des doublons exacts.
Mais par-dessus tout, j'utilise un flux de travail qui minimise les doublons. Chaque document qui entre dans mon système est indexé avec ce script perl que j'ai écrit: http://seegras.discordia.ch/Programs/fileindex qui met un nom et une somme md5 dans ~/.fileindex.md5 Maintenant, je peux changer les métadonnées des fichiers PDF locaux ou quoi que ce soit (et Exécuter fileindex à nouveau), et chaque fois que je télécharge accidentellement le même fichier à nouveau, je vais avoir la somme md5 du fichier original, et peut ainsi détecter s'il s'agit d'un doublon.
Il existe également des fonctions exif-meta et exif-rename sur http://seegras.discordia.ch/Programs/ qui aident à définir les métadonnées PDF et à renommer les fichiers PDF en fonction des métadonnées; et si vous étiquetez tous les fichiers correctement, vous vous retrouverez avec des noms de fichiers en double, indiquant qu'il pourrait s'agir du même document dans un fichier différent.
- 1. Trouver des tableaux en PDF
- 2. Javascript en PDF double valeurs
- 3. MySQL - trouver des tuples en double
- 4. trouver la répétition des numéros en double
- 5. Fusionner des fichiers PDF
- 6. lire des fichiers pdf en utilisant java
- 7. Générer des fichiers PDF en Objective-C
- 8. Trouver des enregistrements en double dans MySQL en utilisant LIKE
- 9. Sélection dans des fichiers PDF
- 10. Comment rendre des pages de fichiers PDF en tant qu'images?
- 11. Comment créer des fichiers PDF sur Android
- 12. Comment puis-je trouver des commandes en double par client?
- 13. Comment trouver des paires en double dans un dictionnaire?
- 14. Recherche efficace pour trouver des enregistrements en double
- 15. Trouver des chaînes en double dans la base de données
- 16. Trouver des lignes en double mais ignorer le dernier résultat?
- 17. PDF décoder et trouver des données utiles
- 18. requête mySQL trouver en double rangée
- 19. Validation des fichiers PDF (Image + Texte PDF) validation
- 20. diviser PDF en plusieurs fichiers en C#
- 21. comparaison de fichiers avec des enregistrements en double dans cobol
- 22. Héritage de cadre et fichiers en double dans des paquets
- 23. Comment fusionner des fichiers PDF avec Perl?
- 24. Fusionner des fichiers PDF chiffrés avec iTextSharp
- 25. Afficher des fichiers PDF dans Silverlight
- 26. Problèmes avec linux Imagemagick convertit des fichiers PDF en JPG
- 27. Rédaction d'une application simple pour convertir des fichiers en pdf
- 28. Comment convertir des documents pdf en fichiers html?
- 29. Comment créer des fichiers PDF en utilisant zend framework?
- 30. Lecture programmée de fichiers PDF en C#
Juste trouvé un utilitaire qui peut fonctionner: http://anti-twin.com/ – Elvin