2010-09-30 3 views
7

Possible en double:
Tool to compare large numbers of PDF files?Un moyen fiable de comparer (par programme) les fichiers PDF?

Je suis dans le scénario classique où l'entreprise vous donne un tas de nouvelles formes de pdf pour la nouvelle année sans révision note que ce soit et vous sont censés comprendre ce qui est différent de ceux de l'année précédente. Je parle beaucoup de formes ici, donc j'essaie de trouver un moyen de comparer les PDF pour souligner les différences sans que les gens passent par chacun d'entre eux manuellement. Mon idée était d'extraire tout le texte des fichiers PDF et de le vider dans un fichier .txt, puis d'exécuter des différences sur les fichiers texte, mais cela semble horrible. Ma question dit par programme, mais je serais heureux avec tous les outils fiables pour comparer les fichiers PDF, et cherche principalement à obtenir une idée des expériences des gens. Aussi prêt à divertir toutes les solutions programmatiques (de préférence en C#, mais pls shoot des idées).

+0

Pourquoi cette copie? Il est clair que la question posée est de savoir comment le faire par programme. N'importe quel nombre d'outils installables ne sont pas la réponse à cette question. – Vin

Répondre

8

Il existe un certain nombre de logiciels qui prétendent différencier les fichiers PDF. Je n'ai jamais eu besoin d'en utiliser un, mais si cela devait être un processus récurrent, je pense qu'il serait sage que votre entreprise investisse dans l'un d'entre eux. Juste Google "pdf diff" pour un tas d'applications potentielles.

En outre, votre situation est très similaire à cette question: Tool to compare large numbers of PDF files? Je pense que sa discussion peut aider.

+0

merci pour cela - cette question est en effet très similaire (pour une raison quelconque n'a pas apparaître lorsque j'ai composé le mien). – JohnIdol

4

Je suis allé l'approche pour obtenir les données brutes sur le PDF, puis en utilisant Word ou TortiseSVN, ou WinMerge, etc ... pour prendre soin de la pièce de comparaison. Dans mon exemple, j'ai fait la comparaison dans un RichTextBox en C# ... en coloriant les différences, etc ... puisque nous voulions tout dans notre application.

Voici ce que j'ai fait ... PDF comparison en essayant de comparer des documents mixtes, Word et PDF.

Cependant, je recommande PDFBox pour l'analyse syntaxique, un peu plus élégant ... bien iTextSharp bien passé ...

2

j'ai écrit un blog qui suggère quelques approches de comparaison des fichiers PDF à https://blog.idrsolutions.com/2010/09/comparing-2-pdf-files/

+0

convertir le pdf en image, puis comparer et encore besoin d'intervention humaine? Comment est-ce utile alors? – vsingh

+0

Le logiciel peut vous dire si elles n'ont pas changé afin que vous sachiez que vous n'avez rien cassé.Seul un humain peut évaluer les changements. –

7

I suis un développeur de Docotic.Pdf Library. Nous utilisons la comparaison PDF dans les tests unitaires pour vérifier que le test produit du PDF comme prévu. PDF est une collection d'objets spéciaux et nous comparons tous les objets PDF en ignorant certaines propriétés comme les ID de bande-annonce et les informations sur les créateurs. Cette implémentation fonctionne correctement.

Vous pouvez essayer la méthode PdfDocument.DocumentsAreEqual. Cette méthode vous dit simplement que les documents sont égaux, sans différences spécifiques. Vous pouvez nous contacter si vous avez besoin de plus de fonctionnalités.

Questions connexes