Comment traiter les documents PDF?

J'ai besoin de quelques recommandations sur le traitement des documents PDF. Ces documents sont des états annuels et contiennent des montants et des chiffres en dollars que je dois concilier.Comment traiter les documents PDF?

J'ai vu des recommandations sur

1) iTextSharp, 
2) PDFBox (IKVM) 
3) PDFSharp 
4) PDFEdit API (from Adobe)

Quels sont ceux que vous recommandez et s'il y a des limites que je devrais être au courant? En plus de l'open source, ça ne me dérange pas de payer pour un produit commercial tant qu'il est bien supporté et complet.

** Autres informations: ** Les fichiers PDF sont tous générés par le même fournisseur tiers. Tous les PDF n'ont pas la même structure - il existe environ 10 structures différentes (modèles).

Je n'ai pas d'exigence d'écriture au format PDF.

Merci beaucoup à l'avance.

Source

2010-08-11 Syd

Mon vote serait PdfSharp pour les raisons suivantes ...

plus facile à utiliser que iTextSharp (avis subjectif)
permissive (licence X11)
Je ne l'avais jamais entendu parler de PDFBox avant ;-)

Source

2010-08-11 03:54:41

Merci Tim. PDFBox est maintenant repris par Apache. http://pdfbox.apache.org/ – Syd

Vous pouvez également regarder PDFText. Nous utilisons cela dans de nombreux cas pour extraire des données brutes à partir de fichiers PDF. Il a également d'autres bibliothèques peu coûteuses pour aider avec d'autres aspects de la manipulation de PDF.

Cela suppose que le document n'est pas analysé et que des données peuvent être extraites.

Source

2010-08-11 20:00:05

merci pour le lien (+1). je vais ajouter à ma recherche. une question, pourquoi avez-vous choisi cette option au lieu de ce que j'ai énuméré ci-dessus? – Syd

@Syd. nous l'avons choisi pour un autre projet qui devait extraire des données de milliers de fichiers pdf d'origines différentes. il s'est avéré être la seule bibliothèque qui fonctionnait avec tous les fichiers, en particulier ceux de l'éditeur Oracle Xml qui étaient tous malformés. Comme tout fonctionnait bien, nous nous tournons vers elle chaque fois que nous avons besoin d'extraire du texte en pdf et nous avons écrit un ensemble complet d'enveloppes pour pouvoir l'extraire de différentes zones, etc. Pour le prix, nous le trouvons très utile. Le support a été bon aussi du développeur. –

Merci Douglas d'avoir donné la raison supplémentaire (+1 pour vos commentaires supplémentaires). – Syd

Découvrez http://www.pdftron.com/. Nous l'utilisons pour lire et écrire des documents PDF - très fiables.

Source

2010-08-11 20:14:36 unclepaul84

Paul84. merci pour le lien (+1). je vais ajouter à ma recherche. une question, pourquoi avez-vous choisi cette option au lieu de ce que j'ai énuméré ci-dessus? – Syd

Comment traiter les documents PDF?

Répondre

Questions connexes