2010-03-09 4 views
16

Je vois de nombreuses questions et réponses sur l'utilisation de C# pour générer des fichiers PDF.
J'ai une tâche connexe, mais différente.Lecture programmée de fichiers PDF en C#

J'ai un grand nombre de fichiers PDF déjà créés, et je voudrais valider certaines parties du contenu avec des expressions régulières (RegExs). Je veux ouvrir les fichiers PDF en C#, et être capable de lire le texte de manière linéaire.

Si les en-têtes, les pieds de page, les barres latérales, etc., sont sautés ou lues dans le désordre, cela n'a pas d'importance. Je suis juste après autant de texte que je peux récupérer. Pouvez-vous me désigner des outils, des bibliothèques, des API, etc., qui me permettront de lire par programme du texte dans des fichiers PDF?

+0

Merci pour toutes les réponses merveilleuses. Je vais essayer ces paquets bientôt, et j'espère accepter une "meilleure réponse" peu de temps après. – abelenky

+5

Étiqueté comme non constructif - mais il m'a certainement aidé à comprendre ce qui est disponible! Si cela ne convient pas au format Q & A, où devrait-on afficher ce type de question? – codeputer

+0

Je recommande que cela soit migré vers les recommandations de logiciel. C'est exactement le cas pour ce site. C'est une question merveilleuse qui a été et a été très utile à beaucoup de gens, mais elle ne correspond pas vraiment au format de l'OS. – demongolem

Répondre

8

J'ai utilisé PDFSharp au plus tard à la fin de l'année et je l'ai trouvé très facile à utiliser par rapport aux autres. Page d'accueil pour PDFSharp.

2

Il y a une bibliothèque pour .NET PDF Clown

Il y a aussi un bel article sur au CodeProject article qui détaille quelques autres bibliothèques et approches pour la lecture documents PDF.

3

Je l'ai utilisé avec succès deux bibliothèques différentes à cet effet. L'un est (partie du projet Apache), et l'autre de Snowtide Informatics.

Les deux sont des bibliothèques Java, mais vous pouvez utiliser ensuite .NET en combinaison avec IKVM.

+0

intelligent, mais fou :-) –

+0

PDFxStream (née PDFTextStream) est également distribué en tant qu'assemblage .NET (avec l'aimable autorisation de IKVM comme le mentionne Nick, bien que la distribution soit précompilée en .DLLs, évitant l'étape d'interprétation en cours d'exécution lorsque IKVM est utilisé pour consommer les bibliothèques Java telles quelles). – cemerick