Extraction de texte d'un document PDF - C#

Existe-t-il un moyen fiable d'extraire du texte à partir de PDF? La première idée qui vient à l'esprit est que PDF peut avoir plusieurs colonnes et le mécanisme d'extraction a besoin de connaître la structure logique en quelque sorte. Je comprends que certains documents PDF sont «taggés», mais je devrais prendre en charge à peu près n'importe quel document PDF.Extraction de texte d'un document PDF - C#

Des composants tiers à la rescousse ici?

Source

2010-02-19 DotnetDude

duplication possible de [Extraction de texte à partir de PDF en C#] (http://stackoverflow.com/questions/2116440/extracting-text-from-pdfs-in-c-sharp) –

S'il vous plaît voir: Extracting text from PDFs in C#

Source

2010-02-19 15:06:01

Répondre en citant une autre question sur SO à la place de signaler ... – Gnqz

Certains fichiers PDF sont des scans, si OCR serait nécessaire (pas facile, pour dire le moins).

Certains fichiers PDF sont compressés, d'autres (plus rarement) sont des fichiers PDF nus. Le format de fichier PDF lui-même est bien documenté, mais quand il s'agit d'extraire la bonne «structure» de tout sauf d'un simple document à une colonne, vous demandez un grand ordre. PDF sorte de représenter, en interne, à quoi pourrait ressembler le HTML si chaque ligne de texte était positionnée en DIV avec positionnement absolu.

Source

2010-02-19 15:10:45 richardtallent

Extraction de texte d'un document PDF - C#

Répondre

Questions connexes