2010-02-19 6 views
1

Existe-t-il un moyen fiable d'extraire du texte à partir de PDF? La première idée qui vient à l'esprit est que PDF peut avoir plusieurs colonnes et le mécanisme d'extraction a besoin de connaître la structure logique en quelque sorte. Je comprends que certains documents PDF sont «taggés», mais je devrais prendre en charge à peu près n'importe quel document PDF.Extraction de texte d'un document PDF - C#

Des composants tiers à la rescousse ici?

+0

duplication possible de [Extraction de texte à partir de PDF en C#] (http://stackoverflow.com/questions/2116440/extracting-text-from-pdfs-in-c-sharp) –

Répondre

2

Certains fichiers PDF sont des scans, si OCR serait nécessaire (pas facile, pour dire le moins).

Certains fichiers PDF sont compressés, d'autres (plus rarement) sont des fichiers PDF nus. Le format de fichier PDF lui-même est bien documenté, mais quand il s'agit d'extraire la bonne «structure» de tout sauf d'un simple document à une colonne, vous demandez un grand ordre. PDF sorte de représenter, en interne, à quoi pourrait ressembler le HTML si chaque ligne de texte était positionnée en DIV avec positionnement absolu.

Questions connexes