2011-08-29 7 views
1

Quelqu'un peut-il recommander une bibliothèque (binaire Linux, fichier jar ou source) pour extraire l'arborescence de balises d'un fichier PDF balisé? J'ai essayé PDFMiner, mais il s'est écrasé sur le premier fichier que j'ai essayéExtraction de tags à partir du PDF

Répondre

1

Avez-vous essayé avec iText? Jetez un oeil sur PDFVole pour un exemple d'un projet qui montre cet arbre visuellement en utilisant iText. Vous ne serez pas en mesure de lier les nœuds d'arbres avec leur contenu de page correspondant à cette appoach cependant.

+0

semble prometteur, mais s'est écrasé sur le premier PDF étiqueté que je pouvais trouver (www.adobe.com/enterprise/accessibility/pdfs/acro6_pg_ue.pdf) –

+0

qui était version webstart, pot autonome semble bien –

Questions connexes