Quelqu'un peut-il recommander une bibliothèque (binaire Linux, fichier jar ou source) pour extraire l'arborescence de balises d'un fichier PDF balisé? J'ai essayé PDFMiner, mais il s'est écrasé sur le premier fichier que j'ai essayéExtraction de tags à partir du PDF
1
A
Répondre
1
Avez-vous essayé avec iText? Jetez un oeil sur PDFVole pour un exemple d'un projet qui montre cet arbre visuellement en utilisant iText. Vous ne serez pas en mesure de lier les nœuds d'arbres avec leur contenu de page correspondant à cette appoach cependant.
Questions connexes
- 1. Extraction d'images à partir du PDF
- 2. Extraction des tables ToUnicode à partir du PDF
- 3. Extraction de texte à partir de fichiers pdf et Word
- 4. Extraction de texte à partir de fichiers PDF en C#
- 5. Extraction de titres à partir de fichiers PDF?
- 6. pdf extraction de texte
- 7. Comment extraire du texte à partir du document PDF?
- 8. Extraction du titre du texte dans un fichier PDF
- 9. Regex: img-tags Extraction de chaîne
- 10. Extraction de MimeType à partir de shell32
- 11. Extraction d'images à partir du fichier SWF
- 12. Extraction d'images à partir du Web
- 13. Extraction de l'attribut meta tags à l'aide de wget
- 14. Extraction de texte d'un document PDF - C#
- 15. extraction du fichier à partir du chemin de fichier
- 16. Extraction du nom du document à partir du travail d'impression
- 17. Extraction d'une image à partir du PDF avec le filtre/CCITTFaxDecode
- 18. Extraction d'ActionScript à partir de SWF à l'aide du C#
- 19. Créer un fichier PDF à remplir à partir du PDF
- 20. Extraction du timecode SMPTE à partir du flux audio
- 21. Extraction du corps du message à partir d'une réponse HTTP
- 22. Rails Génération de tags dynamiques à partir du contexte
- 23. Lecture de tags ID3 à partir du Web avec C#
- 24. Extraction de plusieurs chaînes à partir du paragraphe
- 25. extraction de texte à partir du fichier html
- 26. extraction de la table à partir du fichier texte
- 27. Extraction du texte + variable à partir de fichier ne workng
- 28. Extraction de contenu à partir du document MHT
- 29. Extraction de la géométrie à partir du fichier IFC
- 30. Connexion de base et extraction à partir du répertoire actif
semble prometteur, mais s'est écrasé sur le premier PDF étiqueté que je pouvais trouver (www.adobe.com/enterprise/accessibility/pdfs/acro6_pg_ue.pdf) –
qui était version webstart, pot autonome semble bien –