je ce que je présume être un fichier PDF/A-1a qui a été généré par FOP apache et a une tête de recouvrement mis sur l'utilisation de OverlayPDF PDFBox. preflight reconnaît le fichier comme ok (mais évidemment seulement PDF/A-1b) et Acroreader dit qu'il est "PDF/A" mode et "Tagged: oui" dans les propriétés du document. Je voudrais voir à quoi cela ressemble donc je pourrais peut-être faire quelques petites améliorations. Ma question est, où puis-je regarder pour voir le contenu étiqueté (c'est-à-dire la représentation textuelle de quoi en PDF est une séquence creuse de sorties char), de préférence sans codage moi-même, par ex. en utilisant le débogueur/PDFReader de pdfbox? Je suis un peu perdu là-bas - existe-t-il un moyen alternatif d'obtenir une sortie textuelle de la structure du document, par ex. dans un fichier xml pour le rechercher en utilisant un éditeur? - TIA!Trouver le contenu tagué PDF/A-1a en utilisant PDFBox
Modifier
L'en-tête (s) elle-même est à l'origine PostScript et converti en PDF/A-1b en utilisant ghostscript, puis recouvert d'
java -jar pdfbox-app-2.0.0-RC3.jar OverlayPDF letter_plain.pdf \
followingpages_letterhead.pdf -first firstpage_letterhead.pdf \
letter_with_head.pdf
Le letter_plain.pdf est généré avec FOP en utilisant
fop -pdfprofile 'PDF/A-1a' -v -d -c my_fop_config.cfg -xml letter.xml \
-xsl letter_to_fo.xsl -pdf letter_plain.pdf
Les versions utilisées sont pdfbox 2.0 et fop 1.1. Dans le cas où letter_with_head.pdf ne serait plus PDF/A-1a alors la question s'appliquerait à letter_plain.pdf qui devrait être 1a selon l'appel de fop, devrait choisir une solution différente (comme svg) pour obtenir l'en-tête alors.
Edit 2
Exemple pdfs peuvent être trouvés ici: https://www.magentacloud.de/share/j9qk7jfzyv - il n'y a pas besoin d'un followingpages_letterhead.pdf séparé que l'échantillon est une seule page.
Edit 3
Je soupçonne que le texte est enterré quelque part en dessous Root/StructTreeRoot/ParentTree/Nums/[1]/[3]/P/P/P/P/P/P
(en supposant que le P est la carte en quelque sorte les fo:block
« s) mais ne peut nulle part montrer le texte du pdf.
serait-il possible de partager les documents en question? –
pdfs exemples sont ici https://www.magentacloud.de/share/j9qk7jfzyv –
Pour commencer, Adobe Acrobat Preflight prétend qu'il ya un certain nombre de questions de validité PDF/A-1a déjà en letter_plain.pdf. – mkl