2017-01-09 1 views
0

Je veux extraire un Stream-Dump à partir d'un PDF avec PDFBox. Est-ce possible avec PDFBox?Extrait Stream-Dump de PDF-Body avec PDFBox

Je veux obtenir le HEX-Code original du contenu d'un PDF, comme ceci:

BT /F19 8.9664 Tf 96.197 606.119 Td [(Kommunikation)]TJ 
ET 
q 
1 0 0 1 85.238 594.35 cm 
[]0 d 0 J 0.398 w 0 0 m 0 7.352 l S 
Q 
BT 
/F19 8.9664 Tf 133.856 595.758 Td [(Erster)-600(Testuebertrag)-600(auf)-600(die)-600(Neuentwicklung)-600(fuer)-600(die)-600(PSA)-600(Direktbank)-600(ma)]TJ 
ET 
q 
1 0 0 1 85.238 583.989 cm 
[]0 d 0 J 0.398 w 0 0 m 0 7.352 l S 
Q 
BT 
/F19 8.9664 Tf 133.856 585.397 Td [(l)-600(mit)-600(sehr)-600(langen)-600(Verwendungszweck)-600(gleich)-600(zum)-600(testen)-600(wann)-600(dieser)-600(cuted)]TJ 
ET 

thx

Répondre

1

Pour une utilisation unique, exécutez PDFDebugger et rechercher des "matières".

à usage multiple, utilisez ce code pour la première page:

try (PDDocument doc = PDDocument.load(new File("XXX.pdf")); 
     InputStream contents = doc.getPage(0).getContents()) 
{ 
    IOUtils.copy(contents, System.out); 
} 

Notez que cela ne décharge le flux de contenu de la page. Il peut exister d'autres flux de contenu dans des formulaires xobject, des modèles, des masques mous, des flux d'affichage d'annotations. Le PDF est assez complexe.

+0

merci beaucoup ... ce code est coupé ... – derRichter