2016-10-08 1 views
0

J'ai des problèmes avec PDFBox, bibliothèque java. J'essaie de travailler sur les structures de pdfs et de le faire sans perdre d'informations J'utilise PDPage.getContents() au lieu d'un stripper de texte. Problème étant, il affiche le contenu avec beaucoup d'abréviations et nombre et tels pour lesquels je n'ai pas pu trouver une explication sur le site.PDFBox obtenir la signification du contenu des abréviations

Un exemple:

BT 
0.001 Tc 
1.2045 TL 
9.9626 0 0 9.9626 53.04069 571.90505 Tm 
[(con)26.6(t)4.4(aining)-378.3(their)-378.2(a)-4.9(sso)-29(ciated)-358.9(eigen)26.6(v)59(alues)] TJ 
ET 
BT 
0 Tc 
0 TL 
/F8 1 Tf 
9.9626 0 0 9.9626 226.08209 571.90505 Tm 
[(\012)] TJ 
ET 
BT 
/F11 1 Tf 
6.9738 0 0 6.9738 231.84 570.465 Tm 
[(d)] TJ 
ET 
BT 
0.0002 Tc 
/F5 1 Tf 
9.9626 0 0 9.9626 236.64 571.905 Tm 
[(,)-372.5(i)0.9(n)-383.8(d)1.7(escending)-379.1(o)-5.7(r)-5.6(der)-5.6(.)-360.4(Beca)-5.7(use)-362.4(t)3.6(he)] TJ 
ET 
BT 
-0.0008 Tc 
1.2045 TL 
9.9626 0 0 9.9626 53.04024 559.90505 Tm 
[(co)17.4(v)57.2(a)-6.7(r)-6.6(i)-0.1(a)-6.7(n)0.7(ce)-267(ma)-6.7(tr)-6.6(ix)-280(is)-280.9(symmetr)-6.6(ic)-279.1(a)-6.7(n)0.7(d)-288.4(s)-3.8(emip)-23.4(o)-6.7(s)-3.8(itiv)21.1(e)-279.1(d)0.7(e“nite,)-289.1(t)2.6(he)-291.1(eig)-6.7(e)-2(n)24.8(v)21.1(ecto)-6.7(r)-6.6(s)-256.8(a)-6.7(r)-6.6(e)] TJ 
ET 

j'ai pu traduire certains des simples évidentes (ET = texte final, BT = Début du texte) mais, fondamentalement, tout le reste je ne peux pas être sûr. Les nombres à côté de "syllabes" semblent faire quelque chose avec position.

Particulièrement intéressant pour moi sont/F5,/F7, ..; Ils semblent avoir à faire avec le format du texte qui vient après eux, mais seulement sachant que cela ne peut pas vraiment aider à l'analyse pdf générale, j'ai besoin d'avoir un peu plus d'informations.

J'accepterai volontiers toute information qui pourrait être utile. Merci d'avance :)

+1

souvent la partie la plus difficile de poser une question est quelle question à poser. Au lieu de demander ce que signifient ces abréviations, pourquoi ne reformulez-vous pas votre question en disant «comment obtenir une représentation PDF exploitable/lisible» ... Je suis sûr que les contributeurs à pdfbox ont également eu des difficultés à interpréter ces abréviations et ont trouvé un moyen de les rendre lisibles. ..... Ou peut-être juste lire les docs? – baao

Répondre

1

Le meilleur endroit pour commencer est Annexe A (sur la gauche) "Résumé de l'opérateur" dans le PDF 32000 specification, ou page 645. Au début, je l'ai utilisé tout le temps.

Dans votre exemple, "Tf" est "sélectionner la police". Pour connaître la police, recherchez le nom dans le dictionnaire de ressources avec PDFDebugger ou placez le pointeur de la souris sur "Tf" et attendez que le nom de la police soit affiché. Voici un exemple:

enter image description here

So/TT2 est un Verdana, sous-ensemble de caractères gras.

+0

C'est super merci! – Dominus