J'ai des problèmes avec PDFBox, bibliothèque java. J'essaie de travailler sur les structures de pdfs et de le faire sans perdre d'informations J'utilise PDPage.getContents() au lieu d'un stripper de texte. Problème étant, il affiche le contenu avec beaucoup d'abréviations et nombre et tels pour lesquels je n'ai pas pu trouver une explication sur le site.PDFBox obtenir la signification du contenu des abréviations
Un exemple:
BT
0.001 Tc
1.2045 TL
9.9626 0 0 9.9626 53.04069 571.90505 Tm
[(con)26.6(t)4.4(aining)-378.3(their)-378.2(a)-4.9(sso)-29(ciated)-358.9(eigen)26.6(v)59(alues)] TJ
ET
BT
0 Tc
0 TL
/F8 1 Tf
9.9626 0 0 9.9626 226.08209 571.90505 Tm
[(\012)] TJ
ET
BT
/F11 1 Tf
6.9738 0 0 6.9738 231.84 570.465 Tm
[(d)] TJ
ET
BT
0.0002 Tc
/F5 1 Tf
9.9626 0 0 9.9626 236.64 571.905 Tm
[(,)-372.5(i)0.9(n)-383.8(d)1.7(escending)-379.1(o)-5.7(r)-5.6(der)-5.6(.)-360.4(Beca)-5.7(use)-362.4(t)3.6(he)] TJ
ET
BT
-0.0008 Tc
1.2045 TL
9.9626 0 0 9.9626 53.04024 559.90505 Tm
[(co)17.4(v)57.2(a)-6.7(r)-6.6(i)-0.1(a)-6.7(n)0.7(ce)-267(ma)-6.7(tr)-6.6(ix)-280(is)-280.9(symmetr)-6.6(ic)-279.1(a)-6.7(n)0.7(d)-288.4(s)-3.8(emip)-23.4(o)-6.7(s)-3.8(itiv)21.1(e)-279.1(d)0.7(e“nite,)-289.1(t)2.6(he)-291.1(eig)-6.7(e)-2(n)24.8(v)21.1(ecto)-6.7(r)-6.6(s)-256.8(a)-6.7(r)-6.6(e)] TJ
ET
j'ai pu traduire certains des simples évidentes (ET = texte final, BT = Début du texte) mais, fondamentalement, tout le reste je ne peux pas être sûr. Les nombres à côté de "syllabes" semblent faire quelque chose avec position.
Particulièrement intéressant pour moi sont/F5,/F7, ..; Ils semblent avoir à faire avec le format du texte qui vient après eux, mais seulement sachant que cela ne peut pas vraiment aider à l'analyse pdf générale, j'ai besoin d'avoir un peu plus d'informations.
J'accepterai volontiers toute information qui pourrait être utile. Merci d'avance :)
souvent la partie la plus difficile de poser une question est quelle question à poser. Au lieu de demander ce que signifient ces abréviations, pourquoi ne reformulez-vous pas votre question en disant «comment obtenir une représentation PDF exploitable/lisible» ... Je suis sûr que les contributeurs à pdfbox ont également eu des difficultés à interpréter ces abréviations et ont trouvé un moyen de les rendre lisibles. ..... Ou peut-être juste lire les docs? – baao