J'ai une question à propos de pdfbox 1.8.13. J'essaie de lire dans le texte entier d'un document de pdf d'une page. Adobe Reader peut faire le travail, pdfbox lit presque toute la page mais brouille les deux premières lignes du document et les deux dernières lignes du document afin que les lettres soient interchangées.Les lettres de deux lignes sont interchangées, Adobe Reader peut faire le travail
Est-ce que quelqu'un sait comment résoudre un tel problème? Tout d'abord, où puis-je demander comment puis-je partager le PDF avec vous? Troisièmement, quelqu'un a-t-il la possibilité de vérifier si le problème existe aussi dans la version 2.0.7 de pdfbox, ce qui est complètement différent? implémenter?
Nous vous remercions d'avance pour votre aide Stephan
Adobe Reader:
ScalableCapitalHRB217778,AmtsgerichtMünchenSeite1von1
VermögensverwaltungGmbHUSt-IdNr.DE300434774
Prinzregentenstr.
48Geschäftsführung:80538München
ErikPodzuweit,FlorianPrucker
PDFBox:
SVecramlaöbgleenCsavpeitrawlaltung GmbH UHSRtB-I2d1N7r7.7D8E,3A0m0t4s3g4e7ri7c4ht München Seite 1 von 1
8P0ri5n3zr8egMeünntcehnesntr. 48 GEreikscPhoädftzsufwüheritu,nFglo: rian Prucker
Lien vers le PDF (j'ai vérifié que le problème est le même avec le PDF non modifié et modifié que j'ai téléchargé):
https://wetransfer.com/downloads/5930649bce9a1d1a686a0da63f1b9bce20170808071518/9b9140
P.S .: En attendant, j'ai également essayé la version PDDocument.loadNonSeq dans pdfbox 1.8.13 mais cela a entraîné le même problème.
Téléchargez le PDF dans un partage, puis affichez le lien, par exemple, boîte de dépôt, google drive , wikisend, fichier dropper, etc –
Vous pouvez également tester avec l'application de ligne de commande ExtractText. Il suffit de télécharger pdfbox-app à partir du site de téléchargement. –
C'est définitivement mieux avec 2.0.7. L'API pour l'extraction de texte simple est la même. –