Je suis en train d'analyser des documents PDF avec PDFBox version 2.0 d'apache J'ai vu beaucoup de questions sur la séparation de l'en-tête/pied de page du contenu réel. Mes résultats sont qu'il existe une certaine notion (dans mon exemple de PDF) de ces sections, car l'indicateur SortByPosition a un effet sur l'ordre dans lequel le contenu est écrit dans le texte. Quand je mets SortByPosition à false, j'obtiens d'abord l'en-tête/pied de page et ensuite le corps (et ceci se répète pour chaque page). Lorsque je définis la propriété SortByPostion sur true, le contenu est affiché dans l'ordre tel qu'il apparaît à l'écran dans mon lecteur PDF.Apache PDFBox PDFTextStripper accéder à des parties du texte de la page, comment puis-je?
PDFTextStripper textStripper = new PDFTextStripper();
textStripper.setSortByPosition(true);
String content = textStripper.getText(pdf);
System.out.println(content);
Donc interne ces textes sont disponibles en "blocs de texte" séparés. Ma question est la suivante: y a-t-il un moyen pour moi d'accéder à ces blocs séparément?
Ci-dessous la sortie de ce morceau de code avec le drapeau de tri true
tête PDF MIC
Vandaag meer dan 1 Pagina
Porte mij geschrevenHeader PDF MIC
Dan est dit pagina 2
Voir plus de détails sur ce produit.
Et ceci est la sortie avec le drapeau de tri false
tête PDF MIC
Vandaag meer dan 1 Pagina
Porte mij geschreven
tête PDF MIC
Dan est dit Pagina 2
Met veel meer teksten en woorden.
Si vous connaissez les coordonnées, utilisez PDFTextStripperByArea. Nos remerciements –
PDF @TilmanHausherr seront fournis par différents fournisseurs, nous faisons cela, je ne sais pas la mise en page/coordonnées à l'avance, mais nous pouvons prendre un en-tête/pied de page numéro/page de bien de PDF/A Conformité. Si vous obtenez – mpjjonker
PDF de fournisseurs différents, Pourquoi pensez-vous que vous pouvez utiliser de la structure interne d'un pour analyser eux PDF Tous? * On peut supposer un en-tête/pied de page/numéro de page * Mais comment ne * d'être reconnu par une machine? Pensez de critères appropriés à votre cas d'utilisation, alors je pourrais vous aider à mettre nous dis. * PDF/A Conformité * Quelle saveur? PDF/A-1a? 1b? 2a? 2b? 2u? 3a? 3b? 3? Ce – mkl