connaissez-vous une bibliothèque Java, avec laquelle je peux extraire le texte d'un document PDF sous forme de chaîne et qui préserve également toutes les lignes vides et espaces vides le document original (tel qu'il apparaît dans le document pdf)? J'utilise maintenant la classe PDFTextStripper de la bibliothèque PDFBox-0.7.3, et j'utilise la méthode getText(), qui renvoie le document sous forme de chaîne, mais elle supprime également toutes les lignes vides, tabulations et des espaces vides entre le texte. Les nouvelles lignes sont conservées, donc je peux reconnaître la structure du document, cependant, il est important pour moi de garder les autres choses vides aussi. C'est le comportement par défaut de getText(), et il semble qu'il n'est pas possible de le faire fonctionner de manière à préserver les parties vides du texte (je n'ai trouvé aucune méthode dans l'API à cette fin).Une bibliothèque Java pour l'extraction de texte à partir de documents PDF préservant des espaces et des lignes vides
Nous vous remercions de votre aide.
Avez-vous encore ce travail quelque part? J'ai vraiment besoin de quelque chose comme ça. Pourriez-vous s'il vous plaît fournir cela? Merci! – Softy
Sry non, j'avais le code sur de vieux disques durs mais comme j'ai arrêté de travailler pour l'entreprise il y a quelques années, je n'en avais plus besoin. – GHad