Lire les données d'un document PDF qui n'a pas de formulaire XFA

J'utilise iText pour lire un document PDF contenant un formulaire XFA. Je le convertis en XML, lis les données du XML et l'insère dans une base de données. Mais si je n'ai pas un formulaire XFA dans le PDF, alors comment puis-je lire efficacement les données du PDF?Lire les données d'un document PDF qui n'a pas de formulaire XFA

Source

2017-08-09 hrishi

-1

Cela dépend de vos attentes.

Vous pouvez utiliser l'extraction de texte pour récupérer tout le texte sur une page donnée. La façon dont vous traitez ensuite le texte dépend de vous. (par exemple, expressions régulières)
Vous pouvez également utiliser pdf2Data, un module complémentaire iText7 qui vous permet de faire correspondre des documents à des modèles. pdf2Data semble être un bon choix, car il produit des fichiers XML en sortie.

Plus d'informations sur pdf2Data se trouve ici http://itextpdf.com/itext7/pdf2Data

Source

2017-08-09 09:06:57

extraction de textes ne sont pas beaucoup plus utile que les valeurs ne peuvent pas être mises en correspondance – hrishi

Cela dépend. Vous pouvez utiliser TextExtractionStrategies qui prend un emplacement spécifique (Rectangle) comme entrée. Cela vous permet une approche plus ciblée. Une fois que vous avez le texte à une certaine position (approximativement définie), vous pouvez utiliser des expressions régulières pour affiner le résultat. –

ok. Merci, je vais vérifier. Je ne suis pas très familier avec les fichiers PDF. J'utilise le code Java iText pour lire les formulaires XFA. Pouvez-vous partager un exemple de lien de code où je peux avoir une idée sur la façon de l'utiliser par programme – hrishi

Lire les données d'un document PDF qui n'a pas de formulaire XFA

Répondre

Questions connexes