Négliger des tables pendant l'extraction PDF

J'essaie de créer une application de traitement de texte en Java qui nécessite du texte en entrée. Maintenant, je suis en train d'extraire cette entrée à partir d'un fichier PDF spécifié par l'utilisateur. J'utilise PdfBox pour l'extraction de texte. Le problème que j'ai est qu'un fichier PDF peut contenir des tables, des équations et des symboles spéciaux, de sorte que le texte que PdfBox extraits contient des déchets à de nombreux endroits. Pour cette raison, mon application de traitement de texte ne parvient pas à donner son résultat optimal. Je voulais savoir si le PDF avait un format spécifique pour une table afin que je puisse atteindre le niveau racine et les exclure pendant l'extraction. En outre, dans de nombreuses occasions, le texte extrait contient des caractères inconnus rendus '?' Bien que dans le PDF réel, ils semblent être des alphabets normaux. J'ai aussi essayé une autre bibliothèque - IText mais les résultats n'étaient pas satisfaisants. En un mot, tout ce que je veux, c'est extraire des phrases simples à partir de fichiers PDF, en excluant toutes les autres ordures. Ce serait génial si quelqu'un pouvait m'aider ici en suggérant de contourner ce problème ou une autre meilleure bibliothèque d'extraction pour Java. Merci.Négliger des tables pendant l'extraction PDF

Source

2012-03-27 Manan Pancholi

J'ai récemment besoin d'extraire du texte à partir de PDF pour un traitement ultérieur en Java - J'ai utilisé la commande Linux pdftotext - si vous avez cette commande à votre disposition, est-ce une option?

EDIT: vient de voir un autre post aujourd'hui à propos de Apache Tika - qui a un parser PDF (et beaucoup d'autres). Cela pourrait vous être utile. http://tika.apache.org/

Source

2012-03-27 10:57:24

Merci pour la suggestion .... J'ai vérifié mais il semble que cela donne le même texte que je reçois en utilisant PdfBox, juste dans un format HTML. En outre, cela ne me sera pas utile car je cherche à créer une application Java pour différentes plates-formes et pas seulement Linux ... de toute façon merci pour votre suggestion. –

Le fichier PDF n'a pas de format 'table'. Les tableaux sont construits à partir de lignes et de texte, c'est tout. Un PDF étiqueté peut avoir une telle étiquette, mais celles-ci sont rares.

Source

2012-03-28 06:57:42 KenS

Négliger des tables pendant l'extraction PDF

Répondre

Questions connexes