J'essaie de créer une application de traitement de texte en Java qui nécessite du texte en entrée. Maintenant, je suis en train d'extraire cette entrée à partir d'un fichier PDF spécifié par l'utilisateur. J'utilise PdfBox pour l'extraction de texte. Le problème que j'ai est qu'un fichier PDF peut contenir des tables, des équations et des symboles spéciaux, de sorte que le texte que PdfBox extraits contient des déchets à de nombreux endroits. Pour cette raison, mon application de traitement de texte ne parvient pas à donner son résultat optimal. Je voulais savoir si le PDF avait un format spécifique pour une table afin que je puisse atteindre le niveau racine et les exclure pendant l'extraction. En outre, dans de nombreuses occasions, le texte extrait contient des caractères inconnus rendus '?' Bien que dans le PDF réel, ils semblent être des alphabets normaux. J'ai aussi essayé une autre bibliothèque - IText mais les résultats n'étaient pas satisfaisants. En un mot, tout ce que je veux, c'est extraire des phrases simples à partir de fichiers PDF, en excluant toutes les autres ordures. Ce serait génial si quelqu'un pouvait m'aider ici en suggérant de contourner ce problème ou une autre meilleure bibliothèque d'extraction pour Java. Merci.Négliger des tables pendant l'extraction PDF
0
A
Répondre
0
J'ai récemment besoin d'extraire du texte à partir de PDF pour un traitement ultérieur en Java - J'ai utilisé la commande Linux pdftotext - si vous avez cette commande à votre disposition, est-ce une option?
EDIT: vient de voir un autre post aujourd'hui à propos de Apache Tika - qui a un parser PDF (et beaucoup d'autres). Cela pourrait vous être utile. http://tika.apache.org/
1
Le fichier PDF n'a pas de format 'table'. Les tableaux sont construits à partir de lignes et de texte, c'est tout. Un PDF étiqueté peut avoir une telle étiquette, mais celles-ci sont rares.
Questions connexes
- 1. Négliger assert_différence?
- 2. Adobe PDF Guide des tables d'encodage
- 3. Négliger une fonction en JavaScript?
- 4. Performances inacceptables Rendu des tables PDF avec ITextSharp et PDFSharp
- 5. Extraire des données de tables imbriquées en PDF
- 6. crevette PDF: J'ai besoin de générer des tables imbriquées
- 7. Extraction des tables ToUnicode à partir du PDF
- 8. Comment reconnaître des tables dans un fichier pdf
- 9. convertir des tables MySQL texte fin ou fichier pdf
- 10. Tables avec des coins arrondis
- 11. Trouver des tableaux en PDF
- 12. Comment négliger cette erreur dans l'application Windows en utilisant des rapports de cristal
- 13. Synchroniser plusieurs tables pendant le refactoring du serveur SQL Server
- 14. Les tables HTML au format PDF en PHP - ni DOMPDF ni html2ps/pdf ne fonctionnent
- 15. Oracle utilise-t-il des tables temporaires pendant les procédures de sauvegarde?
- 16. Fusionner des fichiers PDF
- 17. Fusionner des fichiers PDF
- 18. Générer PDF dans Ruby avec des tableaux et des images
- 19. Générer des fichiers PDF téléchargeables à partir de tables HTML sur Rails
- 20. Comment ajouter des tables en pied de page de PDF en Java en utilisant itext
- 21. Comment puis-je créer des tables PDF à partir de Perl?
- 22. php tables preg_replace (également tables imbriquées dans des tables)
- 23. Supprimer des éléments des tables SWT
- 24. Est-ce que Lua partage des tables dans des tables?
- 25. Interprétation des tables de saut et des tables de branchement
- 26. Suppression des anomalies des tables
- 27. Récupéré des données des tables
- 28. Validation des fichiers PDF (Image + Texte PDF) validation
- 29. comment ajouter des pages de fichier2.pdf à fichier1.pdf
- 30. Chargement des tables cibles
Merci pour la suggestion .... J'ai vérifié mais il semble que cela donne le même texte que je reçois en utilisant PdfBox, juste dans un format HTML. En outre, cela ne me sera pas utile car je cherche à créer une application Java pour différentes plates-formes et pas seulement Linux ... de toute façon merci pour votre suggestion. –