Comment saurai-je si le PDF est balisé ou non? Je développe un programme qui copiera un texte dans un fichier PDF et l'affichera dans mon application, j'ai donc essayé de tester le fichier PDF, j'ai copié une table à partir d'un fichier PDF (Copier + Coller Ordinaire) et le coller dans MS Mot. Le résultat était un texte normal sans tables. Il y a quelques problèmes que lorsque vous copiez une table à partir d'un fichier pdf et le collez à Word, il devient image. Est-ce vrai?Comment déterminer si PDF est étiqueté ou non?
Répondre
Comment déterminer si PDF est marqué ou non?
En fonction de la bibliothèque que vous utilisez pour traiter vos fichiers, vous pouvez essayer de récupérer l'entrée MarkInfo
du dictionnaire Catalog
.
De la spécification PDF:
TABLEAU 3.25 Entrées dans le dictionnaire de catalogue
KEY: MarkInfo
TYPE: dictionnaire
VALEUR: (en option, PDF 1.4) Un dictionnaire d'informations de marque contenant des informations sur l'utilisation du document des conventions PDF balisées (voir Section 10.6, "Structure logique").
Cependant, même si la valeur de cette propriété est définie sur TRUE, cela ne signifie pas que les balises seront effectivement là, et si elles sont, ils pourraient ne pas être utile à vous, à tous pour extraire des tables . Vous pouvez toujours trouver des fichiers PDF avec des tableaux qui utilisent les balises uniquement pour marquer les paragraphes et les images.
Longue histoire courte, à moins que vous générez les fichiers que votre application va consommer, de sorte que vous pouvez savoir quelles balises à rechercher, il est pas une bonne idée de compter sur ces balises pour " extraction de tables à partir de PDF ".
J'ai trouvé un commentaire à une question différente qui semble avoir répondu à cette question.
How to read a Table in a PDF using iText java?
Vous pouvez extraire du texte à partir d'un flux de contenu, mais pour les fichiers PDF ordinaires, le résultat sera le texte brut (sans structure). S'il y a une table sur la page, cette table ne sera pas reconnue comme telle. Vous obtiendrez le contenu et quelques espaces blancs, mais ce n'est pas une structure tabulaire! Seulement si vous avez un PDF balisé, vous pouvez obtenir un fichier XML. Si le PDF contient des balises reconnues comme des balises de table, cela sera reflété dans le PDF.
Ceci est de http://support.itextpdf.com/node/27
oh. Donc, même en utilisant une extraction normale de PDF pour programmer, ce serait seulement une forme de texte. même il est affiché? –
Il serait sous forme de tableau seulement si le PDF était étiqueté et pouvait être converti en XML. –
- 1. Déterminer si ELMAH est activé ou non?
- 2. déterminer si dropdownlist est sélectionné ou non
- 3. Comment déterminer si le contenu d'un fichier .pdf est scanné ou non
- 4. Comment déterminer sur quel UIElement un objet étiqueté est placé?
- 5. comment déterminer si une personne est en ligne ou non
- 6. Comment déterminer si un fichier CSV est unicode ou non
- 7. Comment déterminer si une URL est une image ou non?
- 8. Comment déterminer si la page contextuelle est ouverte ou non?
- 9. Comment déterminer si l'application est une application système ou non?
- 10. Quelle bibliothèque tierce dans .net qui pourrait déterminer correctement si le pdf est corrompu ou non?
- 11. Déterminer si une réponse d'exploration est autorisée ou non
- 12. Python - Déterminer si ip est un proxy ou non
- 13. Déterminer si l'application est WinForms ou WebForms
- 14. Déterminer si l'utilisateur est connecté ou déconnecté
- 15. Déterminer si graphe non orienté est connecté
- 16. Regex pour capturer le contenu étiqueté et non étiqueté
- 17. Comment déterminer si la date/heure est EDT ou EST en Java?
- 18. Comment déterminer si une table est créée?
- 19. Déterminer si l'objet appartient au gestionnaire de persistance ou non
- 20. Comment déterminer si un DIB est ascendant ou descendant?
- 21. Comment déterminer si un objet javascript est simple ou complexe?
- 22. En C#, comment déterminer si une image (jpg, gif ou png) est entrelacée (non progressive) ou non entrelacée (progressive)?
- 23. Comment déterminer si une fonction est vide
- 24. Puis-je déterminer si MFMailComposeViewController utilisera S/MIME ou non?
- 25. Comment déterminer si une solution particulière est une application WPF ou une application Non WPF?
- 26. Comment déterminer si l'adresse IP de l'appareil Android est publique ou non
- 27. Comment déterminer si une colonne d'une grille de données est triée ou non.
- 28. Comment déterminer si SqlConnection est inscrite dans un tx de System.Transactions ou non?
- 29. Dans PowerShell, comment puis-je déterminer si le lecteur actuel est un lecteur réseau ou non?
- 30. Comment déterminer si un élément DOM spécifique est visible ou non?
Si le texte copié à partir d'un PDF peut être collé en tant que tableau dépend du programme que vous utilisez pour afficher/copier le PDF et le programme dans lequel vous êtes collé. Le PDF peut avoir le texte sous la forme d'une table, mais le visualiseur le transforme en texte brut lorsque vous en copiez. Sinon, le programme dans lequel vous le collez peut être en train de le convertir en texte brut lorsque vous le collez. –
ah donc ça dépend de comment ça va être copié?Im planification sur l'aide d'une API pour lire un fichier PDF et je développe mon application dans Android. –