Mon objectif est d'extraire le texte et les images d'un fichier PDF tout en analysant sa structure. La portée de l'analyse de la structure n'est pas exhaustive. J'ai seulement besoin d'être capable d'identifier les titres et les paragraphes.Comment extraire des données d'un fichier PDF tout en gardant une trace de sa structure?
J'ai essayé quelques-unes des choses différentes, mais je n'ai pas très loin dans l'un d'eux:
- Convertir PDF en texte. Cela ne fonctionne pas pour moi car je perds des images et la structure du document.
- Convertir un fichier PDF en HTML. J'ai trouvé quelques outils qui m'ont aidé avec ceci, et le meilleur jusqu'ici est pdftohtml. L'outil est vraiment bon pour la présentation, mais je n'ai pas réussi à analyser le HTML.
- Convertir un fichier PDF en XML. Comme ci-dessus.
Quelqu'un a des suggestions sur la façon de résoudre ce problème?
Pourquoi ne vous ont pas été en mesure d'analyser avec succès le html? –
Je veux garder une trace des rubriques, et une façon de le faire était de les identifier par leur style. Certains titres ont des styles mixtes, ce qui crée un peu de problème. – Marcel