J'ai quelques fichiers pdf qui ont été créés à partir de fichiers Word ou Excel.Extraire des données de tables imbriquées en PDF
J'ai besoin d'obtenir l'information qui est dans les tableaux.
Le texte dans le document n'est pas une image, donc je suis capable d'extraire le texte en utilisant des outils tels que pdfbox. Lorsque j'ai le texte, je n'ai aucun moyen de savoir à quelles cellules de la table il appartient parce que je ne sais pas où sont les bordures de la table. Iv'e essayé quelques outils de bureau tels que abby ou convertisseur pdf solide et ils sont capables de convertir les fichiers en documents Word sympa mais cela ne correspond pas à mes besoins car je veux être en mesure de faire ce programme en C#.
Certaines des tables ont des tables imbriquées, ce qui, je pense, rend le tout un peu plus difficile.
J'apprécie votre aide
Vous pouvez télécharger pdftohtml depuis http://sourceforge.net/projects/pdftohtml/files/ et utiliser le commutateur -xml pour voir si la sortie xml vous donne une meilleure mise en page. Le code source est disponible en C et pourrait être interfacé avec certains travaux. Ou appelez simplement le fichier .exe avec un appel hors processus. –
Cette solution ne fonctionne pas du tout pour moi. merci – pooky
Possible copie de [Comment lire le tableau à partir de PDF en utilisant itextsharp?] (Https://stackoverflow.com/questions/15679958/how-to-read-table-from-pdf-using-itextsharp) – bubi