2010-12-13 4 views
0

Je suis capable de lire un fichier PDF en utilisant PDFBOX dans mon application ASP.net, mais il n'ajoute pas d'espace pour une cellule vide dans une table, Alors, comment lire des champs vides à partir d'un fichier pdf en utilisant PDFBOX en C#. Existe-t-il une autre méthode pour lire le fichier pdf.Comment lire la cellule vide dans un fichier PDF dans ASP.net

Merci.

Répondre

0

Vous pourriez être en mesure de retirer ce genre de chose si vous savez exactement où le texte devrait être à l'avance et peut obtenir les emplacements du texte que vous extrayez.

Si vous ne savez pas à l'avance où se trouvent les lignes et les cellules, vous devrez deviner en fonction des emplacements du texte. Ceci ne sera pas facile.

En général, l'extraction de données à partir de PDF est mal conseillée. Les PDF n'ont pas de concept de "tables" (à moins que le créateur de PDF ne soit en mesure d'utiliser "Contenu marqué", ce qui est encore rare). Les PDF ont des lignes, des glyphes et des images (une pile de pixels). Il est très difficile d'extraire le formatage de ces informations ... et parfois c'est tout sauf impossible.

Je ne sais pas si PDFBox vous donnera les emplacements du texte extrait, mais iTextSharp le fera.

Questions connexes