2010-05-21 5 views
1

Je veux lire un fichier PDF existant, obtenir non seulement le texte, mais aussi les informations de format comme: police (gras, italique), paragraphes, images, tableaux. Fondamentalement, je veux écrire un code HTML similaire à PDF.Lire le PDF via Java et obtenir le contenu HTML

Existe-t-il une bibliothèque de code pour cela? Je suis à la recherche d'une bibliothèque Open Source.

Cordialement, Tina Agrawal

+0

Qu'en est-il d'un PDF fabriqué à partir d'images numérisées? Est-ce qu'il contient du texte? – Ingo

+0

Le PDF contient tous les textes, images et tableaux. Il est possible qu'un document Word soit converti en PDF –

Répondre

3

Essayez le PDFBox ou iText. Ils sont open source et peuvent gérer du texte, des images, des tableaux, etc.

Questions connexes