Je veux lire un fichier PDF existant, obtenir non seulement le texte, mais aussi les informations de format comme: police (gras, italique), paragraphes, images, tableaux. Fondamentalement, je veux écrire un code HTML similaire à PDF.Lire le PDF via Java et obtenir le contenu HTML
Existe-t-il une bibliothèque de code pour cela? Je suis à la recherche d'une bibliothèque Open Source.
Cordialement, Tina Agrawal
Qu'en est-il d'un PDF fabriqué à partir d'images numérisées? Est-ce qu'il contient du texte? – Ingo
Le PDF contient tous les textes, images et tableaux. Il est possible qu'un document Word soit converti en PDF –