2009-07-27 7 views
0

J'utilise Xpdf pour extraire du texte à partir de fichiers PDF qui fonctionne bien avec l'option -raw, mais maintenant nous voulons convertir les fichiers PDF en fichiers HTML pour extraire les balises de formatage HTML comme gras <b>, italique <i> etc avec le texte. Xpdf avec l'option fonctionne, j'ai également essayé d'utiliser pdf2html pour cela, mais je ne l'ai pas trouvé fiable comme des balises comme <sup> et <sous> où manquant.Existe-t-il un moyen d'utiliser Acrobat Reader en Perl pour enregistrer plusieurs fichiers PDF en tant que fichiers HTML?

Nous utilisons maintenant Acrobat Reader pour enregistrer les fichiers PDF en tant que fichiers HTML, ce qui nous donne tous les balises de formatage HTML.

Existe-t-il un moyen d'utiliser Acrobat Reader en Perl pour enregistrer plusieurs fichiers PDF en tant que fichiers HTML?

Merci.

+0

Avez-vous vraiment besoin de faire cela à partir de Perl, ou est-ce que tout ce qui peut contrôler une application externe fonctionne? –

+0

Il n'a pas besoin d'être en Perl, n'importe quelle autre application ferait l'affaire. La seule chose est qu'il devrait être capable de convertir plusieurs fichiers. –

Répondre

2

Les informations de style PDF sont complètement arbitraires et ne peuvent pas être mappées de façon fiable au format HTML. Une stratégie avec laquelle j'ai eu de la chance est d'utiliser l'option -xml pour pdftohtml puis d'utiliser LibXML pour appliquer des heuristiques à la sortie et obtenir une approximation HTML raisonnable du document original.

Questions connexes