2009-03-10 5 views

Répondre

2

Ceci est une requête complexe, car cela dépend du fichier PDF lui-même (et de la façon dont il a été créé), que cela puisse être fait ou non. En tant que première tentative, je voudrais essayer d'utiliser propre ligne Adobe PDF à HTML convertisseur

http://www.adobe.com/products/acrobat/access_onlinetools.html

et puis essayer de corriger le code HTML après le fait avec quelque chose comme bien rangé

http://tidy.sourceforge.net/

Si les fichiers PDF étaient créés en numérisant des images, il est possible qu'aucun texte ne leur soit associé. Le mieux est donc de découper les pages et de les convertir en documents JPG ou d'utiliser un logiciel de reconnaissance optique de caractères sur le PDF lui-même. Je vous avertis que même si les fichiers PDF ont été créés manuellement et contiennent donc des informations textuelles, il est probable qu'il y ait un lot erreurs dans le processus de conversion qui devront être corrigées à la main. Je travaille sur un produit qui fait essentiellement ce processus pour les rapports annuels d'entreprise/etc et nous avons finalement décidé de découper les pages en images JPG/GIF et HTMLing - comme les autres processus nous avons essayé trop d'erreurs et trop de travail pour les réparer tous.

Questions connexes