2009-06-05 8 views
20

Quelle est la meilleure solution pour convertir les documents PDF à afficher dans le navigateur au format HTML? Le site dispose de plusieurs documents PDF et le visiteur peut cliquer sur afficher en HTML et cela devrait être visualisé sur l'écran sous forme de fichier HTML.Convertir PDF en HTML

Site Web standard exécutant PHP, Linux, Apache.

+0

Avez-vous étudié pdfjs? http://mozilla.github.io/pdf.js/ –

Répondre

6

pdftohtml fonctionne bien: rapide, stable mais le résultat html est moche au mieux. Je l'ai utilisé pendant un certain temps pour un site web qui a beaucoup de CV.

Cependant, il s'agit d'une bonne solution pour extraire du contenu textuel.

que je donnerais la scribd API un essai

ou l'API des applications google document. Google fait un excellent travail d'un affichage et conversion de fichiers PDF

+4

Pour les articles scientifiques, cela semble incroyable: https://github.com/coolwanglu/pdf2htmlEX – JDonner

+0

@JDonner une mise en garde: le résultat HTML le code est illisible, généralement non modifiable, et prend des mégaoctets d'espace - au moins pour le PDF sur lequel je l'ai testé (2.8 Mio HTML pour un PDF de 674.5 Kio). Cette taille importante le rend particulièrement mauvais pour le service et fait une mauvaise expérience de lecture (défilement lent, etc.). – Ruslan

+0

@JDonner le résultat semble bon, mais html est fondamentalement inutile - il casse les mots, enferme chaque partie dans divers tags, extrait des polices pour chaque taille (de la même police) et les intègre rendant le fichier énorme (comme Ruslan dit). vous feriez mieux de convertir PDF en image PNG qu'en utilisant pdf2htmlEX – andrei

4

Avez-vous envisagé de conserver les données PDF dans une base de données, puis de créer dynamiquement le PDF ou la page html en fonction de ce que les visiteurs ont sélectionné?

4

Si vous avez un accès en ligne de commande chez votre hébergeur, il existe un utilitaire appelé pdftohtml dans le paquet poppler_utils.

http://poppler.freedesktop.org/

semble assez facile à utiliser, n'a pas été appelé à l'intérieur de PHP, mais il devrait fonctionner.

+0

pdftohtml ne conserve pas le style – andrei

Questions connexes