2009-08-26 5 views
1

Je voudrais convertir des documents doc/docx en HTML sémantique.Convertir doc/docx en sémantique HTML

Quelques souhaits/exigences:

  1. sémantique HTML tels que les en-têtes dans le document sont <h1>, <h2> etc., les tables sont <tableau> et ainsi de suite.

  2. De préférence, il devrait être possible de gérer des en-têtes, des listes, des tableaux et des images. Les graphiques et les formules mathématiques sont un bon extra.

• N'a pas à convertir directement de doc/docx html, pourrait utiliser un format intermédiaire, tel que XML ou DocBook.

• Doit fonctionner par programmation et avec un grand nombre de documents.

Le plus proche d'une solution que j'ai trouvé jusqu'à présent est http://holloway.co.nz/docvert/index.html, mais malheureusement, il ya beaucoup de bugs, de petits utilisateurs et il ne peut pas gérer beaucoup de documents. Plus d'une preuve de concept.

Répondre

1

Il existe un outil appelé upCast qui est capable de convertir des documents Word en XML.

+0

upCast est dans la bonne direction, mais pas exactement ce que je cherche. Je suis toujours à la recherche, donc d'autres conseils sont appréciés. Cependant, je veux attribuer la "réponse" à quelqu'un et je l'ai choisi. – sandstrom

1

J'ai écrit un utilitaire qui implémente les exigences que vous avez énumérées, à l'exclusion des images, des graphiques et des formules mathématiques. C'est la qualité bêta (c'est-à-dire, cela fonctionne sur ma machine). Je l'ai publié à http://www.modeltext.com/word

2

"en-têtes dans le document sont" Je pense que c'est impossible. Étant donné que MS Word n'inscrit que le résultat, avec différents styles de <p> , tout comme le texte imprimé sur papier, les informations d'origine ne sont pas enregistrées.

Vos autres souhaits pourraient être abordés. Il sont deux outils commerciaux peuvent faire (ne crois pas que ces outils gratuits ou des outils en ligne, ils ne le font pas le vrai travail.)

1 Cleaner Word par Zapadoo www.zapadoo.com
2 HTML Nettoyeur pour Word par wonder Studio www.htmlcleaner.com

Je préfère le second qui est sorti l'année dernière. Vous pouvez les essayer tous les deux. Docx4j (pour docx seulement, pas doc) écrit une sortie HTML propre.

1

Vous auriez besoin de changer les choses un peu si vous vouliez < h1> au lieu de < p class = "h1">, mais son open source donc vous pouvez le faire.

Questions connexes