Je voudrais convertir des documents doc/docx en HTML sémantique.Convertir doc/docx en sémantique HTML
Quelques souhaits/exigences:
sémantique HTML tels que les en-têtes dans le document sont <h1>, <h2> etc., les tables sont <tableau> et ainsi de suite.
De préférence, il devrait être possible de gérer des en-têtes, des listes, des tableaux et des images. Les graphiques et les formules mathématiques sont un bon extra.
• N'a pas à convertir directement de doc/docx html, pourrait utiliser un format intermédiaire, tel que XML ou DocBook.
• Doit fonctionner par programmation et avec un grand nombre de documents.
Le plus proche d'une solution que j'ai trouvé jusqu'à présent est http://holloway.co.nz/docvert/index.html, mais malheureusement, il ya beaucoup de bugs, de petits utilisateurs et il ne peut pas gérer beaucoup de documents. Plus d'une preuve de concept.
upCast est dans la bonne direction, mais pas exactement ce que je cherche. Je suis toujours à la recherche, donc d'autres conseils sont appréciés. Cependant, je veux attribuer la "réponse" à quelqu'un et je l'ai choisi. – sandstrom