2009-07-25 7 views
1

Avoir un ensemble d'environ 400 documents en Word qui font partie d'un système de gestion de la qualité Word me cause beaucoup de peine parce que a) il gère mal les images dans un grand doc b) la mise en page est parfois busted c) il est fastidieux de configurer la documentation pour différents clients.Convertir un grand ensemble de documents Word automatiquement en XML, les modifier et les convertir en latex, pdf, html

Je peux convertir des documents individuels en les enregistrant au format xml/html ou text et les convertir manuellement en latex, mais cela n'est pas possible pour 400 documents. Je sais que je peux imprimer des documents Word directement en pdf avec des outils comme PrimoPDF mais ce n'est pas assez flexible car j'ai besoin de modifier le contenu.

Existe-t-il un moyen de conserver la structure du document comme du texte brut, des en-têtes, des tableaux, des images et de le transformer en XML? Par la suite je voudrais transformer le XML en HTML, latex et pdf selon les choix de nos clients et aussi modifier le contenu? Xslt est-il un moyen de transformer le xml en d'autres formats?

Merci pour tout conseil.

Répondre

2

Vous pouvez convertir vos documents en Word 2007. Les documents Office 2007 sont Documents XML: modifiez simplement l'extension de fichier à .zip et upzip. En outre, Microsoft publie une API pour travailler avec des documents Office 2007 de niveau supérieur à celui utilisé avec les balises XML.

+0

Merci. Nous utilisons une version plus ancienne jusqu'à présent, mais j'ai demandé Office 2007 afin d'élaborer plus sur le chemin MS Office 2007 -> XML -> XML, XHTML, LaTex et PDF. –

1

Pour la conversion par lots de MS Word en autre chose, vous pouvez consulter OpenOffice.org. OpenOffice dispose d'un mode de traitement par lots (en ligne de commande) pour les conversions en masse. Vous pouvez également regarder JodConverter qui convertit des documents en utilisant juste ce mécanisme.

De cette façon vous pouvez convertir en masse Micrososoft Word à un autre format pris en charge par OpenOffice.org. Peut-être du texte, peut-être RTF, peut-être OpenOffice XML.

Vous avez alors un format plus facile à convertir en Latex.

Vous pouvez rechercher Word et OpenOffice ici sur Stack Overflow, vous trouverez des résultats comme this one about Word to Html conversion.

+0

Merci. JodConverter sonne bien. Je vais essayer. –

0

Vous ne savez pas exactement comment cela fonctionne, mais il y a Word2tex.

Questions connexes