2010-11-19 1 views
0

Existe-t-il un moyen de séparer le texte et les images des fichiers MS Office comme word, excel, ppt etc. et d'obtenir la position de l'image dans un document (où l'image commence dans le document entre le texte)?Python séparant les images et le texte des fichiers MS Office

L'application doit être développée pour la machine Linux.

Veuillez nous suggérer.

+0

Si vous êtes coincé avec des fichiers 97-2003, il sera beaucoup, * beaucoup * plus difficile que si vous pouvez utiliser les fichiers 2007 qui sont des fichiers ZIP (document comme XML plus les autres fichiers). –

+0

Je ne pense pas qu'il existe une bibliothèque qui puisse le faire, principalement parce que [les formats de fichiers Office sont plutôt compliqués] (http://www.joelonsoftware.com/items/2008/02/19.html) . Pour extraire les images, vous pouvez enregistrer le fichier au format .docx/.xlsx, le renommer en '* .zip' et trouver les images dans l'archive zip. –

+0

Vous pourriez avoir une autre chance de vous battre lorsque vous enregistrez le document en tant que RTF, de cette façon, il s'agit au moins d'un format "lisible"; Peut-être que vous pouvez trouver la position des images là-bas. –

Répondre

0

Vous pouvez regarder les liaisons UNO Python pour OpenOffice - wiki à http://wiki.services.openoffice.org/wiki/Python - cela devrait vous permettre d'ouvrir et de travailler avec docs MSOffice sur linux. Qu'est-ce que vous essayez exactement d'accomplir - une nouvelle façon de HTML-ize Office docs?

+0

oui, vous pouvez le dire. –

Questions connexes