Des recommandations sur une méthode pour convertir .doc, .ppt et .xls en texte brut sur linux en utilisant python? Vraiment n'importe quelle méthode de conversion serait utile. J'ai déjà envisagé d'utiliser Open Office, mais je voudrais une solution qui ne nécessite pas d'installer Open Office.python convertir microsoft office docs en texte brut sur linux
Répondre
J'irais pour la ligne de commande-solution (et puis utiliser le Python subprocess module pour exécuter les outils de Python).
Convertors pour msword (catdoc), Excel (xls2csv) et ppt (catppt) se trouvent (sous forme de source) ici: http://vitus.wagner.pp.ru/software/catdoc/.
Impossible de commenter l'utilité de catppt mais catdoc et xls2csv fonctionnent très bien!
Mais assurez-vous d'abord d'effectuer une recherche dans vos dépôts de distributions ... Sur ubuntu, par exemple, catdoc est un moyen rapide de vous en débarrasser.
+1 pour ne pas utiliser les formats de bureaux ouverts, tout comme l'OP voulait. – Droogans
L'outil habituel pour convertir des documents Microsoft Office au format HTML ou d'autres formats était mswordview, qui a depuis été renommé vwWare.
Si vous êtes à la recherche d'un outil de ligne de commande, ils recommandent en fait en utilisant AbiWord pour effectuer la conversion:
AbiWord --to=txt
Si vous êtes à la recherche d'une bibliothèque, commencez le wvWare overview page. Ils maintiennent également a list of libraries and tools which read MS Office documents.
Pour traiter des feuilles de calcul Excel xlwt est bon. Mais cela n'aidera pas avec les fichiers .doc
et .ppt
.
(Vous avez sans doute également entendu parler de PyExcelerator. Xlwt est une fourchette de cela et mieux entretenu donc je pense que vous seriez mieux avec xlwt.)
Vous pouvez accéder OpenOffice via Python API.
Essayez d'utiliser cela comme une base: http://wiki.services.openoffice.org/wiki/Odt2txt.py
J'ai réussi à utiliser XSLT pour traiter les fichiers de bureau XML en quelque chose de plus utilisable par le passé. Ce n'est pas forcément une solution basée sur python, mais elle fait le travail.
Même problème ici. Ci-dessous est mon script simple pour convertir tous les fichiers doc dans le répertoire 'docs /' en dir 'txts /' en utilisant catdoc. Je espère que ça va aider quelqu'un:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import glob, re, os
f = glob.glob('docs/*.doc') + glob.glob('docs/*.DOC')
outDir = 'txts'
if not os.path.exists(outDir):
os.makedirs(outDir)
for i in f:
os.system("catdoc -w '%s' > '%s'" %
(i, outDir + '/' + re.sub(r'.*/([^.]+)\.doc', r'\1.txt', i,
flags=re.IGNORECASE)))
Haha ... + 1 pour utiliser python ... pour utiliser bash. Bon travail qui colle aux demandes de l'OP ... en quelque sorte. ': D' – Droogans
@Droogans: il, lui, ces scripts rapides multilingues sont vraiment ironiques. J'ai commencé à faire dans bash, les règles pour changer le nom du fichier de sortie sont devenues bizarres, alors je l'ai juste mis dans un script python. Plus facile que d'utiliser un module de sous-processus, des tuyaux, etc. – neves
- 1. Convertir XML en texte brut
- 2. Convertir l'entrée de texte brut en HTML
- 3. Comment convertir reStructuredText en texte brut
- 4. Ruby: Convertir HTML/Redcloth en texte brut
- 5. Python: Comment convertir le texte au format markdown en texte
- 6. Convertir le flux RTF en flux de texte brut
- 7. PIA de Microsoft Office "rétrocompatibilité"
- 8. Comment empêcher Exchange de convertir automatiquement les e-mails en texte brut en HTML?
- 9. L'exécution du site Web ASP.NET sur Microsoft Office Live?
- 10. Sécurité Microsoft Office Web Components IE Problème
- 11. Python 2.4 plistlib sur Linux
- 12. En utilisant le ruban Office dans un traitement de texte
- 13. Méthode d'extension pour convertir l'objet SqlQuery SubSonic en SQL brut
- 14. Quelle est la meilleure façon d'analyser les documents Microsoft Office et PDF?
- 15. System.Net.Mail AlternateViews perdant des données en texte brut
- 16. comment convertir ai en cdr pour linux
- 17. Récupérer du texte brut dans Yahoo Pipes
- 18. Convertir un mémo en texte
- 19. Python convertir args en kwargs
- 20. Obtenir du texte brut à partir du texte démarqué
- 21. Pourquoi le protocole HTTP est-il conçu en texte brut?
- 22. Envoi d'e-mails en texte brut à l'aide de PHPMailer
- 23. Publication de «serveur» sur Google Docs
- 24. sélecteur de texte brut dans jQuery
- 25. en utilisant jython et open office 2.4 pour convertir des documents en pdf
- 26. Comptabiliser les occurrences d'un caractère dans un fichier texte brut
- 27. Qu'est-ce que des sites comme Google Docs et Zoho Writer utilisent pour générer des documents MS Office?
- 28. Connexion Java vers/depuis Microsoft Windows Office Suite?
- 29. Webservice renvoyant le texte/texte brut whern/xml est attendu?
- 30. En VBA, comment peut-on utiliser les Outils -> Liens Office -> Analyser avec Microsoft Office Excel
Je suis allé avec une solution de ligne de commande – Tim