2017-10-17 3 views
-1

Je fais un projet qui est lié à l'analyse. Pour cela, j'ai besoin de compter les valeurs de certaines lignes de MS WORD. Si c'est l'extension .docx alors il n'y a pas de problème pour moi mais quand c'est une extension .doc, je ne peux pas supposer lire ces fichiers. Que puis-je faire pour ça? J'utilise python 3.6 et installe le module .docx. Attend une bonne réponse. Merci d'avance!Comment faire pour récupérer le fichier doc MS WORD (2003) en python

Répondre

1

Vous pouvez le faire en utilisant win32com:

import win32com 

from win32com.client import gencache, constants, Dispatch 
# that's the magic part 
gencache.EnsureModule('{00020905-0000-0000-C000-000000000046}', 0, 8, 3) 

app = Dispatch("Word.Application.8") 
# open a document 
app.Documents.Open("MyDocument.doc") 

Maintenant, vous pouvez faire ce que vous voulez avec ce document. Si la ligne avec gencache vous donne une erreur, vous devez créer le module COM premier en exécutant:

lib\site-packages\win32com\client\makepy.py 

Ce pop-up une fenêtre où vous devez sélectionner le «Microsoft Word Object Library.