2016-12-15 1 views
0

Je suis à la recherche google pour trouver des réponses, mais je ne pouvais pas obtenir un module pour convertir doc/pdf/docx/rtf au textemodule python pour convertir les formats doc/pdf/docx/rtf au texte

Yat-il un module python convertir les formats doc/pdf/docx/rtf en texte?

+0

Également pour Word: http://stackoverflow.com/q/42482/3377150 –

+0

Également pour RTF: http://stackoverflow.com/q/1337446/3377150 –

Répondre

0

Un module pour les gouverner tous!

textract. Il supporte de nombreux types de fichiers pour l'extraction de texte, y compris tous ceux que vous avez spécifiés dans votre question.

  • .doc via antiword
  • .pdf via pdftotext (par défaut) ou pdfminer.six
  • .docx via python-docx
  • .rtf via unrtf

PDF exemple

http://textract.readthedocs.io/en/latest/python_package.html

import textract 
text = textract.process('path/to/a.pdf', method='pdfminer')