Erreur Python PDFMiner: "Objet No/Root - Est-ce vraiment un PDF?"

Je reçois cette erreur "No/Root object! - Est-ce vraiment un PDF?" en utilisant mon ordinateur MAC avec Python 2.7 et PDFMiner version 20110515. Les fichiers pdf ne sont pas endommagés car le même programme avec les mêmes fichiers fonctionne sur mon ordinateur PC! J'ai aussi essayé beaucoup de fichiers PDF et cette erreur existe pour tous. Des idées de ce que je devrais changer dans mon MAC pour ne pas obtenir cette erreur?Erreur Python PDFMiner: "Objet No/Root - Est-ce vraiment un PDF?"

Source

2013-06-26 Mahshid Zeinaly

version 20110515 de PDFMiner est une version bêta, donc il peut avoir des bugs. Heureusement, c'est du pur Python, qui peut faciliter le débogage. Le problème que vous décrivez peut être dû à la façon dont les fins de ligne sont traitées dans les fichiers en cours d'analyse. Assurez-vous qu'ils sont ouverts en mode binaire, c'est-à-dire 'fp = open ('mypdf.pdf', 'rb')'. Il peut également être utile d'exécuter l'utilitaire 'dumppdf.py' inclus dans les fichiers de problèmes. Enfin, l'erreur peut être due au fait que l'interpréteur Python varie d'une machine à l'autre. Le support de nouvelle ligne universel n'est pas intégré à toutes les versions de Python. – martineau

J'ai trouvé la source du problème:

J'ai eu une méthode pour lire tous les fichiers dans un répertoire et les analyser. Il s'avère que j'avais un fichier caché dans ce répertoire qui n'était pas un fichier pdf!

Voici comment je fixe le problème:

for filename in os.listdir(INPUT_DIR_NAME): 
    if filename.endswith('.pdf'): 
     #do stuff!

Source

2013-09-12 00:37:07

Erreur Python PDFMiner: "Objet No/Root - Est-ce vraiment un PDF?"

Répondre

Questions connexes