2012-04-07 3 views
0

J'ai une bibliothèque de pdfs (la plupart ont des choses compressées au hasard et djvu aussi). Certains de ces fichiers PDF sont corrompus et devraient être supprimés.Vérification d'intégrité Python PDF

Y at-il de toute façon je peux faire la vérification d'intégrité de pdf dans python?

Répondre

2

Vous pouvez pypdf lire le pdf et déclarer invalide si le processus de lecture vous donne une erreur ... comme si,

from pyPdf import PdfFileReader 
try : 
    mypdf = PdfFileReader(file('filename', 'rb')) 
except: 
    print filename,' is invalid pdf' 
+0

ok. J'essaye cela maintenant mais je me demandais s'il y avait un autre moyen. Aussi, je suppose que le hachage des données pdf est unique oui? (en supposant qu'il n'y a pas de collisions) –

+0

Oui, les hachages PDF doivent être uniques. Mais il y a beaucoup de PDF que PyPDF n'ouvrira pas, mais la plupart des lecteurs PDF seront, donc au mieux, cette technique vous donnera une liste de candidats potentiels pour le retrait. –