J'essaie de charger un fichier PDF pour l'extraire en tant qu'image. J'ai essayé quelques paquets en Python, par exemple PyPDF2, mais chaque fois que je rencontre le message "Impossible de trouver la table xréf à l'emplacement spécifié".Impossible de trouver la table x-ref PDF
Je n'ai aucune expérience avec les fichiers PDF et Python, donc des conseils seraient appréciés. Un fichier exemple est donné ici:
https://beta.companieshouse.gov.uk/company/00002404/filing-history
où le PDF est le lien « complet » des comptes.
Un grand merci d'avance!
Merci d'avoir jeté un œil. Y at-il une solution de contournement pour moi ici? Je veux juste le convertir en une image pour extraire du texte. –
Ouvrez le fichier PDF dans Adobe Reader. Lorsque vous le fermez à nouveau, Adobe Reader vous demande s'il doit le sauvegarder. La copie enregistrée est réparée. (Il se peut cependant qu'Adobe Reader enregistre le fichier en utilisant les fonctions disponibles dans PDF 1.5, il existe encore des outils et des bibliothèques qui ne peuvent pas gérer ces fonctions.) Vous pouvez également copier les images d'Adobe Reader dans un graphique programme de votre choix. – mkl
Merci, j'apprécie les conseils :) Seriez-vous capable de savoir s'il y aurait une bonne façon d'automatiser cela? Je pourrais travailler avec des milliers de fichiers similaires. –