fichiers texte en PDF avec Python?

Y at-il un paquet/bibliothèque pour python qui me permettrait d'ouvrir un PDF, et rechercher le texte pour certains mots?fichiers texte en PDF avec Python?

Source

2009-11-04 sepiroth

En utilisant PyPdf2 vous pouvez utiliser la méthode extractText() pour extraire le texte pdf et travailler dessus.

Mise à jour: Texte modifié pour faire référence à PyPdf2, merci à @Aditya Kumar pour les heads up.

Source

2009-11-04 07:39:34 ismail

@cartman: avez-vous une idée de la façon dont PyPdf ne place pas d'espace entre les lignes? Par exemple, si une ligne dans le fichier pdf dit «bonjour» et que la ligne suivante dit «monde», le texte que j'extrais est «helloworld» au lieu de «hello world» qui tue toute extraction de texte ... – sepiroth

rappelez-vous correctement, PyPdf lit quelques nouvelles lignes dans certains PDF comme '\ x00'. – PhilS

+1 pour pyPdf: C'est un module _very_ maniable, même s'il est un peu dépassé pour 2.6 (les sources sont disponibles de toute façon, il n'y a que quelques adaptations). – RedGlyph

Je ne pense pas que vous pouvez le faire en une seule étape, mais vous pouvez certainement obtenir le texte d'un pdf avec pdfminer. Vous pouvez ensuite appliquer n'importe quelle recherche de texte à ces données récupérées.

Source

2009-11-04 07:38:39 shylent

fichiers texte en PDF avec Python?

Répondre

Questions connexes