2009-11-04 5 views

Répondre

11

En utilisant PyPdf2 vous pouvez utiliser la méthode extractText() pour extraire le texte pdf et travailler dessus.

Mise à jour: Texte modifié pour faire référence à PyPdf2, merci à @Aditya Kumar pour les heads up.

+0

@cartman: avez-vous une idée de la façon dont PyPdf ne place pas d'espace entre les lignes? Par exemple, si une ligne dans le fichier pdf dit «bonjour» et que la ligne suivante dit «monde», le texte que j'extrais est «helloworld» au lieu de «hello world» qui tue toute extraction de texte ... – sepiroth

+0

rappelez-vous correctement, PyPdf lit quelques nouvelles lignes dans certains PDF comme '\ x00'. – PhilS

+0

+1 pour pyPdf: C'est un module _very_ maniable, même s'il est un peu dépassé pour 2.6 (les sources sont disponibles de toute façon, il n'y a que quelques adaptations). – RedGlyph

4

Je ne pense pas que vous pouvez le faire en une seule étape, mais vous pouvez certainement obtenir le texte d'un pdf avec pdfminer. Vous pouvez ensuite appliquer n'importe quelle recherche de texte à ces données récupérées.

Questions connexes