Y at-il un paquet/bibliothèque pour python qui me permettrait d'ouvrir un PDF, et rechercher le texte pour certains mots?fichiers texte en PDF avec Python?
5
A
Répondre
11
En utilisant PyPdf2 vous pouvez utiliser la méthode extractText() pour extraire le texte pdf et travailler dessus.
Mise à jour: Texte modifié pour faire référence à PyPdf2, merci à @Aditya Kumar pour les heads up.
4
Je ne pense pas que vous pouvez le faire en une seule étape, mais vous pouvez certainement obtenir le texte d'un pdf avec pdfminer. Vous pouvez ensuite appliquer n'importe quelle recherche de texte à ces données récupérées.
Questions connexes
- 1. Génération et fusion de fichiers PDF en Python
- 2. Page HTML en PDF en Python?
- 3. Conversion de fichiers pdf en fichiers txt avec php
- 4. Analyse de fichiers texte en utilisant Python
- 5. Validation des fichiers PDF (Image + Texte PDF) validation
- 6. Extraction de texte à partir de fichiers PDF en C#
- 7. Conversion d'un fichier PDF en une série d'images avec Python
- 8. Lecture programmée de fichiers PDF en C#
- 9. Image PDF en document PDF en utilisant ReportLab (Python)
- 10. Fusionner des fichiers PDF
- 11. en train de déposer un document PDF (* .pdf) en texte?
- 12. Création de fichiers de lecture de texte uniquement avec python
- 13. Utilisation de la recherche en texte intégral avec des fichiers PDF dans SQL Server 2005
- 14. Convertir xml en pdf en Python
- 15. diviser PDF en plusieurs fichiers en C#
- 16. lire des fichiers pdf en utilisant java
- 17. Comment fusionner des fichiers PDF avec Perl?
- 18. Python - RegExp - Modifier les fichiers texte
- 19. Travailler avec d'énormes fichiers texte en Java
- 20. travailler avec des fichiers texte en Java
- 21. fichiers avec python
- 22. Fusionner des fichiers PDF chiffrés avec iTextSharp
- 23. Fusionner plusieurs fichiers PDF avec VBScript
- 24. PDF Renderer bousiller mes fichiers PDF?
- 25. Fusion de fichiers PDF avec ITextSharp
- 26. Problèmes avec linux Imagemagick convertit des fichiers PDF en JPG
- 27. Extraction de texte à partir de fichiers pdf et Word
- 28. Recherche dans les fichiers PDF avec PHP
- 29. Delphi et TextWidth/TextHeight en PDF avec le texte Unicode
- 30. Combinaison de deux fichiers PDF en C++
@cartman: avez-vous une idée de la façon dont PyPdf ne place pas d'espace entre les lignes? Par exemple, si une ligne dans le fichier pdf dit «bonjour» et que la ligne suivante dit «monde», le texte que j'extrais est «helloworld» au lieu de «hello world» qui tue toute extraction de texte ... – sepiroth
rappelez-vous correctement, PyPdf lit quelques nouvelles lignes dans certains PDF comme '\ x00'. – PhilS
+1 pour pyPdf: C'est un module _very_ maniable, même s'il est un peu dépassé pour 2.6 (les sources sont disponibles de toute façon, il n'y a que quelques adaptations). – RedGlyph