J'ai recadré un fichier pdf avec l'aide de pypdf2 mais quand j'essaye d'extraire le texte de ce pdf pdf recadré, Im obtenant le texte de pdf entier. Comment puis-je résoudre cela?Le contenu de la page entière est toujours présent même après que le fichier pdf est recadré
Après culture fichier pdf ressembler est
Mais quand je lance la commande pdftotext out8.pdf out.txt
Je reçois:
Table des matières Présentation Partie I. Deux systèmes
Les Les personnages de l'histoire
attention et effort
Le contrôleur Lazy
Associatif machine
- Facilité cognitive
- Normes, Surprises et causes
- Machine pour sauter aux conclusions
- Comment les jugements se produisent
- Répondre à une question plus facile Partie II. Heuristiques et Préjugés
- La loi des nombres petits < 5>
- Ancres
- La science de la disponibilité
- Disponibilité, Emotion et risque
- Tom W Spécialité
La sortie était censé être seulement
- Les personnages de l'histoire
Le code que je couru
from PyPDF2 import PdfFileWriter, PdfFileReader
input1 = PdfFileReader(open("./data/in2.pdf", "rb"))
output = PdfFileWriter()
page = input1.getPage(1)
x = page.mediaBox.getUpperRight_x()
y = page.mediaBox.getUpperRight_y()
page.cropBox.lowerRight = (0,331-150)
page.cropBox.upperRight = (252,331)
output.addPage(page)
outputStream = open("out8.pdf", "wb")
output.write(outputStream)
outputStream.close()
Thanos un de mes Villians les plus préférés de tous les temps. Ma citation préférée par lui était dans Thanos Quest Book 2. "Qui aurait pensé que devenir Dieu serait une victoire si creuse." –
@Scott Boston Ah vous êtes revenu tellement :) J'aime Thanos aussi. Im un grand fan de merveille. En attente de la guerre de l'infini. – Dark