2014-09-17 1 views
0

Voici mon pdf enter image description here J'ai trouvé THIS et je l'ai utilisé pour scrapper mon pdf.Comment lire ligne par ligne dans un fichier pdf et créer un CSV

6 BEDROOMS 
NameAddressUnitSizeKeyRentSq FtMove in DateNotesTenant 
Prop # 
Texan 261009 West 26th3076x3$4,6952,1368/15/14$1,000 Bonus (1) Park -  

Son joli mélange. ou Est-ce parce que le PDF est formaté d'une manière qui est illisible? Je pensais qu'il y avait une façon dont je pourrais mettre au rebut chaque rangée et créer un CSV avec les colonnes par itération ou quelque chose.

Comme renseigner un CSV avec des colonnes

T26 | Texan 26   | 1009 West 26th | 307  | 6x3 | ... 
e075| Texan North Campus| 5117 N Lamar |See below | 6x3 |... 

Y at-il un moyen de contourner cela?

+0

Pourriez-vous fournir le document PDF actuel? – sherwoor

Répondre

0

L'extrait de code que vous avez utilisé a fourni des données pratiquement inutilisables, je ne pense pas que ce soit le chemin à parcourir. Le grattage à partir d'un PDF est généralement plutôt difficile, mais jetez un oeil à pdftables.com: ils fournissent une API pour gratter les tableaux à partir de documents PDF que j'ai trouvé dans la plupart des cas - c'est votre meilleure chance à ce que je dis .

+0

Oui, je vois que pdftables.com fonctionne, mais je voulais créer un script pour le faire. – Alexxio

+0

Ils ont une API que vous pouvez inclure dans votre script. – sherwoor

Questions connexes