2016-05-30 3 views
0

Je suis en train de gratter le fichier IEEEXplore pour certaines données PDF, une vignette et des liens.Code HTML étrange lors du grattage IEEEXPLORE

donc récemment quand je racler ce site (avec Python module sergé) Je reçois ce contenu similaire:

��7���j��/�5�,X��]����O�s˟�����U|]�l 
��c��qLE�[����:yg�u%��_�9e�;�4��^�kt)j�Te���:OX���[��u����B���-]?t�C���m/��ά��Ҋ��n�'��}'�Ù�ف{�S;�ƣ������3�dS��M[m 

Alors, pourquoi cela se passe! Je doute de l'encodage de la page.!

le code est grand, mais j'inséré une partie de ceux qui sont ici:

vous pouvez voir le code ici:

https://github.com/power-electro/test-ieeexplore-scraper/blob/master/ieeexplore_ieee_org.py

Ainsi, le PDF gratuit des fichiers de la version ELSEVIER de ce site, est accessible via ce lien:

http://free-papers.elasa.ir

+0

Quel est le lien et où est votre code? –

Répondre

0

Il serait intéressant de regarder le reste de la sortie, mais je suppose que tout ce truc qui est mélangé qui est difficile à lire est en fait un fichier image ou un fichier vidéo ou quelque chose. Les fichiers image et vidéo ont l'air très bizarre lorsque nous essayons de les obtenir et de les imprimer sous forme de texte. Ma conjecture est que les choses normales de grattage de site Web que vous voulez (le texte, le html, etc.) sont également dedans là.

0

Je trouve la réponse que je retirai th: fait partie de son en-tête.

t_com.add_extra_header('Accept-Encoding', 'gzip, deflate') 

ce minerai de données Les données Gziped !!!

i de données par ce zipée code:

   content1 = t_brw.result.page 
       # print 'debug twill post content:', content 
       import StringIO 
       content1 = StringIO.StringIO(content1) 
       import gzip 
       gzipper = gzip.GzipFile(fileobj=content1) 
       content = gzipper.read()