2017-10-20 15 views
0

Je veux supprimer le site Web suivant https://www.shopee.sg:erreur 404 avec Scrapy mais pas avec urllib2

~$ scrapy shell https://www.shopee.sg 

Mais je suis une erreur 404:

[s] request <GET https://www.shopee.sg> 
[s] response <404 https://shopee.sg/> 

Alors que urllib2 peut ouvrir ce même url:

import urllib2 
response = urllib2.urlopen('https://www.shopee.sg') 
print len(response.read()) 

montre:

78447 

Répondre

0

Il semble que le site Web examine la chaîne de l'agent utilisateur et bloque Scrapy. Si vous le définissez par ex. Chromium user agent chaîne utilisant USER_AGENT, cela fonctionne:

scrapy shell -s USER_AGENT="Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.52 Safari/537.36" "https://www.shopee.sg"