erreur 404 avec Scrapy mais pas avec urllib2

python
scrapy

2017-10-20 15 views 0 likes

Je veux supprimer le site Web suivant https://www.shopee.sg:erreur 404 avec Scrapy mais pas avec urllib2

~$ scrapy shell https://www.shopee.sg

Mais je suis une erreur 404:

[s] request <GET https://www.shopee.sg> 
[s] response <404 https://shopee.sg/>

Alors que urllib2 peut ouvrir ce même url:

import urllib2 
response = urllib2.urlopen('https://www.shopee.sg') 
print len(response.read())

montre:

Source

2017-10-20 user1836529

Répondre

Il semble que le site Web examine la chaîne de l'agent utilisateur et bloque Scrapy. Si vous le définissez par ex. Chromium user agent chaîne utilisant USER_AGENT, cela fonctionne:

scrapy shell -s USER_AGENT="Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.52 Safari/537.36" "https://www.shopee.sg"

Source

2017-10-21 07:15:46

erreur 404 avec Scrapy mais pas avec urllib2

Répondre

Questions connexes