2011-02-16 3 views
3

Je reçois une erreur en essayant de tester l'installation scrapy:Scrapy: connexion refusée

$ scrapy shell http://www.google.es 
j2011-02-16 10:54:46+0100 [scrapy] INFO: Scrapy 0.12.0.2536 started (bot: scrapybot) 
2011-02-16 10:54:46+0100 [scrapy] DEBUG: Enabled extensions: TelnetConsole, SpiderContext, WebService, CoreStats, MemoryUsage, CloseSpider 
2011-02-16 10:54:46+0100 [scrapy] DEBUG: Enabled scheduler middlewares: DuplicatesFilterMiddleware 
2011-02-16 10:54:46+0100 [scrapy] DEBUG: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, RedirectMiddleware, CookiesMiddleware, HttpProxyMiddleware, HttpCompressionMiddleware, DownloaderStats 
2011-02-16 10:54:46+0100 [scrapy] DEBUG: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware 
2011-02-16 10:54:46+0100 [scrapy] DEBUG: Enabled item pipelines: 
2011-02-16 10:54:46+0100 [scrapy] DEBUG: Telnet console listening on 0.0.0.0:6023 
2011-02-16 10:54:46+0100 [scrapy] DEBUG: Web service listening on 0.0.0.0:6080 
2011-02-16 10:54:46+0100 [default] INFO: Spider opened 
2011-02-16 10:54:47+0100 [default] DEBUG: Retrying <GET http://www.google.es> (failed 1 times): Connection was refused by other side: 111: Connection refused. 
2011-02-16 10:54:47+0100 [default] DEBUG: Retrying <GET http://www.google.es> (failed 2 times): Connection was refused by other side: 111: Connection refused. 
2011-02-16 10:54:47+0100 [default] DEBUG: Discarding <GET http://www.google.es> (failed 3 times): Connection was refused by other side: 111: Connection refused. 
2011-02-16 10:54:47+0100 [default] ERROR: Error downloading <http://www.google.es>: [Failure instance: Traceback (failure with no frames): <class 'twisted.internet.error.ConnectionRefusedError'>: Connection was refused by other side: 111: Connection refused. 
    ] 
2011-02-16 10:54:47+0100 [scrapy] ERROR: Shell error 
    Traceback (most recent call last): 
    Failure: scrapy.exceptions.IgnoreRequest: Connection was refused by other side: 111: Connection refused. 

2011-02-16 10:54:47+0100 [default] INFO: Closing spider (shutdown) 
2011-02-16 10:54:47+0100 [default] INFO: Spider closed (shutdown) 

Versions:

  • Scrapy 0.12.0.2536
  • Python 2.6.6
  • OS : Ubuntu 10.10

EDIT: Je peux l'atteindre avec mon navigateur, wget, telnet google.es 80 et ça arrive avec tous les sites.

+0

Une solution à tout cela? Je rencontre aussi cela en essayant d'utiliser proxy privoxy avec scrapy ... –

Répondre

0

Fonctionne pour moi avec le même Ubuntu, même python, même scrapy. Avez-vous frappé google.es un trop souvent? Pouvez-vous l'atteindre depuis votre navigateur, et avec curl? Peut-être qu'il veut juste une pause d'être spidered?

+0

Oublié de mentionner: oui, je peux l'atteindre avec le navigateur, avec wget, avec telnet google.es 80 et chaque façon dont je me souviens. Je ne le frappe pas trop souvent, donc je ne pense pas que je suis en train d'être pare-feu; ça arrive avec tous les sites que j'essaie ... Merci pour votre réponse. – anders

+0

Ce problème peut être lié à la prise en charge d'IPv4 et d'IPv6. Ils disent que https://github.com/twisted/twisted/blob/trunk/src/twisted/internet/base.py#L274 –

4

Mission 1: Scrapy enverra un utilisateur avec "bot" dedans. Les sites peuvent également bloquer en fonction de l'agent utilisateur.

Essayez over-équitation USER_AGENT dans settings.py

Par exemple: USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64; rv:7.0.1) Gecko/20100101 Firefox/7.7'

Mission 2: Essayez de donner un délai entre la demande, d'usurper que l'homme envoie la demande.

DOWNLOAD_DELAY = 0.25 

Mission 3: Si rien ne fonctionne, installez Wireshark et voir la différence dans les données post-tête de requête (ou) tandis que scrapy envoie et quand envoie votre navigateur.