scrapy-redis re-crawl l'URL qu'une machine a déjà exploré

J'ai écrit une araignée distribuée en utilisant scrapy-redis.
Au début, tout semblait bien.scrapy-redis re-crawl l'URL qu'une machine a déjà exploré

Le fichier de configuration:

SCHEDULER = "scrapy_redis.scheduler.Scheduler" 
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" 
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'

Cependant, après avoir rampé toutes les URL, une araignée fermée, mais une autre n'a pas - et a commencé à re-crawl les URL qui étaient déjà explorées.

Quelqu'un peut-il m'aider et expliquer pourquoi?

Source

2016-08-23 bidai

Bidal, nous pouvons vous aider si vous nous avez montré un [MCVE]. – boardrider

J'ai résolu le problème! Les araignées ne se ferment pas normalement en raison de paramètres incorrects en utilisant la fonction "def close_spider (self, spider):".

Source

2016-12-23 03:03:45 bidai

scrapy-redis re-crawl l'URL qu'une machine a déjà exploré

Répondre

Questions connexes