J'ai écrit une araignée distribuée en utilisant scrapy-redis.
Au début, tout semblait bien.scrapy-redis re-crawl l'URL qu'une machine a déjà exploré
Le fichier de configuration:
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'
Cependant, après avoir rampé toutes les URL, une araignée fermée, mais une autre n'a pas - et a commencé à re-crawl les URL qui étaient déjà explorées.
Quelqu'un peut-il m'aider et expliquer pourquoi?
Bidal, nous pouvons vous aider si vous nous avez montré un [MCVE]. – boardrider