0
Je suis capable d'abandonner la première page de craiglist. Mais Linkextractor ne récupère pas les données des autres pages. Est-ce que je fais quelque chose de mal à définir les règles?Scrapy python Règles ne fonctionnant pas
import scrapy
from craiglist.items import craiglistItem
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class ExampleSpider(CrawlSpider):
name = "craiglist"
allowed_domains = ["craiglist.org"]
start_urls = (
'http://sfbay.craigslist.org/search/npo',
)
rules = [
Rule(LinkExtractor(restrict_xpaths='//a[@class="button next"]'), callback='parse', follow= True)
]
def parse(self, response):
titles = response.selector.xpath('//*[@id="sortable-results"]/ul/li/p')
items = []
for title in titles:
item = craiglistItem()
item["title"] = title.select("a/text()").extract()
item["link"] = title.select("a/@href").extract()
items.append(item)
return items
votre url de départ est différent de domaines autorisés, peut-être que le problème est – intelis
j'ai mis à jour les domaines autorisés avec http://sfbay.craigslist.org. alors aussi suivre le lien ne se passe pas –
quelle est l'erreur? – intelis