Un problème est survenu lorsque j'ai été analysé sur l'ensemble du site Web en utilisant splash pour rendre la page cible entière.Certaines pages n'ont pas été aléatoires, donc j'ai été fautif Cela permet d'être là lorsque le travail de rendu a été fait. Cela signifie que je viens d'obtenir une partie de l'information provenant du résultat de rendu bien que je puisse obtenir l'ensemble des informations à partir d'un autre résultat de rendu.Comment puis-je m'assurer que scrapy-splash a rendu toute la page réussie
Voici mon code:
yield SplashRequest(url,self.splash_parse,args = {"wait": 3,},endpoint="render.html")
settings:
SPLASH_URL = 'XXX'
DOWNLOADER_MIDDLEWARES = {
'scrapy_splash.SplashCookiesMiddleware': 723,
'scrapy_splash.SplashMiddleware': 725,
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}
# Enable SplashDeduplicateArgsMiddleware:
SPIDER_MIDDLEWARES = {
'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}
# Set a custom DUPEFILTER_CLASS:
DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter
# a custom cache storage backend:
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'
Donc, vous obtenez vos données mais pas tout? Essayez d'augmenter l'argument d'attente. – Casper