Je ne voudrais pas crawl Si la même chose que l'analyse des données avant dans un cadre scrapy.Comment ne pas crawl Si la même chose que l'analyse des données avant dans un cadre scrapy
Pour résoudre ce problème, je pense que lorsque l'analyse a été effectuée, placez l'heure dans la base de données et ne pas l'analyser si la réponse Last-Modified HTTP n'a pas été mise à jour depuis cette date.
Mes questions sont les deux suivantes.
- Comment pensez-vous de cette façon? Y a-t-il une meilleure idée?
- Pourriez-vous m'apprendre s'il y a un code qui peut référencer le contrôle HTTP Last-Modified response avec un framework scrapy?
Merci d'avoir lu ma question.
Utilisation 'Last-Modified' est une bonne idée. Vous pouvez obtenir l'en-tête de réponse via 'response.headers'. – stamaimer