Je fais une araignée RSS. Comment faites-vous pour contrôler la dernière crawl date?Scrapy: contrôle RSS pub_date
En ce moment, ce que je pensais est la suivante:
- Mettre dans un fichier de contrôle de la dernière pub_date que je rampé.
- Ensuite, lorsque la crawl démarre, elle vérifie la dernière publication pub_date par rapport aux new pub_dates. S'il y a de nouveaux éléments, commencez à explorer, sinon, faites rien.
Comment tout le monde résout-il cela?
Pourriez-vous élaborer sur la façon dont vous faites cela? –