2011-02-18 4 views
0

Je fais une araignée RSS. Comment faites-vous pour contrôler la dernière crawl date?Scrapy: contrôle RSS pub_date

En ce moment, ce que je pensais est la suivante:

  • Mettre dans un fichier de contrôle de la dernière pub_date que je rampé.
  • Ensuite, lorsque la crawl démarre, elle vérifie la dernière publication pub_date par rapport aux new pub_dates. S'il y a de nouveaux éléments, commencez à explorer, sinon, faites rien.

Comment tout le monde résout-il cela?

Répondre

1

Je stocke toutes les données dans la base de données (y compris la dernière date d'exploration et les dates de publication) et prend toutes les dates dont j'ai besoin dans la base de données.

0

Je stocke également toutes les données dans la base de données et je calcule une valeur de hachage à partir des données. De cette façon, vous pouvez rechercher le hachage très rapidement, et effectuer une opération de-dup à la volée.

+1

Pourriez-vous élaborer sur la façon dont vous faites cela? –