Je construis une petite application qui va explorer des sites où le contenu est en croissance (comme sur stackoverflow) la différence est que le contenu une fois créé est rarement modifié.Ne pas explorer deux fois le même contenu
Maintenant, dans la première passe, je crawl toutes les pages du site.
Mais ensuite, le contenu paginé de ce site - je ne veux pas réexplorer tout cela, juste les derniers ajouts. Donc, si le site a 500 pages, au second passage si le site a 501 pages, je ne ferais que parcourir les première et deuxième pages. Serait-ce un bon moyen de gérer la situation? En fin de compte, le contenu analysé se retrouvera dans Lucene - créant un moteur de recherche personnalisé. Donc, je voudrais éviter d'explorer plusieurs fois le même contenu. De meilleures idées?
EDIT:
Disons que le site a une page: Les résultats qui sont accessibles comme ceci:?
résultats page = 1, résultats page = 2 ... etc
Je suppose que garder une trace de combien de pages il y avait au moment de la dernière exploration et simplement explorer la différence serait suffisant. (peut-être en utilisant un hachage de chaque résultat sur la page - si je commence à courir dans les mêmes hachages - je devrais arrêter)
Je ne suis pas sûr de savoir quelle est la question, vraiment. – Artelius
Si vous supposez que le contenu ne sera jamais modifié, comment pensez-vous que les nouveaux liens d'exploration apparaîtront? – Thomas
En plus de ce que Thomas a dit, cette approche ne tient pas compte du fait que le contenu peut être modifié après l'insertion. Rester ici sur SO, pensez aux questions avec beaucoup de réponses où les clarifications viennent en termes de modifications à la question originale ... – em70