Tout d'abord, je ne cherche pas de code, juste une simple discussion sur les approches concernant ce que dit le sujet. Je me demandais récemment comment vraiment la meilleure façon de détecter (aussi vite que possible) les changements aux pages du site Web, en supposant que j'ai 100K sites Web, chacun a un nombre inconnu de pages, un crawler doit vraiment visiter chacun et chacun d'entre eux une fois de temps en temps?Mise à jour des algorithmes de détection de page Web
Répondre
À moins qu'ils aient des flux RSS (que vous auriez encore besoin de tirer pour voir s'ils ont changé), il n'est vraiment pas nécessaire de savoir quand le site a changé, sauf en y allant et en vérifiant. Cependant, vous pouvez faire des choses intelligentes pour être plus efficace. Après avoir vérifié sur le site pendant un certain temps, vous pouvez construire un modèle de prédiction de quand ils ont tendance à mettre à jour. Par exemple: ce site d'actualités est mis à jour toutes les 2-3 heures mais ce blog ne fait qu'un post par semaine. Cela peut vous éviter de nombreuses vérifications, car la plupart des pages ne sont pas mises à jour régulièrement. Google fait cela pour aider à tirer. Un algorithme simple qui fonctionnera pour cela (selon la façon dont avant-garde dont vous avez besoin de vos nouvelles pour être) est la suite de ma propre conception basée sur la recherche binaire:
Start each site off with a time interval ~ 1 day
Visit the sites when that time hits and check changes
if something has changed
halve the time for that site
else
double the time for that site
If after many iterations you find it hovering around 2-3 numbers
fix the time on the greater of the numbers
Maintenant, c'est un algorithme simple pour trouver qui fois Vous avez raison de vérifier, mais vous pouvez probablement faire quelque chose de plus efficace si vous analysez le texte et voyez des modèles dans les moments où les mises à jour ont été effectivement publiées.
- 1. Algorithmes de détection de cycle
- 2. vérifier si mise à jour page Web
- 3. Apprentissage des algorithmes de mise en page graphique
- 4. Mise à jour de la page Web en temps réel
- 5. Page Mise à jour
- 6. Application Web de mise à jour automatique
- 7. Mise à jour automatique d'une page Web lorsqu'une table Oracle est mise à jour
- 8. mise à jour automatique de la page Web lors de la mise à jour de la base de données
- 9. Mise à jour dynamique de l'application web
- 10. Mise à jour automatique de l'application Web
- 11. Mise à jour d'une partie d'une page Web sur Rails
- 12. Javascript page de mise à jour automatique?
- 13. Alerte si la page Web a été mise à jour
- 14. Mise à jour des numéros de cellule à partir d'une page Web
- 15. Détection de périphérique jailbreaké avec page Web
- 16. Mise à jour dynamique du graphique sur la page Web
- 17. Mise à jour asynchrone Données dans la page Web
- 18. Algorithmes de traitement des pixels
- 19. Algorithmes de classification de minage Web
- 20. Conflit de mise à jour des données
- 21. Yii mise à jour page de profil
- 22. détecter lorsqu'une page Web est mise à jour
- 23. mise à jour des données de page en utilisant ajax
- 24. asp.net: Mise à jour du contenu de la page sans rafraîchissement (Mise à jour partielle de la page)
- 25. Mise en page non mise à jour
- 26. Mise à jour de la page Web pendant le traitement des données
- 27. Configuration Eclipse/Tomcat pour la mise à jour des ressources lors de la mise à jour de la page
- 28. Mise à jour de la page Web à partir de l'entrée de l'utilisateur
- 29. comment obtenir la page actuelle après la mise à jour de la page Web dans asp.net?
- 30. Mise à jour de l'affichage des éléments de la page Web sans actualisation de la page entière