Est-il possible d'écrire du code pour détecter si un site Web est en train de spider le contenu?Site Web Spidering Auto Detection
Répondre
une bonne araignée
- lit le robots.txt
- a un bon agent utilisateur
- interrogera plus rapidement qu'un utilisateur moyen
Mais une détection claire si elle est un navigateur ou une araignée n'est pas possible, je pense.
Vous essayez d'utiliser la chaîne de l'agent utilisateur pour identifier les robots.
robots différents semblent avoir différentes chaînes d'agent utilisateur:
http://www.useragentstring.com/pages/useragentstring.php
Cependant, la chaîne d'agent utilisateur peut être facilement usurper.
Vous pouvez utiliser une liste de chaînes User-Agent utilisées par les robots communs. Vous pouvez utiliser une certaine forme de détection de taux et déterminer qu'un taux très élevé de demandes sera probablement une araignée (ou quelqu'un qui sangsue votre site entier).
Il peut également y avoir des listes d'adresses IP utilisées par des robots courants, mais un système de détection infaillible est très probablement impossible.
Vous pouvez créer un lien sur vos pages qu'un visiteur réel ne cliquera jamais et marquer quelqu'un qui suit le lien comme un araignée. Vous obtiendrez des gens en cliquant sur le lien de toute façon, mais la curiosité ne peut être évitée.
Si l'araignée est sympa, vous pouvez la détecter via son user-agent en utilisant une liste d'agents utilisateurs existants comme this. Mais un bon webspider suit aussi généralement la convention robots.txt
Les robots qui ignorent le fichier robots.txt et usurpent leur user-agent utilisent très probablement d'autres moyens pour cacher qu'ils sont des araignées.
- 1. Ramper, spidering, obtenir des données
- 2. RSS Browser Detection
- 3. onbeforeunload support detection
- 4. MySQL Deadlock Detection via PHP
- 5. LINQ Conflict Detection: Définition de l'attribut UpdateCheck
- 6. Auto-référence du contrôle utilisateur Web (avancé)
- 7. Shake Detection iPhone 3.0 ne fonctionne pas
- 8. Site Web multi-site Authentification comme mint.com
- 9. Transfert de site Web
- 10. Références site web VS2008
- 11. Déploiement de site Web
- 12. Site Web de référence
- 13. site web structure/architecture
- 14. site web Déploiement
- 15. Python Console Site Web
- 16. iframe auto redimensionner
- 17. VS2008 ASP.NET Site Web et application Web
- 18. projets d'application web v.s. site web projets
- 19. Spidering à travers ams pour les e-mails associés
- 20. Site Web pour l'information d'installation?
- 21. iPhone "Erreur de site Web"
- 22. Site Web Architecture Module Versioning
- 23. Vidéo dans un site Web
- 24. Scrape Site Web multi-images
- 25. Silverlight - Consultez le site Web
- 26. Site web pour usage personnel
- 27. Site web simple sur hostmonster
- 28. Test utilisateur du site Web
- 29. requête de site Web IIS
- 30. Exemple de site Web UML