2009-04-08 9 views

Répondre

3

une bonne araignée

  • lit le robots.txt
  • a un bon agent utilisateur
  • interrogera plus rapidement qu'un utilisateur moyen

Mais une détection claire si elle est un navigateur ou une araignée n'est pas possible, je pense.

1

Vous pouvez utiliser une liste de chaînes User-Agent utilisées par les robots communs. Vous pouvez utiliser une certaine forme de détection de taux et déterminer qu'un taux très élevé de demandes sera probablement une araignée (ou quelqu'un qui sangsue votre site entier).

Il peut également y avoir des listes d'adresses IP utilisées par des robots courants, mais un système de détection infaillible est très probablement impossible.

Vous pouvez créer un lien sur vos pages qu'un visiteur réel ne cliquera jamais et marquer quelqu'un qui suit le lien comme un araignée. Vous obtiendrez des gens en cliquant sur le lien de toute façon, mais la curiosité ne peut être évitée.

1

Si l'araignée est sympa, vous pouvez la détecter via son user-agent en utilisant une liste d'agents utilisateurs existants comme this. Mais un bon webspider suit aussi généralement la convention robots.txt

Les robots qui ignorent le fichier robots.txt et usurpent leur user-agent utilisent très probablement d'autres moyens pour cacher qu'ils sont des araignées.