2009-08-27 4 views

Répondre

4

CVSTrac utilise une page honeypot pour ce faire. C'est une page liée quelque part sur le site où les robots l'atteignent, mais les humains l'ignorent généralement. CVSTrac va encore plus loin en permettant à l'utilisateur de prouver qu'il est humain.

3

"Si images/javascript sont demandés?" Je voudrais aller pour celui-ci, mais Google et d'autres demandent des images et des fichiers javascript de nos jours.

Que diriez-vous de demander la vitesse de temps? Les bots lisent votre contenu beaucoup plus rapidement que les humains.

+0

+1 - battu moi – DarkSquid

0

N'est-ce pas ce que captcha est inventé?

+2

Essayer d'éviter d'avoir des bots sur votre site n'est pas une raison de rendre la vie plus difficile pour les vrais utilisateurs ... captcha sont vraiment une douleur, même les fois ils ne sont pas utiles contre les robots. –

2

Il y a 4 choses que nous recherchons:

  • La chaîne de l'agent utilisateur. Il est très facile de truquer, mais les robots d'exploration utilisent souvent leur propre chaîne d'agent utilisateur unique.

  • La vitesse d'accès des pages, si elles accèdent plus d'un toutes les demi-seconde ou, qui est généralement une bonne indication

  • S'ils demandent simplement le code HTML, ou si elles demandent la page. Certains robots demandent seulement la structure HTML. C'est généralement un bon conseil.

  • L'URL entrant

+2

pt. 2: Sachez qu'il est assez courant (pour moi, au moins) de suivre plusieurs liens d'une même page dans la même seconde (ouverture de nouveaux onglets, évidemment). – jensgram

+0

@jensgram C'est pourquoi nous le faisons en quelques secondes et faisons l'intervalle une demi-seconde. Nous avons trouvé que c'était un indicateur presque parfait. J'ouvre également plusieurs liens à la fois à partir d'une page Web. – chollida

+0

En outre, je désactive fréquemment le téléchargement d'images via un plug-in de développement Web, lorsque je rencontre des problèmes de connexion et que je ne suis intéressé que par la lecture de texte. – JYelton

1

Jetez un oeil à Bad Behavior, une bibliothèque qui emploie un large éventail de techniques de détection de bots

2

Un captcha inverse de toutes sortes peuvent aider aussi bien; vous pouvez créer un champ de saisie de texte avec affichage: none; dans son attribut style (ou votre feuille de style). Si c'est publié, il y a des chances que vous ayez affaire à un bot.

Editer: C'était en fait quelque chose qui avait été agrégé dans mon lecteur RSS, si je peux trouver la source, je lierai un bon exemple.

Questions connexes