2011-02-12 2 views
1

Je construis un site qui permettra à des vendeurs à:Comment empêcher les robots d'exploration de suivre les liens?

  • liste de leurs produits sur mon site
  • ont chaque lien de produit vers le site du vendeur
  • facturé pour chaque lien cliqué

Ce que je dois faire maintenant est de m'assurer que je ne connecte que les utilisateurs humains réels en suivant les liens vers le site des vendeurs. Si c'est un bot qui rampe sur le site, je ne devrais pas charger les vendeurs pour ça.

Y at-il un moyen pour moi de dire aux robots de ne pas suivre un certain lien? Je ne pense pas que ce soit nofollow car cela n'est pas destiné à bloquer l'accès au contenu.

+0

N ° Tout bot. Je ne veux pas augmenter artificiellement le nombre de liens cliqués. – StackOverflowNewbie

Répondre

2

La façon de dire à un bot de ne pas suivre un lien est précisément d'ajouter rel = nofollow à votre < une étiquette >. En supposant que vous vous connectez également localement avant de transférer vers l'URL externe, vous pouvez également vérifier la chaîne de l'agent utilisateur. En fait, si vous demandez aux gens de payer en fonction du nombre de références, il peut être utile d'enregistrer l'adresse IP et l'agent utilisateur pour chaque clic payé au cas où vos statistiques seraient mises en doute.

+0

J'identifie l'adresse IP. Bonne idée sur User Agent. – StackOverflowNewbie

0

Typiquement, vous pouvez les identifier par la chaîne de l'agent utilisateur. Vous trouverez ici une liste, ne peut pas dire que c'est perferct, mais il est une bonne base pour étendre: PHP/MySQL - an array filter for bots

robots.txt est une autre façon, more about it here

2

Vous ajoutez juste un [robots.txt] fichier, par exemple comme this one.

Vous pouvez trouver plus d'informations sur les fichiers [robots.txt] sur le net, par ex. in Wikipedia.

Vive & HTH.,

+0

Est-il possible d'utiliser des caractères génériques dans robots.txt? – StackOverflowNewbie

+0

Le fichier Google robots.txt lié à ci-dessus montre que vous pouvez utiliser des caractères génériques pour l'agent utilisateur. Mais puisque le fichier robots.txt concerne principalement la restriction de l'accès aux arborescences de répertoires entières, il y a moins besoin de jokers, et je ne suis pas sûr que vous le puissiez. Consultez l'article Wikipédia auquel je suis connecté pour plus de détails. –

Questions connexes