Dois-je me débarrasser des robots qui visitent mon site?

J'ai remarqué sur mes trackers que les robots visitent mon site ALOT. Dois-je changer ou modifier mon fichier robots.txt ou changer quelque chose? Je ne sais pas si c'est bon, parce qu'ils indexent ou quoi?Dois-je me débarrasser des robots qui visitent mon site?

Source

2008-11-29 Coughlin

Dois-je changer ou modifier mon fichier robots.txt ou changer quelque chose?

Dépend du bot. Certains robots ignorent consciencieusement robots.txt. Nous avons eu un problème similaire il y a 18 mois avec le bot google AD parce que notre client achetait Soooo beaucoup d'annonces. Les robots AD Google (comme indiqué) ignorent les exclusions génériques (*), mais écoutent les ignorés explicites. Rappelez-vous, les robots qui honorent robots.txt ne vont pas explorer votre site. Cela n'est pas souhaitable si vous voulez qu'ils aient accès à vos données pour l'indexation.

Une meilleure solution consiste à étrangler ou fournir un contenu statique aux robots.

Vous ne savez pas si c'est bon, parce qu'ils indexent ou quoi?

Ils peuvent être indexés/grattés/volés. Tout de même vraiment. Ce que je pense que vous voulez est d'étrangler leur traitement de requête http basé sur UserAgents. La procédure à suivre dépend de votre serveur Web et de votre conteneur d'applications.

Comme suggéré dans d'autres réponses, si le bot est malveillant, alors vous devrez soit trouver le modèle UserAgent et lui envoyer 403 forbiddens. Ou, si les robots malveillants changent dynamiquement les chaînes de l'agent utilisateur que vous avez deux autres possibilités:

UserAgents liste blanche - par exemple créer un filtre d'agent utilisateur qui n'accepte que certains agents utilisateurs. C'est très imparfait.
Interdiction IP - l'en-tête http contiendra l'adresse IP source. Ou, si vous obtenez DOS'd (attaque par déni de service), alors vous avez de plus gros problèmes

Source

2008-11-29 05:07:54 CVertex

Je ne suis pas d'accord avec le point 1 Google obéit très bien au fichier robots.txt. – UnkwnTech

Pas vrai quand nous avons eu ce problème il y a 18 mois (avec www.mytickets.com.au). C'était un bot AD de google qui cherchait constamment de nouvelles ressources. Je vais vérifier ma source pour cela encore – CVertex

Vous avez raison. Le cas auquel je pensais était celui-ci: les robots publicitaires Google ignorent le cas du caractère générique (*) – CVertex

Je ne pense vraiment pas que changer le fichier robots.txt va aider, parce que seuls les BONS robots se conforment à il. Tous les autres l'ignorent et analysent votre contenu à leur guise. Personnellement, j'utilise http://www.codeplex.com/urlrewriter pour se débarrasser des robots indésirables en répondant avec un message interdit s'ils sont trouvés.

Source

2008-11-29 05:42:48

Les robots de spam ne se soucient pas de robots.txt. Vous pouvez les bloquer avec quelque chose comme mod_security (qui est un plugin Apache assez cool dans son propre droit). Ou vous pourriez juste les ignorer.

Source

2008-11-29 05:48:48 Eli

Vous devrez peut-être utiliser .htaccess pour refuser à certains bots de visser avec vos bûches. Voir ici: http://spamhuntress.com/2006/02/13/another-hungry-java-bot/

J'avais beaucoup de bots Java rampants mon site, en ajoutant

SetEnvIfNoCase User-Agent^Java/1. javabot = yes
SetEnvIfNoCase Utilisateur-Agent^Java1. javabot = yes
Refus de env = javabot

les a fait arrêter.Maintenant, ils ne reçoivent que 403 fois et c'est tout :)

Source

2008-11-29 06:11:56

J'ai déjà travaillé pour un client qui avait tout le temps un certain nombre de bots de "comparaison de prix" sur le site. Le problème était que nos ressources backend étaient rares et coûtaient de l'argent par transaction. Après avoir essayé de combattre certains d'entre eux pendant un certain temps, mais les robots n'ont cessé de changer leurs caractéristiques reconnaissables. Nous nous sommes retrouvés avec la stratégie suivante:

Pour chaque session sur le serveur, nous avons déterminé si l'utilisateur cliquait trop vite. Après un nombre donné de répétitions, nous avons défini l'indicateur "isRobot" sur true et nous avons simplement limité la vitesse de réponse au sein de cette session en ajoutant des interruptions. Nous n'avons rien dit à l'utilisateur, puisqu'il commencerait juste une nouvelle session dans ce cas.

Source

2008-11-30 08:01:02 krosenvold

Dois-je me débarrasser des robots qui visitent mon site?

Répondre

Questions connexes