2008-11-29 8 views

Répondre

4

Dois-je changer ou modifier mon fichier robots.txt ou changer quelque chose?

Dépend du bot. Certains robots ignorent consciencieusement robots.txt. Nous avons eu un problème similaire il y a 18 mois avec le bot google AD parce que notre client achetait Soooo beaucoup d'annonces. Les robots AD Google (comme indiqué) ignorent les exclusions génériques (*), mais écoutent les ignorés explicites. Rappelez-vous, les robots qui honorent robots.txt ne vont pas explorer votre site. Cela n'est pas souhaitable si vous voulez qu'ils aient accès à vos données pour l'indexation.

Une meilleure solution consiste à étrangler ou fournir un contenu statique aux robots.

Vous ne savez pas si c'est bon, parce qu'ils indexent ou quoi?

Ils peuvent être indexés/grattés/volés. Tout de même vraiment. Ce que je pense que vous voulez est d'étrangler leur traitement de requête http basé sur UserAgents. La procédure à suivre dépend de votre serveur Web et de votre conteneur d'applications.

Comme suggéré dans d'autres réponses, si le bot est malveillant, alors vous devrez soit trouver le modèle UserAgent et lui envoyer 403 forbiddens. Ou, si les robots malveillants changent dynamiquement les chaînes de l'agent utilisateur que vous avez deux autres possibilités:

  • UserAgents liste blanche - par exemple créer un filtre d'agent utilisateur qui n'accepte que certains agents utilisateurs. C'est très imparfait.
  • Interdiction IP - l'en-tête http contiendra l'adresse IP source. Ou, si vous obtenez DOS'd (attaque par déni de service), alors vous avez de plus gros problèmes
+0

Je ne suis pas d'accord avec le point 1 Google obéit très bien au fichier robots.txt. – UnkwnTech

+1

Pas vrai quand nous avons eu ce problème il y a 18 mois (avec www.mytickets.com.au). C'était un bot AD de google qui cherchait constamment de nouvelles ressources. Je vais vérifier ma source pour cela encore – CVertex

+0

Vous avez raison. Le cas auquel je pensais était celui-ci: les robots publicitaires Google ignorent le cas du caractère générique (*) – CVertex

4

Je ne pense vraiment pas que changer le fichier robots.txt va aider, parce que seuls les BONS robots se conforment à il. Tous les autres l'ignorent et analysent votre contenu à leur guise. Personnellement, j'utilise http://www.codeplex.com/urlrewriter pour se débarrasser des robots indésirables en répondant avec un message interdit s'ils sont trouvés.

3

Les robots de spam ne se soucient pas de robots.txt. Vous pouvez les bloquer avec quelque chose comme mod_security (qui est un plugin Apache assez cool dans son propre droit). Ou vous pourriez juste les ignorer.

2

Vous devrez peut-être utiliser .htaccess pour refuser à certains bots de visser avec vos bûches. Voir ici: http://spamhuntress.com/2006/02/13/another-hungry-java-bot/

J'avais beaucoup de bots Java rampants mon site, en ajoutant

SetEnvIfNoCase User-Agent^Java/1. javabot = yes
SetEnvIfNoCase Utilisateur-Agent^Java1. javabot = yes
Refus de env = javabot

les a fait arrêter.Maintenant, ils ne reçoivent que 403 fois et c'est tout :)

2

J'ai déjà travaillé pour un client qui avait tout le temps un certain nombre de bots de "comparaison de prix" sur le site. Le problème était que nos ressources backend étaient rares et coûtaient de l'argent par transaction. Après avoir essayé de combattre certains d'entre eux pendant un certain temps, mais les robots n'ont cessé de changer leurs caractéristiques reconnaissables. Nous nous sommes retrouvés avec la stratégie suivante:

Pour chaque session sur le serveur, nous avons déterminé si l'utilisateur cliquait trop vite. Après un nombre donné de répétitions, nous avons défini l'indicateur "isRobot" sur true et nous avons simplement limité la vitesse de réponse au sein de cette session en ajoutant des interruptions. Nous n'avons rien dit à l'utilisateur, puisqu'il commencerait juste une nouvelle session dans ce cas.

Questions connexes