2009-03-22 5 views
18

Y a-t-il un moyen de configurer le fichier robots.txt afin que le site accepte uniquement les visites de Google, Yahoo! et les araignées MSN?Robots.txt: autoriser uniquement les majors SE

+1

robots.txt n'a rien à voir avec ce que "site accepte". C'est juste une liste de règles que les agents bien tenus sont censés obéir. Vous n'avez qu'un recours pour avoir enfreint les règles, c'est d'utiliser un mécanisme différent pour interdire par ip ou user-agent. – Eclipse

+0

Je suis d'accord avec vous: je ne pourrais pas exprimer le concept de mieux à mon assez mauvais anglais. –

+2

Comme les araignées provoquent beaucoup d'activité sur votre serveur, je suis intéressé à ne permettre l'accès qu'à ceux du SE principal (principalement Google) qui amènent des visites sur mon site. La raison en est que je vais démarrer un Amazon EC2 VPS et que je ne veux pas payer pour l'utilisation du trafic et du processeur que toutes ces araignées peuvent causer. Peut-être que ce n'est pas significatif, mais l'idée me semble assez raisonnable. –

Répondre

28

 
User-agent: * 
Disallow:/
User-agent: Googlebot 
Allow:/
User-agent: Slurp 
Allow:/
User-Agent: msnbot 
Disallow: 

Slurp est le robot de Yahoo

+1

Google, MSN et Yahoo ont d'autres araignées que vous pouvez vouloir 'Autoriser' aussi bien (par exemple msnbot-media, bingbot). En outre, bingbot est l'araignée Microsoft que je vois le plus dans les journaux pour les sites que j'opère. –

+0

Qu'en est-il des robots Facebook? – sphinx

16

Pourquoi? Toute personne qui fait du mal (par exemple, en rassemblant des adresses e-mail au spam) ignorera simplement robots.txt. Donc, vous allez seulement bloquer les moteurs de recherche légitimes, car la conformité de robots.txt est volontaire. Mais si vous tenez absolument à le faire, c'est la ligne User-Agent: de robots.txt.

User-agent: googlebot 
Disallow: 

User-agent: * 
Disallow:/

Avec des lignes pour tous les autres moteurs de recherche que vous souhaitez, bien sûr, le trafic. Robotstxt.org a une liste partielle.

+1

"Je ne suis pas en reste avec les gros joueurs qui grattent mon site" n'est pas sympa pour les joueurs plus petits et prometteurs. Je voudrais pouvoir upvote votre "Pourquoi?" mille fois plus. Je veux dire, si vous êtes d'accord avec l'état actuel des choses, c'est-à-dire que tout le monde est sur les genoux de Google, alors par tous les moyens, allez-y et excluez tous les autres crawlers. – Marcus

+1

Je ne suis pas d'accord, il y a beaucoup de joueurs à venir et cela met trop de pression sur la bande passante, surtout si vous avez un grand site Web avec des milliers de nouveaux liens tous les jours ... alors vous voudrez peut-être vous débarrasser qui font à peine 1% de recherches sur Internet et vont avec le gros 3 au lieu de – jjj

+0

@jjj si un bot particulier racle votre site agressivement, vous pouvez utiliser robots.txt pour leur demander d'arrêter. Et bien sûr, si ce n'est qu'un seul site qui bloque tout le monde sauf Google, personne ne s'en souciera. Mais si une partie notable des sites suivait votre conseil, alors robots.txt deviendrait la norme pour le verrouillage du monopole de Google, et tous les autres robots l'ignoreraient ou prétendreaient être Googlebot. – derobert

0

Comme chacun sait, le robots.txt est une norme à être obéi par le robot et donc que des agents bien comportés faire. Donc, le mettre ou pas n'a pas d'importance.

Si vous avez des données qui ne s'affichent pas également sur le site, vous pouvez simplement changer l'autorisation et améliorer la sécurité.

Questions connexes