Y a-t-il un moyen de configurer le fichier robots.txt afin que le site accepte uniquement les visites de Google, Yahoo! et les araignées MSN?Robots.txt: autoriser uniquement les majors SE
Répondre
User-agent: * Disallow:/ User-agent: Googlebot Allow:/ User-agent: Slurp Allow:/ User-Agent: msnbot Disallow:
Slurp est le robot de Yahoo
Google, MSN et Yahoo ont d'autres araignées que vous pouvez vouloir 'Autoriser' aussi bien (par exemple msnbot-media, bingbot). En outre, bingbot est l'araignée Microsoft que je vois le plus dans les journaux pour les sites que j'opère. –
Qu'en est-il des robots Facebook? – sphinx
Pourquoi? Toute personne qui fait du mal (par exemple, en rassemblant des adresses e-mail au spam) ignorera simplement robots.txt. Donc, vous allez seulement bloquer les moteurs de recherche légitimes, car la conformité de robots.txt est volontaire. Mais si vous tenez absolument à le faire, c'est la ligne User-Agent:
de robots.txt.
User-agent: googlebot
Disallow:
User-agent: *
Disallow:/
Avec des lignes pour tous les autres moteurs de recherche que vous souhaitez, bien sûr, le trafic. Robotstxt.org a une liste partielle.
"Je ne suis pas en reste avec les gros joueurs qui grattent mon site" n'est pas sympa pour les joueurs plus petits et prometteurs. Je voudrais pouvoir upvote votre "Pourquoi?" mille fois plus. Je veux dire, si vous êtes d'accord avec l'état actuel des choses, c'est-à-dire que tout le monde est sur les genoux de Google, alors par tous les moyens, allez-y et excluez tous les autres crawlers. – Marcus
Je ne suis pas d'accord, il y a beaucoup de joueurs à venir et cela met trop de pression sur la bande passante, surtout si vous avez un grand site Web avec des milliers de nouveaux liens tous les jours ... alors vous voudrez peut-être vous débarrasser qui font à peine 1% de recherches sur Internet et vont avec le gros 3 au lieu de – jjj
@jjj si un bot particulier racle votre site agressivement, vous pouvez utiliser robots.txt pour leur demander d'arrêter. Et bien sûr, si ce n'est qu'un seul site qui bloque tout le monde sauf Google, personne ne s'en souciera. Mais si une partie notable des sites suivait votre conseil, alors robots.txt deviendrait la norme pour le verrouillage du monopole de Google, et tous les autres robots l'ignoreraient ou prétendreaient être Googlebot. – derobert
Comme chacun sait, le robots.txt est une norme à être obéi par le robot et donc que des agents bien comportés faire. Donc, le mettre ou pas n'a pas d'importance.
Si vous avez des données qui ne s'affichent pas également sur le site, vous pouvez simplement changer l'autorisation et améliorer la sécurité.
- 1. TinyMCE: Possible de limiter à autoriser uniquement les puces?
- 2. Restriction d'OpenSSH pour autoriser les téléchargements uniquement vers certains répertoires
- 3. Robots.txt pour interdire tout et autoriser uniquement certaines parties du site/des pages. Est-ce que "allow" est supporté par les robots comme Ultraseek et FAST?
- 4. comment désavouer toutes les urls dynamiques robots.txt
- 5. Autoriser une requête provenant d'une adresse IP spécifique uniquement
- 6. Débutant RegEx Question - PHP RegEx pour autoriser uniquement les chemins relatifs (pas les URL)
- 7. Existe-t-il une stratégie TFS pour autoriser uniquement les fusions et non les modifications?
- 8. Drupal autoriser les commentaires anonymes
- 9. Robots.txt bloque l'accès à toutes les pages https: //
- 10. Comment interdire les pages de recherche de robots.txt
- 11. Autoriser uniquement les applications signées numériquement à accéder au service wcf
- 12. Autoriser les procédures stockées d'autorisation
- 13. robots.txt dans l'application ASP.NET MVC renvoyant 404
- 14. Autoriser les valeurs entre guillemets dans les colonnes entières mysql?
- 15. Afficher uniquement les icônes ToolStripMenuItem
- 16. Comment faire pour SQL Server 2008 Check Contrainte d'une table Autoriser uniquement Certains caractères?
- 17. Autoriser uniquement un serveur à accéder à un fichier sur un lecteur réseau
- 18. Verrouillage d'un panneau ToolStripContainer pour autoriser uniquement une rangée de barres d'outils
- 19. Autoriser uniquement le menu contextuel Copier/Coller dans le contrôle System.Windows.Forms.WebBrowser
- 20. Comment autoriser uniquement l'enregistreur vidéo de l'iPhone 3GS à utiliser la classe UIImagePickerController
- 21. Visual Studio 2008 ne modifieront pas lire uniquement les fichiers
- 22. Pour autoriser uniquement localhost dans la valeur 000 par défaut d'Apache
- 23. Comment puis-je autoriser uniquement des chaînes uniques dans un JList?
- 24. robots.txt: bots Disallow pour accéder à une "profondeur url" donnée
- 25. PostgreSQL: contrainte, Insérer une valeur dans la colonne uniquement si elle existe dans une autre table
- 26. Je cherche un conseil pour résoudre les problèmes qui se produisent uniquement sur votre machine
- 27. Autoriser les caractères spéciaux et les espaces dans jquery wordCount
- 28. Comment autoriser les utilisateurs à modifier les menus frontaux?
- 29. robots.txt et générique à la fin désavouer od
- 30. Comment autoriser l'accès que dans le pays
robots.txt n'a rien à voir avec ce que "site accepte". C'est juste une liste de règles que les agents bien tenus sont censés obéir. Vous n'avez qu'un recours pour avoir enfreint les règles, c'est d'utiliser un mécanisme différent pour interdire par ip ou user-agent. – Eclipse
Je suis d'accord avec vous: je ne pourrais pas exprimer le concept de mieux à mon assez mauvais anglais. –
Comme les araignées provoquent beaucoup d'activité sur votre serveur, je suis intéressé à ne permettre l'accès qu'à ceux du SE principal (principalement Google) qui amènent des visites sur mon site. La raison en est que je vais démarrer un Amazon EC2 VPS et que je ne veux pas payer pour l'utilisation du trafic et du processeur que toutes ces araignées peuvent causer. Peut-être que ce n'est pas significatif, mais l'idée me semble assez raisonnable. –