2009-10-07 4 views

Répondre

4

Avez-vous envisagé d'utiliser un fichier robots.txt pour réduire le trafic indésirable des outils de recherche automatique?

Vous pouvez avoir plusieurs lignes Disallow pour chaque agent utilisateur (c'est-à-dire pour chaque spider). Voici un exemple d'un fichier robots.txt plus:

User-agent: * 
Disallow: /images/ 
Disallow: /cgi-bin/ 

User-agent: Googlebot-Image 
Disallow:/

Voici un exemple qui interdit tout sauf google

User-agent: * 
Disallow:/

User-agent: Googlebot 
allow:/

Un mot d'avertissement: Cette méthode n'est pas garanti Pour empêcher les agents non autorisés de passer par votre site, il leur demande simplement de manière standardisée que la plupart de ces outils le comprennent.

+0

Il cherche à PERMETTRE robots et DENY autres. Cela n'aidera pas. –

+0

@Mike: relire. Il déclare clairement "forcer une connexion de toutes les adresses IP qui ne sont pas les 4 principaux moteurs de recherche." Fondamentalement, il veut seulement autoriser certains "robots"; qui est couvert dans le fichier robots.txt – NotMe

+0

Je pense que la question ici est ambigu quant à l'objectif. Je l'ai lu comme disant qu'il veut limiter l'accès aux bots qui ne sont pas les 4 principaux moteurs de recherche, mais il pourrait tout aussi bien être lu comme disant que tout accès qui ne vient pas des 4 moteurs de recherche principaux devrait nécessiter une connexion. –

0

Oui. Vous pouvez forcer la connexion pour toutes vos pages à l'exception de quelques adresses IP. Cela dépend du serveur Web que vous utilisez et quel type de contrôle d'accès est autorisé?

0

si vous voulez logind forcé pour tout le monde, sauf les 4 moteurs de recherche, vous pouvez demander la connexion de tout le monde, sauf les 4 moteurs de recherche ou auto la connection

Questions connexes