interdire certains url dans le fichier robots.txt

Nous avons mis un système d'évaluation sur un site en arrière qui implique un lien vers un script. Cependant, avec la grande majorité des évaluations sur le site à 3/5 et les notes très même à travers 1-5, nous commençons à soupçonner que les moteurs de recherche, etc crawlers passent à travers. Les urls utilisés ressemblent à ceci:interdire certains url dans le fichier robots.txt

http://www.thesite.com/path/to/the/page/rate?uid=abcdefghijk&value=3

Quand nous avons commencé, nous ajoutons ce qui suit à notre robots.txt:

User-agent: * 
Disallow: /rate

Est-ce erronées ou Googlebot et d'autres simplement ignorer notre robots.txt?

Source

2010-05-17 chrism

Ceci est incorrect, car il refusera l'URL exacte '/ de rate', qui n'existe pas vraisemblablement. Je n'en connais pas assez pour proposer une solution. –

Vous devez utiliser POST pour des actions qui changent les choses comme moteur de recherche ne sont généralement pas soumettre les formulaires. De plus, cela empêchera les utilisateurs qui téléchargent votre site de façon récursive (par exemple avec wget) de soumettre des tonnes de votes.

En fonction de votre site, la manipulation de vote si javascript est peut-être une solution aussi.

En ce qui concerne votre robots.txt: Il doit être dans le chemin racine - à savoir http://www.thesite.com/robots.txt - et si votre système de notation est à/bla/taux vous devez utiliser Disallow: /blah/rate au lieu de Disallow: /rate

Source

2010-05-17 10:13:57 ThiefMaster

Confirme mes soupçons - Je vais essayer de modifier la note de sorte qu'elle utilise post ou accède uniquement au script/rate à la racine de sorte que/rate soit réellement correct. Merci à tous – chrism

S'il vous plaît utiliser POST. En utilisant GET pour toutes les opérations qui effectuent des actions qui ne sont pas en lecture seule est pas une bonne idée à moins qu'il ne vous oblige à être connecté (par exemple, un lien « supprimer » dans une zone de adminstration serait ok) – ThiefMaster

je veux, mais comme rapide fix pour le moment (bien fermé la porte de l'écurie après que le cheval a boulonné de toute façon) Je vais l'obtenir pour exécuter le script à la racine. – chrism

User-agent: *
Disallow:/chemin/vers/la/page/débit

Vous devez utiliser le chemin d'accès complet.

pouvez lire ici un peu: http://www.javascriptkit.com/howto/robots.shtml

Source

2010-05-17 10:13:59 RandyMorris

Attend incorrect pour moi. Vous êtes seulement interdire l'accès à http://www.thesite.com/rate (et les pages ci-dessous IIRC). Plus certains robots ignorent robots.txt!

Mieux vaut faire en sorte que les cotes ne sont jamais modifiés en réponse à un POST plutôt que GET. Moteurs de recherche never use POST.

Source

2010-05-17 10:14:40

interdire certains url dans le fichier robots.txt

Répondre

Questions connexes