2013-06-12 3 views
1

Je urls comme ceux-ci: /produits /: Product_ID/offres/nouvelle /produits /: product_id/prix/indexrobots.txt: comment interdire les sous-dossiers de dossier dynamique

Je voudrais d'interdire le dossier "deals" dans mon fichier robots.txt.

[Éditer] Je voudrais interdire ce dossier pour Google, Yahoo et Bing Bots. Est-ce que quelqu'un sait si ces bots supportent le caractère générique et ainsi supporteraient la règle suivante?

Disallow: /products/*/deals 

Aussi ... Avez-vous un très bon tuto sur les règles robots.txt? Comme je n'ai pas réussi à trouver un "vraiment" bon je pourrais en utiliser un ...

Et une dernière question: Est ce que le robots.txt est la meilleure façon de gérer ça? Ou devrais-je mieux utiliser la méta "noindex"?

Merci à tous! :)

+0

La spécification robots.txt d'origine ne prend pas en charge les caractères génériques (comme le '*' dans votre exemple). Cependant, certains analyseurs les supportent (mais je suppose qu'ils diffèrent dans la mise en œuvre). – unor

+0

Oww, dommage :(Ok donc je suppose que je vais devoir aller avec la balise meta, non? :) – Kulgar

+0

Oui. Ou, si vous êtes uniquement intéressé par les principaux moteurs de recherche, vous pouvez consulter leur documentation et voir si/comment ils prennent en charge les caractères génériques dans le fichier robots.txt (par exemple, Google semble les prendre en charge).Vous pouvez mettre à jour votre question pour inclure les robots/moteurs de recherche qui vous intéressent. – unor

Répondre

1

Oui, tous les principaux moteurs de recherche prennent en charge les caractères génériques de base *, et votre solution fonctionnera pour interdire votre répertoire .

Le meilleur endroit pour en savoir plus sur robots.txt est vraiment le Google Developer page. Il fournit beaucoup d'exemples de ce qui fonctionne et de ce qui ne fonctionne pas. Par exemple, beaucoup de gens ne savent pas que les fichiers robots.txt sont spécifiques au protocole. Donc, si vous voulez bloquer les pages sur une connexion https, vous devez vous assurer que vous avez un robots.txt à https://yoursite.com/robots.txt

Vous pouvez également tester un nouveau fichier robots.txt avant de l'appliquer par Google Webmaster Tools. Fondamentalement, vous pouvez vérifier avec le moteur de recherche si oui ou non il fonctionnera réellement avant de le déployer. En ce qui concerne le blocage de quelque chose avec robots.txt ou simplement l'ajout d'un noindex aux pages, je suis plus enclin à utiliser le noindex dans la plupart des scénarios sauf si je sais que je ne veux pas que les moteurs de recherche explorent cette section. site du tout.

Il y a quelques compromis. Lorsque vous bloquez complètement le moteur de recherche, vous pouvez économiser sur votre «budget d'exploration». Ainsi, les moteurs de recherche vont explorer d'autres pages, puis "gaspiller" leur temps sur des pages que vous ne voulez pas qu'ils visitent. Toutefois, ces URL peuvent toujours apparaître dans les résultats de la recherche.

Si vous ne souhaitez absolument pas que le trafic de redirection soit associé à ces pages, il est préférable d'utiliser la directive noindex. De plus, si vous vous connectez souvent à la page des offres, un noindex non seulement le supprime des résultats de recherche, mais n'importe quelle valeur de lien/PageRank peut circuler à travers ces pages et peut être calculé en conséquence. Si vous les empêchez d'être crawlé, c'est en quelque sorte un trou noir.

+1

Quelle merveilleuse et merveilleuse réponse! Exactement l'explication dont j'avais besoin! Merci beaucoup!! – Kulgar

+0

Pas de problème, mon plaisir :) – eywu

0

Si vous n'êtes pas sûr que votre syntaxe dans robots.txt est correcte, vous pouvez la tester sur https://www.google.com/webmasters (pour voir s'il y a des erreurs). De plus, vous pouvez entrer une URL de page et l'outil vous dira si, selon votre fichier robots.txt, il devrait être bloqué ou non.

Questions connexes