2010-07-27 9 views
19
  1. Vaut-il mieux utiliser les métabalises * ou le fichier robots.txt pour informer les robots d'indexation/exploration afin d'inclure ou d'exclure une page?Meta tag vs robots.txt

  2. Y a-t-il des problèmes lors de l'utilisation des balises META et du fichier robots.txt?

* Par exemple: <#META name="robots" content="index, follow">

+11

Il s'agit d'une question liée à la programmation en termes de développement web. – Tom

Répondre

4

Robots.txt IMHO. L'option Meta tag indique aux robots de ne pas indexer des fichiers individuels, tandis que Robots.txt peut être utilisé pour restreindre l'accès à des répertoires entiers. Bien sûr, utilisez une balise Meta si vous avez la page impaire dans les dossiers indexés que vous voulez ignorer, mais en général, je vous recommande la plupart de votre contenu non indexé dans un ou plusieurs dossiers et utilisez le fichier robots.txt pour sauter le lot.

Non, il n'y a pas un problème en utilisant à la fois - s'il y a un conflit, en termes généraux, un nier infirmera un permettent.

+1

Bien que j'aie tendance à utiliser aussi Robots.txt, n'est-il pas possible que des robots douteux puissent simplement utiliser ce fichier pour obtenir une liste pratique de nouveaux répertoires qu'il peut spider? Alors qu'avec le tag META, ils n'auraient aucun moyen de trouver une page non-liée en premier lieu ... Juste une idée! – Codecraft

+1

@Codecraft Cela peut être vrai, mais c'est ainsi que vous ne devriez pas afficher d'informations sensibles à des utilisateurs non autorisés. 'robots.txt' est utilisé pour indiquer aux robots d'exploration quelles informations ne valent pas la peine plutôt que ce qui est privé et ne doivent pas être consultées. – cpburnz

0

Je probablement utiliser la balise robots.txt sur meta. Robots.txt existe depuis plus longtemps et pourrait être plus largement supporté (mais je ne suis pas sûr à 100% sur ce point). En ce qui concerne la deuxième partie, je pense que la plupart des araignées prendront le réglage le plus restrictif pour une page - s'il y a une disparité entre le fichier robots.txt et la balise META.

4

Les deux sont pris en charge par tous les robots d'exploration qui respectent les souhaits des webmasters. Pas tous, mais contre eux aucune technique n'est suffisante.

Vous pouvez utiliser les règles robots.txt pour des choses générales, comme interdire des sections entières de votre site. Si vous dites Disallow: /family alors tous les liens en commençant par /family ne sont pas indexés par chenilles.

La balise Meta peut être utilisée pour interdire une seule page. Les pages non autorisées par les balises META n'affectent pas les sous-pages de la hiérarchie des pages. Si vous avez une balise Meta Disallow sur /work, cela n'empêche pas un robot d'accéder à /work/my-publications s'il y a un lien vers une page autorisée.

22

Il existe une différence significative. Selon google https://support.google.com/webmasters/answer/6062608?hl=en ils vont encore indexer une page derrière un fichier robots.txt DENY, si la page est liée à via un autre site.

Cependant, ils ne seront pas s'ils voient un metatag:

Alors que Google ne sera pas ramper ou indexer le contenu bloqué par robots.txt, nous pourrions toujours trouver et indexer une URL d'autres endroits non reconnues sur la toile. Par conséquent, l'adresse URL et éventuellement d'autres informations accessibles au public, telles que le texte d'ancrage dans les liens vers le site, peuvent toujours apparaître dans les résultats de recherche Google. Vous pouvez arrêter complètement l'affichage de votre URL dans les résultats de recherche Google en utilisant d'autres méthodes de blocage d'URL, telles que la protection par mot de passe des fichiers sur votre serveur ou en utilisant la balise meta noindex ou l'en-tête de réponse.

+3

Et selon ces [1] (http://evolvedigitallabs.com/blog/robots-txt-vs-noindex-differences), [2] (http://etechdiary.com/robots-txt-vs-noindex- deindex-your-site-the-right-way), [3] (http://moz.com/learn/seo/robotstxt) pages, ce n'est pas seulement google. En général, la balise meta est utilisée pour interdire l'indexation, alors que le fichier robots.txt est utilisé pour interdire l'exploration. – zrisher

+0

+1, et j'ai pris la liberté de mettre à jour votre message avec un devis de la page liée, si son contenu change! – Benjamin

-1

Vous pouvez en avoir un mais si votre site Web a beaucoup de pages Web, puis des robots.txt est facile et réduit la complexité temporelle

-1

Robots.txt est bon pour les pages qui consomment beaucoup de votre budget d'exploration comme la recherche interne ou les filtres avec une combinaison infinie. Si vous autorisez Google à indexer yoursite.com/search=lalalala, cela vous gâchera votre budget d'exploration.

+0

Vous pouvez toujours interdire cela en utilisant des méta-tags, non? Mais la question était quelle est la différence entre cette approche et robots.txt. – FazoM

+0

Je ne pense pas que ce soit la même chose. Si vos règles sont dans robots.txt, un robot devrait simplement charger des robots.txt périodiquement afin d'avoir une vue à jour de ce qu'il est autorisé à explorer. Si vos règles sont dans des balises meta, il faudrait charger chaque page balisée périodiquement pour avoir une vue à jour des règles. – Keith

0

meta est supérieur. Afin d'exclure des pages individuelles des index du moteur de recherche, la balise meta noindex est en fait supérieure à robots.txt.

1

Il existe une très grande différence entre le méta-robot et le fichier robots.txt.

Dans robots.txt, nous demandons aux robots d'exploration quelle page vous devez explorer et celle que vous devez exclure, mais nous ne demandons pas à crawler de ne pas indexer ces pages exclues de l'analyse.

Mais si nous utilisons balise meta robots, nous pouvons demander moteur de recherche robots de ne pas indexer cette balise page.The à utiliser pour cela est:

< nom #meta = « nom du robot », content = " noindex "> (enlever #)

OU

< nom #meta = "nom du robot", content = "suivre, noindex"> (enlever #)

Dans la deuxième balise meta, je demandé au robot de suivre cette URL mais de ne pas indexer dans la recherche moteur.

0

Vous voulez utiliser 'noindex, follow' dans un robots meta tag, plutôt que robots.txt, car il permettra au jus de liaison de passer à travers. C'est mieux d'un point de vue SEO.