2016-10-02 1 views
1

J'ai une page sur un site web, et je n'ai accès à rien d'autre que ma page. Le site Web est utilisé pour vendre divers petits produits. Après avoir été avec eux pendant plus d'un an, et ayant utilisé google adwords pour aider à me promouvoir, j'ai remarqué qu'aucune des pages du produit n'a été indexée sur google. Quand j'ai remarqué que le fichier robots.txt du site ne contenait pas grand-chose, je me demandais si cela avait quelque chose à voir avec ça.Robots.txt incomplets, que se passe-t-il?

URL du produit suivent ce format:

www.example.com/myshopname/[product ID]?q=I[product ID] 

Et le robots.txt est tout simplement:

Disallow: /*_escaped_fragment_ 

Il n'y a pas d'agent utilisateur. Je me demande si cela aurait un effet sur l'exploration de ma page par Google, ou si elle ignorerait simplement le fichier robots.txt car aucun agent utilisateur n'a été spécifié.

+0

Obtenez des informations plus détaillées ici: https://moz.com/learn/seo/robotstxt – Franco

+0

@Franco Je lis la documentation sur les robots, rien sur les fichiers robot.txt incomplètes. D'après ce que je sais, vous devez d'abord taper un user-agent, puis la règle disallow. Je ne suis pas sûr de ce qui se passe si aucun agent d'utilisateur n'est donné ... les robots agissent-ils comme si user-agent est *, ou ignorent-ils simplement la règle de disallow puisqu'aucun user-agent n'est donné. Si elle devait agir comme user-agent étant *, alors comment la règle serait-elle appliquée? Puisque l'exploration AJAX est maintenant obsolète, va-t-elle ignorer cette règle? – Alex

Répondre

0

Ce robots.txt est invalide (selon le original specification), car chaque enregistrement nécessite au moins un User-agent et au moins une ligne Disallow.

La spécification ne dit pas que les consommateurs devraient (essayer d'interpréter) des enregistrements invalides.

Ainsi, la spéculation:

  • consommateurs stricte ignorera ce dossier non valide. Pour ces consommateurs, votre robots.txt sera équivalent à une robots.txt inexistante, ce qui équivaut à celui-ci:

    User-agent: * 
    Disallow: 
    

    (c.-à-tout est permis)

  • consommateurs Polite pourrait supposer que l'auteur avait l'intention d'avoir un User-agent: * pour cet enregistrement. Pour ces consommateurs, votre robots.txt sera équivalent à celui-ci:

    User-agent: * 
    Disallow: /*_escaped_fragment_ 
    

Dans tous les cas, votre robots.txt (le plus probable) arrêter aucun consommateur d'URL rampants dont les chemins commencer par /myshopname/ (à moins que l'URL ne contienne _escaped_fragment_, auquel cas certains consommateurs pourraient arrêter de l'explorer, c'est-à-dire ceux qui interplacent * en tant que caractère générique, ce qui ne fait d'ailleurs pas partie de la spécification d'origine).

+0

Merci, c'est ce que je cherchais. Devinez si le robot rampe, cela dépendra de la façon dont il essaie d'interpréter cela. – Alex

0

je vais vous donner plus d'informations ici:

Le fichier robots.txt est un simple fichier texte sur votre serveur Web qui indique webcrawlers si elles peuvent accéder à un fichier ou non. Vous pouvez toujours accéder à ce fichier car il ne fait pas partie des fichiers de votre système serveur mais fait partie de votre site.

Dans votre cas, je ne sais pas ce que /*_escaped_fragment_ moyens mais:

User-agent: * 
Disallow:/

bloquerons l'accès à tous les robots d'exploration

Bien que cela:

User-agent: * 
Disallow: 

Laisser accès complet à votre site Web.

User-agent: * 
Disallow: /images/ 

bloque l'accès au dossier spécifié

User-agent: * 
Disallow: /images 
Allow: /images/my_photo.jpg 

Même si vous interdisez un dossier que vous pouvez toujours donner accès à un fichier spécifié dans ce dossier.

User-agent: * 
Disallow: /assets.html 

bloque l'accès au fichier spécifié

Ainsi, le star signifie que tous les robots d'exploration si vous voulez appliquer les directives à un robot spécifié que vous devez faire:

User-agent: Googlebot 

Si vous êtes spécifiquement intéressé par googlebot et vous voulez voir si votre robot.txt bloque les fichiers ou les dossiers sur votre site, il suffit de visiter le https://developers.google.com/ afin que vous puissiez voir si vous bloquez les ressources de la page.

est également nécessaire de dire que si le robots.txt peut être un outil utile pour votre référencement, les directives appliquées seront respectées par tous les robots d'exploration réguliers.

robots d'exploration Malicious ne se soucient pas de ces directives.

+0

Je savais déjà à quoi sert le fichier robots.txt, comment l'utiliser et la documentation à ce sujet. Ma question était, comment serait un fichier de robots ** incomplet ** être lu. – Alex