Crawler ajoute le paramètre de URL pour les liens

j'ai essayé deux web crawler différents (Sistrix et http://ssitemap.com). Les deux robots signalent des erreurs concernant le contenu dupliqué pour des URL telles que / et /?katID=12.Crawler ajoute le paramètre de URL pour les liens

Il s'avère que si le crawler appelle l'URL /projekte/index.php?katID=12, il trouve <a href="/">Home</a> et l'ajoute en tant que lien à /?katID=12. On dirait que le paramètre de l'URL ?katID=12 est ajouté à chaque lien de la page qui n'a pas de paramètre.

Si j'utilise un navigateur ou wget je vois mon lien simple html à / comme voulu.

Ai-je commis une erreur? Configuration du serveur?

Est-ce un bug ou une fonction dans le robot d'exploration?

Source

2013-04-02 PiTheNumber

Avez-vous essayé de contacter le soutien de ces robots d'exploration? Est-ce que cela se passe aussi avec 'wget --recursive'? – Alex

Et avez-vous vérifié que le '? KatID = 12' est vraiment ajouté à chaque lien sans params? Par exemple en ajoutant des liens à '/ foo' et'/bar' et ainsi de suite? – Alex

'wget --recursive' fonctionne correctement. Oui, j'ai vérifié par la liste de liens que le robot ramène. – PiTheNumber

j'ajouté <link rel="canonical" href="..."> à chaque page afin d'aider à identifier les pages crawlers égales.

Voir aussi http://support.google.com/webmasters/bin/answer.py?hl=en&answer=139394

Source

2013-04-15 07:48:42 PiTheNumber

Crawler ajoute le paramètre de URL pour les liens

Répondre

Questions connexes