2013-04-02 3 views
2

j'ai essayé deux web crawler différents (Sistrix et http://ssitemap.com). Les deux robots signalent des erreurs concernant le contenu dupliqué pour des URL telles que / et /?katID=12.Crawler ajoute le paramètre de URL pour les liens

Il s'avère que si le crawler appelle l'URL /projekte/index.php?katID=12, il trouve <a href="/">Home</a> et l'ajoute en tant que lien à /?katID=12. On dirait que le paramètre de l'URL ?katID=12 est ajouté à chaque lien de la page qui n'a pas de paramètre.

Si j'utilise un navigateur ou wget je vois mon lien simple html à / comme voulu.

Ai-je commis une erreur? Configuration du serveur?

Est-ce un bug ou une fonction dans le robot d'exploration?

+0

Avez-vous essayé de contacter le soutien de ces robots d'exploration? Est-ce que cela se passe aussi avec 'wget --recursive'? – Alex

+0

Et avez-vous vérifié que le '? KatID = 12' est vraiment ajouté à chaque lien sans params? Par exemple en ajoutant des liens à '/ foo' et'/bar' et ainsi de suite? – Alex

+0

'wget --recursive' fonctionne correctement. Oui, j'ai vérifié par la liste de liens que le robot ramène. – PiTheNumber

Répondre