j'ai essayé deux web crawler différents (Sistrix et http://ssitemap.com). Les deux robots signalent des erreurs concernant le contenu dupliqué pour des URL telles que /
et /?katID=12
.Crawler ajoute le paramètre de URL pour les liens
Il s'avère que si le crawler appelle l'URL /projekte/index.php?katID=12
, il trouve <a href="/">Home</a>
et l'ajoute en tant que lien à /?katID=12
. On dirait que le paramètre de l'URL ?katID=12
est ajouté à chaque lien de la page qui n'a pas de paramètre.
Si j'utilise un navigateur ou wget je vois mon lien simple html à /
comme voulu.
Ai-je commis une erreur? Configuration du serveur?
Est-ce un bug ou une fonction dans le robot d'exploration?
Avez-vous essayé de contacter le soutien de ces robots d'exploration? Est-ce que cela se passe aussi avec 'wget --recursive'? – Alex
Et avez-vous vérifié que le '? KatID = 12' est vraiment ajouté à chaque lien sans params? Par exemple en ajoutant des liens à '/ foo' et'/bar' et ainsi de suite? – Alex
'wget --recursive' fonctionne correctement. Oui, j'ai vérifié par la liste de liens que le robot ramène. – PiTheNumber