2017-02-18 2 views
1

Je construis un robot d'exploration Web pour ce site particulierComment lire un sitemap et ses répertoires?

http://www.dictionary.com

Et après vérification robots.txt

User-agent: * 
Disallow: /site= 
Disallow: /5480.iac. 
Disallow: /go/ 
Disallow: /audio.html/ 
Disallow: /houseads/ 
Disallow: /askhome/ 
Disallow: /cite.html 
Disallow: /23219321/iac. 

Allow:/
Sitemap: http://www.dictionary.com/dictionary-sitemap/sitemap.xml 

et du lien-plan du site j'ai pu télécharger et lis le. Donc, ma question est comment puis-je lire la carte du site et trouver les répertoires qu'il m'a interdit.

Désolé si ma question est trop vague mais je ne pouvais pas comprendre comment cela fonctionne et je suis nouveau à ce sujet.

+0

Le but du sitemap est d'aider les moteurs de recherche à indexer le site Web. Il ne doit pas contenir d'URL qui ne sont pas autorisées dans le fichier robots.txt. –

+0

@DanNagle Je suis donc autorisé à explorer le site avec mon propre robot d'exploration? –

Répondre

0

Vous ne pouvez pas explorer les URL dont le chemin commence par /site=, /5480.iac., ..., /cite.html ou /23219321/iac..

Par exemple,

vous pas autorisé explorer les URL comme celles-ci:

http://www.dictionary.com/go/ 
http://www.dictionary.com/go/foo 
http://www.dictionary.com/go/foo/bar 

vous êtes autorisés explorer les URL comme celles-ci:

http://www.dictionary.com/go 
http://www.dictionary.com/go.html 
http://www.dictionary.com/foo/go/ 

Si la sitemap contient des URL que vous n'êtes pas autorisé à explorer en fonction du fichier robots.txt, il n'est toujours pas permis d pour vous de les ramper. Bien qu'il puisse sembler paradoxal d'inclure des URL qui ne doivent pas être explorées dans le sitemap, cela peut être logique (par exemple, le sitemap est utilisé par d'autres agents que les robots ou parce que seuls quelques bots spécifiques ne sont pas autorisés à explorer). .