Je construis un robot d'exploration Web pour ce site particulierComment lire un sitemap et ses répertoires?
Et après vérification robots.txt
User-agent: *
Disallow: /site=
Disallow: /5480.iac.
Disallow: /go/
Disallow: /audio.html/
Disallow: /houseads/
Disallow: /askhome/
Disallow: /cite.html
Disallow: /23219321/iac.
Allow:/
Sitemap: http://www.dictionary.com/dictionary-sitemap/sitemap.xml
et du lien-plan du site j'ai pu télécharger et lis le. Donc, ma question est comment puis-je lire la carte du site et trouver les répertoires qu'il m'a interdit.
Désolé si ma question est trop vague mais je ne pouvais pas comprendre comment cela fonctionne et je suis nouveau à ce sujet.
Le but du sitemap est d'aider les moteurs de recherche à indexer le site Web. Il ne doit pas contenir d'URL qui ne sont pas autorisées dans le fichier robots.txt. –
@DanNagle Je suis donc autorisé à explorer le site avec mon propre robot d'exploration? –