J'ai eu cette erreur, première du genre dans plusieurs jours sur et hors de grattage:Mechanize obtient 403 erreur due à robots.txt, mais les blocs robots.txt rien
mechanize._response.httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt
Cependant, les robots txt du site se lit comme suit:
User-agent: *
Disallow:
Selon this source, si le site a été fermé à ce genre d'accès, robots.txt contiendrait Disallow: /
. Est-ce que l'erreur signifie toujours que je devrais arrêter de gratter, ou qu'il y a un autre problème? Dois-je essayer d'apaiser le serveur (comme faire des demandes moins fréquentes), ou simplement contourner l'erreur en ajoutant des en-têtes, etc.? Finalement, compte tenu de la norme 403, est-il contraire à l'éthique de continuer à gratter?
Mais robots.txt lui-même ne montre aucune restriction que ce soit. – Tag
C'est pourquoi vous essayez de le remplacer une fois (ou deux fois) et de voir si cela soulève l'erreur 403. C'est un contrôle de diagnostic. Si le 403 est toujours là après avoir contourné le fichier robots.txt, alors il est possible qu'ils aient bloqué votre adresse IP. – jarcobi889
Et si je n'ai pas d'erreur? (Désolé pour cette conversation hypothétique, mais je n'ai pas encore décidé de passer le test.) – Tag