0

J'ai eu cette erreur, première du genre dans plusieurs jours sur et hors de grattage:Mechanize obtient 403 erreur due à robots.txt, mais les blocs robots.txt rien

mechanize._response.httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt 

Cependant, les robots txt du site se lit comme suit:

User-agent: * 
Disallow: 

Selon this source, si le site a été fermé à ce genre d'accès, robots.txt contiendrait Disallow: /. Est-ce que l'erreur signifie toujours que je devrais arrêter de gratter, ou qu'il y a un autre problème? Dois-je essayer d'apaiser le serveur (comme faire des demandes moins fréquentes), ou simplement contourner l'erreur en ajoutant des en-têtes, etc.? Finalement, compte tenu de la norme 403, est-il contraire à l'éthique de continuer à gratter?

Répondre

1

Vous pouvez ignore the robots.txt et voir ce qui se passe (peut-être pas éthique, même à des fins de test). Si vous obtenez encore un 403, ils pourraient bloquer votre IP spécifiquement plutôt que d'ajouter au fichier robots.txt.

Vous pouvez contacter le propriétaire du site et voir si vous pouvez obtenir leur autorisation pour remplacer le fichier robots.txt si vous vous sentez légalement épinglé. Ou, comme vous l'avez dit, ignorez le fichier robots.txt. Je ne peux pas commenter les ramifications éthiques parce que je ne suis pas compétent dans ce domaine.

+0

Mais robots.txt lui-même ne montre aucune restriction que ce soit. – Tag

+0

C'est pourquoi vous essayez de le remplacer une fois (ou deux fois) et de voir si cela soulève l'erreur 403. C'est un contrôle de diagnostic. Si le 403 est toujours là après avoir contourné le fichier robots.txt, alors il est possible qu'ils aient bloqué votre adresse IP. – jarcobi889

+0

Et si je n'ai pas d'erreur? (Désolé pour cette conversation hypothétique, mais je n'ai pas encore décidé de passer le test.) – Tag