Qu'est-ce qu'un délai d'exécution responsable/éthique pour mettre dans un robot d'exploration Web qui explore uniquement une page racine?Retards de temps responsables - exploration Web
J'utilise time.sleep (#) entre les appels suivants
de requests.get (url)
Je cherche une idée approximative de ce que des échelles de temps sont: 1. Way trop conservatrice 2. Norme 3. Aller à causer des problèmes/vous faire remarquer
Je veux toucher chaque page (au moins 20 000, probablement beaucoup plus) répondant à certains critères. Est-ce faisable dans un délai raisonnable?
EDIT
Cette question est moins d'éviter d'être bloqué (bien que des informations pertinentes seraient appréciées) et plutôt quels délais ne pas causer de problèmes au site web/serveurs. J'ai testé avec 10 secondes de retard et environ 50 pages. Je n'ai pas la moindre idée si je suis trop prudent.
Comment trouvez-vous le robots.txt? J'ai en vue la source –
https://google.com/robots.txt. C'est tout! – jhpratt
Que faire si le site n'en a pas? J'ai cherché le www.xxxxxx.co.uk/robots.txt –