2017-08-22 4 views
1

Qu'est-ce qu'un délai d'exécution responsable/éthique pour mettre dans un robot d'exploration Web qui explore uniquement une page racine?Retards de temps responsables - exploration Web

J'utilise time.sleep (#) entre les appels suivants
de requests.get (url)

Je cherche une idée approximative de ce que des échelles de temps sont: 1. Way trop conservatrice 2. Norme 3. Aller à causer des problèmes/vous faire remarquer

Je veux toucher chaque page (au moins 20 000, probablement beaucoup plus) répondant à certains critères. Est-ce faisable dans un délai raisonnable?

EDIT
Cette question est moins d'éviter d'être bloqué (bien que des informations pertinentes seraient appréciées) et plutôt quels délais ne pas causer de problèmes au site web/serveurs. J'ai testé avec 10 secondes de retard et environ 50 pages. Je n'ai pas la moindre idée si je suis trop prudent.

Répondre

0

Je vérifierais leur fichier robots.txt. S'il indique un délai d'analyse, utilisez-le! Sinon, essayez quelque chose de raisonnable (cela dépend de la taille de la page). Si c'est une grande page, essayez 2/seconde. Si c'est un fichier .txt simple, 10/sec devrait être bien.

Si tout le reste échoue, contactez le propriétaire du site pour voir ce qu'il est capable de gérer correctement.

(je suppose que ce serveur est un amateur avec une bande passante minimale)

+0

Comment trouvez-vous le robots.txt? J'ai en vue la source

+0

https://google.com/robots.txt. C'est tout! – jhpratt

+0

Que faire si le site n'en a pas? J'ai cherché le www.xxxxxx.co.uk/robots.txt –