Je suis actuellement en train de récupérer et d'analyser des pages d'un site Web en utilisant urllib2
. Cependant, ils sont nombreux (plus de 1000), et leur traitement séquentiel est douloureusement lent.Python 2.6: analyse parallèle avec urllib2
J'espérais qu'il y avait un moyen de récupérer et d'analyser les pages de manière parallèle. Si c'est une bonne idée, est-ce possible et comment puis-je le faire? En outre, quelles sont les valeurs "raisonnables" pour le nombre de pages à traiter en parallèle (je ne voudrais pas mettre trop de pression sur le serveur ou être banni parce que j'utilise trop de connexions)?
Merci!
Cela semble bon, je vais vérifier IT out. Merci! –