J'écris un programme simple pour comparer les pages HTML, mais mon goulot d'étranglement actuel est la lecture des fichiers HTML. Plus précisément, le code:Pourquoi urllib2 prend-il beaucoup de temps à lire?
htmldata1 = urllib2.urlopen(url1).read()
htmldata2 = urllib2.urlopen(url2).read()
Les URL proviennent de la base de données IMDB. Je ne sais pas pourquoi cela prend si longtemps (moyenne ~ 9 secondes). Il se peut que je télécharge les images lorsque je veux que le texte html fasse une recherche avec des expressions régulières. Je n'ai jamais utilisé urllib2 donc toute aide serait appréciée.
Edit:
Un url exemple, je l'utilise est
"http://www.imdb.com/title/tt0944947/fullcredits?ref_=tt_cl_sm#cast"
Ce serait bien si vous pouviez donner une URL réelle, de sorte que d'autres puissent l'essayer et voir si elles vivent le même comportement. – Eduardo
Essayé en utilisant 'urllib', pas' urllib2'? –
@Eduardo vient de donner un exemple d'URL. Ma faute. Abien, le problème persistait avec urllib et urllib2. – jman