Télécharger une page Web et tous ses fichiers de ressources en Python

Je souhaite pouvoir télécharger une page et toutes les ressources associées (images, feuilles de style, fichiers de script, etc.) en utilisant Python. Je suis (un peu) familier avec urllib2 et je sais comment télécharger des URL individuelles, mais avant de commencer à pirater à BeautifulSoup + urllib2 je voulais être sûr qu'il n'y avait pas déjà un équivalent Python pour "wget --page-requisites http://www.google.com ". Plus précisément, je suis intéressé à recueillir des informations statistiques sur le temps qu'il faut pour télécharger une page Web entière, y compris toutes les ressources.Télécharger une page Web et tous ses fichiers de ressources en Python

Merci Mark

Source

2009-05-09 Mark Ransom

duplication possible de http://stackoverflow.com/questions/419235/anyone-know-of-a-good-python-based-web-crawler-that-i-could-use –

Websucker? Voir http://effbot.org/zone/websucker.htm

Source

2009-05-09 21:31:08 RichieHindle

websucker.py n'importe pas les liens css. HTTrack.com n'est pas un python, c'est du C/C++, mais c'est un bon outil, maintenu, pour télécharger un site web pour la navigation hors ligne.

http://www.mail-archive.com/[email protected]/msg13523.html [issue1124] WebChecker pas l'analyse syntaxique css "@import url"

Guido> Ceci est essentiellement exemple de code non pris en charge et unmaintaned. N'hésitez pas pour soumettre un patch si!

Source

2010-05-14 21:22:34 jamshid

Télécharger une page Web et tous ses fichiers de ressources en Python

Répondre

Questions connexes