2011-05-02 3 views
0

Je suis en train de trouver un moyen de télécharger plusieurs pages web qui ressemble à ceci: https://domain.index.aspx?place=&time=123Télécharger plusieurs pages Web dynamiques avec BeautifulSoup

Comment puis-je télécharger chaque page qui se termine par un numéro à trois chiffres? J'ai essayé https://domain.index.aspx?place=&time=+[0-9] et '\d{3} mais les deux ne fonctionnent pas.

grâce

+0

Qu'est-ce que cela a à voir avec beautifulsoup ??? BeautifulSoup est un analyseur et non un outil de téléchargement d'URL. urllib2 est votre ami - ou? –

+0

Demandez-vous comment supprimer tous les liens d'une page se terminant par un nombre à 3 chiffres? – Acorn

+0

oui toutes les pages se terminent par des chiffres à trois chiffres, j'utilise urllib2 pour les télécharger. – marie

Répondre

1

Vous devez connaître les numéros de fin des différentes pages que vous souhaitez télécharger et à faire, pour exemple:

for numb in ('458', '123', '453'): 
    sock = urllib.urlopen('https://domain.index.aspx?place=&time=' + numb) 

ou si vous voulez essayer tous les numéros avec 3 chiffres:

for numb in xrange(0,1000): 
    sock = urllib.urlopen('https://domain.index.aspx?place=&time=' + str(numb).zfill(3)) 
+0

merci, je vais essayer maintenant – marie