2009-09-02 9 views
1

Je souhaite télécharger une liste de pages Web. Je sais que wget peut le faire. Cependant, le téléchargement de chaque URL toutes les cinq minutes et de les enregistrer dans un dossier semble hors de portée de wget. Est-ce que quelqu'un connaît des outils en java, python ou Perl qui accomplissent la tâche?Comment télécharger une page Web toutes les cinq minutes?

Merci d'avance.

+9

Essayez d'utiliser Cron avec wget. –

+0

@wuub: ça sonne comme une bonne solution. Pourquoi ne pas le mettre dans une réponse afin qu'il puisse être accepté? –

+0

@Mark: parce que dans mon livre cela ne compte pas comme une réponse, juste un 0xDEADBEEF dans la bonne direction :) –

Répondre

5

Ecrivez un script bash qui utilise wget et placez-le dans votre crontab pour l'exécuter toutes les 5 minutes. (*/5 * * * *)

Si vous avez besoin de conserver un historique de toutes ces pages Web, définissez une variable au début de votre script avec l'actuel unixtime et ajoutez-la aux noms de fichier de sortie.

+0

Juste curieux: si la partie historique que vous avez décrite n'est pas nécessaire, pourquoi voulez-vous envelopper la commande wget dans un script (bash)? Vous pouvez également appeler wget de cron, non? –

+0

puisqu'il y a une série (groupe) de pages? – KevinDTimm

+0

Euh ... Oui, c'est logique. :) –

7

Sons comme vous voudriez use cron with wget


Mais si vous définissez sur l'utilisation de python:

import time 
import os 

wget_command_string = "wget ..." 

while true: 
    os.system(wget_command_string) 
    time.sleep(5*60) 
+0

Est-ce que python a une interface launchd? –

Questions connexes