2009-06-01 5 views
5

J'essaie de télécharger un miroir statique d'un wiki en utilisant wget. Je veux seulement la dernière version de chaque article (pas l'histoire complète ou diffs entre les versions). Il serait facile de simplement télécharger le tout et supprimer les pages inutiles plus tard, mais cela prendrait trop de temps et placerait une pression inutile sur le serveur.wget WIKI, ne pas obtenir les pages diff (exclure par regex?)

Il y a un certain nombre de pages que je ne ai pas besoin clairement, comme:

WhoIsDoingWhat action = diff & date = 1184177979

Est-il possible de dire wget ne pas télécharger et récursif sur les URL qui ont 'action = diff' en eux? Ou sinon exclure les URL qui correspondent à certains regex?

Répondre

3
-R '*action=diff*,*action=edit*' 
+0

Il semble que ce soit le fait de télécharger la page, de la rejeter, puis de la supprimer (au lieu de sauter pour la télécharger complètement). – stonea

+0

Bien qu'il empêchera le récursif sur la page rejetée. – stonea

+0

Je ne vois aucune preuve de cela. "L'option '--rejet' fonctionne de la même manière que '--accept', seule sa logique est l'inverse, Wget va télécharger tous les fichiers sauf ceux qui correspondent aux suffixes (ou patterns) de la liste". (-R est le même que --reject et --rejlist.) Cela semble indiquer clairement qu'il ne téléchargera pas les motifs correspondants. – chaos

Questions connexes