2010-09-07 4 views

Répondre

-2

utilisation sleep pour contrôler la période d'attente, et l'utilisation d'WWW::Mechanize d'extraction de données:

use strict; 
use WWW::Mechanize; 

my $mech = WWW::Mechanize->new(); 
my $url = "http://www.nytimes.com"; # a sample webpage 
while (1) { 
    $mech->get($url); 
    print $mech->content(format => 'text'); # read docs for WWW::Mechanize for advanced content processing 
    sleep 300; # wait for 5 minutes 
} 

EDIT: a amélioré le processus de récupération de contenus de l'échantillon.

+0

Soyez un bon citoyen du Web et faites en sorte que [Demande GET conditionnelle] (http://www.w3.org/Protocols/rfc2616/rfc2616-sec9.html#sec9.3). Si la page n'a pas changé, elle n'a pas besoin d'être téléchargée à nouveau. – daxim

+0

Downvote: l'accès direct aux entrailles de l'objet n'est pas bon. Utilisez la méthode ['decoded_content' héritée de' HTTP :: Message'] (http://p3rl.org/HTTP::Message#%24mess-%3Edecoded_content%28_%25options_%29) à la place. – daxim

Questions connexes