Module Perl pour obtenir toutes les pages d'un site Web?

Y at-il un module là-bas qui peut me donner des liens vers toutes les pages d'un site Web? Pourquoi j'en ai besoin: Je veux explorer certains sites et y rechercher des balises, ne rechercher que sur la page principale n'est pas suffisant.Module Perl pour obtenir toutes les pages d'un site Web?

Merci,

Source

2010-09-06 snoofkin

HTML::SimpleLinkExtor est un peu simple que HTML::LinkExtor. Vous pourriez vérifier ma tentative sans enthousiasme à mon webreaper tool qui a une partie du code dont vous aurez probablement besoin.

Source

2010-09-06 19:02:26

Vous pouvez trouver HTML::LinkExtor d'utilisation.

Source

2010-09-06 17:19:08

La méthode classique d'exploration de sites dans Perl est WWW::Mechanize qui a une méthode de liens qui renvoie une liste de tous les liens de la page. Vous pouvez récupérer une page, en obtenir les liens, puis utiliser la méthode follow_link() ou get() pour obtenir la page liée.

Source

2010-09-06 18:20:55

Merci, je connais déjà ce module, mais c'est trop (?) D'un overhead pour l'utiliser seulement pour cette fonction je suppose – snoofkin

Une autre méthode consiste à utiliser HTML::TreeBuilder pour analyser le code HTML de la page. Il retourne un arbre d'objets que vous pouvez utiliser pour récupérer tous les liens d'une page, et il peut faire beaucoup plus, comme trouver un lien basé sur un modèle d'expression rationnelle que vous spécifiez. Consultez la documentation de HTML :: Element pour en savoir plus.

Pour trouver tous les liens dans une page:

use HTML::TreeBuilder; 
use LWP::Simple; 

my $url = 'http://www.example.com/'; 
my $html = HTML::TreeBuilder->new_from_content(get($url)); 

my @links = $html->look_down('_tag' => 'a');

Je crois LWP :: Simple et HTML :: TreeBuilder sont tous deux inclus dans Ubuntu aussi bien.

Source

2010-09-06 19:56:49

Module Perl pour obtenir toutes les pages d'un site Web?

Répondre

Questions connexes