2010-09-08 3 views
0

J'utilise Perl.Trouver des balises dans le site Web HTML

J'ai l'étiquette, par exemple: « XYZ_PKM_HTML » Je voudrais être en mesure de fournir une URL de base, par exemple: www.example.com et pour obtenir la page HTML (pas nécessairement la page principale , c'est facile) où cette étiquette apparaît. est-ce possible? une idée? (Ou déjà modules, regardé sur CPAN, il y avait des choses intéressantes, mais pas installable)

Merci,

Répondre

1

Vous semblez vouloir mettre en œuvre un robot de site web et un chercheur. Vous faites généralement le premier avec WWW::Mechanize et le dernier avec HTML::Twig

+0

Tout d'abord, merci pour la réponse. Deuxièmement, je connais déjà Mechanize, mais comme je n'ai jamais vraiment implémenté un crawler, je me demande comment l'aborder, comment je le ferai traverser tous les liens du site, et pas d'autres non liés aux liens du site (ads et tel). aussi, il est possible qu'il fonctionne pendant un certain temps si le site a beaucoup de pages, des recommandations? – snoofkin

0

Essayez Web-Scraper en Perl. Web-Scraper module info. Il est facile de travailler avec et vous pouvez rechercher des étiquettes ou des éléments spécifiques et obtenir les données de celui-ci.

Questions connexes