Trouver des balises dans le site Web HTML

J'utilise Perl.Trouver des balises dans le site Web HTML

J'ai l'étiquette, par exemple: « XYZ_PKM_HTML » Je voudrais être en mesure de fournir une URL de base, par exemple: www.example.com et pour obtenir la page HTML (pas nécessairement la page principale , c'est facile) où cette étiquette apparaît. est-ce possible? une idée? (Ou déjà modules, regardé sur CPAN, il y avait des choses intéressantes, mais pas installable)

Merci,

Source

2010-09-08 snoofkin

MJD a un exemple étendu sur l'écriture d'une toile Web dans Higher-Order Perl. C'est la section 4.7. Voir page 187 in Chapter 4.

Bien sûr, vous pouvez également essayer le module WWW::SimpleRobot qu'il mentionne.

Source

2010-09-08 19:21:14

Vous semblez vouloir mettre en œuvre un robot de site web et un chercheur. Vous faites généralement le premier avec WWW::Mechanize et le dernier avec HTML::Twig

Source

2010-09-08 16:02:08 DVK

Tout d'abord, merci pour la réponse. Deuxièmement, je connais déjà Mechanize, mais comme je n'ai jamais vraiment implémenté un crawler, je me demande comment l'aborder, comment je le ferai traverser tous les liens du site, et pas d'autres non liés aux liens du site (ads et tel). aussi, il est possible qu'il fonctionne pendant un certain temps si le site a beaucoup de pages, des recommandations? – snoofkin

Essayez Web-Scraper en Perl. Web-Scraper module info. Il est facile de travailler avec et vous pouvez rechercher des étiquettes ou des éléments spécifiques et obtenir les données de celui-ci.

Source

2011-02-25 18:47:54 juFo

Trouver des balises dans le site Web HTML

Répondre

Questions connexes