J'ai besoin d'explorer un site Web et de récupérer certaines données qui ne cesse d'être mis à jour toutes les quelques minutes. Comment puis-je faire cela?crawl un site Web pour les données à intervalles fréquents
Répondre
utilisation sleep
pour contrôler la période d'attente, et l'utilisation d'WWW::Mechanize
d'extraction de données:
use strict;
use WWW::Mechanize;
my $mech = WWW::Mechanize->new();
my $url = "http://www.nytimes.com"; # a sample webpage
while (1) {
$mech->get($url);
print $mech->content(format => 'text'); # read docs for WWW::Mechanize for advanced content processing
sleep 300; # wait for 5 minutes
}
EDIT: a amélioré le processus de récupération de contenus de l'échantillon.
Soyez un bon citoyen du Web et faites en sorte que [Demande GET conditionnelle] (http://www.w3.org/Protocols/rfc2616/rfc2616-sec9.html#sec9.3). Si la page n'a pas changé, elle n'a pas besoin d'être téléchargée à nouveau. – daxim
Downvote: l'accès direct aux entrailles de l'objet n'est pas bon. Utilisez la méthode ['decoded_content' héritée de' HTTP :: Message'] (http://p3rl.org/HTTP::Message#%24mess-%3Edecoded_content%28_%25options_%29) à la place. – daxim
Chargez WWW::Mechanize
pour ramper, utilisez le mirror
method inherited from LWP::UserAgent
.
- 1. Crawl ensemble du contenu du site web
- 2. Comment changer le texte sur gtk.label dans les intervalles fréquents - PyGTK
- 3. Comment forcer un site Web à imprimer
- 4. php crawl - javascript enabled
- 5. Page différente fournie pour Google Crawl
- 6. Comment envoyer des données GPS d'Android à un site Web?
- 7. ne clignote crawl google
- 8. Skimming un autre site Web pour les données à afficher dans l'application iPhone (Apple approuvera l'application?)
- 9. Conseil en architecture pour un site web
- 10. Envoi de données à un site Web via HTTP
- 11. Envoi de données d'Excel à un site Web
- 12. Utiliser git pour un grand site web
- 13. Visualisations Web pour les données?
- 14. Diagrammes à barres sur un site Web
- 15. Site Web CMS pour les membres complexes
- 16. Site Web de géolocalisation pour les photos
- 17. @ font-face pour toutes les polices sur un site Web
- 18. Performances Implication d'appels fréquents à totalMemory()/freeMemory() pour java.lang.Runtime?
- 19. Comment un site Web et une application Web communiquent-ils?
- 20. Comment stocker les messages d'application pour un site Web .NET
- 21. jgoodies bindings + coalescing changements fréquents
- 22. Utiliser HTTP POST pour se connecter à un site Web
- 23. Je veux les mots les plus fréquents en anglais
- 24. Un site Web comme le codeplex pour les technologies vmware?
- 25. DatePicker pour un site Web mobile?
- 26. Site web pour usage personnel
- 27. Développer un site Web sécurisé
- 28. Structure de données pour la gestion des intervalles
- 29. Comment stocker des données accessibles à la fois pour un site Web et une application Android?
- 30. Connexion à un site Web cURL
Explorez-le toutes les quelques minutes –