Je dois changer la chaîne d'agent utilisateur pour chaque domaine analysé. J'utilise le code utilitaire standard de Nutch crawl, il explore un domaine à la fois. Il est démarré en mode multithread pour explorer de nombreux domaines. Je dois passer à la chaîne de domaine [botname] + domainID à, mais je ne sais pas comment l'implémenter?Nutch 1.3: change User-Agent
1
A
Répondre
1
Étant donné que l'agent utilisateur se manifeste dans le fichier de configuration (nutch-site.xml), il est impossible de modifier cela pour un domaine donné.
Je vous suggère de créer une instance de nutch pour chaque domaine que vous voulez explorer. Dans chaque instance, vous définissez le filtre d'URL, l'URL de graine et l'agent utilisateur correspondant au domaine que vous souhaitez explorer.
Cela devrait vous permettre d'exécuter chaque analyse avec des paramètres personnalisés.
cheers mana
Questions connexes
- 1. Configuration Nutch 1.3 et Hadoop
- 2. recibler les URLs dans nutch 1.3
- 3. Configuration Nutch 1.3 et Solr 3.1
- 4. Supprimer l'URL de crawldb dans nutch 1.3?
- 5. Comment explorer différents sites avec différents crawling planifiés dans nutch 1.3?
- 6. urllib2 useragent
- 7. Comment écrire un code java pour l'exploration de sites avec apache nutch 1.3 api?
- 8. Nutch Multithreading
- 9. modifier userAgent JavaScript
- 10. LWP :: UserAgent - HTTP :: Demande
- 11. valider useragent versions
- 12. Spoofing UserAgent dans Opera
- 13. Paramétrer tweepy useragent universellement?
- 14. Que signifie UserAgent "LSIE"?
- 15. WP plugin basé sur useragent
- 16. Comment analyser UserAgent en Javascript
- 17. PSGI, LWP :: UserAgent & PayPal IPN
- 18. API LWP :: UserAgent SendHub Problème
- 19. useragent googlebot en utilisant selenium
- 20. Changement de useragent si ipad
- 21. Undefined index: userAgent dans CakeSession
- 22. Quel userAgent utilise dans cakePHP?
- 23. L'utilisation nutch dans Windows 7
- 24. Nutch Raw Html Saving
- 25. nutch et sitemap.xml
- 26. Liferay + Solr + Nutch
- 27. Nutch. Implémentation .Net
- 28. Exploration nutch sur hadoop
- 29. nutch crawl path
- 30. Nutch API advice