2011-07-31 2 views
1

Je dois changer la chaîne d'agent utilisateur pour chaque domaine analysé. J'utilise le code utilitaire standard de Nutch crawl, il explore un domaine à la fois. Il est démarré en mode multithread pour explorer de nombreux domaines. Je dois passer à la chaîne de domaine [botname] + domainID à, mais je ne sais pas comment l'implémenter?Nutch 1.3: change User-Agent

Répondre

1

Étant donné que l'agent utilisateur se manifeste dans le fichier de configuration (nutch-site.xml), il est impossible de modifier cela pour un domaine donné.

Je vous suggère de créer une instance de nutch pour chaque domaine que vous voulez explorer. Dans chaque instance, vous définissez le filtre d'URL, l'URL de graine et l'agent utilisateur correspondant au domaine que vous souhaitez explorer.

Cela devrait vous permettre d'exécuter chaque analyse avec des paramètres personnalisés.

cheers mana