2010-07-22 5 views
1

J'essaye d'écrire ma propre version de Crawl.java de Nutch où je ferais un peu différent. Je ne veux pas travailler avec le code source de Nutch. Je veux juste importer quelques pots et démarrer avec mon application. Comment dois-je fournir conf/crawl-urlfilter.txt et d'autres fichiers de configuration requis?Quels pots de Nutch dois-je écrire mon propre Crawl.java

Quelqu'un pourrait-il m'aider ici? Remerciements

Répondre

1

Un moyen simple est d'emballer votre code dans un pot. Veillez à inclure une main dans l'une des classes qui commence votre exploration. Déposez ce fichier jar dans le dossier lib de votre installation Nutch. Vous pouvez maintenant commencer votre exploration avec une commande comme (en supposant que votre PATH est correctement défini pour trouver la nutch commande):

nutch com.xyz.YourCrawlerMain 

où « com.xyz.YourCrawlerMain » représente votre classe principale pour lancer votre crawling .

Cela lancera votre robot d'exploration avec le chemin de classe Nutch correctement défini.

Pour les fichiers de configuration, il suffit de les mettre à jour directement dans le dossier conf de votre installation Nutch.

MISE À JOUR

Je travaille sur quelque chose de similaire et je suis en mesure de faire fonctionner nutch de mon application avec ces paramètres: définissez votre classpath pour inclure le dossier Nutch (il peut trouver les plug-ins), le dossier Nutch/conf et inclure tous les fichiers jar de Nutch/lib + nutch.jar dans le dossier nutch.

Mais faites attention si votre application fonctionne dans un conteneur Web. Je devais jouer avec le classpath pour le faire fonctionner ...

+0

Nutch est externe à mon application. Je n'essaie pas de lancer nutch avec ma commande crawl. Je ne souhaite pas écrire un indexeur de chenilles à part entière. Je voulais juste utiliser des composants nutch individuels pour explorer un site Web particulier et gratter le contenu de mon intérêt. De cette façon, j'ai juste une dépendance de pot pour les composants nutch individuels et ses plugins. Cela compile mais échoue en quelque sorte à exécuter sur éclipse avec l'erreur ci-dessous: java.lang.RuntimeException: Erreur dans la configuration de l'objet \t à org.apache.hadoop.util.ReflectionUtils.setJobConf (ReflectionUtils.java:93) – Nayn

+0

ok, voir mes mises à jour –

+0

Bonjour Pascal, Désolé de vous poser de nouveau à ce sujet, mais je ne pouvais toujours pas le faire fonctionner. Serait-il possible pour vous de partager votre espace de travail eclipse (juste une démo nutch crawl simple) afin que je puisse avoir une idée de ce qui me manque. Mon adresse mail est nayanish [dot] hinge [at] gmail.com – Nayn

Questions connexes