2011-08-22 2 views
2

Je voudrais savoir comment faire de nutch crawl non seulement le domaine que j'ai spécifié, mais aussi le chemin du répertoire dans le domaine que j'ai spécifié. Je sais que vous pouvez configurer ces informations sur regex-urlfilter.txtnutch crawl path

Répondre

2

Cela devrait explorer uniquement le domaine/chemin que vous voulez:

+.*www\.domain\.com/yourpath/.* 
#skip everything else 
-.*