Très bien, j'ai été déconner avec Nutch et besoin de savoir quel paramètre dans le fichier crawl-urlfilter.txt
je édite donc l'araignée a aucune limite. En d'autres termes, je veux qu'il se déplace sur le Web en dehors d'un domaine spécifié.Nutch web araignée, index web entier
Je suppose qu'il doit faire avec cette ligne, mais je ne sais pas comment modifier correctement pour faire ce que je veux à:
+^http://([a-z0-9]*\.)*urlz.net/
Il semble correspondre aux URL du domaine 'urlz.net'. Essayez d'utiliser '+^http: // ([a-z0-9] * \.) *' À la place. –