2011-03-16 3 views
-1

Très bien, j'ai été déconner avec Nutch et besoin de savoir quel paramètre dans le fichier crawl-urlfilter.txt je édite donc l'araignée a aucune limite. En d'autres termes, je veux qu'il se déplace sur le Web en dehors d'un domaine spécifié.Nutch web araignée, index web entier

Je suppose qu'il doit faire avec cette ligne, mais je ne sais pas comment modifier correctement pour faire ce que je veux à:

+^http://([a-z0-9]*\.)*urlz.net/ 
+0

Il semble correspondre aux URL du domaine 'urlz.net'. Essayez d'utiliser '+^http: // ([a-z0-9] * \.) *' À la place. –

Répondre

0

Je ne suis pas framiliar avec Nutch mais c'est juste une expression régulière.

+^http://([a-z0-9\.])* 

Travaillerait probablement très bien, ou une variation de celui-ci. C'est juste un motif. Celui que je viens d'écrire ci-dessus devrait correspondre à tout ce qui commence par http: // et ensuite n'importe quel nombre de lettres, de chiffres ou de points.

+0

votre regex est incorrecte. Une parenthèse fermante est manquante. –

+0

@Oscar Je ne peux pas croire que j'ai gaffé ça, merci! – Cody

+0

Tout ce que je sais, c'est que +^http: // ([a-z0-9] * \.) Travaille pour moi. –