2013-05-29 1 views
0

Lorsque nous exécutons le robot d'exploration, nous voyons des dossiers statiques comme;/cgi-bin,/images,/css etc. popup dans les travaux du robot, nous voulons les exclure de l'exploration (pas qu'ils finissent dans l'indexeur) et nous ne les voulons pas dans l'indexeur, mais comment les exclure dans le robot d'exploration de sorte qu'il n'est pas occupé par ces dossiers statiques? Toute aide est appréciée. Est-ce que cela aide la performance, en les excluant? comme maintenant nous voyons qu'il les récupère pour une raison ou une autre. Nutch crawler 1.2, Lucene indexeur.Apache Nutch crawler comment exclure les dossiers statiques comme; cgi-bin, images, css exclure de nutch crawler?

Répondre

0

Ajoutez des règles de rejet au fichier conf/regex-urlfilter.txt.

-cgi-bin 
-images 
-css 

Notez que ceci doit être ajouté avant la règle d'acceptation de tout ie. +. dans le fichier regex.

+0

Merci pour la réponse rapide, j'apprécie. – user2430823

+0

@ user2430823 si vous êtes satisfait de la réponse, s'il vous plaît upvote et accepter la réponse –

+0

Salut Tejas, désolé pour ma réponse tardive, la réponse est satisfaisante, mais ne peut pas upvote..thanks encore une fois pour votre aide l'apprécier. – user2430823