2012-01-27 2 views
0

J'utilise Nutch pour explorer un grand site Web.Nutch Comment éviter la page Web de calendrier de crawl générée par CGI

Les pages Web sont générées par le programme CGI. La plupart des URL des pages Web contiennent des expressions telles que ?id=2323&title=foo.

Je veux explorer ces pages Web car elles contiennent de nombreuses informations utiles.

Cependant, un problème auquel je suis confronté est que ce site a un calendrier. Certaines pages Web de type date sont également générées. Cela signifie que Nutch va essayer d'explorer quelques pages Web innocentes telles que year=2030&month=12.

C'est assez stupide. Comment puis-je éviter un tel piège dans Nutch? Écrire de nombreuses expressions regex?

Répondre

0

Ajoutez des modèles regex à conf/regex-urlfilter.txt aux règles de speficy pour accepter ou rejeter les URL.

Questions connexes