2011-11-14 3 views

Répondre

0

Pour lire à partir de crawlDb, vous pouvez utiliser la classe CrawlDBReader (package org.apache.nutch.crawl). Pour supprimer/supprimer une URL de crawlDb, vous pouvez essayer d'utiliser la classe CrawlDBMerger (package org.apache.nutch.crawl) avec l'option "-filter". Mais je suggère d'écrire un Mapreduce pour supprimer les URL en fonction de vos besoins.