Supprimer l'URL de crawldb dans nutch 1.3?

Je crawl sites dans nutch 1.3. maintenant je veux supprimer une URL de crawldb, comment puis-je faire cela? comment je lis de crawldb? Je veux voir les URL qui existent dans crawldb.Supprimer l'URL de crawldb dans nutch 1.3?

Source

2011-11-14 helen

Pour lire à partir de crawlDb, vous pouvez utiliser la classe CrawlDBReader (package org.apache.nutch.crawl). Pour supprimer/supprimer une URL de crawlDb, vous pouvez essayer d'utiliser la classe CrawlDBMerger (package org.apache.nutch.crawl) avec l'option "-filter". Mais je suggère d'écrire un Mapreduce pour supprimer les URL en fonction de vos besoins.

Source

2011-11-15 05:44:02 Varshith

Supprimer l'URL de crawldb dans nutch 1.3?

Répondre

Questions connexes