Je crawl sites dans nutch 1.3. maintenant je veux supprimer une URL de crawldb, comment puis-je faire cela? comment je lis de crawldb? Je veux voir les URL qui existent dans crawldb.Supprimer l'URL de crawldb dans nutch 1.3?
0
A
Répondre
0
Pour lire à partir de crawlDb, vous pouvez utiliser la classe CrawlDBReader (package org.apache.nutch.crawl). Pour supprimer/supprimer une URL de crawlDb, vous pouvez essayer d'utiliser la classe CrawlDBMerger (package org.apache.nutch.crawl) avec l'option "-filter". Mais je suggère d'écrire un Mapreduce pour supprimer les URL en fonction de vos besoins.
Questions connexes
- 1. Comment fusionner deux crawldb dans nutch
- 2. Configuration Nutch 1.3 et Solr 3.1
- 3. Configuration Nutch 1.3 et Hadoop
- 4. Nutch 1.3: change User-Agent
- 5. recibler les URLs dans nutch 1.3
- 6. ce qui est erroné dans mon script nutch de réexploration
- 7. Solr index vide après la commande nutch solrindex
- 8. Comment explorer différents sites avec différents crawling planifiés dans nutch 1.3?
- 9. Comment écrire un code java pour l'exploration de sites avec apache nutch 1.3 api?
- 10. Nutch 1.2 Problème d'intégration de Solr 3.6
- 11. Nutch Dans Eclipse
- 12. Nutch Multithreading
- 13. L'utilisation nutch dans Windows 7
- 14. Spell Checker dans Nutch 1.0
- 15. Django 1.3 dans appengine
- 16. Limitation du nombre de hits dans nutch
- 17. Django 1.3 Rapport d'erreur supprimer des informations sensibles
- 18. Liste de crawl vide Nutch
- 19. Comment faire des pages d'index nutch avec un certain texte?
- 20. Nutch Raw Html Saving
- 21. Message d'erreur nutch eclipse
- 22. Scoring Nutch results
- 23. nutch crawl path
- 24. Nutch Seed URLs
- 25. Nutch Crawling utilisant l'expression rationnelle
- 26. RSS Feeds in Nutch
- 27. nutch 1.1 schema.xml
- 28. phrases comme documents Nutch
- 29. Liferay + Solr + Nutch
- 30. Tutoriels MapReduce Nutch