2016-05-09 3 views
1

J'ai collecté/exploré un site Web au cours des deux dernières semaines. J'ai utilisé le paramètre de commande crawl100 itérations. Le processus vient de finir. Comment puis-je connaître la couverture des données explorées? Je ne m'attends pas vraiment à un nombre exact, mais j'aimerais vraiment savoir environ combien d'informations reste non-crawlé dans le site.Comment définir la couverture de mon crawl nutch?

Répondre

0

Merci, @Jorge. Sur la base de ce que vous avez dit:

Nutch n'a aucune idée de la façon dont grand/petit est le site (s) vous ramper

Donc, il n'y a aucun moyen de calculer que si vous connaissez la taille du site à l'avance.

Merci encore.

2

Votre question est un peu ambiguë, si vous essayez d'obtenir combien de données de l'ensemble du site Web que vous avez déjà exploré c'est un problème difficile, Nutch n'a aucune idée de la taille du site.) vous rampez. Vous avez dit que vous avez effectué 100 itérations, en utilisant les paramètres par défaut dans le script bin/crawl cela signifie qu'à chaque itération Nutch, il récupère un maximum de 50 000 URL (https://github.com/apache/nutch/blob/master/src/bin/crawl#L117), mais cela ne signifie pas que votre site n'a pas plus URL, signifie simplement que c'est une configuration sur Nutch, et peut-être que Nutch n'a même pas découvert toutes les URL. A chaque itération, Nutch pouvait découvrir de nouvelles URL rendant le processus incrémental.

Ce que vous pouvez faire est d'exécuter la commande bin/nutch readdb passer le paramètre -stats, quelque chose comme:

$ bin/nutch readdb crawl/crawldb -stats 

Cela devrait faire une sortie similaire à:

CrawlDb statistics start: crawl/crawldb 
Statistics for CrawlDb: crawl/crawldb 
TOTAL urls: 575 
retry 0: 569 
retry 1: 6 
min score: 0.0 
avg score: 0.0069252173 
max score: 1.049 
status 1 (db_unfetched): 391 
status 2 (db_fetched): 129 
status 3 (db_gone): 53 
status 4 (db_redir_temp): 1 
status 5 (db_redir_perm): 1 
CrawlDb statistics: done 

Avec cette information vous pourriez connaître la le nombre total d'URL découvertes et la quantité de celles-ci ont été récupérées, ainsi que des informations plus utiles.