2010-10-22 4 views
1

est-ce que apache-nutch prend en charge les sitemaps? ou comment puis-je l'implémenter moi-même? Comment puis-je utiliser le champ prioritaire, devrait-il être multiplié pour booster le champ?nutch et sitemap.xml

Répondre

1

Pas que je sache. Selon le comportement que vous attendez de leur implémentation multiple, pouvez-vous être plus spécifique? Par exemple: + vous pouvez faire en sorte que les nouveaux sitemaps soumis soient «injectés» avec un score élevé afin qu'ils puissent être explorés plus tôt. Pour cela il suffit d'ajouter une commande d'injection avant de lancer un nouveau cycle crawl/fetch/index + vous pouvez créer un plug-in de score qui boostera l'URL trouvée dans un sitemaps ... Mais vous ne pouvez pas définir de périodes de reciblage au niveau de l'URL , comme l'indiquerait le sitemap. Nutch a une fonction intégrée qui va réexplorer plus souvent une URL qui change plus et vice-versa. Cependant, vous pouvez décider d'augmenter le score de l'URL avec une fréquence de rafraîchissement fréquente, afin qu'ils puissent être explorés plus tôt ...

1

Je suppose qu'ils le supportent maintenant. Je l'ai trouvé sur ce lien:

: :