est-ce que apache-nutch prend en charge les sitemaps? ou comment puis-je l'implémenter moi-même? Comment puis-je utiliser le champ prioritaire, devrait-il être multiplié pour booster le champ?nutch et sitemap.xml
Répondre
Pas que je sache. Selon le comportement que vous attendez de leur implémentation multiple, pouvez-vous être plus spécifique? Par exemple: + vous pouvez faire en sorte que les nouveaux sitemaps soumis soient «injectés» avec un score élevé afin qu'ils puissent être explorés plus tôt. Pour cela il suffit d'ajouter une commande d'injection avant de lancer un nouveau cycle crawl/fetch/index + vous pouvez créer un plug-in de score qui boostera l'URL trouvée dans un sitemaps ... Mais vous ne pouvez pas définir de périodes de reciblage au niveau de l'URL , comme l'indiquerait le sitemap. Nutch a une fonction intégrée qui va réexplorer plus souvent une URL qui change plus et vice-versa. Cependant, vous pouvez décider d'augmenter le score de l'URL avec une fréquence de rafraîchissement fréquente, afin qu'ils puissent être explorés plus tôt ...
Je suppose qu'ils le supportent maintenant. Je l'ai trouvé sur ce lien:
: :- 1. Sitemap.xml - Google n'indexation
- 2. Django Google News Sitemap.xml
- 3. Nutch Multithreading
- 4. Apache renvoie sitemap.xml not/sitemap
- 5. Nutch API advice
- 6. Drupal + Nutch + Solr
- 7. robots d'exploration Web et des caractères non-ASCII dans sitemap.xml
- 8. nutch 1.1 schema.xml
- 9. RSS Feeds in Nutch
- 10. Tutoriels MapReduce Nutch
- 11. Comment rendre sitemap.xml dans l'application rails
- 12. comment faire nutch crawler crawl
- 13. Spell Checker dans Nutch 1.0
- 14. Donner une comparaison de Nutch Vs Heritrix
- 15. Nutch search renvoie toujours 0 résultats
- 16. Nutch - Lucene - capturer le contenu des pages
- 17. crawl dirigé en utilisant Nutch ou Heritrix
- 18. Analyse comparative des performances pour Apache Nutch
- 19. MVC: comment router /sitemap.xml vers un objet ActionResult?
- 20. Comment scanner des images dans Nutch?
- 21. Utilisation du crawler Nutch avec Solr
- 22. Les caractères génériques sont-ils autorisés dans le fichier sitemap.xml?
- 23. Identification des chaînes dans les documents, avec nutch + solr?
- 24. Quels pots de Nutch dois-je écrire mon propre Crawl.java
- 25. comment faire nutch système de fichiers de crawl?
- 26. Quelle est la meilleure façon de rafraîchir un indice Nutch?
- 27. solrindex façon de mapper schéma de nutch à solr
- 28. Nutch: obtenir la profondeur de crawl actuelle dans le plugin
- 29. Comment utiliser la recherche Solr incluse avec Nutch-1.2?
- 30. solr admin donne 404 erreurs après l'intégration nutch