Lorsque nous exécutons le robot d'exploration, nous voyons des dossiers statiques comme;/cgi-bin,/images,/css etc. popup dans les travaux du robot, nous voulons les exclure de l'exploration (pas qu'ils finissent dans l'indexeur) et nous ne les voulons pas dans l'indexeur, mais comment les exclure dans le robot d'exploration de sorte qu'il n'est pas occupé par ces dossiers statiques? Toute aide est appréciée. Est-ce que cela aide la performance, en les excluant? comme maintenant nous voyons qu'il les récupère pour une raison ou une autre. Nutch crawler 1.2, Lucene indexeur.Apache Nutch crawler comment exclure les dossiers statiques comme; cgi-bin, images, css exclure de nutch crawler?
0
A
Répondre
0
Ajoutez des règles de rejet au fichier conf/regex-urlfilter.txt
.
-cgi-bin
-images
-css
Notez que ceci doit être ajouté avant la règle d'acceptation de tout ie. +.
dans le fichier regex.
Questions connexes
- 1. nutch crawler rampe 'comme'
- 2. comment faire nutch crawler crawl
- 3. Utilisation du crawler Nutch avec Solr
- 4. Apache Nutch avec Lucene
- 5. nutch crawler - comment définir le nombre maximum d'inlinks par hôte
- 6. Java CSS Crawler
- 7. Apache Nutch étapes d'explication
- 8. Nutch. Implémentation .Net
- 9. Apache Nutch introuvable
- 10. Comment faire pour que le crawler Nutch explore uniquement des URLs spécifiques?
- 11. Utiliser HtmlUnit comme crawler
- 12. phrases comme documents Nutch
- 13. Nutch API advice
- 14. Est-il possible d'intégrer Nutch Crawler à mon projet Lucene existant?
- 15. Exclure certains dossiers de RewriteRule
- 16. Comment scanner des images dans Nutch?
- 17. os.walk exclure les dossiers .svn
- 18. mots vides et synonymes dans nutch
- 19. m2eclipse exclure les dossiers inutiles
- 20. exclure les dossiers - url réécrire dans htaccess
- 21. Comment intégrer apache nutch avec apache solr sur linux?
- 22. Apache Nutch 2.1 lot différent id (null)
- 23. Exécution Apache Nutch dans Windows 7
- 24. Apache nutch: Manipulation du DOM avant l'analyse
- 25. Comment exclure les dossiers .svn avec robocopy
- 26. Nutch Raw Html Saving
- 27. Comment recrawle nutch
- 28. Analyse comparative des performances pour Apache Nutch
- 29. Commande Apache Nutch impossible à exécuter
- 30. nutch et sitemap.xml
Merci pour la réponse rapide, j'apprécie. – user2430823
@ user2430823 si vous êtes satisfait de la réponse, s'il vous plaît upvote et accepter la réponse –
Salut Tejas, désolé pour ma réponse tardive, la réponse est satisfaisante, mais ne peut pas upvote..thanks encore une fois pour votre aide l'apprécier. – user2430823