Pour créer un robot d'indexation à grande échelle, combien d'instances sont optimales lors de l'exploration d'un site Web lors de son exécution sur un serveur Web dédié situé dans des batteries de serveurs Internet.instances de crawler
Répondre
spare_memory_on_machine/memory_footprint_of_crawler_process * 0.95
Pour faire un grand robot d'exploration à grande échelle, vous aurez à traiter des questions telles que:
• Impossibilité de garder les informations en une seule base de données.
• Pas assez de RAM pour traiter avec l'index énorme (s)
• Les performances multithread et concurrency
• pièges à chenilles (boucle infinie créée en changeant urls, calendriers, séances ids ...) et en double contenu.• Crawl de plus d'un ordinateur
• codes HTML malformés
• erreurs HTTP constantes à partir de serveurs
• Bases de données sans compression, wich font votre besoin d'espace sur les 8x plus grand.
• Réexécuter les routines et les priorités.
• Utilisez les requêtes avec compression (Deflate/gzip) (bon pour tout type de moteur de balayage).
Et certaines choses importantes
• Respect robots.txt
• Et un retard de robot sur chaque demande de DonT Suffocate serveurs web.
La configuration optimale du Thread dépendra de votre code. Je suis en train d'exécuter 100 process avec .net. Je vous recommande d'utiliser une classe de planification pour éviter les threads ouverts inutiles.
PS. Si vous utilisez 5 threads, vous devrez attendre des années avant d'atteindre l'exploration Web «à grande échelle».
- 1. Web Crawler Application
- 2. MP3 link Crawler
- 3. Google Crawler Time Restriction
- 4. Moteur de recherche crawler et SQL
- 5. Web crawler liens/page logique en PHP
- 6. Utilisation du crawler Nutch avec Solr
- 7. Crawler ne crée pas de propriétés rampées personnalisées
- 8. C++ instances de classe
- 9. plusieurs instances de Dynamic modalpopupextender
- 10. plusieurs instances de pièces importées
- 11. Avantages de plusieurs instances memcached
- 12. Instances de ruban par document
- 13. Exécution de plusieurs instances d'Evince
- 14. Configuration de plusieurs instances UIImageView
- 15. Catégorisation des instances EC2
- 16. Gestion des instances d'objet
- 17. Instances Singleton multiples
- 18. jquery datepicker plusieurs instances
- 19. Comparez deux instances IQueryable
- 20. Instances multiples de Firefox et Visual Studio
- 21. Validation des instances de classes internes
- 22. Plusieurs instances de SlideToggle qui basculent tout
- 23. Comprendre les instances de la classe Python
- 24. Copier des instances de modèle dans Rails
- 25. CodeIgniter - plusieurs instances d'un modèle
- 26. Instances d'objets JNI et C++
- 27. Glisser des données entre instances
- 28. Restreindre plusieurs instances d'une application
- 29. Plusieurs instances userControl dans tabControl
- 30. Ninject Effacement des instances résolues
Allez-vous explorer le * web? Ou un intranet? Une fois que? Toutes les deux minutes? Dans quel but? Votre question est trop vague pour qu'on y réponde sérieusement. S'il vous plaît élaborer un peu. – balpha
recherche semi-verticale. rampez sur Internet avec un format d'index personnalisé. ma cible est d'indexer une fois par semaine. en utilisant libcurl, libxml2 et sqlite (pour la file d'attente d'url). les derniers essais s'avèrent très stables avec 5 fils (chenilles à filetage multiple avec indexeur à filetage unique) – kar