Je suis en train de créer un petit robot d'exploration Web et je me demandais si quelqu'un avait des informations intéressantes sur l'implémentation réelle (ramper, pas de recherche, pas de classement, pas de classification, baiser :). Pour l'anecdote, j'ai déjà les O'Reilly "Spidering hacks" et le No Starch Press "Webbots, araignées, et grattoirs d'écran". Ces livres sont excellents, mais ils ont tendance à garder les choses simples et ne pas élaborer beaucoup sur la mise à l'échelle, le stockage des données, des trucs parallèles et d'autres sujets plus avancés. Bien sûr, je pourrais revoir le code d'un crawler open source existant, mais cela irait sur l'autre bord (les crawlers C++ semblent compliqués ...). Je cherche des informations intéressantes/additionnelles.Informations sur les techniques d'exploration Web
Toute aide est la bienvenue, merci d'avance.