Informations sur les techniques d'exploration Web

Je suis en train de créer un petit robot d'exploration Web et je me demandais si quelqu'un avait des informations intéressantes sur l'implémentation réelle (ramper, pas de recherche, pas de classement, pas de classification, baiser :). Pour l'anecdote, j'ai déjà les O'Reilly "Spidering hacks" et le No Starch Press "Webbots, araignées, et grattoirs d'écran". Ces livres sont excellents, mais ils ont tendance à garder les choses simples et ne pas élaborer beaucoup sur la mise à l'échelle, le stockage des données, des trucs parallèles et d'autres sujets plus avancés. Bien sûr, je pourrais revoir le code d'un crawler open source existant, mais cela irait sur l'autre bord (les crawlers C++ semblent compliqués ...). Je cherche des informations intéressantes/additionnelles.Informations sur les techniques d'exploration Web

Toute aide est la bienvenue, merci d'avance.

Source

2009-05-18 kal3v

Si vous êtes intéressé par les détails d'implémentation d'un robot d'indexation Web, vous pouvez étudier les implémentations Open Source existantes. Voici une liste de Open Source Crawlers in Java. La plupart de ces projets sont inactifs. Mais le robot d'exploration Internet Archive Heritix et Apache Nutch sont des projets actifs matures avec beaucoup à apprendre.

Source

2009-06-03 11:54:56 Palimondo

Informations sur les techniques d'exploration Web

Répondre

Questions connexes