Nutch est le meilleur que vous pouvez faire quand il s'agit d'un robot d'exploration gratuit. Il est construit sur le concept de Lucene (d'une manière échelonnée à l'échelle de l'entreprise) et est pris en charge par le backend Hadoop en utilisant MapReduce (similaire à Google) pour l'interrogation de données à grande échelle. Grands produits! Je suis en train de lire tout sur Hadoop dans le nouveau (pas encore publié) Hadoop in Action de manning. Si vous suivez cette route, je vous suggère de faire appel à leur équipe de révision technique pour obtenir une copie préliminaire de ce titre!
Ce sont tous basés sur Java. Si vous êtes un gars .net (comme moi !!) alors vous pourriez être plus intéressé par Lucene.NET, Nutch.NET, et Hadoop.NET qui sont tous classe par classe et api par les ports api à C#.
http://stackoverflow.com/questions/176820/whats-a-good-web-crawler-tool –
@LFSR Consulting. Ils sont à des fins différentes ... – Zanoni