2009-06-24 7 views
14

Le robot d'exploration doit avoir une architecture extensible pour permettre la modification du processus interne, comme la mise en œuvre de nouvelles étapes (pré-analyseur, analyseur, etc ...)Tout le monde connaît un bon robot d'indexation open source?

J'ai trouvé le projet Heritrix (http://crawler.archive.org/).

Mais il y a d'autres beaux projets comme ça?

+0

http://stackoverflow.com/questions/176820/whats-a-good-web-crawler-tool –

+0

@LFSR Consulting. Ils sont à des fins différentes ... – Zanoni

Répondre

14

Nutch est le meilleur que vous pouvez faire quand il s'agit d'un robot d'exploration gratuit. Il est construit sur le concept de Lucene (d'une manière échelonnée à l'échelle de l'entreprise) et est pris en charge par le backend Hadoop en utilisant MapReduce (similaire à Google) pour l'interrogation de données à grande échelle. Grands produits! Je suis en train de lire tout sur Hadoop dans le nouveau (pas encore publié) Hadoop in Action de manning. Si vous suivez cette route, je vous suggère de faire appel à leur équipe de révision technique pour obtenir une copie préliminaire de ce titre!

Ce sont tous basés sur Java. Si vous êtes un gars .net (comme moi !!) alors vous pourriez être plus intéressé par Lucene.NET, Nutch.NET, et Hadoop.NET qui sont tous classe par classe et api par les ports api à C#.

+0

+1 pour Nutch et Hadoop, vous pouvez également regarder si vous êtes à la recherche d'une solution distribuée et évolutive. –

+4

Nutch.NET est complètement inexistant et je n'ai même pas trouvé le moyen de le télécharger. –

+0

La même chose vaut pour Hadoop.NET, il n'y a pas un seul fichier à télécharger –

0

J'ai récemment découvert un appelé - Nutch.

0

Si vous n'êtes pas attaché à la plate-forme, j'ai eu de très bonnes expériences avec Nutch dans le passé.

Il est écrit en Java et va de pair avec l'indexeur Lucene.

4

Vous voudrez peut-être aussi essayer Scrapy http://scrapy.org/

Il est vraiment facile à spécifier et exécuter vos robots d'exploration.

1

Abot est un bon robot d'indexation extensible. Chaque partie de l'architecture est connectable vous donnant un contrôle complet sur son comportement. Son open source, gratuit pour un usage commercial et personnel, écrit en C#.

https://github.com/sjdirect/abot

Questions connexes