2010-01-13 7 views
3

Je suis intéressé par l'exploration d'un grand nombre de sites Web. La considération la plus importante est que l'araignée est capable d'atteindre autant que possible le site. Une fonctionnalité clé qui manque à la plupart des robots est la possibilité d'exécuter JavaScript. Ceci est nécessaire pour explorer les sites alimentés par ajax. J'aime vraiment Open Source et je vais devoir modifier le code pour mon projet.Best Spider Open Source pour la couverture du site

Actuellement, je pense que Solr, qui est à part de Lucine est une très bonne solution. http://lucene.apache.org/solr/features.html

Est-ce que quelqu'un a utilisé Solr ou Lucine? Mon plus gros problème avec Solr ne peut pas exécuter javascript, cependant, il a un ensemble de fonctionnalités riches et l'évolutivité qui rend Solr attrayant. Solr n'est pas un robot d'exploration, mais un moteur de recherche (recherche dans un index pour retourner les résultats)

Répondre

4

Cela dit, j'aime vraiment heritrix pour sa flexibilité. La plupart des robots d'exploration n'exécuteront pas Javascript (mais certains, comme Heritrix, essaieront d'en extraire des liens), cela n'a pas beaucoup de sens, même aujourd'hui. Le fait est que Heritrix vous permettra de brancher vos propres classes pour faire ce que vous voulez avec les données explorées.

+0

Heritrix est génial et il a les caractéristiques que je recherche: ExtractorJS, ExtractorSWF, ExtractorCSS, ExtractorPDF et plus encore! Vous ne pourriez pas me faire plus de mal à propos de Javascript, parce que c'est un composant essentiel d'une araignée moderne. Google et les autres principaux moteurs de recherche évaluent javascript. – rook

+0

Vous voulez vraiment dire qu'ils exécutent tous les javascript dans la page? Une chose est d'extraire les liens en PDF, JS et ainsi de suite, mais je n'appellerais pas cela évaluer JS, PDF et ainsi de suite. –

2

Solr est un moteur de recherche construit sur le dessus de Lucene. Il ne fait rien avec rampant. Jetez un oeil à Apache Nutch. Cracking javascript peut être un problème, car ils sont souvent amenés à mener le crawler à l'impasse.

+0

Mon diable, Lucine a beaucoup de sous projets. – rook

1

watir peut vous être utile.

+0

Watir donne des coups de pied dans le cul, ça ne correspond pas vraiment à mes besoins, mais je vais devoir le garder à l'esprit. – rook

0

Avec les pages qui créent le dom basé sur javascript templating, vous aurez vraiment besoin de l'exécution complète de javascript dans votre araignée. Jetez un oeil à https://github.com/mikeal/spider pour Node JS.

Questions connexes