Je suis intéressé par l'exploration d'un grand nombre de sites Web. La considération la plus importante est que l'araignée est capable d'atteindre autant que possible le site. Une fonctionnalité clé qui manque à la plupart des robots est la possibilité d'exécuter JavaScript. Ceci est nécessaire pour explorer les sites alimentés par ajax. J'aime vraiment Open Source et je vais devoir modifier le code pour mon projet.Best Spider Open Source pour la couverture du site
Actuellement, je pense que Solr, qui est à part de Lucine est une très bonne solution. http://lucene.apache.org/solr/features.html
Est-ce que quelqu'un a utilisé Solr ou Lucine? Mon plus gros problème avec Solr ne peut pas exécuter javascript, cependant, il a un ensemble de fonctionnalités riches et l'évolutivité qui rend Solr attrayant. Solr n'est pas un robot d'exploration, mais un moteur de recherche (recherche dans un index pour retourner les résultats)
Heritrix est génial et il a les caractéristiques que je recherche: ExtractorJS, ExtractorSWF, ExtractorCSS, ExtractorPDF et plus encore! Vous ne pourriez pas me faire plus de mal à propos de Javascript, parce que c'est un composant essentiel d'une araignée moderne. Google et les autres principaux moteurs de recherche évaluent javascript. – rook
Vous voulez vraiment dire qu'ils exécutent tous les javascript dans la page? Une chose est d'extraire les liens en PDF, JS et ainsi de suite, mais je n'appellerais pas cela évaluer JS, PDF et ainsi de suite. –