2009-11-23 3 views

Répondre

9

Solr ne possède pas en soi une fonction d'exploration Web.

Nutch est le crawler "de facto" (et puis certains) pour Solr.

20

Solr 5+ fait en fait maintenant rampant web! Anciennes versions de Solr ne font pas l'analyse Web seule, comme c'est historiquement un serveur de recherche qui fournit des capacités de recherche de texte intégral. Il construit sur Lucene.

Si vous avez besoin d'explorer des pages Web en utilisant un autre projet Solr alors vous avez un certain nombre d'options dont:

Si vous Si vous souhaitez utiliser les fonctions de recherche fournies par Lucene ou SOLR, vous devez créer des index à partir des résultats de l'analyse Web.

Voir ce aussi:

Lucene crawler (it needs to build lucene index)

+5

Pouvez-vous élaborer sur «Solr 5+ fait en fait maintenant crawling web»? Je n'ai vu aucune fonctionnalité d'analyse dans toute la documentation. – taharqa

0

Def Nutch! Nutch dispose également d'une interface web de base qui vous permettra d'interroger vos résultats de recherche. Vous pourriez même ne pas avoir besoin de s'inquiéter avec SOLR en fonction de vos besoins. Si vous faites une combinaison Nutch/SOLR vous devriez être en mesure de tirer profit du travail effectué récemment pour intégrer SOLR et Nutch ... http://issues.apache.org/jira/browse/NUTCH-442

1

J'utilise Nutch avec Solr sur mon dernier projet et il semble fonctionner assez bien.

Si vous utilisez une machine Windows, je vous recommande fortement de suivre les instructions de 'No cygwin' données par Jason Riffel aussi!

1

Je sais que ça fait un certain temps, mais dans le cas où quelqu'un d'autre est à la recherche d'un robot Solr comme moi, il y a une nouvelle crawler open-source appelée Norconex HTTP Collector

3

Solr 5 a commencé à soutenir webcrawling simple (Java Doc). Si vous voulez rechercher, Solr est l'outil, si vous voulez ramper, Nutch/Scrapy est mieux :)

Pour le faire fonctionner, vous pouvez regarder en détail à here. Cependant, voici comment l'obtenir opérationnel en une ligne:

java 
-classpath <pathtosolr>/dist/solr-core-5.4.1.jar 
-Dauto=yes 
-Dc=gettingstarted  -> collection: gettingstarted 
-Ddata=web    -> web crawling and indexing 
-Drecursive=3   -> go 3 levels deep 
-Ddelay=0    -> for the impatient use 10+ for production 
org.apache.solr.util.SimplePostTool -> SimplePostTool 
http://datafireball.com/  -> a testing wordpress blog 

Le robot est ici très « naïve » où vous pouvez trouver tout le code de repo github de this Apache Solr.

Voici comment la réponse ressemble à:

SimplePostTool version 5.0.0 
Posting web pages to Solr url http://localhost:8983/solr/gettingstarted/update/extract 
Entering auto mode. Indexing pages with content-types corresponding to file endings xml,json,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log 
SimplePostTool: WARNING: Never crawl an external web site faster than every 10 seconds, your IP will probably be blocked 
Entering recursive mode, depth=3, delay=0s 
Entering crawl at level 0 (1 links total, 1 new) 
POSTed web resource http://datafireball.com (depth: 0) 
Entering crawl at level 1 (52 links total, 51 new) 
POSTed web resource http://datafireball.com/2015/06 (depth: 1) 
... 
Entering crawl at level 2 (266 links total, 215 new) 
... 
POSTed web resource http://datafireball.com/2015/08/18/a-few-functions-about-python-path (depth: 2) 
... 
Entering crawl at level 3 (846 links total, 656 new) 
POSTed web resource http://datafireball.com/2014/09/06/node-js-web-scraping-using-cheerio (depth: 3) 
SimplePostTool: WARNING: The URL http://datafireball.com/2014/09/06/r-lattice-trellis-another-framework-for-data-visualization/?share=twitter returned a HTTP result status of 302 
423 web pages indexed. 
COMMITting Solr index changes to http://localhost:8983/solr/gettingstarted/update/extract... 
Time spent: 0:05:55.059 

En fin de compte, vous pouvez voir toutes les données sont indexées correctement.