Je suis intéressé par l'exploration Web. Je regardais solr
.Est-ce que solr fait du crawling?
Est-ce que solr
effectue l'analyse Web ou quelles sont les étapes à suivre pour l'analyse Web?
Je suis intéressé par l'exploration Web. Je regardais solr
.Est-ce que solr fait du crawling?
Est-ce que solr
effectue l'analyse Web ou quelles sont les étapes à suivre pour l'analyse Web?
Solr ne possède pas en soi une fonction d'exploration Web.
Nutch est le crawler "de facto" (et puis certains) pour Solr.
Solr 5+ fait en fait maintenant rampant web! Anciennes versions de Solr ne font pas l'analyse Web seule, comme c'est historiquement un serveur de recherche qui fournit des capacités de recherche de texte intégral. Il construit sur Lucene.
Si vous avez besoin d'explorer des pages Web en utilisant un autre projet Solr alors vous avez un certain nombre d'options dont:
Si vous Si vous souhaitez utiliser les fonctions de recherche fournies par Lucene ou SOLR, vous devez créer des index à partir des résultats de l'analyse Web.
Voir ce aussi:
Def Nutch! Nutch dispose également d'une interface web de base qui vous permettra d'interroger vos résultats de recherche. Vous pourriez même ne pas avoir besoin de s'inquiéter avec SOLR en fonction de vos besoins. Si vous faites une combinaison Nutch/SOLR vous devriez être en mesure de tirer profit du travail effectué récemment pour intégrer SOLR et Nutch ... http://issues.apache.org/jira/browse/NUTCH-442
J'utilise Nutch avec Solr sur mon dernier projet et il semble fonctionner assez bien.
Si vous utilisez une machine Windows, je vous recommande fortement de suivre les instructions de 'No cygwin' données par Jason Riffel aussi!
Oui, je suis d'accord avec les autres messages ici, utilisez Nutch
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
Bien que votre version solr a le match la version correcte de Nutch, car les anciennes versions de solr stocke les indices dans un format différent
Son tutoriel: http://wiki.apache.org/nutch/NutchTutorial
Vous pouvez également jeter un oeil à
http://www.crawl-anywhere.com/
crawler très puissant qui est compatible avec Solr.
Je sais que ça fait un certain temps, mais dans le cas où quelqu'un d'autre est à la recherche d'un robot Solr comme moi, il y a une nouvelle crawler open-source appelée Norconex HTTP Collector
Solr 5 a commencé à soutenir webcrawling simple (Java Doc). Si vous voulez rechercher, Solr est l'outil, si vous voulez ramper, Nutch/Scrapy est mieux :)
Pour le faire fonctionner, vous pouvez regarder en détail à here. Cependant, voici comment l'obtenir opérationnel en une ligne:
java
-classpath <pathtosolr>/dist/solr-core-5.4.1.jar
-Dauto=yes
-Dc=gettingstarted -> collection: gettingstarted
-Ddata=web -> web crawling and indexing
-Drecursive=3 -> go 3 levels deep
-Ddelay=0 -> for the impatient use 10+ for production
org.apache.solr.util.SimplePostTool -> SimplePostTool
http://datafireball.com/ -> a testing wordpress blog
Le robot est ici très « naïve » où vous pouvez trouver tout le code de repo github de this Apache Solr.
Voici comment la réponse ressemble à:
SimplePostTool version 5.0.0
Posting web pages to Solr url http://localhost:8983/solr/gettingstarted/update/extract
Entering auto mode. Indexing pages with content-types corresponding to file endings xml,json,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log
SimplePostTool: WARNING: Never crawl an external web site faster than every 10 seconds, your IP will probably be blocked
Entering recursive mode, depth=3, delay=0s
Entering crawl at level 0 (1 links total, 1 new)
POSTed web resource http://datafireball.com (depth: 0)
Entering crawl at level 1 (52 links total, 51 new)
POSTed web resource http://datafireball.com/2015/06 (depth: 1)
...
Entering crawl at level 2 (266 links total, 215 new)
...
POSTed web resource http://datafireball.com/2015/08/18/a-few-functions-about-python-path (depth: 2)
...
Entering crawl at level 3 (846 links total, 656 new)
POSTed web resource http://datafireball.com/2014/09/06/node-js-web-scraping-using-cheerio (depth: 3)
SimplePostTool: WARNING: The URL http://datafireball.com/2014/09/06/r-lattice-trellis-another-framework-for-data-visualization/?share=twitter returned a HTTP result status of 302
423 web pages indexed.
COMMITting Solr index changes to http://localhost:8983/solr/gettingstarted/update/extract...
Time spent: 0:05:55.059
En fin de compte, vous pouvez voir toutes les données sont indexées correctement.
Pouvez-vous élaborer sur «Solr 5+ fait en fait maintenant crawling web»? Je n'ai vu aucune fonctionnalité d'analyse dans toute la documentation. – taharqa