Apache Nutch avec Lucene

Nous avons un code hérité dans Lucene et comme une nouvelle exigence, nous devons utiliser Apache Nutch pour ramper. Cela signifie qu'Apache Nutch doit analyser le contenu et que les analyseurs Lucene existants doivent générer des index.Apache Nutch avec Lucene

Mon problème est qu'Apache Nutch génère déjà des index dont je ne peux pas générer le contenu. Nous ne voulons pas utiliser les index Nutch. Me conseillez-vous d'utiliser un autre crawler ou est-il encore possible d'utiliser Apache Nutch à cette fin?

Source

2013-08-22 Ivo Kurtanovic

http://grokbase.com/t/nutch/user/107nxs32ke/best-way-to-crawl -but-not-index – Chiron

Merci pour le lien, je viens d'effectuer tout ce qui est mentionné dans le lien, mais comment puis-je récupérer le contenu de ce qui a été exploré? Parce que je vois deux types de fichiers: index et données. Tout ce que je veux, c'est pouvoir utiliser les analyseurs Lucene. –

Vous pouvez utiliser solr à des fins d'indexation. Solr est un serveur de recherche open-source basé sur la bibliothèque de recherche Java de Lucene et facilement configurable avec Nutch.

commande:

bin/nutch urls crawl -solr http://solr.server:8983/solr/ -depth -topN topn

Il rampera urls de semences liste jusqu'à une profondeur spécifiée et les indexer à solr spécifié serveur. Solr crée en interne les index de Lucene ..

Référence: http://wiki.apache.org/nutch/NutchTutorial

Source

2013-08-22 08:25:56 mgs

Je n'ai pas la possibilité d'utiliser SOLR pour l'instant, c'est une contrainte que j'ai et je dois utiliser les analyseurs Lucene existants à des fins d'indexation. Les index générés par Nutch semblent être différents de ceux de Lucene, je ne suis pas sûr qu'il existe un moyen d'utiliser des analyseurs Lucene purs avec les segments Nutch. –

Nutch: Voici le web ou crawler fichier qui ramper à travers des pages Web ou le partage de fichiers et chercher et analyser le contenu. Il a été conçu pour être intégré à Apache Solr, il a donc de nombreuses fonctions, le plus usuel est le passage de contenu à Solr, mais Nutch ne fait pas l'indexation. Solr: Solr est un serveur de recherche qui va indexer vos données à votre place en utilisant Lucene. Une fois que Nutch a passé les documents (via http), Solr les indexera et stockera les index Lucene. Il y a une belle interface de recherche vous permettant d'interroger Solr qui retournera les résultats au format XML.

Utilisez Solr et Nutch - ils ont été conçus pour fonctionner ensemble

Découvrez Setting Up Solr 4 et Setting Up Nutch

Source

2013-08-22 08:35:36

Apache Nutch avec Lucene

Répondre

Questions connexes