Nous avons un code hérité dans Lucene et comme une nouvelle exigence, nous devons utiliser Apache Nutch pour ramper. Cela signifie qu'Apache Nutch doit analyser le contenu et que les analyseurs Lucene existants doivent générer des index.Apache Nutch avec Lucene
Mon problème est qu'Apache Nutch génère déjà des index dont je ne peux pas générer le contenu. Nous ne voulons pas utiliser les index Nutch. Me conseillez-vous d'utiliser un autre crawler ou est-il encore possible d'utiliser Apache Nutch à cette fin?
http://grokbase.com/t/nutch/user/107nxs32ke/best-way-to-crawl -but-not-index – Chiron
Merci pour le lien, je viens d'effectuer tout ce qui est mentionné dans le lien, mais comment puis-je récupérer le contenu de ce qui a été exploré? Parce que je vois deux types de fichiers: index et données. Tout ce que je veux, c'est pouvoir utiliser les analyseurs Lucene. –