2013-07-23 3 views
3

Je veux obtenir le contenu analysé par nutch dans un fichier texte. J'ai utilisé les commads #readseg mais la sortie n'est pas fructueuse.Comment obtenir le contenu des pages crawlées et l'URL correspondante dans nutch?

Y a-t-il un plugin qui peut obtenir nutch pour explorer et stocker l'URL et le contenu dans un fichier texte.

+0

Le plugin devrait fonctionner dans la version linux de nutch. – Rahul

+0

Peut-être que [this] (http://stackoverflow.com/questions/5123757/how-to-get-the-html-content-from-nutch) question peut aider. – Mike

Répondre

1

Avec nutch 1, vous peut faire quelque chose comme:

./bin/nutch readseg -get out-crawl/segments/20160823085007/ "https://en.wikipedia.org/wiki/Canon" -nofetch -nogenerate -noparse -noparsedata -noparsetext > Canon.html 

Il vient encore avec quelques lignes pour se débarrasser au début du fichier.

1

Vous pouvez modifier le travail d'extraction de Nutch pour que les URL et le contenu de la page appartiennent aux URL pendant le processus d'analyse. Dans le fichier de code source (src/java/org/apache/nutch/fetcher/FetcherReducer.java):

 case ProtocolStatusCodes.SUCCESS:  // got a page 
      String URL= TableUtil.reverseUrl(fit.url); //URL 
      content = Bytes.toString(ByteBuffer.wrap((content.getContent()))));//URL belong the URL 
      output(fit, content, status, CrawlStatus.STATUS_FETCHED); 
      break; 

Hope this helps,

Le Quôc Do

Questions connexes