Comment obtenir le contenu des pages crawlées et l'URL correspondante dans nutch?

Je veux obtenir le contenu analysé par nutch dans un fichier texte. J'ai utilisé les commads #readseg mais la sortie n'est pas fructueuse.Comment obtenir le contenu des pages crawlées et l'URL correspondante dans nutch?

Y a-t-il un plugin qui peut obtenir nutch pour explorer et stocker l'URL et le contenu dans un fichier texte.

Source

2013-07-23 Rahul

Le plugin devrait fonctionner dans la version linux de nutch. – Rahul

Peut-être que [this] (http://stackoverflow.com/questions/5123757/how-to-get-the-html-content-from-nutch) question peut aider. – Mike

Avec nutch 1, vous peut faire quelque chose comme:

./bin/nutch readseg -get out-crawl/segments/20160823085007/ "https://en.wikipedia.org/wiki/Canon" -nofetch -nogenerate -noparse -noparsedata -noparsetext > Canon.html

Il vient encore avec quelques lignes pour se débarrasser au début du fichier.

Source

2016-09-01 13:41:24

Vous pouvez modifier le travail d'extraction de Nutch pour que les URL et le contenu de la page appartiennent aux URL pendant le processus d'analyse. Dans le fichier de code source (src/java/org/apache/nutch/fetcher/FetcherReducer.java):

 case ProtocolStatusCodes.SUCCESS:  // got a page 
      String URL= TableUtil.reverseUrl(fit.url); //URL 
      content = Bytes.toString(ByteBuffer.wrap((content.getContent()))));//URL belong the URL 
      output(fit, content, status, CrawlStatus.STATUS_FETCHED); 
      break;

Hope this helps,

Le Quôc Do

Source

2014-09-26 14:39:22

Comment obtenir le contenu des pages crawlées et l'URL correspondante dans nutch?

Répondre

Questions connexes