2017-08-31 4 views
0

chercher des HTTPUrl a échoué avec: org.apache.nutch.protocol.ProtocolNotFound: protocole non trouvé pour url = http à org.apache.nutch.protocol.ProtocolFactory.getProtocol (ProtocolFactory.java:85) à org.apache.nutch.fetcher.FetcherThread.run (FetcherThread.java:285)nUtCh 1,13 url de chercher a échoué avec: org.apache.nutch.protocol.ProtocolNotFound: protocole introuvable pour url = http

aide mode de file d'attente: byHost L'extraction de httpsurl a échoué avec: org.apache.nutch.protocol.ProtocolNotFound: protocole introuvable pour url = https at org.apache.nutch.protocol.ProtocolF actory.getProtocol (ProtocolFactory.java:85) à org.apache.nutch.fetcher.FetcherThread.run (FetcherThread.java:285)

je reçois plus haut résultat lors de l'exécution nutch1.13 avec solr6.6.0

commande

i est utilisé

bin/analyse -i -D solr.server.url = http://myip/solr/nutch/ URL/rampement 2

ci-dessous est la section du plugin dans mon nutch-site.xml

<name>plugin.includes</name> 
    <value> 
protocol-(http|httpclient)|urlfilter-regex|parse-(html)|index-(basic|anchor)|indexer-solr|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic) 
</value> 

Voici le contenu de mon fichier

[[email protected] apache-nutch-1.13]# ls plugins 
creativecommons  index-more   nutch-extensionpoints protocol-file     scoring-similarity   urlnormalizer-ajax 
feed     index-replace  parse-ext    protocol-ftp     subcollection    urlnormalizer-basic 
headings    index-static   parsefilter-naivebayes protocol-htmlunit    tld      urlnormalizer-host 
index-anchor   language-identifier parsefilter-regex  protocol-http     urlfilter-automaton  urlnormalizer-pass 
index-basic   lib-htmlunit   parse-html    protocol-httpclient   urlfilter-domain   urlnormalizer-protocol 
indexer-cloudsearch lib-http    parse-js    protocol-interactiveselenium urlfilter-domainblacklist urlnormalizer-querystring 
indexer-dummy  lib-nekohtml   parse-metatags   protocol-selenium    urlfilter-ignoreexempt  urlnormalizer-regex 
indexer-elastic  lib-regex-filter  parse-replace   publish-rabbitmq    urlfilter-prefix   urlnormalizer-slash 
indexer-solr   lib-selenium   parse-swf    publish-rabitmq    urlfilter-regex 
index-geoip   lib-xml    parse-tika    scoring-depth     urlfilter-suffix 
index-links   microformats-reltag parse-zip    scoring-link     urlfilter-validator 
index-metadata  mimetype-filter  plugin     scoring-opic     urlmeta 

Je suis coincé avec ce problème. Comme vous pouvez le voir j'ai inclus à la fois le protocole- (http | httpclient) .Mais encore aller chercher l'URL a échoué. Merci d'avance.

NEWER NUMÉRO hadoop.log

2017-09-01 14: 35: 07172 INFO solr.SolrIndexWriter - SolrIndexer: suppression 1/1 documents 2017-09-01 14: 35: 07321 WARN output.FileOutputCommitter - Chemin de sortie est nulle dans cleanupJob() 01/09/2017 14: 35: 07.323 WARN mapred.LocalJobRunner - job_local1176811933_0001 java.lang.Exception: java.lang.IllegalStateException: pool de connexion fermé à org .apache.hadoop.mapred.LocalJobRunner $ Job.runTasks (LocalJobRunner.java:462) at org.apache.hadoop.mapred.LocalJobRunner $ Job.run (LocalJobRunner.java:529) Causé par: java.lang.IllegalStateException: Le pool de connexions s'est arrêté at org.apache.http.util.Asserts.check (Asserts .java: 34) à org.apache.http.pool.AbstractConnPool.lease (AbstractConnPool.java:169) à org.apache.http.pool.AbstractConnPool.lease (AbstractConnPool.java:202) à org .apache.http.impl.conn.PoolingClientConnectionManager.requestConnection (PoolingClientConnectionManager.java:184) à org.apache.http.impl.client.DefaultRequestDirector.execute (DefaultRequestDirector.java:415) à org.apache.http .impl.client.AbstractHttpClient.doExecute (AbstractHttpClient .java: 863) à org.apache.http.impl.client.CloseableHttpClient.execute (CloseableHttpClient.java:82) à org.apache.http.impl.client.CloseableHttpClient.execute (CloseableHttpClient.java: 106) à org.apache.http.impl.client.CloseableHttpClient.execute (CloseableHttpClient.java:57) à org.apache.solr.client.solrj.impl.HttpSolrClient.executeMethod (HttpSolrClient.java: 481) à org.apache.solr.client.solrj.impl.HttpSolrClient.request (HttpSolrClient.java:240) à org.apache.solr.client.solrj.impl.HttpSolrClient.request (HttpSolrClient.java: 229) à org.apache.solr.client.solrj.SolrRequest.process (SolrRequest.java:149) à org.apache.solr.client.solrj.SolrClient.commit (SolrClient.java:482) à org.apache.solr.client.solrj.SolrClien t.commit (SolrClient.java:463) à org.apache.nutch.indexwriter.solr.SolrIndexWriter.commit (SolrIndexWriter.java:191) à org.apache.nutch.indexwriter.solr.SolrIndexWriter.close (SolrIndexWriter.java:179) à org.apache.nutch.indexer.IndexWriters.close (IndexWriters.java:117) à org.apache.nutch.indexer.CleaningJob DeleterReducer.close $ (CleaningJob.java:122) à org.apache.hadoop.io.IOUtils.cleanup (IOUtils.java:244) à org.apache.hadoop.mapred.ReduceTask.runOldReducer (ReduceTask.java:459) à org.apache.hadoop.mapred.ReduceTask .run (ReduceTask.java:392) au org.apache.hadoop.mapred.LocalJobRunner $ Job $ ReduceTaskRunnable.run (LocalJobRunner.java:3 19) à java.util.concurrent.Executors $ RunnableAdapter.call (Executors.java:511) à java.util.concurrent.FutureTask.run (FutureTask.java:266) à java.util.concurrent.ThreadPoolExecutor .runWorker (ThreadPoolExecutor.java:1149) à java.util.concurrent.ThreadPoolExecutor $ Worker.run (ThreadPoolExecutor.java:624) à java.lang.Thread.run (Thread.java:748) 2017-09- 01 14: 35: 07,679 ERREUR indexer.CleaningJob - CleaningJob: java.io.IOException: le travail a échoué! au org.apache.hadoop.mapred.JobClient.runJob (JobClient.java:865) au org.apache.nutch.indexer.CleaningJob.delete (CleaningJob.java:174) au org.apache.nutch.indexer. CleaningJob.run (CleaningJob.java:197) au org.apache.hadoop.util.ToolRunner.run (ToolRunner.java:70) au org.apache.nutch.indexer.CleaningJob.main (CleaningJob.java:208)

+0

Avez-vous essayé de le récupérer simplement avec protocole-http? – Jorge

+0

oui. toujours que l'extraction a échoué. Dois-je inclure le plugin ailleurs – SMJ

+0

pourriez-vous coller la sortie de: bin/nutch parsechecker http: // your_url – Jorge

Répondre

0

J'ai en quelque sorte résolu le problème. Je pense que l'espace dans nutch-site.xml provoquait l'émission d'un nouveau plugin.includes section pour les autres qui viennent ici.

 <name>plugin.includes</name> 
    <value>protocol-http|protocol-httpclient|urlfilter-regex|parse-(html)|index-(basic|anchor)|indexer-solr|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</value> 
+0

Cochez cela comme résolu si c'est la solution;) – Jorge

+0

J'ai rencontré un nouveau problème [root @localhost apache-nutch-1.13] # bin/nutch crawl/crawldb/http://183.134.100.180:8983/ Solr/nutch/ SolrIndexer: suppression de documents 1/1 SolrIndexer: suppression de documents 1/1 ERROR CleaningJob: java.io.IOException: échec du travail! \t à org.apache.hadoop.mapred.JobClient.runJob (JobClient.java:865) \t à org.apache.nutch.indexer.CleaningJob.delete (CleaningJob.java:174) \t à org.apache.nutch .indexer.CleaningJob.run (CleaningJob.java:197) \t à org.apache.hadoop.util.ToolRunner.run (ToolRunner.java:70) \t à org.apache.nutch.indexer.CleaningJob.main (CleaningJob .java: 208) – SMJ

+0

cette trace de hadoop.log? – Jorge