chercher des HTTPUrl a échoué avec: org.apache.nutch.protocol.ProtocolNotFound: protocole non trouvé pour url = http à org.apache.nutch.protocol.ProtocolFactory.getProtocol (ProtocolFactory.java:85) à org.apache.nutch.fetcher.FetcherThread.run (FetcherThread.java:285)nUtCh 1,13 url de chercher a échoué avec: org.apache.nutch.protocol.ProtocolNotFound: protocole introuvable pour url = http
aide mode de file d'attente: byHost L'extraction de httpsurl a échoué avec: org.apache.nutch.protocol.ProtocolNotFound: protocole introuvable pour url = https at org.apache.nutch.protocol.ProtocolF actory.getProtocol (ProtocolFactory.java:85) à org.apache.nutch.fetcher.FetcherThread.run (FetcherThread.java:285)
je reçois plus haut résultat lors de l'exécution nutch1.13 avec solr6.6.0
commandei est utilisé
bin/analyse -i -D solr.server.url = http://myip/solr/nutch/ URL/rampement 2
ci-dessous est la section du plugin dans mon nutch-site.xml
<name>plugin.includes</name>
<value>
protocol-(http|httpclient)|urlfilter-regex|parse-(html)|index-(basic|anchor)|indexer-solr|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)
</value>
Voici le contenu de mon fichier
[[email protected] apache-nutch-1.13]# ls plugins
creativecommons index-more nutch-extensionpoints protocol-file scoring-similarity urlnormalizer-ajax
feed index-replace parse-ext protocol-ftp subcollection urlnormalizer-basic
headings index-static parsefilter-naivebayes protocol-htmlunit tld urlnormalizer-host
index-anchor language-identifier parsefilter-regex protocol-http urlfilter-automaton urlnormalizer-pass
index-basic lib-htmlunit parse-html protocol-httpclient urlfilter-domain urlnormalizer-protocol
indexer-cloudsearch lib-http parse-js protocol-interactiveselenium urlfilter-domainblacklist urlnormalizer-querystring
indexer-dummy lib-nekohtml parse-metatags protocol-selenium urlfilter-ignoreexempt urlnormalizer-regex
indexer-elastic lib-regex-filter parse-replace publish-rabbitmq urlfilter-prefix urlnormalizer-slash
indexer-solr lib-selenium parse-swf publish-rabitmq urlfilter-regex
index-geoip lib-xml parse-tika scoring-depth urlfilter-suffix
index-links microformats-reltag parse-zip scoring-link urlfilter-validator
index-metadata mimetype-filter plugin scoring-opic urlmeta
Je suis coincé avec ce problème. Comme vous pouvez le voir j'ai inclus à la fois le protocole- (http | httpclient) .Mais encore aller chercher l'URL a échoué. Merci d'avance.
NEWER NUMÉRO hadoop.log
2017-09-01 14: 35: 07172 INFO solr.SolrIndexWriter - SolrIndexer: suppression 1/1 documents 2017-09-01 14: 35: 07321 WARN output.FileOutputCommitter - Chemin de sortie est nulle dans cleanupJob() 01/09/2017 14: 35: 07.323 WARN mapred.LocalJobRunner - job_local1176811933_0001 java.lang.Exception: java.lang.IllegalStateException: pool de connexion fermé à org .apache.hadoop.mapred.LocalJobRunner $ Job.runTasks (LocalJobRunner.java:462) at org.apache.hadoop.mapred.LocalJobRunner $ Job.run (LocalJobRunner.java:529) Causé par: java.lang.IllegalStateException: Le pool de connexions s'est arrêté at org.apache.http.util.Asserts.check (Asserts .java: 34) à org.apache.http.pool.AbstractConnPool.lease (AbstractConnPool.java:169) à org.apache.http.pool.AbstractConnPool.lease (AbstractConnPool.java:202) à org .apache.http.impl.conn.PoolingClientConnectionManager.requestConnection (PoolingClientConnectionManager.java:184) à org.apache.http.impl.client.DefaultRequestDirector.execute (DefaultRequestDirector.java:415) à org.apache.http .impl.client.AbstractHttpClient.doExecute (AbstractHttpClient .java: 863) à org.apache.http.impl.client.CloseableHttpClient.execute (CloseableHttpClient.java:82) à org.apache.http.impl.client.CloseableHttpClient.execute (CloseableHttpClient.java: 106) à org.apache.http.impl.client.CloseableHttpClient.execute (CloseableHttpClient.java:57) à org.apache.solr.client.solrj.impl.HttpSolrClient.executeMethod (HttpSolrClient.java: 481) à org.apache.solr.client.solrj.impl.HttpSolrClient.request (HttpSolrClient.java:240) à org.apache.solr.client.solrj.impl.HttpSolrClient.request (HttpSolrClient.java: 229) à org.apache.solr.client.solrj.SolrRequest.process (SolrRequest.java:149) à org.apache.solr.client.solrj.SolrClient.commit (SolrClient.java:482) à org.apache.solr.client.solrj.SolrClien t.commit (SolrClient.java:463) à org.apache.nutch.indexwriter.solr.SolrIndexWriter.commit (SolrIndexWriter.java:191) à org.apache.nutch.indexwriter.solr.SolrIndexWriter.close (SolrIndexWriter.java:179) à org.apache.nutch.indexer.IndexWriters.close (IndexWriters.java:117) à org.apache.nutch.indexer.CleaningJob DeleterReducer.close $ (CleaningJob.java:122) à org.apache.hadoop.io.IOUtils.cleanup (IOUtils.java:244) à org.apache.hadoop.mapred.ReduceTask.runOldReducer (ReduceTask.java:459) à org.apache.hadoop.mapred.ReduceTask .run (ReduceTask.java:392) au org.apache.hadoop.mapred.LocalJobRunner $ Job $ ReduceTaskRunnable.run (LocalJobRunner.java:3 19) à java.util.concurrent.Executors $ RunnableAdapter.call (Executors.java:511) à java.util.concurrent.FutureTask.run (FutureTask.java:266) à java.util.concurrent.ThreadPoolExecutor .runWorker (ThreadPoolExecutor.java:1149) à java.util.concurrent.ThreadPoolExecutor $ Worker.run (ThreadPoolExecutor.java:624) à java.lang.Thread.run (Thread.java:748) 2017-09- 01 14: 35: 07,679 ERREUR indexer.CleaningJob - CleaningJob: java.io.IOException: le travail a échoué! au org.apache.hadoop.mapred.JobClient.runJob (JobClient.java:865) au org.apache.nutch.indexer.CleaningJob.delete (CleaningJob.java:174) au org.apache.nutch.indexer. CleaningJob.run (CleaningJob.java:197) au org.apache.hadoop.util.ToolRunner.run (ToolRunner.java:70) au org.apache.nutch.indexer.CleaningJob.main (CleaningJob.java:208)
Avez-vous essayé de le récupérer simplement avec protocole-http? – Jorge
oui. toujours que l'extraction a échoué. Dois-je inclure le plugin ailleurs – SMJ
pourriez-vous coller la sortie de: bin/nutch parsechecker http: // your_url – Jorge