Apache Nutch 2.3.1 erreur de recherche

J'essaye d'explorer un site Web entier et ai prévu un grand nombre d'URLs. Pour cette raison, j'ai mis le nombre de tours dans mon apache nutch crawl à 5, puis a couru le crawl. Le crawl est maintenant au 3e tour et aller chercher encore urls bien, mais dans le fichier journal, je vois ceci:Apache Nutch 2.3.1 erreur de recherche

aller chercher nom d'URL qui a été tiré par les cheveux (file d'attente retard crawl = de 5000ms) 50/50 de spinwaiting/actif, 949 pages, 2 erreurs, 0,2 0 pages/s, 26 17 kb/s, 2500 URL dans 1 files d'attente

comment puis-je savoir ce que les deux erreurs sont? Je vois cette erreur sous des centaines d'URL qui ont été récupérées. J'utilise Apache Nutch 2.3.1 et Hbase 0.94. Je vous remercie!

Source

2017-07-07 Walnut_Slayer

vérifiez vos fichiers journaux pour vos erreurs, une erreur se produit en raison de vos connexions Internet lentes ou problème d'expiration (max). Vérifiez vos journaux pour plus de détails

Source

2017-07-11 06:59:01

Apache Nutch 2.3.1 erreur de recherche

Répondre

Questions connexes