2017-07-07 3 views
1

J'essaye d'explorer un site Web entier et ai prévu un grand nombre d'URLs. Pour cette raison, j'ai mis le nombre de tours dans mon apache nutch crawl à 5, puis a couru le crawl. Le crawl est maintenant au 3e tour et aller chercher encore urls bien, mais dans le fichier journal, je vois ceci:Apache Nutch 2.3.1 erreur de recherche

aller chercher nom d'URL qui a été tiré par les cheveux (file d'attente retard crawl = de 5000ms) 50/50 de spinwaiting/actif, 949 pages, 2 erreurs, 0,2 0 pages/s, 26 17 kb/s, 2500 URL dans 1 files d'attente

comment puis-je savoir ce que les deux erreurs sont? Je vois cette erreur sous des centaines d'URL qui ont été récupérées. J'utilise Apache Nutch 2.3.1 et Hbase 0.94. Je vous remercie!

Répondre

0

vérifiez vos fichiers journaux pour vos erreurs, une erreur se produit en raison de vos connexions Internet lentes ou problème d'expiration (max). Vérifiez vos journaux pour plus de détails