Le crawler de Nutch ne se met pas à l'échelle pour les grosses URLs

J'essaie de configurer un crawler nutch sur un cluster Amazon EMR avec deux nœuds maîtres, évolutif. Ma liste d'URL de départ n'est que de 10000 urls, mais mon robot d'exploration est bloqué sur la phase de récupération dans le travail Map-reduce à environ 90%. Il fonctionnait bien pour 5000 urls. Y a-t-il une configuration que je pourrais manquer?Le crawler de Nutch ne se met pas à l'échelle pour les grosses URLs

Source

2017-08-18 Tushar Agarwal

et partager vos journaux d'erreurs !! –

Accédez à l'interface utilisateur de MapReduce et vérifiez les journaux de la phase de récupération. Ils contiennent probablement une idée de ce qui s'est mal passé.

Source

2017-08-19 05:59:58

Le crawler de Nutch ne se met pas à l'échelle pour les grosses URLs

Répondre

Questions connexes