Je ne parviens pas à exécuter plusieurs tâches de cartographie pour Nutch 1.7 sur Hadoop YARN. J'utilise le script bin/crawl et j'ai fait les réglages suivants pour déclencher une récupération avec plusieurs tâches de carte, mais je ne suis pas capable de le faire.Exécution de plusieurs tâches de mappage Apache Nutch sur un cluster Hadoop
Ajout des paramètres maxNumSegments et numFetchers à la phase de génération. bin $/nutch générer commonOptions $ $ CRAWL_PATH/crawldb $ CRAWL_PATH/segments -maxNumSegments $ numFetchers -numFetchers $ numFetchers -noFilter
Suppression de la paramter topn et supprimé le paramètre noParsing parce que je veux l'analyse syntaxique arrive au moment de chercher. $ bin/nutch chercher $ commonOptions -D fetcher.timelimit.mins = $ $ timeLimitFetch CRAWL_PATH/segments/$ SEGMENT -threads $ numThreads # -noParsing #
La générer de phase ne génère plus d'un segment . Par conséquent, la phase de récupération ne crée pas plusieurs tâches de carte, mais je crois que le script est écrit ne permet pas au fecth de rechercher plusieurs segments, même si le générateur génère plusieurs segments. Est-ce que quelqu'un peut me faire savoir, comment vont-ils le script à exécuter dans un cluster Hadoop distribué?
Ou s'il y a une version différente du script qui devrait être utilisée?
Merci.