2017-01-26 2 views
0

Je reçois des erreurs dans mes travaux d'allumage et leur erreur est généralement similaire à celle montrée ci-dessous. Un nœud dans le cluster a environ 256 Go de mémoire et environ 8 cœurs, j'ai également spécifié la mémoire de l'exécuteur 4 Go et 4 Go supplémentaires. Pour shuffle j'ai spécifié la fraction de mémoire comme 0.5, par tout cela je veux indiquer que cela ne semble pas être un problème de mémoire. Cependant, je ne suis pas en mesure de comprendre ce qui pourrait être un problème et cela arrive à un moment ou un autre, je réécris mon travail plusieurs fois et cela arrive à plusieurs points. Vous pouvez supposer que nous avons une infrastructure de plus de 200 nœuds avec une configuration correcte. Tâche 0 dans l'étape 2.0 échouée 12 fois, échec le plus récent: tâche perdue 0.11 dans l'étape 2.0 (TID 27, lgpbd1107.sgp.ladr.com): java.io.FileNotFoundException:/Spark Yarn/tmp Aucun fichier ou répertoire de ce type

tmp/hadoop-mapr/nm-répertoire-local/usercache/noms/appcache/application_1485048538020_113554/3577094671485456431296_lock (aucun fichier ou répertoire)

Je ne suis pas en mesure de déterminer si son problème concerne l'application ou l'infrastructure. Quelqu'un pourrait-il m'aider?

Répondre

0

It is due to the tmpwatch utility, qui s'exécute tous les jours sur les systèmes CentOS pour nettoyer /tmp/files récemment accédé. Le service NodeManager ne recréera pas le niveau supérieur hadoop.tmp.dir (par défaut /tmp/hadoop-${user.name}) lorsqu'il lance un travail.

Maintenant, vous avez deux options:

Option -1: Aller à /etc/cron.daily/tmp-watch et ne comprennent pas ce répertoire de nettoyage quotidien. /tmp/hadoop-mapr/nm-local-dir/filecache

Option -2: Aller à

core-site.xml et ajouter/valeur de changement de propriété hadoop.tmp.dir --- défaut est /tmp/hadoop-${user.name}

ou

yarn-site.xml an d ajouter/valeur de changement de propriété yarn.nodemanager.local-dirs --- défaut est ${hadoop.tmp.dir}/nm-local-dir

+0

Pouvez-vous nous en dire plus, je lis couru mon travail autour de 10 fois à différents intervalles et obtenu erreur semblable. Le travail commence et échoue dans les 20 minutes, je suppose que 20 minutes n'est pas assez grand dans lequel tmp watch va supprimer les fichiers. – user500377