Je reçois des erreurs dans mes travaux d'allumage et leur erreur est généralement similaire à celle montrée ci-dessous. Un nœud dans le cluster a environ 256 Go de mémoire et environ 8 cœurs, j'ai également spécifié la mémoire de l'exécuteur 4 Go et 4 Go supplémentaires. Pour shuffle j'ai spécifié la fraction de mémoire comme 0.5, par tout cela je veux indiquer que cela ne semble pas être un problème de mémoire. Cependant, je ne suis pas en mesure de comprendre ce qui pourrait être un problème et cela arrive à un moment ou un autre, je réécris mon travail plusieurs fois et cela arrive à plusieurs points. Vous pouvez supposer que nous avons une infrastructure de plus de 200 nœuds avec une configuration correcte. Tâche 0 dans l'étape 2.0 échouée 12 fois, échec le plus récent: tâche perdue 0.11 dans l'étape 2.0 (TID 27, lgpbd1107.sgp.ladr.com): java.io.FileNotFoundException:/Spark Yarn/tmp Aucun fichier ou répertoire de ce type
tmp/hadoop-mapr/nm-répertoire-local/usercache/noms/appcache/application_1485048538020_113554/3577094671485456431296_lock (aucun fichier ou répertoire)
Je ne suis pas en mesure de déterminer si son problème concerne l'application ou l'infrastructure. Quelqu'un pourrait-il m'aider?
Pouvez-vous nous en dire plus, je lis couru mon travail autour de 10 fois à différents intervalles et obtenu erreur semblable. Le travail commence et échoue dans les 20 minutes, je suppose que 20 minutes n'est pas assez grand dans lequel tmp watch va supprimer les fichiers. – user500377