2017-09-08 6 views
0

J'ai commencé à travailler sur Spark en utilisant Python. Je travaille sur une application qui utilise les API SparkML Linear Regression. Lorsque je soumets mon travail en mode cluster YARN, pendant la phase d'exécution, de nombreuses applications pyspark-shell sont créées avec YARN en tant qu'utilisateur. Je pourrais les voir dans l'interface de YARN. Ils finissent par finir avec le statut réussi et mon application principale que j'ai réellement soumise finit alors avec le statut réussi. Est-ce un comportement attendu? Ceci est assez intéressant pour moi puisque je crée l'instance de sparkSession singleton et l'utilise dans mon application, donc je ne sais pas pourquoi les sessions/applications pyspark-shell sont créées.L'application PySpark crée de nombreuses sessions pyspark-shell

+0

Je suis également confronté à ce problème, semble se produire pour certains scripts seulement – chhantyal

Répondre

0

La solution immédiate serait d'utiliser sparkContext au lieu de sparkSession. Mais il serait intéressant de voir vos lignes de configuration pour voir comment vous créez vos sessions afin de savoir pourquoi plusieurs applications sont créées.

Nous venons de mettre à jour Spark 2.2 à partir de Spark 1.6, donc nous devons encore nous pencher sérieusement sur les sparkSessions (qui sont nouvelles dans 2+).