2017-07-03 1 views
1

Je veux partager udfs que j'ai créé dans Scala avec d'autres grappes que notre data scientist utilise avec pyspark et jupyter dans les clusters EMR.Comment utiliser les fonctions personnalisées définies par l'utilisateur sur les blocs-notes Jupyter dans les clusters EMR?

Est-ce possible? Comment?

+0

double possible de [l'aide d'une UDF Scala de PySpark] (https://stackoverflow.com/questions/41780141/using-a-scala-udf-in-pyspark) – zeapo

+0

@zeapo Ne le pensez pas car il s'agit de partager des UDF dans Jupyter à travers le cluster EMR qui pourrait donner une fonctionnalité comme celle-ci . Ce n'est pas possible dans Spark directement * sauf si * les gens utilisent SparkSession partagé dans Spark Thrift Server. –

+0

Non, parce que je veux pouvoir partager la fonction existante et l'ajouter au catalogue d'étincelles, au lieu de les recréer à chaque fois –

Répondre

0

this answer aide en effet

créer un pot uber, mis en s3, sur Copt d'action d'amorçage à partir s3 pour déclencher le dossier jar local et il devrait fonctionner