Je connais au moins 2 façons d'obtenir mes dépendances dans un travail Spark EMR. L'une consiste à créer un gros pot et l'autre à spécifier les paquets que vous voulez envoyer dans l'étincelle en utilisant l'option --packages
.Spark, Alternative à Fat Jar
Le gros pot prend beaucoup de temps à se fermer. Est-ce normal? ~ 10 minutes. Est-il possible que nous l'ayons configuré de manière incorrecte?
L'option de ligne de commande est correcte, mais elle est sujette aux erreurs.
Y a-t-il des alternatives? Je voudrais qu'il existe (existe déjà) un moyen d'inclure la liste des dépendances dans le pot avec gradle, puis demandez-les de les télécharger. Est-ce possible? Y a-t-il d'autres alternatives?
Mise à jour: Je publie une réponse partielle. Une chose que je n'ai pas clarifiée dans ma question initiale était que je m'intéresse aussi aux conflits de dépendance parce que vous avez le même jar avec des versions différentes.