2017-05-18 1 views
0

Salut, je suis encore nouveau à Airflow. Je voudrais savoir comment Airflow se connecte à Spark? J'ai un serveur avec différents comptes (ou profils) pour accéder au cluster Spark. Je me demande Est-ce que Airflow a un profil fixe pour connecter l'étincelle? ou Il suit le profil de l'utilisateur?Comment Airflow se connecte à Spark et est-il possible de définir un droit d'accès différent pour les utilisateurs dans Airflow?

De même, est-il possible de définir un droit d'accès différent pour les utilisateurs dans Airflow? Par exemple, l'utilisateur A qui a droit à l'emplacement d'accès A Spark (ou HDFS) ne peut exécuter la tâche qui est lié à l'emplacement A. (Il est donc impossible d'exécuter un travail de l'emplacement B)

Merci à avance.

Répondre

0

Vous pouvez consulter la contribution de la communauté SparkSubmitOperator dans le dossier conrtib de Airflow repo. Fondamentalement, cet opérateur exécute un sous-processus spark-submit via python et attend son achèvement. Cet opérateur a été significativement amélioré depuis la version stable précédente (1.8.1). Cela fonctionne assez bien si vous avez déjà une configuration d'étincelles et que vous ne voulez pas que le flux d'air contrôle où les travaux d'allumage fonctionnent.

Le problème de droits d'utilisateur est plus complexe. Une des façons, vous pourriez être en mesure de le réparer est en modifiant le SparkSubmitOperator pour définir les paramètres d'environnement pour le sous-processus, et prendre ce paramètre en tant qu'entrée (un extra) à cet opérateur.