J'ai mis en place quelques dags, qui finissent par se terminer par une commande spark-submit pour un cluster spark. J'utilise le mode cluster si cela fait une différence. Quoi qu'il en soit, mon code fonctionne, mais j'ai réalisé que si l'étincelle devait échouer, je ne le saurais pas nécessairement à partir de l'interface utilisateur d'Airflow. En déclenchant le travail en mode cluster, Airflow transmet le travail à un travailleur disponible, donc le flux d'air n'a aucune connaissance de l'étincelle.Comment surveiller le travail Spark avec Airflow
Comment puis-je résoudre ce problème?
Nous l'avons considéré, mais n'aurions-nous pas besoin de notre boîte de flux d'air pour faire partie du cluster Spark si nous devions utiliser le mode 'client'? Je suis encore nouveau sur Spark, quand nous avons essayé le mode 'client', aucun travail n'a été lancé avant que je commence le travail Spark sur cette boîte. – luckytaxi
Vous devrez exécuter 'spark-submit' sur le même hôte que Airflow worker. Ce noeud de travail doit pouvoir communiquer avec le cluster Spark. –