0

Existe-t-il un moyen direct d'exécuter des scripts shell dans le cluster dataproc. Actuellement, je peux exécuter les shells via pysparkoperator (qui appelle un autre fichier python puis ce fichier python appelle un script shell). J'ai cherché de nombreux liens mais à partir de maintenant pas trouvé de façon directe.Airflow Dataproc opérateur pour exécuter des scripts shell

Ce sera vraiment utile pour moi si quelqu'un peut me dire le moyen le plus simple.

+0

Je ne sais pas 'direct' façon, mais si vous n'êtes pas au courant, vous pouvez 1) trouver le nœud maître Dataproc en cours d'exécution Nom 2) 'gcloud compute ssh' à cette instance – Chengzhi

+0

Salut, oui en utilisant cette option, nous pouvons travailler sur des scripts shell manuellement, mais mon objectif est de planifier ce script par flux d'air. Faites-moi savoir si vous pouvez m'aider plus. Merci d'avance – Aditi

+0

Tous avec PythonOperator, Vous pouvez utiliser 'googleapiclient.discovery.build ('dataproc', 'v1', credentials = GoogleCredentials.get_application_default())' pour obtenir le fichier dataproc en cours d'exécution, puis 'subprocess.Popen' avec' gcloud calculer ssh' en passant le nom d'instance correct – Chengzhi

Répondre