2017-09-22 8 views
1

J'essaie de configurer un flux pour exécuter des travaux d'étincelles dans des clusters EMR à l'aide d'AWS Data PipeLine. Et notre flux fonctionne sur le calendrier "sur demande".Comment exécuter plusieurs travaux d'étincelle parallèles dans des clusters AWS EMR via la ligne de données AWS

Dans le cadre de cette activité, nous créons un cluster EMR au début de la ligne de conduite, puis nous souhaitons exécuter plusieurs jobs de démarrage sur un cluster emr en parallèle.

Y a-t-il un nous pouvons exécuter des travaux parallèles sur Data Pipe Line avec le calendrier "sur demande".

+0

Assigner votre cluster est un "groupe de travailleurs" et toutes les activités Spark y sont exécutées. Si elles ne dépendent pas les unes des autres, elles devraient commencer simultanément. Ensuite, vous devrez peut-être configurer votre Spark sur YARN (ou n'importe quel planificateur) pour gérer les tâches concurrentes de la manière la plus efficace pour vous. – user4601931

+0

Merci, cette option a fonctionné. En dehors de cela, est-il possible d'exécuter une activité distincte en cas d'échec de mon EMRActivity (peut être n'importe quelle activité). Je pourrais voir seulement nous pouvons envoyer une notification. Je peux gérer ma notification via lambda et je peux m'en occuper. Mais avec dans le même pipeline est-ce possible. – Krish

Répondre