Actuellement, nous exécutons tous nos jobs Pig de manière séquentielle sur Amazon EMR, donc nous lançons un cluster et ensuite ajoutons tous nos jobs Pig en tant qu'étape au cluster 1 par 1. Alors que cela fonctionne, Je me demandais s'il y avait quelque chose qui pourrait vous permettre d'exécuter ces travaux en parallèle.Exécuter des scripts Pig dans Parallel sur Amazon AWS
Idéalement, je voudrais faire ce qui suit: Lancez un cluster (disons c3.xlarge), puis lancez 15 jobs pig. Ces tâches seraient ensuite exécutées en parallèle du mieux qu'elles le peuvent (par exemple: 3 en même temps) et quand 1 est terminé, un autre est exécuté.
Toute aide serait la bienvenue si quelque chose comme ceci existe et comment nous pourrions l'utiliser. J'ai lu quelque chose à propos de Oozie mais je ne suis pas sûr que cela conviendrait à nos besoins.
Merci pour l'info, avait déjà un oeil à oozie mais je ne sais pas si mes besoins s'intègre. Parce que je ne pense pas qu'Oozie prenne en compte les ressources disponibles (par défaut) – darkownage
Oozie ne tient pas compte de la disponibilité des ressources. Il soumet les travaux au cadre Yarn/MR et en dépend. Merci. – YoungHobbit