2010-09-02 9 views
1

J'envisage d'utiliser hadoop/mapreduce pour aborder un projet et je n'ai pas tout à fait compris comment mettre en place un flux de travail consistant en un nombre variable de niveaux qui devraient être traités en séquence.Séquence de tâches en boucle/en boucle

.: par exemple

Job 1: Map source data into X levels. 
Job 2: MapReduce Level1 -> appends to Level2 
Job 3: MapReduce Level2 -> appends to LevelN 
Job N: MapReduce LevelN -> appends to LevelN+1 

Et ainsi de suite jusqu'à ce que le dernier niveau. La clé est que chaque niveau doit inclure ses propres données source spécifiques ainsi que les résultats du niveau précédent. J'ai regardé le porc, la ruche, le hamake et la cascade, mais je n'ai pas encore vu de support clair pour quelque chose comme ça.

Est-ce que quelqu'un connaît un moyen efficace d'accomplir cela? En ce moment je penche vers l'écriture d'un wrapper pour hamake qui va générer le fichier hamake basé sur les paramètres (le nombre de niveaux est connu à l'exécution mais pourrait changer à chaque exécution).

Merci!

Répondre

Questions connexes