Séquence de tâches en boucle/en boucle

J'envisage d'utiliser hadoop/mapreduce pour aborder un projet et je n'ai pas tout à fait compris comment mettre en place un flux de travail consistant en un nombre variable de niveaux qui devraient être traités en séquence.Séquence de tâches en boucle/en boucle

.: par exemple

Job 1: Map source data into X levels. 
Job 2: MapReduce Level1 -> appends to Level2 
Job 3: MapReduce Level2 -> appends to LevelN 
Job N: MapReduce LevelN -> appends to LevelN+1

Et ainsi de suite jusqu'à ce que le dernier niveau. La clé est que chaque niveau doit inclure ses propres données source spécifiques ainsi que les résultats du niveau précédent. J'ai regardé le porc, la ruche, le hamake et la cascade, mais je n'ai pas encore vu de support clair pour quelque chose comme ça.

Est-ce que quelqu'un connaît un moyen efficace d'accomplir cela? En ce moment je penche vers l'écriture d'un wrapper pour hamake qui va générer le fichier hamake basé sur les paramètres (le nombre de niveaux est connu à l'exécution mais pourrait changer à chaque exécution).

Merci!

Source

2010-09-02 David Bennett

oozie http://yahoo.github.com/oozie/ est un serveur Open Source Yahoo a publié pour gérer Hadoop & flux de porc comme vous demandez

Cloudera a dans leur dernière distro avec une très bonne documentation https://wiki.cloudera.com/display/DOC/Oozie+Installation

est une vidéo ici http://sg.video.yahoo.com/watch/5936767/15449686 de Yahoo

Source

2010-09-02 20:47:04

Vous devriez être en mesure de générer le code de porc pour ce assez facilement en utilisant Porcinet, le DSL Ruby Pig: http://github.com/iconara/piglet

Source

2010-09-05 06:53:53 SquareCog

Séquence de tâches en boucle/en boucle

Répondre

Questions connexes