2012-08-14 1 views
2

Dans un article Google sur la mise en œuvre d'un arbre de décision pour l'analyse des données volumineuses, ils mentionnent quelque chose au sujet des travaux de réduction de la planification de la planification.Hadoop Forward Scheduling

Ils disent que s'ils ont actuellement 2 tâches à exécuter, ils exécutent le premier travail et le deuxième travail commence à se configurer. Ils ont un fil pour voir quand le premier travail est terminé et quand il le fait, ils alimentent l'entrée au deuxième travail et le démarrent. Cela leur fait gagner beaucoup de temps car l'algorithme qu'ils mentionnent a des tâches itératives.

Je me demande comment cela peut-il être fait sur hadoop. Voici la citation du papier. La programmation est avant au paragraphe 6,1

Planet

Répondre

2

Si vous ne voulez pas utiliser Oozie pour cela, vous pouvez le faire directement dans le code Java.

J'ai écrit sur la façon de réaliser des emplois itératives dans Hadoop:

http://codingwiththomas.blogspot.de/2011/04/controlling-hadoop-job-recursion.html

Mais remarquez que ce n'est pas très efficace, pour l'itération des algorithmes lourds, vous devriez mieux utiliser Apache Hama.

+0

Merci thomas.J'ai vu votre travail avant quand j'ai commencé à construire ce cadre et j'ai trouvé des choses utiles.La chose est que je l'ai terminé maintenant et Cela fonctionne très bien, je cherche seulement quelques optimisations. J'ai trouvé que moi-même ce hadoop n'est pas très itératif et j'ai vu vos recommandations sur hama, mais je ne voulais pas gâcher de nouvelles choses puisque j'étais à court de temps. La chose que google construisait sûrement n'était pas la plus efficace mais ils ont réussi à le faire efficace avec beaucoup de travail au niveau de hadoop. Si hama et oozie sont les seules choses qui peuvent aider, alors je les regarderai dans le temps – jojoba

+1

Non problème, espérons que ce flux de travail itération fonctionnera pour vos travaux mapreduce. –

2

Oozie est ce que vous recherchez. C'est un peu immature au fur et à mesure que la technologie évolue, mais je crois que cela permettrait de gérer la fonctionnalité de flux de travaux que vous décrivez. Vous pouvez créer des graphiques de dépendance et déclencher l'exécution sur les événements.

+0

merci je vais jeter un coup d'oeil à lui mais je suis très à l'heure et je pense que je ne serai pas capable de l'utiliser, au moins pour l'instant. J'ai déjà complété le cadre et j'essaie maintenant de le rendre plus efficace. Google a fait la même chose, ils l'ont d'abord complétée et ont ensuite commencé beaucoup d'optimisation, principalement au niveau de hadoop et non dans l'algorithme lui-même. Après tout son google et je pense qu'ils peuvent faire ce genre de thins: P – jojoba