Dans un article Google sur la mise en œuvre d'un arbre de décision pour l'analyse des données volumineuses, ils mentionnent quelque chose au sujet des travaux de réduction de la planification de la planification.Hadoop Forward Scheduling
Ils disent que s'ils ont actuellement 2 tâches à exécuter, ils exécutent le premier travail et le deuxième travail commence à se configurer. Ils ont un fil pour voir quand le premier travail est terminé et quand il le fait, ils alimentent l'entrée au deuxième travail et le démarrent. Cela leur fait gagner beaucoup de temps car l'algorithme qu'ils mentionnent a des tâches itératives.
Je me demande comment cela peut-il être fait sur hadoop. Voici la citation du papier. La programmation est avant au paragraphe 6,1
Merci thomas.J'ai vu votre travail avant quand j'ai commencé à construire ce cadre et j'ai trouvé des choses utiles.La chose est que je l'ai terminé maintenant et Cela fonctionne très bien, je cherche seulement quelques optimisations. J'ai trouvé que moi-même ce hadoop n'est pas très itératif et j'ai vu vos recommandations sur hama, mais je ne voulais pas gâcher de nouvelles choses puisque j'étais à court de temps. La chose que google construisait sûrement n'était pas la plus efficace mais ils ont réussi à le faire efficace avec beaucoup de travail au niveau de hadoop. Si hama et oozie sont les seules choses qui peuvent aider, alors je les regarderai dans le temps – jojoba
Non problème, espérons que ce flux de travail itération fonctionnera pour vos travaux mapreduce. –