2010-02-10 6 views
4

Cette question n'a pas une seule "bonne" réponse.Carte réduire les algorithmes sur téraoctets de données?

Je suis intéressé par l'exécution d'algorithmes Map Reduce, sur un cluster, sur des téraoctets de données.

Je veux en savoir plus sur le temps de fonctionnement desdits algorithmes.

Quels livres devrais-je lire?

Je ne suis pas intéressé par la configuration de clusters de réduction de carte ou l'exécution d'algorithmes standard. Je veux des traitements théoriques rigoureux ou du temps de course.

EDIT: Le problème n'est pas que la carte réduise les changements de durée. Le problème est que la plupart des algorithmes ne distribuent pas bien pour mapper les frameworks. Je suis intéressé par les algorithmes qui s'exécutent sur la carte de réduire le cadre.

Répondre

4

Techniquement, il n'y a pas vraiment de différence dans l'analyse d'exécution de MapReduce par rapport aux algorithmes "standard" - MapReduce est toujours un algorithme comme les autres (ou plus précisément, une classe d'algorithmes interaction entre ces étapes). L'exécution d'un travail MapReduce va encore évoluer à l'échelle prédictive de l'analyse algorithmique normale, lorsque vous prenez en compte la répartition des tâches sur plusieurs machines, puis trouvez le temps machine maximum individuel requis pour chaque étape. Autrement dit, si vous avez une tâche qui nécessite des opérations de mappage M et R une réduction des opérations, s'exécutant sur N machines, et que vous prévoyez que l'opération de carte moyenne prendra m temps et l'opération de réduction moyenne r, aura un temps d'exécution prévu de ceil(M/N)*m + ceil(R/N)*r temps pour terminer toutes les tâches en question.

La prédiction des valeurs de M, R, m et r est tout ce qui peut être accompli avec l'analyse normale de l'algorithme que vous connectez à MapReduce.

1

Il n'y a que deux livres que je connais qui sont publiés, mais il y a plus dans les œuvres:

Pro hadoop et Hadoop: The Definitive Guide

Parmi ceux-ci, Pro Hadoop est plus d'un livre de débutants, tandis que les Guide définitif est pour ceux qui savent ce qu'est réellement Hadoop.

Je possède le Guide définitif et pense que c'est un excellent livre. Il fournit de bons détails techniques sur le fonctionnement de HDFS, ainsi que sur un éventail de sujets connexes tels que MapReduce, Pig, Hive, HBase, etc. Il convient également de noter que ce livre a été écrit par Tom White, qui a été impliqué dans développement de Hadoop pour un bon moment, et travaille maintenant au cloudera.

En ce qui concerne l'analyse des algorithmes, vous pouvez consulter les tests de tri de TeraByte. Yahoo a rédigé un rapport sur les performances de Hadoop pour ce benchmark particulier: TeraByte Sort on Apache Hadoop. Ce document a été écrit en 2008.

Plus de détails sur les résultats 2009 peuvent être trouvés here.

Questions connexes