2017-08-15 4 views
1

Je suis en train de lire hadoop cadre de ces dernières semaines, mais je ne suis pas capable de comprendre un concept. Peut-être que cette question est stupide, si c'est plus que désolé pour cela. Ma question est supposé que je dois créer un programme de compte de mots sur un fichier qui est trop long et donc il est distribué sur 3 datanodes différents. Maintenant, puisque la phase de carte s'exécutant sur les trois datanodes créera comme une paire de valeurs clé et après que la fusion sera effectuée sur toutes les données cartographiques créées par les trois datanodes. Mais maintenant je suis incapable de comprendre quelle est la prochaine phase. Signifie comment les données de fusion seront distribuées le long de différentes phases réduites, et combien de phase de réduction fonctionnera et combien de datanodes fonctionneront réduisent la phase. Veuillez effacer mes confusions ci-dessus, à cause de cela je ne peux pas aller plus loin dans hadoop. Désolé pour une question stupide si c'est le cas. MerciComment réduire la phase fonctionne après la phase de la carte dans hadoop

+0

Chaque noeud s'exécute 'réduire' sur ses propres données (premier étage), puis un noeud exécute' réduire' sur les résultats de la première étape. –

+0

Pouvez-vous s'il vous plaît élaborer votre réponse.Je suis incapable de comprendre ce qui est la première étape et ce qui est la deuxième étape –

+0

Première étape est la réduction sur les données que chaque datanode a son propre. Ensuite, la deuxième étape consiste à collecter les données des réductions de la première étape et à les fusionner (parfois, on peut les représenter en appliquant la même réduction sur les résultats). –

Répondre

0
  1. Chacune des tâches de carte après le traitement de sa part des types d'entrée et se confond les données, basées sur la mise en œuvre de la méthode compateTo() de la carte en instance clé de classe. (par exemple, il y avait des arbres différents groupes A, B et C).
  2. Lorsque le traitement atteint une phase déterminée, chacune des tâches de réduction, sur la base des données intermédiaires produites par les tâches cartographiques, ne transfère que les fichiers qui l'intéressent (considérant qu'il n'est intéressé que par le groupe A) , il transférera seulement les fichiers qui appartiennent au groupe A de toutes les machines qui ont réellement produit ces fichiers de catégorie). Le réducteur effectue son propre tri et sa propre fusion pour les données agrégées précédemment transférées à partir des machines qui exécutaient les tâches de carte (c'est-à-dire que vous avez les fichiers A.1, A.2 et A.3, mais depuis chacune des tâches de carte était indépendant de l'ordre de tri les données agrégées ne sont pas garanties, donc le tri est maintenant appliqué au groupe de fichiers agrégé)
  3. La tâche de réduction effectue ensuite le traitement requis et écrit les résultats à l'emplacement final.
  4. L'opération est répétée pour chacun des groupes de résultats.