2016-04-01 1 views
0

J'ai plusieurs fichiers très volumineux (près de 500 Mo) en entrée de mon programme MR. Je divise (divise) ces fichiers en partitions de taille égale. Chaque Mapper obtient seule partition d'un fichierRassemblement de plusieurs résultats du mappeur triés à Reducer dans Hadoop

Mapper: Key = (nom de fichier, numéro_partition) et la valeur = (flux de caractères de la partition)

Je demande un certain calcul sur la valeur (flux de caractères) dans le mappeur. Je veux rassembler le résultat correspondant à un fichier d'entrée (pour toutes ses partitons) dans un réducteur. J'ai donc pensé à la clé i/p du réducteur comme nom de fichier. Mais les sorties de mapper doivent être rassemblées séquentiellement en réducteur (comme [partition1 o/p + partition2 + ... + partitionN o/p])

Pouvez-vous me suggérer la logique. Merci.

Répondre