Rassemblement de plusieurs résultats du mappeur triés à Reducer dans Hadoop

J'ai plusieurs fichiers très volumineux (près de 500 Mo) en entrée de mon programme MR. Je divise (divise) ces fichiers en partitions de taille égale. Chaque Mapper obtient seule partition d'un fichierRassemblement de plusieurs résultats du mappeur triés à Reducer dans Hadoop

Mapper: Key = (nom de fichier, numéro_partition) et la valeur = (flux de caractères de la partition)

Je demande un certain calcul sur la valeur (flux de caractères) dans le mappeur. Je veux rassembler le résultat correspondant à un fichier d'entrée (pour toutes ses partitons) dans un réducteur. J'ai donc pensé à la clé i/p du réducteur comme nom de fichier. Mais les sorties de mapper doivent être rassemblées séquentiellement en réducteur (comme [partition1 o/p + partition2 + ... + partitionN o/p])

Pouvez-vous me suggérer la logique. Merci.

Source

2016-04-01 Sumit

Vous avez besoin d'un tri secondaire. Pour voir un exemple https://vangjee.wordpress.com/2012/03/20/secondary-sorting-aka-sorting-values-in-hadoops-mapreduce-programming-paradigm/

Dans ce cas, »

primaire compare le Comparator [nom de fichier, numéro_partition]
Groupe sur le nom de fichier Comparator ne
Partitioner sur le nom de fichier ne

Source

2016-04-04 10:34:03 alexeipab

Rassemblement de plusieurs résultats du mappeur triés à Reducer dans Hadoop

Répondre

Questions connexes