J'ai un problème lorsque je dois générer un numéro de séquence à partir de 1 dans le fichier entier.Générer un numéro de séquence à l'aide de Map Reduce
Ex permet de dire que j'ai un gros fichier comme suit: -
abc, 123
abb, 111
ccc, 122
..... N nombre de cette ligne
maintenant ma sortie devrait être comme suit: -
1, abc, 123
2, abb, 111
3, ccc, 122
.... ainsi de suite. Le problème de faire ceci en utilisant mapreduce est que chaque division du fichier est traitée en parallèle par une fonction de carte différente en raison de laquelle la séquence n'a pas pu être maintenue. S'il vous plaît ne me dites pas d'utiliser un seul réducteur pour le faire. Je ne veux pas utiliser de réducteur unique car je veux le faire en parallèle en utilisant le travail typique de mapreduce. Donc, y a-t-il un meilleur moyen pour que cela puisse être fait en utilisant map-reduce?
Voir ce qui devrait être utile: http://blog.data-miners.com/2009/11/hadoop-and-mapreduce -parallel-program.html – Amar
Avez-vous besoin de maintenir l'ordre? – twid
Oui, j'ai besoin que la commande soit maintenue – Binary01