Pour des raisons d'équilibrage de charge, je souhaite créer plus de partitions que de réducteurs dans un environnement Hadoop. Est-il possible d'attribuer des partitions à des réducteurs spécifiques et, si oui, où puis-je les définir? J'ai écrit un Partitioner individuel et je veux maintenant adresser un réducteur spécifique avec des partitions spécifiques.hadoop distribuer les partitions au réducteur
Merci d'avance pour l'aide!
merci beaucoup pour votre réponse. Est-il donc correct que je ne puisse pas analyser les données pendant la fonction map et après que tous les mappeurs aient terminé, calculez la distribution des données et distribuez-les ensuite avec un partitionneur individuel, qui est juste construit après toutes les fonctions de la carte sont effectuées et la distribution spécifique (en fonction de l'entrée) de mes données. – beto8888
Malheureusement, Hadoop n'autorise pas ce type de contrôle. Il y aura peut-être quelque chose dans les prochains travaux sur Hadoop YARN et MR2, car il s'agit d'une refonte majeure, mais je ne suis pas au courant de cela aujourd'hui. Si j'ai répondu à la question à votre satisfaction, veuillez accepter ma réponse. – Engineiro
user2323063, en fait, vous pouvez échantillonner vos données en exécutant des cartes sur des portions de données, puis placer des divisions calculées sur le cache distribué. comment cela peut être fait, vous pouvez voir dans TeraSort imlementation http://hadoop.apache.org/docs/current/api/org/apache/hadoop/examples/terasort/package-summary.html – octo