Je suis à la recherche d'un projet de recherche/implémentation basé sur Hadoop et je suis tombé sur la liste affichée sur la page wiki - http://wiki.apache.org/hadoop/ProjectSuggestions. Mais, cette page a été mise à jour pour la dernière fois en septembre 2009. Donc, je ne suis pas sûr si certaines de ces idées ont déjà été implémentées ou non. J'ai été particulièrement intéressé par «l'optimisation du tri et du shuffle dans le cadre MR» qui parle de «combiner les résultats de plusieurs cartes sur un rack ou un nœud avant le shuffle, ce qui peut réduire le travail de recherche et le stockage intermédiaire».Optimisation du tri et du shuffle dans Hadoop MapReduce
Est-ce que quelqu'un a déjà essayé cela? Est-ce implémenté dans la version actuelle de Hadoop?