Comment spécifier TotalOrderPartitioner lors de l'utilisation de mrjob? Est-ce la valeur par défaut ou doit-elle être spécifiée explicitement? J'ai vu un comportement incohérent sur différents ensembles de données.TotalOrderPartitioner et mrjob
1
A
Répondre
1
Vous pouvez spécifier avec job.setPartitionerClass(TotalOrderPartitioner.class);
Il n'est pas la classe par défaut partitionneur. La valeur par défaut est la classe HashPartitioner
.
Ce n'est pas un système de partitionnement très facile à utiliser. Vous devez utiliser un InputSampler pour pré-échantillonner les données de votre entrée lorsque vous utilisez TotalOrderPartitioner.
J'ai écrit un tutoriel très détaillé avec des exemples et des illustrations (de débutant à l'utilisation avancée) sur la façon d'utiliser ces here.
Merci pour la référence au tutoriel. C'est très bien. Vous avez raison, c'est complexe. – vy32