1

Comment spécifier TotalOrderPartitioner lors de l'utilisation de mrjob? Est-ce la valeur par défaut ou doit-elle être spécifiée explicitement? J'ai vu un comportement incohérent sur différents ensembles de données.TotalOrderPartitioner et mrjob

Répondre

1

Vous pouvez spécifier avec job.setPartitionerClass(TotalOrderPartitioner.class);

Il n'est pas la classe par défaut partitionneur. La valeur par défaut est la classe HashPartitioner.

Ce n'est pas un système de partitionnement très facile à utiliser. Vous devez utiliser un InputSampler pour pré-échantillonner les données de votre entrée lorsque vous utilisez TotalOrderPartitioner.

J'ai écrit un tutoriel très détaillé avec des exemples et des illustrations (de débutant à l'utilisation avancée) sur la façon d'utiliser ces here.

+0

Merci pour la référence au tutoriel. C'est très bien. Vous avez raison, c'est complexe. – vy32