J'ai deux fichiers, dans les formats suivants:Comment suggéreriez-vous d'effectuer "Join" avec Hadoop streaming?
field1, field2, field3
field4, field1, field5
Un autre numéro de champ indique un sens différent.
Je veux rejoindre les deux fichiers en utilisant Hadoop en streaming basé sur le champ mutuel (field1
dans l'exemple ci-dessus) de sorte que la sortie sera field1, field2, field3, field4, field5
(d'autres sont ok ordonnancements tout aussi longtemps qu'ils ont tous les champs).