2016-11-10 6 views

Répondre

0

Vous pouvez faire créer une nouvelle RDD avec seulement la deuxième colonne, rdd2=rdd.map(lambda l: l[1]). Ensuite, faites le cartesian de ces deux RDD:

rdd.cartesian(rdd2).map(lambda v: (v[0][0],v[0][1],v[1]))

Le map est là parce que cartesian retournera les lignes comme ((id1,A),A), et que map convertit à (id1,A,A)