Apache Spark - Scala - comment FlatMap (k, {v1, v2, v3, ...}) à ((k, v1), (k, v2), (k, v3), ...)

Je suis arrivé ceci:Apache Spark - Scala - comment FlatMap (k, {v1, v2, v3, ...}) à ((k, v1), (k, v2), (k, v3), ...)

val vector: RDD[(String, Array[String])] = [("a", {v1,v2,..}),("b", {u1,u2,..})]

voulez convertir:

RDD[(String, String)] = [("a",v1), ("a",v2), ..., ("b",u1), ("b",u2), ...]

Toute idée comment faire en utilisant flatMap.

Source

2016-07-19 kambiz

Ce:

vector.flatMap { case (x, arr) => arr.map((x, _)) }

vous donnera:

scala> val vector = sc.parallelize(Vector(("a", Array("b", "c")), ("b", Array("d", "f")))) 
vector: org.apache.spark.rdd.RDD[(String, Array[String])] = 
       ParallelCollectionRDD[3] at parallelize at <console>:27 


scala> vector.flatMap { case (x, arr) => arr.map((x, _)) }.collect 
res4: Array[(String, String)] = Array((a,b), (a,c), (b,d), (b,f))

Source

2016-07-19 15:30:24

Merci, ça a marché! – kambiz

@kambiz Bienvenue. –

Que faire si le deuxième tableau est un HashMap? J'ai essayé la même fonction. Les résultats ne font que renvoyer le premier élément de la carte. – kambiz

Vous pouvez certainement besoin d'utiliser flatMap comme vous l'avez mentionné, mais en plus, vous devez utiliser scala map ainsi.

Par exemple:

val idToVectorValue: RDD[(String, String ] = vector.flatMap((id,values) => values.map(value => (id, value)))

Source

2016-07-19 15:30:26

erreur: mauvais nombre de paramètres; attendu = 1 (voir le commentaire précédent) – kambiz

En utilisant seule fonction de paramètres:

vector.flatMap(data => data._2.map((data._1, _)))

Source

2016-07-19 19:20:20 avr

Apache Spark - Scala - comment FlatMap (k, {v1, v2, v3, ...}) à ((k, v1), (k, v2), (k, v3), ...)

Répondre

Questions connexes