Quelle est la meilleure solution pour généraliser la conversion de RDD [Vector] en DataFrame avec scala/spark 1.6. Les entrées sont différentes RDD [Vector]. Le nombre de colonnes dans Vector peut être compris entre 1 et n pour différents RDD.Spark - Convertir RDD [Vector] en DataFrame avec des colonnes variables
J'ai essayé d'utiliser une bibliothèque sans forme, en leur indiquant le nombre et le type des colonnes déclarées. ES:
val df = rddVector.map(_.toArray.toList)
.collect {
case t: List[Double] if t.length == 3 => t.toHList[Double :: Double :: Double :: HNil].get.tupled.productArity
}
.toDF("column_1", "column_2", "column_3")
Merci!
D'après ce que je comprends, répondis-je quelque chose de similaire ici: https://stackoverflow.com/a/45009516/7224597 Pouvez-vous vérifier si cela fonctionne pour vous? – philantrovert