Salut je travaille dans l'étincelle 1.6.3. J'ai un rdd avec des types de scala BigInt. Comment est-ce que je convertirais cela en un dataframe d'étincelle? Est-il possible de lancer les types avant de créer la base de données?convertir RDD contenant BigInt à Spark Dataframe
Mon RDD:
Array[(BigInt, String, String, BigInt, BigInt, BigInt, BigInt, List[String])] = Array((14183197,Browse,3393626f-98e3-4973-8d38-6b2fb17454b5_27331247X28X6839X1506087469573,80161702,8702170626376335,59,527780275219,List(NavigationLevel, Session)), (14183197,Browse,3393626f-98e3-4973-8d38-6b2fb17454b5_27331247X28X6839X1506087469573,80161356,8702171157207449,72,527780278061,List(StartPlay, Action, Session)))
imprimé:
(14183197,Browse,3393626f-98e3-4973-8d38-6b2fb17454b5_27331247X28X6839X1506087469573,80161356,8702171157207449,72,527780278061,List(StartPlay, Action, Session))
(14183197,Browse,3393626f-98e3-4973-8d38-6b2fb17454b5_27331247X28X6839X1506087469573,80161702,8702170626376335,59,527780275219,List(NavigationLevel, Session))
J'ai fatigué pour créer un objet de schéma;
val schema = StructType(Array(
StructField("trackId", LongType, true),
StructField("location", StringType, true),
StructField("listId", StringType, true),
StructField("videoId", LongType, true),
StructField("id", LongType, true),
StructField("sequence", LongType, true),
StructField("time", LongType, true),
StructField("type", ArrayType(StringType), true)
))
si j'essaie val df = sqlContext.createDataFrame(rdd, schema)
je reçois cette erreur
error: overloaded method value createDataFrame with alternatives:
(data: java.util.List[_],beanClass: Class[_])org.apache.spark.sql.DataFrame <and>
(rdd: org.apache.spark.api.java.JavaRDD[_],beanClass: Class[_])org.apache.spark.sql.DataFrame <and>
(rdd: org.apache.spark.rdd.RDD[_],beanClass: Class[_])org.apache.spark.sql.DataFrame <and>
(rows: java.util.List[org.apache.spark.sql.Row],schema: org.apache.spark.sql.types.StructType)org.apache.spark.sql.DataFrame <and>
(rowRDD: org.apache.spark.api.java.JavaRDD[org.apache.spark.sql.Row],schema: org.apache.spark.sql.types.StructType)org.apache.spark.sql.DataFrame <and>
(rowRDD: org.apache.spark.rdd.RDD[org.apache.spark.sql.Row],schema: org.apache.spark.sql.types.StructType)org.apache.spark.sql.DataFrame
cannot be applied to (org.apache.spark.rdd.RDD[(BigInt, String, String, BigInt, BigInt, BigInt, BigInt, scala.collection.immutable.List[String])], org.apache.spark.sql.types.StructType)
Ou si j'essaie val df = sc.parallelize(rdd.toSeq).toDF
je reçois l'erreur suivante;
error: value toSeq is not a member of org.apache.spark.rdd.RDD[(BigInt, String, String, BigInt, BigInt, BigInt, BigInt, List[String])]
Toute aide est appréciée
merci pour votre commentaire, j'obtiens une erreur 'java.lang.UnsupportedOperationException: Schéma pour le type scala.BigInt n'est pas supporté – ukbaz