Je travaille avec un fichier csv comme ci-dessousConversion Dataset [Array [chaîne]] pour Dataset [MyCaseClass]
"age;""job"";""marital"""
"58;""management"";""married"""
"44;""technician"";""single"""
En raison des citations supplémentaires, spark.read.csv ne donne pas les colonnes propres. J'ai donc pensé à utiliser spark.read.textFile qui donne Dataset [String]. J'utilise le code ci-dessous pour supprimer les citations et les séparer.
case class MyCaseClass(age: String, job: String, marital: String)
val inputDS = spark.read.textFile(inpPath)
val cleanDS = inputDS.map(_.replaceAll(""""""", "").split(";"))
val seperatedDS = cleanDS.as[MyCaseClass] //fails
Est-il possible de réaliser ce genre de Dataset ou convertion une meilleure façon de diviser en plusieurs colonnes sur? Pour l'instant j'utilise RDD pour faire le travail, mais j'aimerais savoir comment le faire.
Bien sûr qui peut être fait! Je vous remercie!! – Shasankar