Donc, pour quelque chose comme ceci:Pourquoi Spark SQL active-t-il la valeur NULL pour la colonne de chaîne même lorsque toutes les valeurs sont spécifiées?
case class RandomClass(stringOne: String, stringTwo: String, numericOne: Int)
val ds = Seq(
RandomClass("a", null, 1),
RandomClass("a", "x", 3),
RandomClass("a", "y", 4),
RandomClass("a", null, 5)
).toDS()
ds.printSchema()
résultats dans
root
|-- stringOne: string (nullable = true)
|-- stringTwo: string (nullable = true)
|-- numericOne: integer (nullable = false)
pourquoi serait stringOne
être nullable?
Étrangement, numericOne
est correctement inféré. Je suppose que je manque juste quelque chose sur la relation entre Dataset et DataFrame API?