Pyspark obtenir la valeur max exclure NaN

2017-08-30 2 views 0 likes

df = spark.createDataFrame([(1.0,100.0, float('nan')), (float('nan'),100.0, 2.0)], ("a", "b")) 
df.select(F.max(df.a)).show()

+------+ 
|max(a)| 
+------+ 
| NaN| 
+------+

Je ne voulais pas NAN, comment puis-je faire?

2017-08-30 sunt

Répondre

vous pouvez faire

df.na.fill(0)

avant d'appliquer votre filtre max

2017-08-30 07:01:40