Différences entre null et NaN dans l'étincelle? Comment y faire face?

Dans mon dataframe, il y a des colonnes, y compris les valeurs de nulles et NaN respectivement, tels que:Différences entre null et NaN dans l'étincelle? Comment y faire face?

df = spark.createDataFrame([(1, float('nan')), (None, 1.0)], ("a", "b")) 
df.show() 

+----+---+ 
| a| b| 
+----+---+ 
| 1|NaN| 
|null|1.0| 
+----+---+

Y a-t-il une différence entre les? Comment peuvent-ils être traités?

Source

2017-05-10 Ivan Lee

null valeurs représente « aucune valeur » ou « rien », il est même pas une chaîne vide ou nulle. Il peut être utilisé pour représenter que rien d'utile n'existe. NaN signifie "Not a Number", c'est généralement le résultat d'une opération mathématique qui n'a aucun sens, par ex. 0.0/0.0.

Une façon possible de gérer valeurs nulles est de les supprimer avec:

df.na.drop()

Ou vous pouvez les modifier à une valeur réelle (ici je 0) avec:

df.na.fill(0)

Une autre façon serait de sélectionner les lignes où une colonne spécifique est null pour un traitement ultérieur:

df.where(col("a").isNull) 
df.where(col("a").isNotNull)

lignes avec NaN peuvent également être sélectionnées en utilisant la méthode équivalente:

df.where(col("a").isNaN)

Source

2017-05-10 03:13:46 Shaido

J'ai reçu les réponses complètes de @Shadio. Merci! –

Voilà un exemple de réponse parfaite, juste sympa :) –

Merci, gentil d'être utile. :) – Shaido

Vous pouvez diference votre NaN valeurs en utilisant la fonction isnan, comme cet exemple

>>> df = spark.createDataFrame([(1.0, float('nan')), (float('nan'), 2.0)], ("a", "b")) 
>>> df.select(isnan("a").alias("r1"), isnan(df.a).alias("r2")).collect() 
[Row(r1=False, r2=False), Row(r1=True, r2=True)]

Le diference est dans le type de l'objet qui generetes la valeur. NaN (pas un nombre) est un moyen à l'ancienne de faire face à la "Aucune valeur pour un nombre", vous pouvez penser que vous avez tous les nombres (-1-2 ... 0,1,2 ...) et il y a le besoin d'avoir et de valeur supplémentaire, pour les cas d'erreurs (exemple, 1/0), je veux que 1/0 me donne un numéro, mais quel numéro? bien, comme il y a un nombre pour 1/0, ils créent une nouvelle valeur appelée NaN, qui est aussi de type Number.

Aucune n'est utilisée pour le vide, l'absence d'un élément, est encore plus abstraite, car à l'intérieur du type de nombre, vous avez, outre la valeur de NaN, la valeur None. La valeur None est présent dans tous les ensembles de valeurs de tous les types

Source

2017-05-10 02:39:10

Merci, pourriez-vous indiquer la différence entre les deux types de nul et Nan étincelle? Je suis toujours confus au sujet de la raison pour laquelle l'étincelle sort de ces deux types pour ne rien représenter. –

Oui bien sûr, je vais l'ajouter –

J'espère que cela éclaire votre esprit, votre question était très intéressante, car il n'est pas simple à comprendre et à faire face à ce genre de concepts. Nice :) –

Différences entre null et NaN dans l'étincelle? Comment y faire face?

Répondre

Questions connexes