J'ai une base de données pyspark où certaines de ses colonnes contiennent un tableau de chaînes (et une colonne contient un tableau imbriqué). Par conséquent, je ne peux pas écrire le dataframe à un CSV.Convertir le tableau <string> en chaîne de caractères pyspark dataframe
Voici un exemple de dataframe que je traite -
+-------+--------------------+---------+
|ID | emailed| clicked
+-------+--------------------+---------+
|9000316|[KBR, NRT, AOR] |[[AOR]]
|9000854|[KBR, NRT, LAX] | Null
|9001996|[KBR, JFK] |[[JFK]]
+-------+--------------------+---------+
Je voudrais obtenir la structure suivante, être enregistré en tant que csv.
+-------+--------------------+---------+
|ID | emailed| clicked
+-------+--------------------+---------+
|9000316|KBR, NRT, AOR | AOR
|9000854|KBR, NRT, LAX | Null
|9001996|KBR, JFK | JFK
+-------+--------------------+---------+
Je suis très nouveau à pyspark. Votre aide est grandement appréciée. Je vous remercie!
La colonne 'clicked' aura-t-elle toujours ce format -' [[valeur]] 'ou peut-elle être' [[val1, val2 ...]] '? –