Je dois calculer des quantiles d'étincelles sur un champ numérique après un groupe par opération. Existe-t-il un moyen d'appliquer le approxPercentile sur une liste agrégée au lieu d'une colonne?Spark percentile de calcul de données sur un tableau
E.g. Le Dataframe ressemble à
k1 | k2 | k3 | v1
a1 | b1 | c1 | 879
a2 | b2 | c2 | 769
a1 | b1 | c1 | 129
a2 | b2 | c2 | 323
J'ai besoin d'abord exécuter groupBy (k1, k2, k3)
et collect_list(v1)
, puis calculer quantiles [10th, 50th...]
sur la liste des v1 de