Je travaille dans Spark 1.6 (malheureusement). J'ai un dataframe avec beaucoup de colonnes avec 0 et 1 comme valeurs. Je veux prendre le pourcentage de 1 par colonne. donc je fais:Prendre la somme d'une trame de données pyspark par colonne effieciently
rowsNum = dfBinary.count()
dfStat = dfBinary.select([(count(when(col(c) == 1 , c))/rowsNum).
alias(c) for c in dfBinary.columns])
est-il un moyen plus efficace de le faire? Peut-être une fonction intégrée avec une somme par colonne (je n'en ai pas trouvé cependant).