2017-09-22 9 views
1

J'ai un Spark DataFrame, train_tbl, qui contient 48 colonnes différentes. Je veux former un modèle de forêt aléatoire avec le package sparklyr qui utilise l'une des 48 colonnes en tant que variable response et toutes les autres colonnes en tant que features. Existe-t-il un moyen de spécifier que je veux utiliser tous les champs sauf loan_status comme fonctionnalités, sans avoir à taper tous les 47 noms de champs?sparklyr: sélectionne toutes les colonnes sauf réponse lors de la formation du modèle

ml_random_forest(x = train_tbl, 
       response = "loan_status", 
       features = call all fields EXCEPT "loan_status", 
       num.trees = 10L, 
       type = "classification") 

Répondre

1

Cela devrait fonctionner.

ml_random_forest(x = train_tbl, 
       response = "loan_status", 
       features = names(train_tbl)[which(names(train_tbl)!="loan_status")], 
       num.trees = 10L, 
       type = "classification") 
+1

@ waskuf cela ne fonctionne pas, mais tu me conduit certainement dans la bonne direction ... J'ai commencé avec votre syntaxe pour 'features' et modifié à la suivante qui a fonctionné:' colnames (train_tbl%> % select (-loan_status)) ' – bshelt141

+0

Mis à jour ma réponse, les crochets au carré doivent être des noms extérieurs(). Devrait fonctionner maintenant. – waskuf