sparklyr: sélectionne toutes les colonnes sauf réponse lors de la formation du modèle

J'ai un Spark DataFrame, train_tbl, qui contient 48 colonnes différentes. Je veux former un modèle de forêt aléatoire avec le package sparklyr qui utilise l'une des 48 colonnes en tant que variable response et toutes les autres colonnes en tant que features. Existe-t-il un moyen de spécifier que je veux utiliser tous les champs sauf loan_status comme fonctionnalités, sans avoir à taper tous les 47 noms de champs?sparklyr: sélectionne toutes les colonnes sauf réponse lors de la formation du modèle

ml_random_forest(x = train_tbl, 
       response = "loan_status", 
       features = call all fields EXCEPT "loan_status", 
       num.trees = 10L, 
       type = "classification")

Source

2017-09-22 bshelt141

Cela devrait fonctionner.

ml_random_forest(x = train_tbl, 
       response = "loan_status", 
       features = names(train_tbl)[which(names(train_tbl)!="loan_status")], 
       num.trees = 10L, 
       type = "classification")

Source

2017-09-22 14:56:50 waskuf

@ waskuf cela ne fonctionne pas, mais tu me conduit certainement dans la bonne direction ... J'ai commencé avec votre syntaxe pour 'features' et modifié à la suivante qui a fonctionné:' colnames (train_tbl%> % select (-loan_status)) ' – bshelt141

Mis à jour ma réponse, les crochets au carré doivent être des noms extérieurs(). Devrait fonctionner maintenant. – waskuf

sparklyr: sélectionne toutes les colonnes sauf réponse lors de la formation du modèle

Répondre

Questions connexes