C'est probablement une question stupide, mais quand j'utilise la fonction H2O Predict dans R, je me demande s'il y a moyen de spécifier qu'elle garde une colonne ou des colonnes à partir des données de notation. Plus précisément, je veux conserver ma clé d'identification unique. En l'état actuel des choses, je finis par faire l'approche vraiment inefficace d'assigner une clé d'index à l'ensemble de données original et une aux scores, puis de fusionner les scores à l'ensemble de données de notation. Je préférerais juste dire "marquer cet ensemble de données et garder les colonnes x, y, z ....". Aucun conseil?Conserver la clé d'identification (ou toute autre colonne) lors de la notation d'un nouvel ensemble de données?
Code Inefficace:
#Use H2O predict function to score new data
NL2L_SCore_SetScored.hex = h2o.predict(object = best_gbm, newdata =
NL2L_SCore_Set.hex)
#Convert scores hex to data frame from H2O
NL2L_SCore_SetScored.df<-as.data.frame(NL2L_SCore_SetScored.hex)
#add index to the scores so we can merge the two datasets
NL2L_SCore_SetScored.df$ID <- seq.int(nrow(NL2L_SCore_SetScored.df))
#Convert orignal scoring set to data frame from H2O
NL2L_SCore_Set.df<-as.data.frame(NL2L_SCore_Set.hex)
#add index to original scoring data so we can merge the two datasets
NL2L_SCore_Set.df$ID <- seq.int(nrow(NL2L_SCore_Set.df))
#Then merge by newly created ID Key so I have the scores on my scoring data
#set. Ideally I wouldn't have to even create this key and could keep
#original Columns from the data set, which include the customer id key
Full_Scored_Set=inner_join(NL2L_SCore_Set.df,NL2L_SCore_Set.df, by="ID")