Je suis en train de résoudre les données titanesques établies à partir Kaggle. Je l'ai fait presque tout le travail sur les données de la rame train (891 obs de 12 variables) test (418 obs de 11 variables)nom de facteur a de nouveaux niveaux tout en utilisant la fonction de prédire des données de test mis
Je arbres de décision utilisés (méthode rpart)
matrice de confusion (pred_train , train $ Survécu) Confusion Matrix et statistiques
Reference
Prediction 0 1
0 549 0
1 0 342
Accuracy : 1
95% CI : (0.996, 1)
No Information Rate : 0.616
P-Value [Acc > NIR] : <0.0000000000000002
Kappa : 1
Mcnemar's Test P-Value : NA
Sensitivity : 1.000
Specificity : 1.000
Pos Pred Value : 1.000
Neg Pred Value : 1.000
Prevalence : 0.616
Detection Rate : 0.616
Detection Prevalence : 0.616
Balanced Accuracy : 1.000
'Positive' Class : 0
J'utilise pred <- predict (fit ,test ,type = "class")
je reçois
Erreur dans model.frame.default (Conditions, newdata, na.action = na.action, xlev = attr (objet,: Nom du facteur a de nouveaux niveaux Abbott, Maître. E ...
comment puis-je résoudre ce problème, car il y a une différence dans les observations de train et test de jeu de données (891 et 418) et je l'ai déjà identifiant supprimé (passengerId) à partir des données de la rame
vous voulez dire avant d'appliquer des arbres de décision ou de tout début (même avant l'ingénierie des caractéristiques) –
oui à la début s'il y a un facteur inconnu dans les données de test prédire un échec –
x <- cbind (x_trai n, y_train) # grandir arbre forme <- rpart (y_train ~, données = x, method = "classe") résumé (s'adapter) #Predict sortie prédit = prédire (ajustement, x_test) où y_train = train. $ survécu, x_train = train, x_test = test erreur i gt erreur dans eval (predvars, données, env): objet 'survécu' not found –