2017-06-13 4 views
0

Je suis en train de résoudre les données titanesques établies à partir Kaggle. Je l'ai fait presque tout le travail sur les données de la rame train (891 obs de 12 variables) test (418 obs de 11 variables)nom de facteur a de nouveaux niveaux tout en utilisant la fonction de prédire des données de test mis

Je arbres de décision utilisés (méthode rpart)

matrice de confusion (pred_train , train $ Survécu) Confusion Matrix et statistiques

   Reference 
    Prediction 0 1 
      0 549 0 
      1 0 342 

       Accuracy : 1     
       95% CI : (0.996, 1)   
    No Information Rate : 0.616    
    P-Value [Acc > NIR] : <0.0000000000000002 

        Kappa : 1     
Mcnemar's Test P-Value : NA     

      Sensitivity : 1.000    
      Specificity : 1.000    
     Pos Pred Value : 1.000    
     Neg Pred Value : 1.000    
      Prevalence : 0.616    
     Detection Rate : 0.616    
    Detection Prevalence : 0.616    
     Balanced Accuracy : 1.000    

     'Positive' Class : 0     

J'utilise pred <- predict (fit ,test ,type = "class") je reçois

Erreur dans model.frame.default (Conditions, newdata, na.action = na.action, xlev = attr (objet,: Nom du facteur a de nouveaux niveaux Abbott, Maître. E ...

comment puis-je résoudre ce problème, car il y a une différence dans les observations de train et test de jeu de données (891 et 418) et je l'ai déjà identifiant supprimé (passengerId) à partir des données de la rame

Répondre

0

tester et former puis utiliser facteur et extraire "nouveau" train et tester avec tous les niveaux de facteur

+0

vous voulez dire avant d'appliquer des arbres de décision ou de tout début (même avant l'ingénierie des caractéristiques) –

+0

oui à la début s'il y a un facteur inconnu dans les données de test prédire un échec –

+0

x <- cbind (x_trai n, y_train) # grandir arbre forme <- rpart (y_train ~, données = x, method = "classe") résumé (s'adapter) #Predict sortie prédit = prédire (ajustement, x_test) où y_train = train. $ survécu, x_train = train, x_test = test erreur i gt erreur dans eval (predvars, données, env): objet 'survécu' not found –