2016-09-19 2 views
0

Supposons que vous vouliez évaluer un modèle glm simple pour prévoir une série de données économiques. Considérons le code suivant:Interprétation de modèle en utilisant la méthode timeslice dans CARET

library(caret) 
library(ggplot2) 
data(economics) 
h <- 7 
myTimeControl <- trainControl(method = "timeslice", 
           initialWindow = 24*h, 
           horizon = 12, 
           fixedWindow = TRUE) 

fit.glm <- train(unemploy ~ pce + pop + psavert, 
        data = economics, 
        method = "glm", 
        preProc = c("center", "scale","BoxCox"), 
        trControl = myTimeControl) 

Supposons que les covariables utilisées dans la formule de train sont des prédictions de valeurs obtenues par un autre modèle. Ce modèle simple donne les résultats suivants:

Generalized Linear Model 

574 samples 
3 predictor 

Pre-processing: centered (3), scaled (3), Box-Cox transformation (3) 
Resampling: Rolling Forecasting Origin Resampling (12 held-out with a fixed 
window) 
Summary of sample sizes: 168, 168, 168, 168, 168, 168, ... 
Resampling results: 

RMSE  Rsquared 
1446.335 0.2958317 

Outre les mauvais résultats obtenus (ce qui est seulement un exemple). Je me demande si elle est correcte:

  1. Pour examiner les résultats ci-dessus que les résultats obtenus sur l'ensemble des données, par un GLM formé en utilisant seulement 24 * h = 24 * 7 échantillons et une nouvelle formation après chaque horizon = 12 échantillons
  2. Comment évaluer RMSE comme horizon croît de 1 à 12 (tel que rapporté ici http://robjhyndman.com/hyndsight/tscvexample/)?

si je montre résumé fit.glm-je obtenir:

Call: 
NULL 

Deviance Residuals: 
    Min  1Q Median  3Q  Max 
-5090.0 -1025.5 -208.1 833.4 4948.4 

Coefficients: 
      Estimate Std. Error t value Pr(>|t|)  
(Intercept) 7771.56  64.93 119.688 < 2e-16 *** 
pce   5750.27 1153.03 4.987 8.15e-07 *** 
pop   -1483.01 1117.06 -1.328 0.185  
psavert  2932.38  144.56 20.286 < 2e-16 *** 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for gaussian family taken to be 2420081) 

Null deviance: 3999514594 on 573 degrees of freedom 
Residual deviance: 1379446256 on 570 degrees of freedom 


AIC: 10072 

Number of Fisher Scoring iterations: 2 

Les paramètres ont montré se référer à la dernière GLM formés ou sont paramters "moyenne"? J'espère avoir été assez clair.

Répondre

0

Cette méthode de rééchantillonnage est similaire à toutes les autres. Le RMSE est estimé en utilisant différents sous-ensembles de données d'apprentissage. Notez qu'il est écrit "Summary of sample sizes: 168, 168, 168, 168, 168, 168, ...". Le modèle final utilise tous de l'ensemble de données d'apprentissage. La différence entre les résultats de Rob et ceux-ci sont principalement dues à la différence entre l'erreur moyenne absolue (MAE) et l'erreur quadratique moyenne (RMSE)