Supposons que vous vouliez évaluer un modèle glm simple pour prévoir une série de données économiques. Considérons le code suivant:Interprétation de modèle en utilisant la méthode timeslice dans CARET
library(caret)
library(ggplot2)
data(economics)
h <- 7
myTimeControl <- trainControl(method = "timeslice",
initialWindow = 24*h,
horizon = 12,
fixedWindow = TRUE)
fit.glm <- train(unemploy ~ pce + pop + psavert,
data = economics,
method = "glm",
preProc = c("center", "scale","BoxCox"),
trControl = myTimeControl)
Supposons que les covariables utilisées dans la formule de train sont des prédictions de valeurs obtenues par un autre modèle. Ce modèle simple donne les résultats suivants:
Generalized Linear Model
574 samples
3 predictor
Pre-processing: centered (3), scaled (3), Box-Cox transformation (3)
Resampling: Rolling Forecasting Origin Resampling (12 held-out with a fixed
window)
Summary of sample sizes: 168, 168, 168, 168, 168, 168, ...
Resampling results:
RMSE Rsquared
1446.335 0.2958317
Outre les mauvais résultats obtenus (ce qui est seulement un exemple). Je me demande si elle est correcte:
- Pour examiner les résultats ci-dessus que les résultats obtenus sur l'ensemble des données, par un GLM formé en utilisant seulement 24 * h = 24 * 7 échantillons et une nouvelle formation après chaque horizon = 12 échantillons
- Comment évaluer RMSE comme horizon croît de 1 à 12 (tel que rapporté ici http://robjhyndman.com/hyndsight/tscvexample/)?
si je montre résumé fit.glm-je obtenir:
Call:
NULL
Deviance Residuals:
Min 1Q Median 3Q Max
-5090.0 -1025.5 -208.1 833.4 4948.4
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7771.56 64.93 119.688 < 2e-16 ***
pce 5750.27 1153.03 4.987 8.15e-07 ***
pop -1483.01 1117.06 -1.328 0.185
psavert 2932.38 144.56 20.286 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for gaussian family taken to be 2420081)
Null deviance: 3999514594 on 573 degrees of freedom
Residual deviance: 1379446256 on 570 degrees of freedom
AIC: 10072
Number of Fisher Scoring iterations: 2
Les paramètres ont montré se référer à la dernière GLM formés ou sont paramters "moyenne"? J'espère avoir été assez clair.