2017-05-29 3 views
0

Dans R, j'ai utilisé la régression polynomiale pour la base de données ci-dessous. Cela montre que le R2 est bon et que le niveau de signification pour les coefficients et le modèle est inférieur à 0,05. Mais lorsque vous utilisez le shapiro.test pour tester des résidus, la valeur p est 0,01088, ce qui signifie que les résidus ne sont pas conformes à la distribution normale. Je me demande donc si la régression polynomiale est efficace ou non. Les résidus de la régression polynomiale doivent-ils satisfaire l'hypothèse de normalité?Test de normalité pour la régression polynomiale

Ci-dessous sont le code et les données utilisées pour la régression.

alloy<-data.frame(
    x=c(37.0, 37.5, 38.0, 38.5, 39.0, 39.5, 40.0, 
     40.5, 41.0, 41.5, 42.0, 42.5, 43.0), 
    y=c(3.40, 3.00, 3.00, 3.27, 2.10, 1.83, 1.53, 
     1.70, 1.80, 1.90, 2.35, 2.54, 2.90)) 

lm.sol=lm(y~x+I(x^2),data=alloy) 
summary(lm.sol) 

y.res=lm.sol$residuals 
shapiro.test(y.res) 

Répondre

0

Eh bien ... cette question appartient probablement à stat.exchange car elle a peu à voir avec la programmation. Cependant, voici ma brève analyse de vos données. R2 et shapiro.test adressent différentes caractéristiques de l'ajustement de données et de modèle, de sorte que vous pouvez avoir celui-ci est "bon" * et l'autre ne l'est pas (pour des définitions suffisamment vagues de "bon" et "non").

Si vous tracez vos données et votre ajustement dans le même graphique, vous voyez que la tendance générale est bien capturée par votre modèle de régression quadratique.

plot(y ~ x, data=alloy) 
lines(alloy$x, predict(lm.sol)) 

enter image description here

Le modèle ne tout à fait bien. Vous pouvez également voir que le qq-plot des résidus indique qu'il pourrait y avoir un problème d'homogénéité de la variance (voir le dernier résidu).

qqnorm(resid(lm.sol)) 

enter image description here

En d'autres termes, les résidus peuvent pas nécessairement suivre une distribution gaussienne, mais la tendance générale dans les données sont capturées.

Cela a-t-il été utile?

+0

Bonne réponse! Cela signifie que, bien que parfois la valeur de p de shapiro.test pour les résidus soit inférieure à 0,05, le modèle peut également être considéré comme un succès si son R2 est élevé et il satisfait le t.test et F.test pour le café et modèle respectivement? –

+0

En outre, dans le modèle d'origine, le résiduel du point 4 est le plus grand. Donc, je supprime ce point, puis construisons la même régression polynomiale. Basé sur les nouveaux résultats, il montre que le R2 est augmenté à 0.9402 et le modèle satisfait les t.test et F.test. De plus, la valeur p du shapiro.test pour les résidus est également supérieure à 0,05. Basé sur votre suggestion, quel modèle dois-je utiliser dans la recherche future (le modèle original VS nouveau)? –

+0

Pour répondre à votre dernière question en premier: je ne voudrais pas supprimer des points de façon bon gré mal gré sans avoir une bonne raison pour cela. Si le modèle ne correspond pas bien, c'est un problème avec le modèle - pas les données. En d'autres termes - je préfère utiliser le premier modèle sur les données d'origine que l'autre. Je doute que les courbes ajustées soient très différentes. – ekstroem