2017-09-28 4 views
0

Considérant sur la régression multiple, par ex. Y ~ X1 + X2 + X3, pensez-vous qu'il vaut ajustement du modèle de régression multiple aux données lorsque cor(X1, Y), cor(X2, Y) et cor(X3, Y) sont toutes petites valeurs telles que 0.2, En outre, les parcelles de (X1, Y), (X2, Y) et (X3, Y) ne sont pas visibles (linéaire, non-linéaire) non corrélé?Régression multiple lorsque des variables indépendantes non corrélées à la variable dépendante

En résumé,

  1. Lorsque chaque variable indépendante est décorrélé à la variable dépendante (visuellement linéaire et non linéaire) est-il possible que le modèle de régression multiple donne des coefficients significatifs?

  2. Pour les mêmes données, existe-t-il une possibilité que des modèles non linéaires tels que les réseaux neuronaux donnent un bon résultat prévisible?

+1

Tenir compte poster votre question https://stats.stackexchange.com/ –

Répondre

0

En réponse à (1), il est possible que les variables explicatives avec de faibles corrélations marginales deviennent importantes lorsque l'entrée dans une régression multiple. Par exemple, si X1 et X2 sont négativement corrélés entre eux et influencent positivement Y, la relation entre Y et X1 peut être confondue par l'influence de X2 (et vice versa).

Les régressions multiples estiment efficacement la relation entre la réponse et chaque variable explicative en contrôlant l'influence de tous les autres termes dans le modèle, de sorte que cette confusion est effectivement supprimée. Le code à la fin de ce post montre un exemple hypothétique. Ayant dit ce qui précède, il semble plus probable que vos faibles corrélations reflètent que vos variables explicatives ne sont pas de bons prédicteurs de votre réponse, plutôt que d'être de bons prédicteurs qui se confondent les uns les autres. Un seul moyen de savoir si.

En réponse à (2), il est également possible qu'un modèle non linéaire donnera une meilleure précision prédictive qu'un modèle linéaire. Dans mon expérience cependant, si vous avez une faible précision prédictive d'un type de modèle, d'autres types de modèles ont peu de chance de bien fonctionner.

est ici que le code exemple je l'ai mentionné ci-dessus:

# Make example data 
X1 = rnorm(100) 
X2 = -X1 + runif(100)/10 #X2 is negatively correlated with X1 
Y = X1 + X2 + runif(100) 

# Check correlations 
cor(X1, Y) #should give low correlation 
cor(X2, Y) # should give low correlation 
cor(X1, X2) # should give high (negative) correlation 

# Fit model and extract pvalues. Should find significant relationships between Y and X1 and X2 despite the low correlations 
fit = lm(Y ~ X1 + X2) 
summary(fit)$coefficients[, "Pr(>|t|)"] # pvalues 
+0

Merci beaucoup pour votre réponse et le code exemple. – riemann

+0

Heureux de vous aider. Si ma réponse répond à votre question, est-ce que cela vous dérangerait de l'accepter et de l'accepter? (Au cas où vous ne savez pas comment procéder, cliquez simplement sur le triangle gris orienté vers le haut à gauche de ma réponse (sur upvote) et cliquez sur la coche immédiatement en dessous (pour accepter)). Merci :) – jruf003