2017-04-13 2 views
0

J'essaie d'analyser un ensemble de données dans R où j'ai des ventes d'articles au fil du temps et je veux comprendre l'impact des variables catégoriques sur la quantité vendue.R - Analyser l'impact des variables catégorielles sur la variable continue

library("data.table") 

qty <- c(100,10000,100,200,150,9000) 
flavour <- c("Mint","Herb","Mint","Mint","Herb","Fruit") 
category <- c("Multiple","Multiple","White","Multiple","Other","White") 

sales_data <- data.frame(qty,flavour,category) 

str(sales_data) 

'data.frame': 6 obs. of 3 variables: 
$ qty  : num 100 10000 100 200 150 9000 
$ flavour : Factor w/ 3 levels "Fruit","Herb",..: 3 2 3 3 2 1 
$ category: Factor w/ 3 levels "Multiple","Other",..: 1 1 3 1 2 3 

J'ai regardé multipleregressions et régressions linéaires simples, mais je sens que je pourrais être sur la mauvaise voie. Ma compréhension est que je peux utiliser une régression linéaire simple pour déterminer une relation entre 2 variables continues. Je peux voir qu'il existe un moyen d'utiliser des régressions multiples pour comprendre la relation entre les variables catégorielles et continues, mais les exemples que j'ai trouvés semblent s'arrêter aux valeurs binaires. Est-ce que quelqu'un fume ou pas par exemple? Étant donné que j'ai plusieurs valeurs pour chaque variable catégorique, la régression multiple est-elle la bonne façon de procéder ou est-ce que je suis complètement sorti de la piste?

Mon jeu de données actuel comporte environ 10 variables catégorielles, dont certaines se rapportent à l'emplacement, d'autres à des marques.

Toute aide serait grandement appréciée. Et excuses si c'est au mauvais endroit ou j'ai manqué quelque chose d'évident - j'apprends des stats et R en même temps si confus rapidement

+0

Vous devez rechercher des données catégorielles de modélisation. La plupart des manuels/cours en ligne pour les modèles linéaires généralisés vous en parleront, et c'est trivial à faire en R (il suffit de coller votre variable sur le RHS de la formule). – Spacedman

+0

Vous indiquez «ventes d'articles dans le temps», quelle variable de votre exemple change avec le temps? – vincentmajor

+0

Merci @ Spacedman, je me suis perdu dans les termes de recherche à utiliser - descendu de nombreux trous de lapin. Je vais le chercher, merci. – user7863288

Répondre

1

Vous pouvez certainement avoir une variable dépendante continue (qty) et un mélange des prédicteurs continus et catégoriques et ils ne doivent pas être binaires. Les variables catégorielles doivent être de classe "factor". Pour les deux variables catégorielles/facteurs indiquées dans la question:

fm <- lm(qty ~., sales_data) 
summary(fm) 
+0

Cela suppose que les données sont distribuées normalement. Vous pouvez utiliser un GLM si vous trouvez que les données ne sont pas distribuées normalement ou des arbres de décision/forêts aléatoires si vous voulez obtenir vraiment non-paramétrique. Il y a même des réseaux de croyances bayésiennes! – Zafar

+0

Certains tests impliquent des hypothèses de normalité mais si les conditions du théorème de Gauss Markov soutiennent que les coefficients de régression sont non biaisés même en présence de non-normalité, ils sont en outre meilleurs dans un certain sens. –

+0

merci @ G.Grothendieck Je vais regarder de plus près à cela. Une chose qui m'inquiète est le sujet de la distribution normale. J'ai lu beaucoup de références à des données devant être distribuées normalement pour appliquer une gamme d'analyses. Il est rassurant de savoir qu'il existe des preuves que les régressions sont toujours applicables avec des données non normales. – user7863288