Pardonnez-moi, je suis très nouveau à ce sujet. Si quelqu'un peut m'aider ou me diriger vers une ressource pour aider, je serais très reconnaissant:Exécution de fonctions automatisées sur plusieurs colonnes dans R
J'ai une table de données avec 150 000 observations de 300 variables, un certain résultat/symptôme (variables dépendantes) et une certaine entrée (variables indépendantes). Pour chaque symptôme, je veux des statistiques descriptives, et les résultats d'un test du chi-carré pour l'association à chaque entrée.
Pour les statistiques descriptives, j'ai réussi à faire cela en faisant une matrice des variables de résultat appelée «symptom.matrix» et utilisé «apply».
Desc.stats<-matrix(c(apply(symptom.matrix,2,sum),
apply(symptom.matrix,2,mean),
apply(symptom.matrix,2,function(x)
{return(sqrt((mean(x)*(1-mean(x)))/length(x)))})),
ncol=3,
dimnames=list(c(...),
c("N","prev","s.e."))); Desc.stats
Pour obtenir le chi carré, j'utilise le chisq.test sur des paires individuelles de résultat et l'entrée de la manière suivante, mais je ne vois pas comment appliquer cela au symptom.matrix
result1<-(chisq.test(symptom1,input1));
print (c(result1$statistic, result1$p.value))
Comment puis-je mettre à l'échelle cela pour travailler sur le symptom.matrix? Est-il possible d'utiliser le chisq.test, ou serais-je mieux de revenir aux bases pour écrire une fonction pour les statistiques moi-même?
S'il vous plaît montrer comment * symptômes * et * input * sont identifiés dans le tableau de données. Sont-ils préfixés/suffixés? Peut-être même afficher l'ensemble de données ou la publication d'origine pour que nous puissions l'exécuter: 'dput (head (mydatatable))' – Parfait
_symptoms_ et _input_ ne sont pas identifiés comme tels dans la table de données. J'ai donc appelé les symptômes de la table de données ainsi: 'symptom.matrix <-with (mydatatable, matrice (c (Vision, Voix, Del, Paranoia, ...), ncol = 8))' –
Et qu'en est-il des * entrées *? – Parfait