2017-08-28 3 views
0

J'ai deux cas de données cas et contrôles et j'ai effectué deux échantillons t-test comme indiqué ci-dessous.Mais je fais l'extraction de fonctionnalités à partir de l'ensemble de fonctionnalités de (1299 caractéristiques/colonnes) donc je veux calculer les p-valeurs pour chaque fonctionnalité. Sur la base de la valeur p générée pour chaque entité, je souhaite rejeter ou accepter l'hypothèse nulle.Comment calculer les valeurs p pour chaque entité dans R en utilisant deux échantillons t-test

Quelqu'un peut-il m'expliquer comment la sortie ci-dessous est interprétée et comment calculer les p-valeurs pour chaque fonctionnalité?

t.test(New_data_zero,New_data_one) 
    Welch Two Sample t-test 

data: New_data_zero_pca and New_data_one_pca 
t = -29.086, df = 182840000, p-value < 2.2e-16 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 
-0.02499162 -0.02183612 
sample estimates: 
mean of x mean of y 
0.04553462 0.06894849 

Répondre

1

Regardez? T.test. x et y sont supposés être des vecteurs et non des matrices. Ainsi, la fonction les convertit automatiquement en vecteurs. Qu'est-ce que vous voulez faire, en supposant que les colonnes sont caractéristiques et les deux matrices ont les mêmes caractéristiques, est:

pvals=vector() 
for (i in seq(ncol(New_data_zero))){ 
pvals[i]=t.test(New_data_zero[,i], New_data_one[,i])$p.value 
} 

Vous pouvez alors regarder PVAL (probablement à l'échelle logarithmique) et après correction multiple de tests d'hypothèses (voir? p.adjust).

0

Abordons également la très mauvaise idée de cette approche pour trouver des différences entre vos caractéristiques. Même si tous les effets entre ces 1299 caractéristiques sont littéralement nuls, vous trouverez * des résultats significatifs dans 0,05 de toutes les 1299 comparaisons bidirectionnelles possibles, ce qui rend cette stratégie sans signification. Je suggère fortement de jeter un oeil à un texte de statistiques d'introduction, en particulier la section sur les taux d'erreur de type I de la famille avant de procéder.