Dans le code suivant, j'utilise le bootstrapping pour calculer le C.I. et la valeur p sous l'hypothèse nulle que deux engrais différents appliqués aux plants de tomates n'ont aucun effet sur les rendements des plantes (et l'alternative étant que l'engrais "amélioré" est meilleur). Le premier échantillon aléatoire (x) provient de plantes où un engrais standard a été utilisé, tandis qu'un échantillon «amélioré» a été utilisé dans les usines où provient le second échantillon (y).Bootstrapping pour comparer deux groupes
x <- c(11.4,25.3,29.9,16.5,21.1)
y <- c(23.7,26.6,28.5,14.2,17.9,24.3)
total <- c(x,y)
library(boot)
diff <- function(x,i) mean(x[i[6:11]]) - mean(x[i[1:5]])
b <- boot(total, diff, R = 10000)
ci <- boot.ci(b)
p.value <- sum(b$t>=b$t0)/b$R
Ce que je n'aime pas le code ci-dessus est que ré-échantillonnage se fait comme s'il n'y avait qu'un seul échantillon de 11 valeurs (séparant le premier 5 comme appartenant à l'échantillon x laissant le reste à l'échantillon y). Pourriez-vous me montrer comment ce code devrait être modifié pour effectuer des rééchantillonnages de taille 5 avec remplacement du premier échantillon et des rééchantillonnages séparés de taille 6 du deuxième échantillon, de sorte que le rééchantillonnage bootstrap imiterait le plan «échantillons séparés» les données d'origine?
Merci! En ce qui concerne votre question "Pourquoi voudrais-je faire cela", consultez la boîte intitulée "BOOTSTRAP POUR COMPARER DEUX POPULATIONS" (et si vous voulez commenter) au bas de la page 18 ici http://bcs.whfreeman.com /ips5e/content/cat_080/pdf/moore14.pdf –
Mon principal problème était de savoir comment définir diff.calc. Et encore je suis surpris de ne pas voir le deuxième argument à l'intérieur! –
@ gd047: J'ai déjà deviné quelque chose comme ça à partir de votre question sur statexchange. Notez qu'ils parlent uniquement d'un intervalle de confiance, et ne disent rien d'une valeur p là-bas. Mon exemple vous montre pourquoi. –