2008-11-28 9 views
1

Nous avons eu une panne d'ISP pendant environ 10 minutes par jour, ce qui s'est malheureusement produit lors d'un examen hébergé en cours d'écriture à partir de plusieurs emplacements. Malheureusement, cela a entraîné la perte de données de publication pour la page en cours des candidats.Analyse statistique des journaux de serveur - Correction de l'extrapolation

Je peux reconstruire le flux d'événements à partir du journal du serveur. Cependant, sur 317 candidats, 175 utilisaient un proxy local, ce qui signifie qu'ils semblent tous provenir de la même IP. J'ai analysé les données des 142 autres (45%) et j'ai trouvé de bons chiffres sur ce qui s'est passé avec eux. Question: Est-il correct de multiplier tous mes nombres par 317/142 pour obtenir des résultats probables pour l'ensemble? Quelle serait ma région de (non) certitude?

S'il vous plaît, pas de suppositions. J'ai besoin de quelqu'un qui ne s'est pas endormi en classe de statistiques pour répondre.

EDIT: en nombre, je me référais au nombre d'individus affectés. par exemple, 5/142 a montré une panne de navigateur pendant la session. Quelle est la précision de l'extrapolation de 11/317 ayant des accidents de navigateur?

Répondre

2

Je ne sais pas exactement de quelles mesures nous parlons, mais pour l'instant supposons que vous voulez quelque chose comme le score moyen. Aucun ajustement n'est nécessaire pour estimer le score moyen de la population (les 317 candidats). Utilisez simplement la moyenne de l'échantillon (les 142 dont vous avez analysé les données).

Pour trouver votre région d'incertitude, vous pouvez utiliser la formule donnée dans le NIST statistics handbook. Vous devez d'abord décider à quel point vous êtes prêt à être incertain. Supposons que vous voulez 95% de confiance que la vraie population moyenne se situe dans l'intervalle. Ensuite, l'intervalle de confiance pour la vraie moyenne de la population sera:

(moyenne de l'échantillon) +/- 1,960 * (écart type)/sqrt (taille de l'échantillon)

Il y a d'autres corrections que vous pouvez faire prendre crédit pour avoir un grand échantillon par rapport à la population. Ils vont resserrer l'intervalle de confiance d'environ 1/4, mais il y a beaucoup de suppositions que le calcul ci-dessus fait qui le rendent déjà moins conservateur. Une hypothèse est que les scores sont approximativement distribués normalement. L'autre hypothèse est que l'échantillon est représentatif de la population. Vous avez mentionné que les données manquantes proviennent toutes de candidats utilisant le même mandataire. Le sous-ensemble de la population qui a utilisé ce proxy pourrait être très différent du reste.

EDIT: Puisque nous parlons d'une proportion de l'échantillon avec un attribut, par ex. "navigateur s'est écrasé", les choses sont un peu différentes. Nous devons utiliser un intervalle de confiance pour une proportion et la convertir en un nombre de succès en multipliant par la taille de la population. Cela signifie que notre meilleure estimation du nombre de navigateurs écrasés est 5 * 317/142 ~ = 11 comme vous l'avez suggéré.

Si nous ignorons encore le fait que notre échantillon est près de la moitié de la population, nous pouvons utiliser le Wilson confidence interval of a proportion. Un calculator is available online pour gérer la formule pour vous. La sortie de la calculatrice et la formule sont des limites supérieures et inférieures pour la fraction de la population. Pour obtenir une plage pour le nombre de plantages, il suffit de multiplier les limites supérieures et inférieures par (taille de la population - taille de l'échantillon) et de rajouter le nombre de plantages dans l'échantillon. Alors que nous pourrions simplement multiplier par la taille de la population pour obtenir l'intervalle, cela ignorerait ce que nous savons déjà de notre échantillon. En utilisant la procédure ci-dessus, on obtient un C.I. de 95%. de 7,6 à 19.0 pour le nombre total d'accidents de navigateur dans la population de 317, basée sur 5 accidents dans les 142 points d'échantillonnage.

+0

Génial! Merci. –

Questions connexes