2009-08-05 11 views
1

J'ai 2 colonnes et plusieurs lignes de données dans Excel. Chaque colonne représente un algorithme et les valeurs en lignes sont les résultats de ces algorithmes avec différents paramètres. Je veux faire un test de signification statistique de ces deux algorithmes avec Excel. Quelqu'un peut-il suggérer une fonction?Calcul de la signification statistique avec Excel

En conséquence, il sera agréable de dire quelque chose comme « l'algorithme A réalise 8% de mieux que l'algorithme B avec 0,9 probabilité (ou 95% intervalle de confiance) »

L'article wikipedia explique avec précision ce que je dois : http://en.wikipedia.org/wiki/Statistical_significance

Cela semble être une tâche très facile, mais je n'ai pas réussi à trouver une fonction de mesure scientifique.

Tout conseil sur une fonction intégrée d'extraits Excel ou de fonction est apprécié.

Merci ..

Edit:

Après les commentaires de Tharkûn, je réalise que je dois clarifier certains points: Les résultats ne sont que des nombres réels entre 1-100 (ce sont des valeurs de pourcentage). Comme chaque ligne représente un paramètre différent, les valeurs d'une ligne représentent le résultat d'un algorithme pour ce paramètre. Les résultats ne dépendent pas les uns des autres. Lorsque je prends la moyenne de toutes les valeurs de l'algorithme A et de l'algorithme B, je constate que la moyenne de tous les résultats obtenus par l'algorithme A est supérieure de 10% à celle de l'algorithme B. Mais je ne sais pas si c'est statistiquement significatif ou non. En d'autres termes, peut-être pour un paramètre Algorithme A marqué 100 pour cent supérieur à l'algorithme B et pour le reste Algorithme B a des scores plus élevés, mais juste à cause de ce résultat, la différence est de 10% en moyenne. Et je veux faire ce calcul en utilisant simplement Excel.

+0

vous seriez bien mieux à l'aide de SPSS, Statistica ou tout autre logiciel de statistiques. – markus

Répondre

3

Merci pour la clarification. Dans ce cas, vous voulez effectuer un test T indépendant. Cela signifie que vous voulez comparer les moyennes de deux ensembles de données indépendants.

Excel a une fonction TTEST, c'est ce dont vous avez besoin.

Pour votre exemple, vous devriez probablement utiliser deux queues et le type 2.

La formule sortie une valeur de probabilité connue comme la probabilité d'erreur alpha. C'est l'erreur que vous feriez si vous supposiez que les deux ensembles de données sont différents, mais ils ne le sont pas. Plus la probabilité d'erreur alpha est faible, plus les chances que vos ensembles soient différents sont élevées.

Vous ne devez accepter la différence des deux ensembles de données que si la valeur est inférieure à 0,01 (1%) ou pour les résultats critiques même 0,001 ou moins. Vous devez également savoir que dans le test t, il faut au moins 30 valeurs par ensemble de données pour être suffisamment fiables et que le test de type 2 suppose des variances égales des deux ensembles de données. Si des variances égales ne sont pas données, vous devez utiliser le test de type 3.

http://depts.alverno.edu/nsmt/stats.htm

+0

Merci pour la réponse. J'ai essayé TTEST et ai obtenu une assez petite p-valeur (8.13177E-06). En regardant plus loin, cette valeur me dit que les valeurs d'une colonne sont significativement différentes des valeurs de l'autre. Mais ça ne me dit pas si on est meilleur ou pas? Ai-je raison? – someone

+1

non, ce n'est pas le cas. quoi de mieux, dans votre cas? – markus

+0

Si les valeurs sous une colonne sont supérieures aux valeurs sous l'autre. Donc, je devrais être capable de dire "Algorithme A a 10% plus de valeurs que l'algorithme B avec .9 probabilité" – someone

Questions connexes