Imaginez que vous avez un ensemble de cinq éléments (AE) avec des valeurs numériques d'une propriété mesurée (plusieurs observations pour chaque élément, par exemple « fréquence cardiaque »):algorithme efficace pour détecter des éléments différents dans une collection
A = {100, 110, 120, 130}
B = {110, 100, 110, 120, 90}
C = { 90, 110, 120, 100}
D = {120, 100, 120, 110, 110, 120}
E = {110, 120, 120, 110, 120}
D'abord, je dois détecter s'il y a des différences significatives sur les niveaux moyens. Donc, je cours d'une manière ANOVA en utilisant le Statistical package provided by Apache Commons Math. Aucun problème jusqu'à présent, j'obtiens un booléen qui me dit si des différences sont trouvées ou non.
Deuxième, si les différences se trouvent, je dois savoir l'élément (ou éléments) qui est différent du reste. Je prévois d'utiliser unpaired t-tests, en comparant chaque paire d'éléments (A avec B, A avec C .... D avec E), pour savoir si un élément est différent de l'autre. Donc, à ce stade, j'ai les informations de la liste des éléments qui présentent des différences significatives avec les autres, par exemple:
C is different than B
C is different than D
Mais je besoin d'un algorithme générique pour déterminer efficacement, avec cette information, quel élément est différent les autres (C dans l'exemple, mais pourraient être plus d'un). Laissant de côté les problèmes statistiques, la question pourrait être (en termes généraux): "Étant donné les informations sur l'égalité/l'inégalité de chacune des paires d'éléments dans une collection, comment pourriez-vous déterminer le ou les éléments qui sont/sont différents des autres? "
Semble être un problème où la théorie des graphes pourrait être appliquée. J'utilise le langage Java pour l'implémentation, si cela est utile.
Édition: Les éléments sont des personnes et les valeurs mesurées sont des temps nécessaires pour effectuer une tâche. J'ai besoin de détecter qui prend trop ou trop peu de temps pour terminer la tâche dans un système de détection de fraude.
Question très bien formatée. Cela dépend de ce que vous entendez par élément différent. Voulez-vous dire l'élément avec le plus de différences? Dans l'exemple de graphique que vous avez présenté jusqu'à présent, il semble que vous cherchiez simplement l'élément ayant le plus haut degré? – Pace
Pourriez-vous élaborer sur votre définition de «différences» ou de «différences significatives»? Une approche naïve dirait que tous sont différents. Mais évidemment, ce n'est pas ce que vous recherchez. – sfussenegger
@sfussenegger Merci. Par "éléments différents", j'entends des éléments dont la moyenne pour la propriété mesurée est différente en termes statistiques. C'est-à-dire, lorsqu'une différence statistiquement significative est trouvée avec un intervalle de confiance donné (typiquement 95%). http://en.wikipedia.org/wiki/Statistical_significance –