2017-04-03 1 views
0

Je travaille actuellement sur une application de tarification de jeu de cartes à collectionner (TCG). Son travail consiste à recueillir des données auprès de différents fournisseurs et à utiliser ces données pour déterminer le prix du marché pour une carte donnée. À titre d'exemple, considérons une carte théorique X.Comment éliminer les valeurs aberrantes dans les données de tarification?

X a une variété de valeurs en fonction du fournisseur qui le vend. Voici un tableau de ses valeurs:

[1.00, 1.10, 1.05, 0.95, 2.00, 0.10]

Ces valeurs se rapportent à la valeur du dollar ($). D'après mon expérience en tant que client dans ce marché, je suppose que les données de prix sont normalement distribuées. Les données sur les prix tendent à graviter autour d'un seul prix, de nombreux fournisseurs différents tarissant leurs cartes proches dudit prix (pour être compétitifs), avec parfois des valeurs aberrantes.

Selon ces hypothèses, comment éliminer les valeurs aberrantes dans l'ensemble de données ci-dessus? À première vue, 2,00 $ et 0,10 $ semblent être aberrants. Mais la tarification fluctue sur le marché. Il n'est pas rare que la valeur d'une carte augmente et vice versa. J'ai recherché quelques méthodes telles que l'utilisation d'un seuil d'écarts-types de la moyenne (par exemple, si un prix est> 2 écarts-types par rapport à la moyenne, considéré comme aberrant) ou en utilisant l'écart absolu médian, mais I ' Je ne sais pas quel algorithme a du sens même dans le contexte de ce sur quoi je travaille.

Répondre

0

Si vous utilisez une méthode de déviation, utilisez certainement l'écart absolu médian/médian au lieu de la moyenne/écart-type, car cette méthode est beaucoup moins sensible aux valeurs extrêmes. Vous devriez expérimenter avec le multiplicateur (par exemple, les valeurs éloignées sont trois fois plus loin que le MAD) dans le contexte de votre application spécifique.

0

Votre choix d'algorithme devrait inclure une certaine estimation de la densité étant donné votre commentaire sur la «fluctuation des prix». Par conséquent, toute mesure de globale médiane et quantiles ne devrait pas être le dernier mot sur les entrées étant aberrantes. Ils devraient être comparés à leurs voisins.

Voici quelques informations sur Kernel Density estimateurs

https://www.r-bloggers.com/a-kernel-density-approach-to-outlier-detection/

enter image description here

2

Vous ne voulez pas rechercher des valeurs aberrantes sur la base moyenne de l'échantillon et l'écart type, car les deux d'entre eux sont très sensibles à la valeurs aberrantes. Il est préférable d'utiliser des approches basées sur le percentile. Le percentile p est une valeur telle que p% des données et (100-p)% sont respectivement ≤ et ≥. Les 25 et 75 centiles, souvent désignés Q1 et Q3, respectivement, sont également connus en tant que premier et troisième quartiles. Leur différence Q3-Q1 est appelée Inter-Quartile Range (IQR).

Une définition statistique communément admise des valeurs aberrantes est qu'elles sont des observations qui se situent en dehors de la plage [Q1 - 1.5 * IQR, Q3 + 1.5 * IQR]. Voir statisticshowto.com ou Wikipedia quartile article pour plus d'informations. Une complication est qu'il existe des opinions divergentes sur la façon de déterminer Q1 et Q3. Certaines personnes pensent que ce devrait être l'une des observations réelles, tandis que d'autres interpolent.Si vous utilisez Statistics How To's IQR calculator, les deux extrêmes de vos données sont aberrants. Dans JMP, qui utilise l'interpolation, aucun extrême n'est aberrant. C'est surtout un problème avec des données éparses. Avec plus de données, les divergences entre les deux approches disparaissent.

Un réel avantage d'une solution à base de centiles est qu'elle ne repose pas sur des hypothèses de répartition. Cette approche fonctionne de manière robuste indépendamment du fait que votre hypothèse de normalité soit correcte ou non.