Je travaille actuellement sur une application de tarification de jeu de cartes à collectionner (TCG). Son travail consiste à recueillir des données auprès de différents fournisseurs et à utiliser ces données pour déterminer le prix du marché pour une carte donnée. À titre d'exemple, considérons une carte théorique X.Comment éliminer les valeurs aberrantes dans les données de tarification?
X a une variété de valeurs en fonction du fournisseur qui le vend. Voici un tableau de ses valeurs:
[1.00, 1.10, 1.05, 0.95, 2.00, 0.10]
Ces valeurs se rapportent à la valeur du dollar ($). D'après mon expérience en tant que client dans ce marché, je suppose que les données de prix sont normalement distribuées. Les données sur les prix tendent à graviter autour d'un seul prix, de nombreux fournisseurs différents tarissant leurs cartes proches dudit prix (pour être compétitifs), avec parfois des valeurs aberrantes.
Selon ces hypothèses, comment éliminer les valeurs aberrantes dans l'ensemble de données ci-dessus? À première vue, 2,00 $ et 0,10 $ semblent être aberrants. Mais la tarification fluctue sur le marché. Il n'est pas rare que la valeur d'une carte augmente et vice versa. J'ai recherché quelques méthodes telles que l'utilisation d'un seuil d'écarts-types de la moyenne (par exemple, si un prix est> 2 écarts-types par rapport à la moyenne, considéré comme aberrant) ou en utilisant l'écart absolu médian, mais I ' Je ne sais pas quel algorithme a du sens même dans le contexte de ce sur quoi je travaille.