2015-07-16 1 views
1

Je veux faire un test pour LOF, montrant comment il gère bien le problème dense-sparse d'un ensemble de données. Dans le didacticiel du générateur de données ELKI on me montre comment faire un jeu de données à partir d'un fichier xml comme celui-ci avec 4 groupes:Générateur de données ELKI et valeurs aberrantes

<dataset random-seed="1" test-model="1"> 
<cluster name="Dense" size="290"> 
<normal mean="0.5" stddev="0.2"/> 
<normal mean="0.5" stddev="0.2"/> 
<clip min="0 0" max="1 1"/> 
</cluster> 

<cluster name="Sparse" size="100"> 
<normal mean="0.25" stddev="0.05"/> 
<normal mean="0.75" stddev="0.05"/> 
<clip min="0 0" max="1 1"/> 
</cluster> 

<cluster name="Middle" size="100"> 
<normal mean="0.75" stddev="0.05"/> 
<normal mean="0.75" stddev="0.05"/> 
<clip min="0 0" max="1 1"/> 
</cluster> 

<cluster name="Noise" size="10" density-correction="50"> 
<uniform min="0" max="1"/> 
<uniform min="0" max="1"/> 
</cluster> 
</dataset> 

Mais comment puis-je obtenir une prise sur les valeurs aberrantes. L'outil ELKI veut un label minoritaire pour les valeurs aberrantes pour montrer une courbe ROCAUC. Et le fichier que je sors du fichier xml est juste un fichier de points dans l'ensemble de données. Dois-je ensuite faire un intrigue et identifier les valeurs aberrantes moi-même et mettre un oui ou un non après tout pour dire si elles sont aberrantes ou non et mettre le label de minorité à oui, étant des valeurs aberrantes OU y at-il un moyen plus facile?

Répondre

1

ELKI par défaut pour utiliser la plus petite classe pour l'évaluation. (Vous pouvez configurer l'évaluation différemment!)

ELKI émet un avertissement si les données aberrantes représentent plus de 5% des données, car il est supposé que les valeurs aberrantes sont rares (elles doivent être inférieures à 5%, en fait). Par conséquent, sur votre ensemble de données, ELKI doit utiliser par défaut "Noise" comme classe aberrante.

Dans votre configuration Noise doit être 2% de l'ensemble de données, il ne devrait donc pas avertir. Il devrait simplement fonctionner hors de la boîte.

+0

Est-il correctement compris, que le générateur de données ELKI génère uniquement des clusters en 2D avec leurs étiquettes? Je pourrais mettre des caractéristiques aléatoires dans le fichier de sortie et obtenir un ensemble de données multidimensionnel. Mais ensuite je trouve difficile de contrôler une expérience, car je ne suis pas sûr que la valeur aberrante que je vais placer est une véritable valeur aberrante dans les dimensions X. Comment les chercheurs testent-ils cela dans les multidimensions? Je suppose qu'un début est toujours 2D et 3D. –

+0

Non, vous pouvez générer autant de dimensions que vous le souhaitez. Il y a un exemple avec 640d sur le site Web. Ajoutez simplement des distributions supplémentaires à tous les clusters. Nous avons expérimenté de tels ensembles de données, mais les résultats sur les données synthétiques ne sont pas particulièrement utiles. Il est difficile de générer un ensemble de données qui n'est ni trop facile ni impossible; et les chances de surajuster votre méthode à votre générateur de données (par exemple les modèles de mélange gaussien) sont énormes. –