J'ai une trame de données avec 18 colonnes et environ 12 000 lignes. Je veux trouver les valeurs aberrantes pour les 17 premières colonnes et comparer les résultats avec la colonne 18. La colonne 18 e
Sur la base de la suggestion de Roland de Plot titles in R using sapply(), j'ai créé la boucle suivante pour faire des boîtes à moustaches de chaque variable sélectionnée dans mon ensemble de données.
J'essaie d'utiliser ELKI pour la détection des valeurs aberrantes; J'ai ma matrice de distance personnalisée et j'essaie de l'entrer dans ELKI pour effectuer LOF (par exemple, dans un premier temps).
J'essaye de construire un algorithme de fermeture de boucle, mais avant de commencer le développement je voudrais tester quel descripteur de caractéristique fonctionne mieux sur un jeu de données réel