J'ai un grand jeu de données non étiqueté multidimensionnel de voitures (prix, kilométrage, puissance, ...) pour lequel je veux trouver des valeurs aberrantes. J'ai décidé d'utiliser le sklearn OneClassSVM pour construire une limite de décision et avoir deux problèmes principaux avec mon approche:Apprentissage semi-supervisé avec sklearn
- Mon jeu de données contient beaucoup de valeurs manquantes. Existe-t-il un moyen de classer svm les données avec des entités manquantes en tant que valeur inlier si des valeurs possibles pour les entités manquantes sont inlier?
- Je veux maintenant ajouter une boucle de rétroaction des valeurs aberrantes manuelles modérées. Les données modérées manuellement devraient améliorer la classification du SVM. J'ai lu à propos du modèle LabelSpreading pour l'apprentissage semi-supervisé. Serait-il possible de transmettre la sortie de classification de OneClassSVM au modèle LabelSpreading et de recycler ce modèle lorsqu'une quantité suffisante d'enregistrements est validée manuellement?