0

J'ai un ensemble de données avec 50% d'instances de classe A et 50% d'instances de classe B. Je veux diviser mon ensemble de données en un ensemble d'apprentissage et un ensemble de test. Je sais que le filtre RemovePercentage existe mais il ne se soucie pas de l'équilibre de la classe. Comment puis-je supprimer 35% de mon ensemble de données, tout en conservant une distribution 50/50 dans l'ensemble de formation?Comment supprimer un pourcentage d'un ensemble de données dans Weka mais garder l'équilibre de la classe?

Répondre

0

Ok, je l'ai trouvé un moyen en utilisant les StratifiedRemoveFolds de filtre:

Étape 1

Ouvrez votre ensemble de données dans l'explorateur Weka et choisissez les StratifiedRemoveFolds filtre instance supervisée.

Étape 2

Décider les tailles que vous voulez pour votre formation et le jeu de test. Si vous souhaitez que vos ensembles aient une taille égale, choisissez numFolds 2. Appliquez le filtre. Cela générera un ensemble de données contenant 50% des données de l'ensemble d'origine. (Si vous voulez 67 les données de train% et les données de test 33% puis choisissez 3 pour numFolds)

Étape 3

Enregistrer ce défini comme généré F.E. "train.arff". Lorsque le premier jeu est sauvegardé, vous devez annuler l'action pour revenir à l'ensemble de vos données.

Étape 4

Cliquez sur le filtre StratifiedRemoveFolds et changer le paramètre invertSelection de faux à vrai. Maintenant, lorsque vous appliquez ce filtre, un ensemble sera généré comme à l'étape 2, mais il contiendra l'autre 50% de l'ensemble de données.

Étape 5

Enregistrer ce que « test.arff **. Maintenant, vous avez un ensemble de train et d'essai qui respectent le solde de votre classe.

0

Jetez un coup d'oeil à Stratified Remove Folds. Il s'efforce de maintenir les distributions de classe d'origine. http://weka.sourceforge.net/doc.stable/weka/filters/supervised/instance/StratifiedRemoveFolds.html

+0

Il fonctionne pour générer un ensemble de test à l'aide Stratified Retirer Folds mais ces instances ne sont pas supprimées de l'ensemble des données, de sorte que mon ensemble d'apprentissage contient toujours les instances de l'ensemble de test. – Stanko