2017-01-13 1 views
0

J'ai un ensemble de données où le pourcentage d'erreurs est assez faible. Peut-on suggérer un moyen d'équilibrer un tel ensemble de données en utilisant SAS afin que la régression logistique donne un meilleur résultat? Voici un exemple. Merci d'avance!!Équilibrage de données SAS bon et mauvais

ID X1 X2 X3 X4 X5 Target 
1 87 400 2 0 0 0 
2 70 620 1 0 0 0 
3 66 410 3 0 0 0 
4 85 300 1 0 0 0 
5 100 200 4 0 0 0 
6 201 110 1 0 0 0 
7 132 513 3 0 0 0 
8 98 417 4 0 0 0 
9 397 620 1 0 0 1 
10 98 700 5 0 0 1 

Répondre

0

Vous pouvez suréchantillonnage le pourcentage de Bads puis utilisez l'option priorevent dans l'instruction score de proc logistic pour corriger le suréchantillonnage. Il y a beaucoup d'exemples en ligne qui vous aideront plus loin avec ceci.

+0

Merci pour votre suggestion Keith.J'ai essayé de chercher quelque chose d'utile au cours des derniers jours, mais je ne pouvais pas comprendre en ce qui concerne le suréchantillonnage, donc posté la question afin de trouver un moyen de sortir. Serait génial si vous peut suggérer quelque chose? Merci d'avance – user6016731