J'ai un problème de classification binaire où une classe représentait 99,1% de toutes les observations (210 000). En tant que stratégie pour gérer les données déséquilibrées, je choisis des techniques d'échantillonnage. Mais je ne sais pas quoi faire: sous-échantillonner ma classe majoritaire ou suréchantillonner la classe la moins représentée. Si quelqu'un a un conseil?Données déséquilibrées: sous-échantillonnage ou suréchantillonnage?
Merci.
P.s. J'utilise un algorithme de forêt aléatoire de sklearn.
Si 0,9% des 210000 observations suffisent pour le montage, puis undersample le principal classe. Sinon, sur-échantillonner la classe la moins représentée. Ou bien sûr, vous pouvez faire les deux. – frankyjuang