Utilisation de scikit-learn sur des données d'entraînement équilibrées d'environ 50 millions d'échantillons (50% une classe, 50% l'autre, 8 caractéristiques continues dans l'intervalle (0,1)), tous les classificateurs que j'ai pu essayer jusqu'ici (Linear/LogisticRegression, LinearSVC, RandomForestClassifier, ...) montrent un comportement étrange:Scikit-learn: Fort déséquilibre entre les faux positifs et les faux négatifs
Lors du test sur les données d'entraînement, le pourcentage de faux positifs est beaucoup plus faible que le pourcentage de faux négatifs (fnr). Lorsque vous corrigez l'interception manuellement afin d'augmenter le taux de faux positifs (fpr), la précision s'améliore considérablement. Pourquoi les algorithmes de classification ne trouvent-ils pas une interception proche de optimale (que j'imagine plus ou moins à fpr = fnr)?
J'ai un problème similaire, avec pas assez de fnr ou de tnr. – Moondra