0

Je viens d'exécuter un modèle de forêt aléatoire sur un jeu de données de déséquilibre. J'ai l'ensemble des AUC et la matrice de confusion. L'AUC ne semblait pas mauvaise mais en réalité le modèle prédisait chaque cas comme positif. Alors comment ça s'est passé et comment utiliser AUC correctement?Comment interpréter le score AUC dans ce cas?

enter image description here

La courbe ROC comme ci-dessous:

enter image description here

+0

En ligne croisée: https://stackoverflow.com/q/41132399/781723, https://datascience.stackexchange.com/q/15725/8560. S'il vous plaît [ne postez pas la même question sur plusieurs sites] (https://meta.stackexchange.com/q/64068). Chaque communauté devrait avoir une chance honnête de répondre sans que le temps soit gaspillé. –

Répondre

0

Vous pouvez avoir ce problème lorsque vos données est biaisé dans un sens ou dans l'autre (sorte de semblable à un petit taux de faux positifs être terrible pour des tests médicaux pour des conditions rares). Il peut être utile de regarder l'ensemble de la courbe de fonctionnement du récepteur (courbe ROC) au lieu de simplement le score résumé de l'AUC.

+0

Vouliez-vous dire le déséquilibre de données par «biaisé»? – LUSAQX

+0

Pas tout à fait. J'ai délibérément utilisé une formulation vague parce que (a) je ne suis pas tout à fait un expert en la matière, j'en sais juste assez pour être dangereux et (b) il est difficile de commenter des données que je n'ai pas vues. Si vous pouvez faire un tracé de la courbe ROC et l'afficher, je (ou d'autres) pourrait être en mesure d'aider à interpréter le problème. –