J'ai un ensemble de prédictions d'un modèle, et un ensemble de vraies valeurs des observations, et je veux créer un ROC.ROC pour les prédictions - comment définir les étiquettes de classe
La qualité de la prédiction (en termes d'erreur absolue) est indépendante de l'amplitude de la prédiction. J'ai donc un ensemble de prédictions (pred (1), pred (2), ..., pred (n)) et d'observations (obs (1), obs (2), ..., obs (n)). Quelqu'un m'a dit de créer les éléments de mon étiquette de vecteur de classification binaire (i) comme étiquette (i) = ifelse (| obs (i) - pred (i) | < tol, 1, 0) puis de calculer AUC (tol est une tolérance respécifiée). Donc, pour chaque prédiction, si elle est proche de l'observation correspondante, l'étiquette correspondante est 1, sinon elle est 0.
Mais je ne vois pas comment l'étiquetage suggéré est valide, car des valeurs plus élevées de pred() ne seront pas nécessairement discriminer ma classification binaire, c'est-à-dire que les valeurs de prédiction ne servent pas à "CLASSER" la qualité de mes prédictions (ie, un seuil donné ne divise pas mes données naturellement). Quelqu'un peut-il s'il vous plaît me faire la lumière sur ce qu'il faut faire ici? La suggestion donnée ci-dessus est-elle valide? Ou est-ce qu'un ROC est inapproprié à utiliser ici?
Qui vous a dit de faire ça? Ce n'est certainement pas l'analyse ROC ... vous voudrez plutôt utiliser une mesure de corrélation. – Calimo
Mon instinct dit que tu as raison. Un collègue l'a fait. Puis-je obtenir plus d'explications de votre part ou de la part de quelqu'un d'autre sur les raisons pour lesquelles il est invalide de binariser en fonction du prédicteur? – user85727
* un collègue l'a suggéré – user85727