3

Je fais une classification multilabel en utilisant une structure récurrente de réseau de neurones. Ma question concerne la fonction de perte: ma sortie sera des vecteurs de valeurs vrai/faux (1/0) pour indiquer la classe de chaque étiquette. De nombreuses ressources ont déclaré que la perte de Hamming est l'objectif approprié. Cependant, la perte de Hamming a un problème dans le calcul du gradient: H = moyenne (y_true XOR y_pred), le XOR ne peut pas dériver le gradient de la perte. Y a-t-il d'autres fonctions de perte pour la formation de la classification multilabel? J'ai essayé MSE et l'entropie binaire avec une entrée sigmoïde individuelle.Calcul de gradient dans la perte de Hamming pour la classification multi-étiquettes

Répondre

1

H = moyenne (y_true * (1-y_pred) + (1-y_true) * y_pred)

est une approximation continue de la perte de Hamming.

+0

Salut Juan, merci pour votre réponse. Dans votre équation d'approximation, je me demande si les valeurs y_true et y_pred sont les probabilités ou les étiquettes réelles? –

+0

y_true correspond aux libellés réels et y_pred correspond à la probabilité. –