2017-10-12 3 views
1

Ma compréhension est Softmax La régression est une généralisation de la régression logistique pour prendre en charge plusieurs classes. Le modèle de régression Softmax calcule d'abord un score pour chaque classe puis estime la probabilité de chaque classe en appliquant la fonction softmax aux scores.Régression logistique pour prendre directement en charge plusieurs classes

Chaque classe a son propre vecteur de paramètres dédié

Ma question: Pourquoi ne pouvons-nous utiliser la régression logistique pour classer à plusieurs classes d'une manière beaucoup plus simple comme si la probabilité est 0 à 0,3, puis la classe A; 0.3 à 0.6 puis Classe B: 0.6 à 0.9 puis Classe C, etc.

Pourquoi un vecteur coefficient séparé est-il toujours nécessaire?

Je suis nouveau à ML. Je ne sais pas si cette question est due à l'absence de toute compréhension conceptuelle fondamentale.

Répondre

1

D'abord, en termes de terminologie, je dirais qu'une terminologie plus établie est multinomial logistic regression.

La fonction Softmax est un choix naturel pour calculer les probabilités car elle corresponds to MLE. Cross-entropy loss a aussi une interprétation probabiliste - c'est la "distance" entre deux distributions (sortie et cible). Ce que vous proposez est de discriminer les classes de manière artificielle - produire une distribution binaire et en quelque sorte la comparer à une distribution multi-classe. En théorie, c'est possible et peut fonctionner, mais a sûrement des inconvénients. Par exemple, il est plus difficile de s'entraîner. Supposons que la sortie est 0.2 (c'est-à-dire classe A) et que la vérité terrain est la classe B. Vous souhaitez indiquer au réseau de passer à une valeur plus élevée. La prochaine fois, la sortie est 0.7 - le réseau a réellement appris et s'est déplacé dans la bonne direction, mais vous le punissez à nouveau. En fait, il y a des points instables (0.3 et 0.6 dans votre exemple) que le réseau a besoin de temps pour apprendre en tant que critiques. Deux valeurs - 0.2999999 et 0.3000001 sont presque indiscernables pour le réseau, mais elles déterminent si le résultat est correct ou non.

En général, la sortie en tant que distribution de probabilité est toujours meilleure que la discrimination directe, car elle donne plus d'informations.