2

Je ne comprends pas bien l'idée derrière les minima dans la dérivation de la formule de régression logistique. L'idée est d'augmenter le plus possible l'hypothèse (c'est-à-dire la probabilité de prédiction correcte proche de 1 possible), ce qui nécessite à son tour de minimiser autant que possible la fonction de coût $ J (\ theta) $.Minimums locaux et globaux de la fonction de coût dans la régression logistique

Maintenant, on m'a dit que pour que tout cela fonctionne, la fonction de coût doit être convexe. Ma compréhension de la convexité exige qu'il n'y ait pas de maximum, et donc il ne peut y avoir qu'un minimum, le minimum global. Est-ce vraiment le cas? Si ce n'est pas le cas, veuillez expliquer pourquoi. En outre, si ce n'est pas le cas, cela implique la possibilité de multiples minima dans la fonction de coût, impliquant plusieurs ensembles de paramètres produisant des probabilités de plus en plus élevées. Est-ce possible? Ou puis-je être certain que les paramètres renvoyés se réfèrent aux minima globaux et donc à la probabilité/prédiction la plus élevée?

+1

(1) Le problème de régression logistique est convexe (2) Parce qu'il est convexe, local-minimum = global-minimum 3) La régulation est une approche très importante dans cette tâche; par exemple. ajouter quelques coûts pour pénaliser les poids (4) La régulation basée sur L2 n'a qu'une solution (5) La régulation basée sur L1 pourrait avoir plusieurs solutions du même objectif; encore convexe (6) Il existe des algorithmes ne garantissant pas la convergence vers l'optimum comme les approches SGD. Ils sont toujours importants dans l'opt-out à grande échelle – sascha

Répondre

2

Le fait que nous utilisions la fonction de coût convexe ne garantit pas un problème convexe.

Il existe une distinction entre une fonction de coût convexe et une méthode convexe.

Les fonctions de coût typiques que vous rencontrez (entropie croisée, perte absolue, moindres carrés) sont conçues pour être convexes.

Cependant, la convexité du problème dépend également du type d'algorithme ML que vous utilisez.

Les algorithmes linéaires (régression linéaire, régression logistique, etc.) vous donneront des solutions convexes, c'est-à-dire qu'elles convergeront. Cependant, lorsque vous utilisez des réseaux neuronaux avec des couches cachées, vous n'êtes plus assuré d'une solution convexe.

Ainsi, la convexité est une mesure de décrire votre méthode non seulement votre fonction de coût! LR est une méthode de classification linéaire, donc vous devriez avoir un problème d'optimisation convexe chaque fois que vous l'utilisez! Cependant, si les données ne sont pas linéairement séparables, cela pourrait ne pas donner de solution et cela ne vous donnera certainement pas une bonne solution dans ce cas.