Étant donné une fonction de coût, C (poids), qui dépend des sorties attendues et du réseau, comment C est-il différencié par rapport aux poids?

Je construis un réseau de neurones à partir de zéro qui catégorise les valeurs de x en 21 estimations possibles pour sin (x). Je prévois d'utiliser MSE comme fonction de perte. Après avoir trouvé la perte, le vecteur colonne de tous les poids dans le réseau est recalculé. Colonne vecteur de delta w ~ = vecteur colonne de dérivées partielles de C par rapport à chaque poids.Étant donné une fonction de coût, C (poids), qui dépend des sorties attendues et du réseau, comment C est-il différencié par rapport aux poids?

∇C≡(∂C/∂w1,∂C/∂w2...).T and Δw =−η∇C where η is the (positive) learn rate.

Le problème est, pour trouver le gradient de C, vous devez différencier par rapport à chaque poids. Qu'est-ce que que la fonction ressemble même? Ce n'est pas juste le MSE indiqué précédemment?

Toute aide est appréciée. Aussi, excuses à l'avance si cette question est mal placée, je n'étais pas sûr si elle appartenait ici ou dans un forum de mathématiques.

Merci.

(je pourrais ajouter que je l'ai essayé de trouver une réponse à cette ligne, mais peu d'exemples qui soit ne pas utiliser les bibliothèques pour faire le travail sale ou présenter les informations clairement.)

Source

2017-10-17 Harrison Froedge

Malheureusement, il s'agit d'une question mathématique, pas de programmation, et par conséquent, il est hors sujet pour SO. –

http://neuralnetworksanddeeplearning.com/chap2.html

Je l'avais trouvé il y a un certain temps mais je me suis rendu compte maintenant que c'était important. Le lien décrit δ (j, l) comme une valeur intermédiaire pour arriver à la dérivée partielle de C par rapport aux poids. Je vais poster ici avec une réponse complète si le lien ci-dessus répond à ma question, car j'ai vu quelques messages similaires à la mienne qui n'ont pas encore reçu de réponse.

Source

2017-10-17 06:18:28

Étant donné une fonction de coût, C (poids), qui dépend des sorties attendues et du réseau, comment C est-il différencié par rapport aux poids?

Répondre

Questions connexes