1

J'ai commencé un cours en apprentissage profond. J'essaie de faire un exemple afin de m'expliquer comment les poids sont trouvés mathématiquement. Si ce que j'ai écrit ci-dessous est un non-sens, je serai heureux d'entendre une explication. Merci. Donc, pour une image donnée, nous avons WX + b. Nous obtenons un vecteur Y puis nous le comparons à un vecteur d'étiquette souhaité L selon enter image description here. Je suppose que nous calculons D avec "Cosine Similarité". Pour plus de simplicité S (Y) == Y. Donc, ce que nous essayons de faire est de calculer enter image description here alors ce sera un. Disons que nous avons l'image X de la lettre "a" enter image description here et deux étiquettes ("a", "b"). Puis enter image description here. Nous voulons calculer W et b pour lequel nous obtiendrons ce vecteur enter image description here que lorsque nous l'insérerons dans enter image description here nous obtiendrons zéro. Nous convertissons X en un vecteur enter image description here. Puisque nous avons 2 étiquettes et la taille du X est 9, le W et b sont les suivants: enter image description here. Donc, nous obtenons: enter image description here. Cela nous donne le système d'équations suivant: enter image description here. Donc, maintenant nous devons résoudre les problèmes suivants enter image description here.Ma compréhension générale de trouver des poids est-elle correcte?

Si ce que j'ai écrit ci-dessus n'est pas un non-sens, je ne comprends pas très bien où trouver le minimum est appliqué?

+0

Je serai heureux de tout commentaire. Je veux savoir si je suis sur le bon chemin. – theateist

Répondre

0

En apprentissage en profondeur, trouver les moyennes minimales minimise la fonction d'entropie croisée. L'entropie croisée symbolise la "perte" du réseau. Nous essayons donc de changer les poids et les biais du réseau pour produire une sortie qui minimise la perte d'entropie croisée. Par conséquent, nous minimisons D (S, L).

+0

Trouver D (S, L) signifie trouver comment similaires S et L vecteurs, non? Une façon de le faire est d'utiliser "Cosine Similarity", non? Nous voulons donc trouver l'angle aussi proche de zéro que possible, non? – theateist

+0

Oui, cela s'appelle l'apprentissage métrique pour autant que je sache. –

+0

Alors, pourquoi utiliser l'approche de l'entropie croisée pour décrire la fonction de perte et non pas la «similarité cosinus», par exemple, pour décrire la fonction de perte en minimisant l'angle? – theateist