2017-10-07 3 views
0

Retour La propagation fonctionne comme un charme dans l'apprentissage supervisé où les étiquettes de sortie sont données. Mais je veux savoir si Backpropagation fonctionne dans l'apprentissage non supervisé. Si c'est le cas, comment?Retour Propagation

+0

signifie en général le point de départ dans le temps d'une certaine référence. – Mouser

Répondre

1

Une époque consiste en un cycle d'entraînement complet sur l'ensemble d'apprentissage. Une fois que chaque échantillon de l'ensemble est vu, vous recommencez - marquant le début de la 2ème époque.

Une passe est une époque et chaque époque représente une itération.

Je ne suis pas sûr que le nombre moyen d'époques utilisées est un moyen valable d'y penser. Je suppose que tant que vous n'êtes pas surapprentissage ou atteint un certain nombre d'époques ou votre précision de validation ne s'est pas améliorée après 'n' époques .. selon la première éventualité. En termes d'époque, j'ai vu un exemple de tensorflow où ils disent que 500 itérations vous donneront une précision beaucoup plus faible (en fonction du problème que vous résolvez) et ils recommandent de pousser à 4000!

Vous pouvez arrêter l'entraînement lorsque l'erreur converge ou devient inférieure à un certain seuil. Cela va également dans le territoire de la prévention de l'overfitting.

+0

Merci c'était génial – Naren

0

Le but de la propogation arrière est de comprendre les dérivées partielles de notre fonction d'erreur avec chaque poids individuel dans le réseau, de sorte que nous pouvons ceux dans notre descente de gradient. Il nous donne un moyen de calculer l'erreur pour chaque couche, puis de relier ces erreurs à la quantité d'intérêt réel d'une dérivée partielle avec n'importe quel poids dans le réseau. Nous pouvons utiliser la règle de chaîne pour calculer les dérivées partielles (c'est-à-dire) le gradient de l'erreur w.r.t chaque poids.

La propogation arrière consiste simplement à appliquer de manière répétée la règle de la chaîne à travers tous les chemins possibles dans notre réseau de neurones.

Le processus étape par étape impliquée dans BP sont:

Etape 1: recevoir une nouvelle observation x et y cible. Où x pourrait être une image d'une cellule cancéreuse qui est en fait un énorme groupe de nombres vectorisés (pixels) et Y le marqueur cancer. Ils pourraient être cancéreux ou non. Tant que nous avons l'étiquette, nous pouvons faire une rétropropagation. Étape 2: Prendre le vecteur d'entrée, multiplier un peu de poids, ajouter un biais, et l'activer en lui appliquant une non-linéarité et le faire continuellement encore et encore jusqu'à ce que nous ayons une prédiction de sortie.

Etape 3: La prédiction de sortie est comparée à l'étiquette réelle et la valeur d'erreur est calculée.

Etape 4: Réinjection de l'erreur. Calculer le PD de l'erreur par rapport à chaque poids récursivement pour chaque couche. Nous allons donc calculer la couche de PD wrt avant et nous prendrons le gradient d'erreur et l'utiliserons pour calculer la PD à la couche suivante et récursivement ce processus produira un ensemble de valeurs de gradient qui est utilisé pour mettre à jour tous les poids dans le réseau .

Donc en bref BP fonctionne comme Entrée -> Feed Forward -> Get erreur -> Retour Propager -> Mise à jour Poids -> Répéter

rétropropagation fonctionne bien dans l'ensemble de données marqué qui est supervisé l'apprentissage, mais il est également utilisé dans l'apprentissage non supervisé où il n'y a pas d'étiquettes spécifiques. Dans l'apprentissage non supervisé, BP travaille par autosurveillance signifie que nous créons les étiquettes.

+0

backpropagation dans l'étape d'importation dans la réduction des erreurs – Naren

+0

Backpropagation est également une étape importante dans la descente de gradient – Naren