2017-02-03 1 views
1

J'ai l'impression que c'est couvert par le NN 101, mais je ne me souviens pas de la réponse (s'il y en a une) et je n'arrive pas à trouver une réponse sur le web. Dire que j'ai un ensemble d'entraînement de 80 éléments et un ensemble de test de 20 éléments. J'ai initialisé les poids et les biais sur mon réseau de neurones et je suis maintenant prêt à former le réseau pour comprendre la tendance générale dans les données.Lors de la formation d'un réseau de neurones, devez-vous transmettre toutes les données d'entraînement au réseau en une fois?

Do I:

a) passer tous les 80 éléments dans le réseau à la fois, trouver l'erreur, utilisez backprop pour ajuster les poids et les partis pris dans le sens de la pente, répéter jusqu'à ce que l'erreur est assez petit.

ou

b) passer en 1 point dans le réseau, pour l'erreur, utiliser backprop pour ajuster les poids et les biais dans la direction du gradient, répéter pour les autres 79 éléments, puis recommencer le processus de l'item # 1 jusqu'à ce que l'erreur soit assez petite.

ou même de choisir un nombre entre 1-80.

Dans mes recherches sur le Web, j'ai trouvé quelque chose appelé formation en ligne et par lots, j'ai le sentiment que c'est lié à cela, mais je ne suis pas complètement sûr. Y a-t-il un avantage à choisir une méthode plutôt qu'une autre?

Répondre

0

Vous avez choisi l'option tout le monde. Si vous passez tous les échantillons et que vous vous adaptez à l'apprentissage par lots, si vous vous adaptez après que tout le monde a échantillonné vous faites l'apprentissage minibatch. Mon professeur me recommande d'utiliser l'approche de descente de gradient stochastique.

Avantages et inconvénients des deux sont bien expliquées, il SG vs BL

De plus, si vous utilisez s'adapter après une partie de jeu de données, vous faites un mini apprentissage par lots. Dans cette approche est la taille déterminée problématique de la partie de l'ensemble de données.