Combien de temps devrait durer la formation sur les textes pour faire tomber la perte moyenne à une valeur décente?

Je travaille sur la mise en place d'une implémentation de textum et j'ai récemment reçu mes propres données récupérées. J'ai commencé la formation hier soir contre 38000 articles. Ce matin, quand j'ai regardé la perte moyenne, j'étais autour de 5.2000000. Quand je jouais avec le jeu de jouets textum, je pouvais rapidement descendre à environ 0.0000054 par exemple, mais ce n'était que contre 20 articles. J'espérais que quelqu'un qui a eu un peu plus d'expérience pourrait être capable de me donner des attentes quant à la durée de la formation. Je suis actuellement en cours d'exécution sur un Nvidia 980M. La semaine dernière, j'ai voulu essayer l'instance AWS g2.2xlarge mais j'ai trouvé que, ironiquement, il semblait que ma machine locale traitait les choses plus rapidement que la Grid 520's. Je veux encore tester les instances P2 et aussi Google Cloud, mais pour l'instant je pense que je vais juste travailler avec ma machine locale.Combien de temps devrait durer la formation sur les textes pour faire tomber la perte moyenne à une valeur décente?

Toute information que quelqu'un pourrait être en mesure de fournir ici, concernant ce que je devrais attendre? Merci!

Source

2016-10-14 xtr33me

Donc je vais juste répondre moi-même puisque je peux à peu près le faire à ce stade. Une chose que j'ai trouvée intéressante à partir d'un autre article est qu'avec un grand ensemble de données, vous ne devriez pas vous entraîner à moins de 1 par rapport à la valeur de 'perte moyenne'. C'est parce que vous commencez alors à entrer dans "surapprentissage". Par conséquent, dans ma formation actuelle contre 40k articles utilisant Nvidia 980M de mon ordinateur portable, le fichier de vocabulaire a 65997 mots et il a fallu environ un jour en moyenne pour laisser tomber la «perte moyenne» d'un seul nombre entier. Donc, actuellement, je vois des chiffres autour de 1,2 à 2,8.

------ Modifier ------ Lorsque j'ai exécuté le décodage contre les données avec ma perte moyenne aux numéros ci-dessus, les résultats étaient assez mauvais. Après avoir réfléchi à ce sujet, j'ai réalisé que mon jeu de données n'est probablement pas un "grand" jeu de données. Ceux comme Xin Pan et d'autres qui ont accès à l'ensemble de données Gigaword s'exercent contre plus d'un million d'articles. Par conséquent, je pense que mes articles 40k n'est rien en comparaison. Aussi quand la déclaration ci-dessus a été faite, je ne suis pas sûr s'il signifiait une perte moyenne de 1 ou serait-ce 0.01. De toute façon, je me réfère maintenant à Tensorboard pour visualiser quelque peu "surapprentissage" et je continue mon entraînement jusqu'à ce que je reçois une perte moyenne inférieure. J'ajouterai à cela plus tard quand mes résultats seront meilleurs.

Espérons que cela donne un peu de référence pour ceux d'entre vous qui se demandent la même chose.

Source

2016-10-17 15:16:16 xtr33me

Actuellement ayant le même problème. Qu'est-ce qui s'est finalement passé avec votre modèle? –

Est-ce que vous avez obtenu de meilleurs résultats? –

Combien de temps devrait durer la formation sur les textes pour faire tomber la perte moyenne à une valeur décente?

Répondre

Questions connexes