Selon cette étude:
Gupta, S., Agrawal, A., Gopalakrishnan, K., & Narayanan, P. (2015, Juin). Apprentissage en profondeur avec une précision numérique limitée.In Conférence internationale sur l'apprentissage automatique (pages 1737-1746). A: https://arxiv.org/pdf/1502.02551.pdf
arrondi stochastique
a été nécessaire pour obtenir la convergence lors de l'utilisation de précision flottante demi-point (float16); cependant, quand cette technique d'arrondi a été utilisée, ils ont prétendu obtenir de très bons résultats.
Voici une citation pertinente de ce document: (. Chen et al, 2014)
« Une œuvre récente présente un accélérateur matériel pour la formation du réseau de neurones en profondeur qui emploie unités de calcul à virgule fixe, mais le trouve nécessaire pour utiliser la représentation point fixe 32 bits pour atteindre la convergence alors que la formation d'un réseau de neurones convolutionnel sur l'ensemble de données MNIST. en revanche, nos résultats montrent que il est possible de former ces réseaux en utilisant seulement 16 bits fixe nombre de points, tant que l'arrondissement stochastique est utilisé duri ng calculs à virgule fixe. "
Pour référence, voici la citation pour Chen à al, 2014:.
Chen, Y., Luo, T., Liu, S., Zhang, S., He, L., Wang , J., ... & Temam, O. (2014, décembre). Dadiannao: un superordinateur d'apprentissage automatique. In Actes du 47e Symposium international annuel de l'IEEE/ACM sur Microarchitecture (pp. 609-622). IEEE Computer Society. À: http://ieeexplore.ieee.org/document/7011421/?part=1
Avec float16, vous aurez probablement plus de problèmes avec les gradients de fuite. Et lorsque vous affinez le réglage, si vos dégradés sont trop faibles, les dégradés qui devraient être différents peuvent être égaux. –