J'ai deux nombres à virgule flottante en notation binaire 16 bits, et quand je suis en train de les ajouter que je tombe sur un problème:IEEE 754 somme d'addition de représentation à virgule flottante dépasse les endroits au format 16 bits
A = 0 11110 1111000000
B = 0 11010 1101110000
Maintenant A + B est ce que j'essaie de faire, mais voici mon problème; Comment représenter la somme en format 16 bits?
A = 63488
B = 3808
A + B = 67296
Le nombre décimal maximum qui peut être apte à 16 bits en notation IEEE 754 est 65504, étant représenté:
MAX = 0 11110 1111111111 = 65504
Comment représenter 67296?
AFAICT, vous ne pouvez pas. Vous avez un débordement. –
Si vous suivez IEEE 754, le résultat est positif infini, '0 11111 0000000000' –