浮点数

FP32:

1bit符号位,8bit指数,23bit底数位。
image

FP16:

1bit符号位,5bit指数,10bit底数位。
image

BF16:

1bit符号位,8bit指数,7bit底数位
image

FP16转FP32
  1. NAN/INF:对应的FP32的值
  2. +0/-0: +0/-0
  3. normal:指数+0x70,底数左移13位
  4. subnormal:对应的FP32属于normal,需要继续左移至最高位为1的省略掉。(0x0078, 需要左移四位),指数+0x70-(x-1)(x为底数左移位数,-1是额外左移值-1)
    例如:FP16的0x0078转换成FP32是0x36F00000.

https://blog.csdn.net/ysaeeiderup/article/details/124104042
https://en.wikipedia.org/wiki/Bfloat16_floating-point_format

posted @ 2024-07-26 21:17  King--jin  阅读(136)  评论(0)    收藏  举报