浮点数

FP32：

1bit符号位，8bit指数，23bit底数位。

FP16：

1bit符号位，5bit指数，10bit底数位。

BF16：

1bit符号位，8bit指数，7bit底数位

FP16转FP32

NAN/INF：对应的FP32的值
+0/-0： +0/-0
normal：指数+0x70,底数左移13位
subnormal：对应的FP32属于normal，需要继续左移至最高位为1的省略掉。(0x0078, 需要左移四位)，指数+0x70-(x-1)(x为底数左移位数，-1是额外左移值-1)
例如：FP16的0x0078转换成FP32是0x36F00000.

https://blog.csdn.net/ysaeeiderup/article/details/124104042
https://en.wikipedia.org/wiki/Bfloat16_floating-point_format

posted @ 2024-07-26 21:17 King--jin 阅读(152) 评论(0) 收藏举报

刷新页面返回顶部