双-单-半精度浮点数的细节

浮点数也就是小数点浮动的数,但是因为在计算机中使二进制表示,不同长度有不同的精度。三种常用的浮点数的格式:半精度(float16)、单精度(float32)、双精度(float64)
  • Value=sign*exponent*fraction
  • 数值=符号位*指数位*小数位
    • 符号位表示正负
    • 指数位表示次方
    • 小数位表示精度
区别在于指数位和小数位的长度的差异;这样近似值其实也就是有理数的表示方法;

半精度表示π,最大值和最小值:

        
 

单精度表示π,最大值和最小值:

 

双精度表示π,最大值和最小值:

 

Bfloat16

最近还诞生了一种Bfloat16的计数方式,使用和半精度相同的位数,实现了保持和单精度一样的指数位也就是8位指数位,可以表示和单精度相同的数字范围,但是牺牲了小数位也就是精度。
 
 
 
参考文献:

<wiz_tmp_tag id="wiz-table-range-border" contenteditable="false" style="display: none;">

posted @ 2020-03-20 23:41  kongchung  阅读(2448)  评论(0编辑  收藏  举报