IEEE754标准浮点数表示与舍入

原文地址:https://blog.fanscore.cn/p/26/

友情提示：本文排版不太好，但内容简单，请耐心观看，总会搞懂的。

1. 定点数

对于一个无符号二进制小数，例如101.111，如果我们要用2个字节即16位来存储它，我们可以约定用高8位存储小数点前的数字，用低8位存储小数点后的数字，这样的话它在存储空间中就是这样的：00000101.11100000。这种存储方式中小数点的位置是固定的，这称为定点数。这种存储方式有个问题那就是存储的数值是有上限的即11111111.11111111 = 2⁷+2⁶+2⁵+2⁴+2³+2²+2¹+2⁰+2^-1+2^-2+2^-3+2^-4+2^-5+2^-6+2^-7+2^-8。如果我们要存储1111111111111111.这个数的话，用这个存储方式是无法存储的，但是实际上对于这个数来说16位的存储空间是够用的，就是说定点数存在空间浪费的缺点。

基于这个缺点，计算机中通常用浮点数来表示一个小数。

2. 浮点数

IEEE754标准使用V = (-1)^s × M × 2^E表示浮点数，符号位(sign)s 决定该数是正数(s=0)还是负数(s=1)，尾数(significand)M是一个二进制小数，阶码(exponent) E。

单精度浮点数中，s占用1位，M占用23位，E占用8位，总共32位，双精度浮点数s占1位，M占52位，E占11位，总共64位，这两种分别对应C中的float和double，另外还有一个扩展双精度它占用80位。

根据E值，浮点数有三种情况,

2.1 规格化的：E所有位既不全为0也不全为1。

在这种情况中，阶码被解释为以偏置(biased)形式表示的有符号整数，这时E的值表示为E=e-Bias，其中e为E所占位所表示的无符号整数，Bias=2^{E所占位数}-1。举个单精度浮点数的🌰，假设当前E为00001010那么E = (00001010所对应的无符号整数) - (2⁸ - 1) = 10 - 127 = -117。

这种情况中M用来表示小数，其二进制表示为1.f_-1f_-2f_-3……f_n。举个单精度的例子，假设当前M为01100000000000000000100，那么M=1 + (2^-2 + 2^-3 + 2^-21)。

2.2 非规格化的：E所有位都为0

在这种情况中，阶码值E=1-Bias,而尾数M二进制表示为0.f_-1f_-2f_-3……f_n，没有规格化值前面的1。
非规格化值有两个用途。首先规格化值M始终>1，所以没法表示0，所以+0.0的浮点表示的位模式为全0：符号位0，阶码字段全为0（表明是一个非规格化值），尾数都是0就得到M=0.0。如果符号位为1，我们就得到了-0.0。其次非规格值的另外一个用途是表示那些非常接近0.0的数。

2.3 特殊值：E所有位都为1，这时又有两种以下两种情况

无穷大：M所有位全为0，当符号位为0是就是正无穷，当符号位为1时就表示负无穷。当我们把两个特别大的数相乘或者除0的时候无穷能表示溢出的结果。
NaN（Not a Number）：M不全为0，如果一些运算的结果不能是实数或者无穷，比如对-1开平方根时就会返回NaN。

经过上面的讲解后我们思考下十进制数15.3203125使用单精度浮点数来表示的话其二进制形式应该是什么呢？我们首先将它转为二进制数，即：1111.0101001 = 1.1110101001 × 2³，即M=1.1110101001，E=3。

3. 浮点数舍入

浮点数并不能表示所有的实数，比如十进制的2.1没有完全对应的二进制数，浮点数只能近似的表示一些实数，为了尽量精确的表示这个实数就只能尽量增加二进制的位数，但是数据类型的位数是有限的，比如C中float只有32位。

关于十进制小数如何转二进制不清楚的同学可以自行搜索下相关文章，很简单，这里就不详述了。

这里举个例子：将十进制的2.1用单精度浮点数表示。首先小数点前的2转为二进制是10，然后我们将小数点后的0.1转为2进制，它是这个样子的：0.000110011001100110011001100110011001100110011001100110011...（后面是0011无限循环）所以2.1转为二进制就是：10.000110011001100110011001100110011001100110011001100110011...，转为IEEE标准表达方式就是
1.0000110011001100110011001100110011001100110011001100110011... × 2¹，即M=0.0000110011001100110011001100110011001100110011001100110011... + 1，但单精度浮点数位数只有23位，这样就面临一个问题00001100110011001100110(这里是23)01100110011001100110011001100110011...这一长串23位之后的数字怎么办？直接舍去后面的位的话意味着计算机中所有小数都小于等于它的实际值，进1的话意味着计算机中所有小数都大于等于它的实际值，四舍五入看起来不错，但是由于中间的5会进位，所以仍然会使计算系统中的小数整体偏大。在进行一些大量数据的统计时，这三种方式都回累计一个相当大的误差。

IEEE浮点格式定义了四种不同的舍入方式，下面以十进制的小数舍入只保留小数点后0位为例：

方式	1.40	1.60	1.50	2.50	-1.50
向偶数舍入	1	2	2	2	-2
向零舍入	1	1	1	2	-1
向下舍入	1	1	1	2	-2
向上舍入	2	2	2	2	-1

向偶数舍入这个方式乍看可能没看懂，它其实是使舍入后的值的最低有效数字是偶数。1.5舍入有两个选择：1和2，但由于2是偶数所以就舍入到2，同样2.5舍入有两个选择：2和3，但由于3是奇数，所以还是舍入到2。

向偶数舍入的方式使得在大多数情况下，5舍去还是进位的概率是差不多的，在进行一些大量数据的统计时产生的偏差相较其他方式小一些。

4. 二进制舍入的🌰与规则总结

好多中文资料一般到这里就戛然而止了，CSAPP书中讲到这也没有给到一个二进制的例子，相信大部分读者看完了上面也不知道二进制里是怎么处理的，所以下面给个二进制舍入的例子。

假设我们要求只保留小数点后三位，有以下例子：

1.001 011 舍入后： 1.001 原因： 1.001 011舍入有两个选择：1.001和1.010，|1.001 011 - 1.001| = 0.000 011，|1.001 011 - 1.010| = 0.000 101，显然0.000 011 < 0.000 101，所以1.001比1.010更接近原值1.001 011，所以舍入到了1.001
1.001 101 舍入后： 1.010 原因： 1.001 101舍入有两个选择：1.001和1.010，|1.001 101 - 1.001| = 0.000 101，|1.001 101 - 1.010| = 0.000 011，显然0.000 101 > 0.000 011所以舍入到后者。
1.001 100 舍入后： 1.010 原因： 1.001 100舍入有两个选择：1.001和1.010，|1.001 100 - 1.001| = 0.000 100，|1.001 100 - 1.010| = 0.000 100，两种选择的差值是相同的，这时使用向偶数舍入的方式，1.010是偶数（0偶1奇），所以舍入到1.010

根据上面的例子我们总结出以下规律：
我们用RR...RDD...D来表示一个二进制小数，R表示保留位，D表示舍去位，那么有以下规则：

DD...D < 10...0 直接舍去
DD...D > 10...0 向上舍入
DD...D = 10...0 向偶数舍入，细则：
1. RR...R = XX...0，直接舍去
2. RR...R = XX...1，向上舍入

5. 代码验证下

最后，我们写一段C代码，看下到底是不是按照IEEE754标准存的浮点数，代码如下：

int main(void) {
    float a = 2.1;
    float b = a + 3;
    return 0;
}

gcc编译下：

$ gcc -O0 -g float.c // -O0禁用优化，-g以下面使用gdb调试

gdb调试下：

$ gdb ./a.out

进入gdb后，输入start再输入layout asm查看反汇编结果：

可以看到a的值被存入了寄存器eax，在gdb中通过i r eax查看eax寄存器中的值：

可以看到eax寄存器中保存的值是0x400666666，转为二进制：01000000000001100110011001100110，套入IEEE754标准表示法：
0 10000000 00001100110011001100110，即符号位为0，M = 1.00001100110011001100110，E = 2⁷ - (2⁷ - 1) = 1

参考资料

posted @ 2020-12-02 20:16 orlion 阅读(4590) 评论(0) 收藏举报

Orlion

https://blog.fanscore.cn