浮点数的秘密

1. 二进制十进制之间的互相转换【1】

1.1 二进制数转换成十进制数

由二进制数转换成十进制数的基本做法是，把二进制数首先写成加权系数展开式，然后按十进制加法规则求和。这种做法称为"按权相加"法。
[例1105] 把二进制数110.11转换成十进制数。

1.2 十进制数转换为二进制数
十进制数转换为二进制数时，由于整数和小数的转换方法不同，所以先将十进制数的整数部分和小数部分分别转换后，再加以合并。
1.2.1 整数部分
十进制整数转换为二进制整数采用"除2取余，逆序排列"法。具体做法是：用2去除十进制整数，可以得到一个商和余数；再用2去除商，又会得到一个商和余数，如此进行，直到商为零时为止，然后把先得到的余数作为二进制数的低位有效位，后得到的余数作为二进制数的高位有效位，依次排列起来。
[例1107] 把 (173)10 转换为二进制数。

1.2.2 小数部分

十进制小数转换成二进制小数采用"乘2取整，顺序排列"法。具体做法是：用2乘十进制小数，可以得到积，将积的整数部分取出，再用2乘余下的小数部分，又得到一个积，再将积的整数部分取出，如此进行，直到积中的小数部分为零，或者达到所要求的精度为止。然后把取出的整数部分按顺序排列起来，先取的整数作为二进制小数的高位有效位，后取的整数作为低位有效位。

[例1108] 把（0.8125）转换为二进制小数。

1.2.3 合并

[例1109]（173.8125）10＝（）2
由［例1107］得（173）10＝（10101101）2
由［例1108］得（0.8125）10＝（0.1101）2
把整数部分和小数部分合并得：（173.8125）10＝（10101101.1101）2

2. 浮点数的二进制表示【2】

（1）
前几天，我在读一本C语言教材，有一道例题：

　　#include <stdio.h>
　　void main(void){
　　　　int num=9; /* num是整型变量，设为9 */
　　　　float* pFloat=&num; /* pFloat表示num的内存地址，但是设为浮点数 */
　　　　printf("num的值为：%d\n",num); /* 显示num的整型值 */
　　　　printf("*pFloat的值为：%f\n",*pFloat); /* 显示num的浮点值 */
　　　　*pFloat=9.0; /* 将num的值改为浮点数 */
　　　　printf("num的值为：%d\n",num); /* 显示num的整型值 */
　　　　printf("*pFloat的值为：%f\n",*pFloat); /* 显示num的浮点值 */
　　}

运行结果如下：

　　num的值为：9
　　*pFloat的值为：0.000000
　　num的值为：1091567616
　　*pFloat的值为：9.000000

我很惊讶，num和*pFloat在内存中明明是同一个数，为什么浮点数和整数的解读结果会差别这么大？
要理解这个结果，一定要搞懂浮点数在计算机内部的表示方法。我读了一些资料，下面就是我的笔记。
（2）
在讨论浮点数之前，先看一下整数在计算机内部是怎样表示的。
　　int num=9;
上面这条命令，声明了一个整数变量，类型为int，值为9（二进制写法为1001）。普通的32位计算机，用4个字节表示int变量，所以9就被保存为00000000 00000000 00000000 00001001，写成16进制就是0x00000009。
那么，我们的问题就简化成：为什么0x00000009还原成浮点数，就成了0.000000？
（3）
根据国际标准IEEE 754，任意一个二进制浮点数V可以表示成下面的形式：

　　
　　（a）(-1)^s表示符号位，当s=0，V为正数；当s=1，V为负数。
　　（b）M表示有效数字，大于等于1，小于2。
　　（c）2^E表示指数位。
举例来说，十进制的5.0，写成二进制是101.0，相当于1.01×2^2。那么，按照上面V的格式，可以得出s=0，M=1.01，E=2。
十进制的-5.0，写成二进制是-101.0，相当于-1.01×2^2。那么，s=1，M=1.01，E=2。
IEEE 754规定，对于32位的浮点数，最高的1位是符号位s，接着的8位是指数E，剩下的23位为有效数字M。

对于64位的浮点数，最高的1位是符号位S，接着的11位是指数E，剩下的52位为有效数字M。

（5）
IEEE 754对有效数字M和指数E，还有一些特别规定。
前面说过，1≤M<2，也就是说，M可以写成1.xxxxxx的形式，其中xxxxxx表示小数部分。IEEE 754规定，在计算机内部保存M时，默认这个数的第一位总是1，因此可以被舍去，只保存后面的xxxxxx部分。比如保存1.01的时候，只保存01，等到读取的时候，再把第一位的1加上去。这样做的目的，是节省1位有效数字。以32位浮点数为例，留给M只有23位，将第一位的1舍去以后，等于可以保存24位有效数字。
至于指数E，情况就比较复杂。
首先，E为一个无符号整数（unsigned int）。这意味着，如果E为8位，它的取值范围为0~255；如果E为11位，它的取值范围为0~2047。但是，我们知道，科学计数法中的E是可以出现负数的（NOTE：表示一个<1的小数），所以IEEE 754规定，E的真实值必须再减去一个中间数，对于8位的E，这个中间数是127；对于11位的E，这个中间数是1023。
比如，2^10的E是10，所以保存成32位浮点数时，必须保存成10+127=137，即10001001。
然后，指数E还可以再分成三种情况：
    （a）E不全为0或不全为1。这时，浮点数就采用上面的规则表示，即指数E的计算值减去127（或1023），得到真实值，再将有效数字M前加上第一位的1。
    （b）E全为0。这时，浮点数的指数E等于1-127（或者1-1023），有效数字M不再加上第一位的1，而是还原为0.xxxxxx的小数。这样做是为了表示±0，以及接近于0的很小的数字。
    （c）E全为1。这时，如果有效数字M全为0，表示±无穷大（正负取决于符号位s）；如果有效数字M不全为0，表示这个数不是一个数（NaN）。
（6）
好了，关于浮点数的表示规则，就说到这里。
下面，让我们回到一开始的问题：为什么0x00000009还原成浮点数，就成了0.000000？
首先，将0x00000009拆分，得到第一位符号位s=0，后面8位的指数E=00000000，最后23位的有效数字M=000 0000 0000 0000 0000 1001。
由于指数E全为0，所以符合上一节的第二种情况。因此，浮点数V就写成：
　　V=(-1)^0×0.00000000000000000001001×2^(-126)=1.001×2^(-146)
显然，V是一个很小的接近于0的正数，所以用十进制小数表示就是0.000000。
（7）
再看例题的第二部分。
请问浮点数9.0，如何用二进制表示？还原成十进制又是多少？
首先，浮点数9.0等于二进制的1001.0，即1.001×2^3。
那么，第一位的符号位s=0，有效数字M等于001后面再加20个0，凑满23位，指数E等于3+127=130，即10000010。
所以，写成二进制形式，应该是s+E+M，即0 10000010 001 0000 0000 0000 0000 0000。这个32位的二进制数，还原成十进制，正是1091567616。

3. 浮点数在计算机中存储方式【3】

C语言和C#语言中，对于浮点类型的数据采用单精度类型（float）和双精度类型(double)来存储，float数据占用32bit,double数据占用64bit,我们在声明一个变量float f= 2.25f的时候，是如何分配内存的呢？其实不论是float还是double在存储方式上都是遵从IEEE的规范的，float遵从的是IEEE R32.24 ,而double 遵从的是R64.53。

无论是单精度还是双精度在存储中都分为三个部分：

（1）.符号位(Sign) : 0代表正，1代表为负

（2）.指数位（Exponent）:用于存储科学计数法中的指数数据，并且采用移位存储

（3）.尾数部分（Mantissa）：尾数部分

R32.24和R64.53的存储方式都是用科学计数法来存储数据的，比如8.25用十进制的科学计数法表示就为:8.25*10⁰, 而120.5可以表示为:1.205*10²。

而我们计算机根本不认识十进制的数据，他只认识0，1，所以在计算机存储中，首先要将上面的数更改为二进制的科学计数法表示，8.25用二进制表示可表示为1000.01。120.5用二进制表示为：1110110.1。用二进制的科学计数法表示1000.01可以表示为1.00001*2³，1110110.1可以表示为1.1101101*2⁶, 任何一个数字的科学计数法表示都为1.xxx*2ⁿ, 尾数部分就可以表示为xxxx。

由于第一位都是1，可以将小数点前面的1省略，所以23bit的尾数部分，可以表示的精度却变成了24bit，道理就是在这里。那24bit能精确到小数点后几位呢？我们知道9的二进制表示为1001，所以4bit能精确十进制中的1位小数点，24bit就能使float能精确到小数点后6位。而对于指数部分，因为指数可正可负，8位的指数位能表示的指数范围就应该为:-127-128了，所以指数部分的存储采用移位存储，存储的数据为原数据+127。

下面就看看8.25和120.5在内存中真正的存储方式。

首先看下8.25，用二进制的科学计数法表示为:1.00001*2³（注：原文如此，应当为1.0001*2³）

符号位为:0，表示为正，指数位为:3+127=130 ,尾数部分为0001（注：应为00001）,故8.25的存储方式如下图所示:

而单精度浮点数120.5的存储方式如下图所示:

那么如果给出内存中一段数据，并且告诉你是单精度存储的话，你如何知道该数据的十进制数值呢？其实就是对上面的反推过程，比如给出如下内存数据：0100001011101101000000000000，首先我们现将该数据分段，0 1000 0101 110 1101 0000 0000 0000 0000，在内存中的存储就为下图所示：

根据我们的计算方式，可以计算出，这样一组数据表示为:1.1101101*2⁶=120.5 。

而双精度浮点数的存储和单精度的存储大同小异，不同的是指数部分（11位）和尾数部分的位数（52位），并且对于指数部分，双精度采用：原数据+1023。所以这里不再详细的介绍双精度的存储方式了，只将120.5的最后存储方式图给出。

下面我就这个基础知识点来解决一个我们的一个疑惑，请看下面一段程序，注意观察输出结果

float f = 2.2f;
double d = (double)f;
Console.WriteLine(d.ToString("0.0000000000000"));
f = 2.25f;
d = (double)f;
Console.WriteLine(d.ToString("0.0000000000000"));

可能输出的结果让大家疑惑不解，单精度的2.2转换为双精度后，精确到小数点后13位后变为了2.2000000476837，而单精度的 2.25转换为双精度后，变为了2.2500000000000，为何2.2在转换后的数值更改了而2.25却没有更改呢？很奇怪吧？其实通过上面关于两种存储结果的介绍，我们已经大概能找到答案。

首先我们看看2.25的单精度存储方式，很简单 0 1000 0001 001 0000 0000 0000 0000 0000, 而2.25的双精度表示为:0 100 0000 0001 0010 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000,这样2.25在进行强制转换的时候，数值是不会变的。

而我们再看看2.2呢，2.2用科学计数法表示应该为：将十进制的小数转换为二进制的小数的方法为将小数*2，取整数部分，所以0.2*2=0.4，所以二进制小数第一位为0.4的整数部分0，0.4*2=0.8，第二位为 0, 0.8*2=1.6,第三位为1，0.6*2 = 1.2，第四位为1，0.2*2=0.4，第五位为0，这样永远也不可能乘到=1.0，得到的二进制是一个无限循环的排列 00110011001100110011... ,对于单精度数据来说，尾数只能表示24bit的精度，所以2.2的float存储为:

但是这样存储方式，换算成十进制的值，却不会是2.2的，因为十进制在转换为二进制的时候可能会不准确，如2.2，而double类型的数据也存在同样的问题，所以在浮点数表示中会产生些许的误差，在单精度转换为双精度的时候，也会存在误差的问题，对于能够用二进制表示的十进制数据，如 2.25，这个误差就会不存在，所以会出现上面比较奇怪的输出结果。

4 为什么有些int是float表示不了的呢？【4】

为什么有些int是float表示不了的呢？因为int与float同样占4个字节，float表示的范围又比int大并且还包含很多小数，那int的每个值都能被float表示就是不可能的事情了。

结合例子理解一下

我们看一下3.75的内存结构到底是什么样子的。首先转化成二进制形式11.11。转化成二进制指数形式1.111*2¹。由此我们可以得知尾数部分是111（将1省略掉了），不足23位的后边补0，指数部分是1+127=128，对应二进制10000000。所以存储结构就是01000000011100000000000000000000。

反过来转换一下，比如某个float的存储结构是 01000000011100000000000000000000，符号位是正的，指数位是128，实际的指数是128-127=1，尾数是111，再加上省略的那位就是1.111。所以对应的二进制指数形式是1.111*2¹，对应的二进制是11.11，对应的十进制是3.75。

到这里我们就可以看出，实际上尾数决定了浮点数的精度，尾数只有23位，加上省略的那位就是24位。如果一个int类型的值小于2²⁴，那么float是完全可以表示的。如果int类型大于2²⁴就不一定能表示了。

假如一个int数值的二进制表示形式是100000000000000000000000，表示成指数形式是1.00000000000000000000000*2²³，对应的float的类型，尾数位全部为0，指数位是23+127=150，这样完全没有问题。假如一个int数值的二进制表示形式是1000000000000000000000001，表示成指数形式是1.000000000000000000000001*2²⁴，对应的float的类型尾数位是000000000000000000000001一共24位，这样就完全超出了float最多容纳23位尾数的能力。所以就不能正确表达这个int值了。由此也可以得出不能被float准确表达的最小int值是2²⁴+1。我们再将1000000000000000000000001的值加1，变成了1000000000000000000000010，这样变换为指数形式可以看出尾数又变为了23位。

也就是说25位的二进制整数最后一位是0才能被float准确表示，每2个数就有一个不能被准确表示。如果是26位的二进制整数最后两位都是0才可以被float准确表达，每4个数就有3个不能被准确表示，以此类推。

5. int，float，double之间相互转换的问题【5】

其实学习过编程的同学，都对这三个东西再熟悉不过了。

int，又称作整型，在.net中特指的是Int32，为32位长度的有符号整型变量。

float，单精度浮点数，32位长度，1位符号位，8位指数位与23位数据位，在.net中又称为Single。

double，64位长度的双精度浮点数，1位符号位，11位指数位，52位数据位。

它们互相的关系就是：int可以稳式转换成float和double，float只能强制转换成int，但是可以隐式转换成double，double只能强制转换成float和int。

这就出现了几个问题，而且是比较有意思的问题。

 int i = Int32.MaxValue;
 float f = i;
 int j = (int)f;
 bool b = i == j;

这里的b，是false。（如果我们把float换成long，第一次进行隐式转换，第二次进行强制转换，结果将会是true）。乍一看，float.MaxValue是比int.MaxValue大了不知道多少倍的，然而这个隐式转换中，却造成了数据丢失。

int.MaxValue，这个值等于2^31-1，写成二进制补码形式就是01111…(31个1)，这个数，在表示成float计数的科学计数法的时候，将会写成+0.1111…(23个1)*2^31，对于那31个1，里面的最后8个，被float无情的抛弃了，因此，再将这个float强制转换回int的时候，对应的int的二进制补码表示已经变成了0111…(23个1)00000000，这个数与最初的那个int相差了255，所以造成了不相等。

那么提出另一个问题，什么样的int变成float再变回来，和从前的值相等呢？这个问题其实完全出在那23位float的数据位上了。对于一个int，把它写成二进制形式之后，成为了个一32个长度的0、1的排列，对于这个排列，只要第一个1与最后一个1之前的间距，不超过23，那么它转换成float再转换回来，两个值就会相等。这个问题是与大小无关的，而且这个集合在int这个全集下并不连续。

double d = 0.6;
float f = (float)d;
double d2 = f;
bool b = d == d2;

这里的b，也是false。（如果开始令d等于0.5，结果就将会是true。）乍一看，0.6这个数这么短，double和float都肯定能够表示，那么转换过去再转换回来，结果理应相等。其实这是因为我们用十进制思考问题太久了，如果我们0.6化成二进制小数，可以发现得到的结果是0.10011001……(1001循环)。这是一个无限循环小数。因此，不管float还是double，它在存储0.6的时候，都无法完全保存它精确的值（计算机不懂分数，呵呵），这样的话由于float保存23位，而double保存52位，就造成了double转化成float的时候，丢失掉了一定的数据，再转换回去的时候，那些丢掉的值被补成了0，因此这个后来的double和从前的double值已经不再一样了。

这样就又产生了一个问题，什么样的double转换成float再转换回来，两个的值相等呢？其实这个问题与刚才int的那个问题惊人的相似，只不过我们还需要考虑double比float多了3位的指数位，太大的数double能表示但float不行。还有一个算是数学上的问题，什么样的十进制小数，表示成二进制不是无限小数呢？这个问题可以说完全成为数学范畴内的问题了，但是比较简单，答案也很明显，对于所有的最后一位以5结尾的十进制有限小数，都可以化成二进制的有限小数（虽然这个小数可能长到没谱）。3

最后，一个有意思有问题，刚才说过0.6表示成为二进制小数之后，是0.1001并且以1001为循环节的无限循环小数，那么在我们将它存成浮点数的时候，一定会在某个位置将它截断（比如float的23位和double的52位），那么真正存在内存里的这个二进制数，转化回十进制，到底是比原先的十进制数大呢，还是小呢？

答案是It depends。人计算十进制的时候，是四舍五入，计算机再计算二进制小数也挺简单，就是0舍1入。对于float，要截断成为23位，假如卡在24位上的是1，那么就会造成进位，这样的话，存起来的值就比真正的十进制值大了，如果是0，就舍去，那么存起来的值就比真正的十进制值小了。因此，这可以合理的解释一个问题，就是0.6d转换成float再转换回double，它的值是0.60000002384185791，这个值是比0.6大的，原因就是0.6的二进制科学计数法表示，第24位是1，造成了进位。

到了这里，仍然有一事不解，就是对于浮点数，硬件虽然给予了计算上的支持，但是它与十进制之间的互相转换，到底是如何做到的呢，又是谁做的呢（汇编器还是编译器）。这个东西突出体现在存在内存里的数明显实际与0.6不等，但是无论哪种语言，都能够在Debug以及输入的时候，将它正确的显示成0.6提供给用户（程序员），最好的例子就是double和ToString方法，如果我写double d=0.59999999999999999999999999999，d.ToString()给我的是0.6。诚然，对于double来说，我写的那个N长的数与0.6在内存里存的东西是一样的，但是计算机，又如果实现了将一个实际与0.6不相等的数变回0.6并显示给我的呢？关于这个问题，欢迎大家讨论并请高手指教一二。

Reference：

【1】http://www.cnblogs.com/xkfz007/articles/2590472.html

【2】浮点数的二进制表示(http://www.ruanyifeng.com/blog/2010/06/ieee_floating-point_representation.html)

【3】浮点数在计算机中存储方式 (http://www.cnblogs.com/jillzhang/archive/2007/06/24/793901.html)

【4】别在int与float上栽跟头 (http://www.cnblogs.com/luguo3000/p/3719651.html)

【5】int, float, double之间不得不说的故事 (http://www.cnblogs.com/wodehuajianrui/archive/2009/03/18/1415173.html)

posted @ 2014-06-11 16:43 金石开阅读(2358) 评论(0) 收藏举报

刷新页面返回顶部