IO/ACM中来自浮点数的陷阱(收集向)

  OI/ACM中经常要用到小数来解决问题(概率、计算几何等),但是小数在计算机中的存储方式是浮点数而不是我们在作数学运算中的数,有精度的限制。

  以下以GUN C++为准,其他语言(或编译器)也差不了多少。本文竞赛向。

 

一、基础篇

1、一般浮点数使用double,范围为大概为-10^308 ~ 10^308,有效精度为15~16位10进制数。

2、一般没事(比如内存问题)不用float,而使用double,一个double占8个字节。

3、信息学竞赛一般使用scanf和printf输入输出,而浮点数的输入是scanf("%lf", &x),浮点数的输出是printf("%f", x),注意两个是不一样的。使用printf("%lf", x)来输出浮点数有可能会出错,因为标准中规定double输出是使用"%f"的,并非所有编译器都实现了"%lf"的输出(比如POJ的G++就没有)。

4、在实在没有办法的情况下可以使用long double,但标准只规定了其精度一定不小于double,有可能等于double请注意。

5、double的精度有限,并不是精确的存储数字,而且它是二进制存储,如下图,0.1 * 10不等于1,因为0.1在计算机中不是我们认为的1/10,下图有0.1在double下的值,可以看出并不完全等于0.1。

  

6、为了解决上面不能直接比较的问题,我们可以设置一个精度EPS,来辅助我们检验两个数是否非常接近。EPS的设置要看题目具体情况,一般情况下可以设成1e-8。

定义函数:

inline int sgn(double x) {
    if(fabs(x) < EPS) return 0;
    return x > 0 ? 1 : -1;
}

用上述函数来判断一个数是否大于小于或等于0。

 x = 0 写成 sgn(x) == 0

 x < 0 写成 sgn(x) < 0

 x > 0 写成 sgn(x) > 0

 x > y 写成 sgn(x - y) > 0

 x == y 写成 sgn(x - y) == 0

 x >= y 写成 sgn(x - y) >= 0

以此类推。

7、上述函数的一种常数优化的写法:

inline int sgn(double x) {
    return (x > EPS) - (x < -EPS);
}

 

二、进阶篇(陷阱篇)

1、在竞赛中,可能存在给一个double多次计算后,非常接近0的情况,但是,它可能是-0.000000000000000001(一下子举不出实际的例子……),这时输出会变成-0.00,在一部分精确比较的题目上可能会出错,解决方案为输出的时候加上一个EPS(当然不能排除出题人自己煞笔的情况……),即printf("%f", ans + EPS)。

2、如果一个double,要把一个数组里的浮点数累加起来(即 double sum = accumlate(arr.begin(), arr.end(), 0)),如果数组里的数相差可能会比较大,应该从小到大累加。否则可能会发生加了一个很大的浮点数之后,再加一个很小的浮点数,因为精度的原因,跟没加一样(比如一个极端的例子,1e100 + 1e-100还是等于1e100)。因为比较小的数多了,还是会影响到答案的,并不是可以简简单单被忽略的。

3、在计算一个数减去一组数的时候(即double sum = x - accumlate(arr.begin(), arr.end(), 0)),应该先把数组里的数全加起来,再用那个数来减。否则跟上面一样,可能会出现减去了一个很小的数,跟没减一样。

4、二分的时候,EPS设置不当,可能会出现奇怪的问题(特别是有多次二分而对着两次二分要求的精度不一样的时候),这时可以采取另一种写法:

double binary_search(double l, double r) {
    for(int i = 0; i < 100; ++i) {
        double mid = (l + r) / 2;
        if(check(mid)) l = mid;
        else r = mid;
    }
    return l;
}

循环次数可按需设置,一般100都够,对时间要求高可以设小一点。

5、在连乘的时候,浮点数可能会丢比较多的精度,此时可以利用公式x1 * x2 * …… * xn = exp(ln(x1 * x2 * …… * xn)) = exp(ln(x1) + ln(x2) + ……ln(xn)),取他们的对数相加,再求次幂。

比如在计算阶乘的时候,可以:

double Factorial(int n) {
    double res = 0;
    for(int i = 1; i <= n; ++i)
        res += log(i);
    return exp(res);
}

当然有必要的时候(其实是大多时候)我们可以先不exp()先返回,作完后续运算再exp()

6、待补充

posted @ 2014-09-06 22:39  Oyking  阅读(1792)  评论(1编辑  收藏  举报