2015-07-01 07:59:60引发的血案

前言:
　　作为IT从业人员, 如果不是亲身经历, 对闰秒的认识. 或许只是一个美丽的彩蛋, 觉得好玩而已. 这次真切的感受, 震惊之余, 觉得难道不是人生的幸事吗?

科普:
　　先来絮叨一下, 原子钟时间和地球时间其实是有微小的差异. 为了同步, 故引入了闰秒, 当两者的差异超过+/-0.9秒时, 就把时间时钟向前/后拨动一秒.
　　人们一般把调整时间设定在当年的1月1号或7月1号的凌晨, 由于咱们这边属于东八区, 故时间的调整点为7月1号的8点, 更确切的讲是2015-07-01 07:59:60.

经历:
　　路人甲: "今天是建党节啊, 五毛万岁!!!!"
　　路人乙: "是呀, 美好的一天, oh yeah".
　　原以为一如平常, 突然同事提醒我, 在某台机器上, 我的服务进程的CPU突然蹦到了300+.
　　

　　对比了集群的其他机器, 唯有这台机器是异常的. 最近也没升级, 也没流量的陡增.这是啥情况?
　　后来得知, 系统部在8点有操作, 这样在时间点上就吻合了? 我们猜测和闰秒有关系, 那为何其他机器正常, 这太机器不正常.是否和内核有关系?
　　对比后发现, 这台机器的内核版本比较旧,时间同步后就正常了.
　　

原因分析:
　　在某些linux 2.6.x内核版本上, 有些不合理的处理.
　　在通过CPU硬件晶振的数据获得当前精确时间时，由于闰秒的关系，这个时间和操作系统维持的墙上时间(Wall Time，也就是显示给用户看的时间)不一致，形成类似死循环的状态, 进而导致CPU暴涨.

　　The issue identified after the leap second can cause applications that are using FUTEXes to consume 100% of CPU. The issue is present in all Linux kernel versions >= 2.6.22, therefor affecting SLE 11 SP1 and later releases. The issue is caused by the FUTEX subsystem timing getting de-synchronized causing FUTEX calls to return based on a time-out, these calls are looping to look for events which causes 100% CPU consumption. We recommend to apply the workaround even if everything is currently alright with the system.

解决方案:
　　最简单的方法, 就是重启服务器.
　　当然对于线上服务而言, 这是不可取的方法.
　　实际上, 通过时间同步命令, 即可简单解决:

date -s "$(LC_ALL=C date)"

　　具体可参考文章: "Leap second issues - June 30, 2012".

总结:
　　虽然具体的产生原因, 不是特别的理解. 但算是体验了一把闰秒的惊人"威力", 长了见识. 对线上的敬畏之心, 更深了一步.

写在最后：
　　如果你觉得这篇文章对你有帮助, 请小小打赏下. 其实我想试试, 看看写博客能否给自己带来一点小小的收益. 无论多少, 都是对楼主一种由衷的肯定.

posted on 2015-07-03 00:32 mumuxinfei 阅读(547) 评论(0) 收藏举报

刷新页面返回顶部

mumuxinfei

2015-07-01 07:59:60引发的血案

公告

导航