经历不可抗力是一种什么体验

郑昀 最后更新于2015/1/29

关键词:空调、运维、电缆、DNS根域、DDoS、劫持、乌龙


本文档适用人员:研发和运维

提纲:

  1. 空调,挥之不去的噩梦

  2. 易断的缆线

  3. 硬件造成的网络中断

  4. 波及全国的DNS根域事故

  5. 地方流量劫持

  6. 杀毒软件等拦截

  7. DDoS


知己知彼,百战不殆,了解一下过去那几年我们所经历过的各种不可抗离奇事件吧。

 

一.空调,挥之不去的噩梦

 

我们一而再再而三地跌倒在IDC机房空调机组脚下,那几年每年夏天都过得提心吊胆,每次望见漫天杨絮都忧心忡忡。

 

回顾一下历史:

  1. 2011年5月6日

    • 15点~18点,我司所在的世某某联廊坊IDC机房,空调故障,局部过热,导致部分主机自动关机。

    • 所幸只影响到CMS的使用,对其他服务无影响。

  2. 2011年6月2日

    • 16点~19点,仍然是世某某联廊坊IDC机房,空调机组故障,造成托管机房温度过高。

    • 16点10分开始,运维部已将中心区域服务进行了迁移,将核心业务迁移到边缘区域温度相对较低的服务器上提供服务。但随着中心区域温度的持续升高,17点开始中心区服务器相继出现工作不稳定和宕机状况。

    • 17点50分至18点06分期间,前端服务器陆续宕机,造成20%用户打不开网页。

    • 于是我司于6月底停服夜奔,从廊坊搬迁服务器回了北京,孩子还是放在身边放心。

  3. 2013年5月18日

    • 16点10分,我司所在的北京互某通IDC机房的空调机组因杨柳絮堵塞室外机而停机。

    • 托管机房某列机柜内托管服务器超温保护自动关机。

 

IDC机房空调机组停机导致的事故,我司每次都是标准处理流程:

1)运维部极速飞车到机房,冰砖啊风扇啊挪机器到外围区域啊;

2)运维部发函追责;

3)IDC机房承认错误,做出赔偿;

4)运维部发事件报告以及对方公函。

 

历史上其他公司的空调殃及池鱼事件:

2012年12月26日,12306火车票网站因机房空调系统故障而无法访问。 

 

二.易断的缆线

 

2011年11月17日16点40分~18点20分,我司短信通道所在的天津塘沽某IDC机房电缆被铲车挖断,备用电源坚持不了太久,机房断电,导致我司无法使用短信通道,同机房的遨游、新浪邮箱、豌豆荚等公司的服务也因此中断。

 

其实只要你运营时间足够长,总会撞上一次:

  • 2012年7月25日晚间~21点40分,北京暴雨抢修光纤被挖断,导致美团网一度不能访问。

  • 2012年10月18日上午~11点40分,酒仙桥某IDC机房断电,凡客诚品(刚好赶上凡客五周年生日促销)、亚马逊中国等网站无法访问。

  • 2013年7月22日上午,因市政道路施工导致通信光缆被挖断,影响了微信服务器的正常连接。

 

三.硬件造成的网络中断

硬件造成的网络中断,并不鲜见,如2013年4月10日,腾讯微信所在IDC机房的一台交换机出现硬件故障,导致少部分微信用户约十分钟发送消息失败,还一度轰动了社交网络。

 

3.1.上游的硬件问题

 

2013年6月17日,

1. 20:30分,监控报警提示业务中断;

2. 20:32分,运维人员和机房值班工程师取得联系,确认机房网络出现异常;

3. 20:35分,运维人员赶往机房现场协调处理;

4. 20:40分,通知公司相关部门人员按紧急预案执行;

5. 20:50分,现场工程师和互某通技术人员确认,长话大楼机房核心设备硬件故障造成网络中断,备件已到位,正在更换中;

6. 21:00分,将服务切换到攻击防护IP地址段(因该IP段为单联通线路,流量出口为机房本地出口,所以该段未受到影响);

7. 21:00分,机房部分流量恢复,表现为联通运营商用户可以访问网站,其他运营商无法访问网站;

8. 21:02分,通知公司相关部门人员故障开始恢复;

9. 21:30分,与互某通技术人员联系,设备硬件已经更换完成进行加电;

10. 21:35分,互某通长话机房网络恢复,其他运营商用户可以访问网站,所有功能恢复。

 

 

本次故障为互某通机房长话大楼核心设备故障造成,暴露出几个问题:

1. 长话大楼机房作为核心机房,核心网络设备没有采用在线热备,采用冷备方式,出现故障后恢复时间过长,

2. 出现长话大楼机房核心设备故障时,可以选择将BGP出口切换到同城某核心机房,但对方未进行此操作。

 

3.2.自身的硬件问题

 

2014年10月27日,

1. 15:20分,监控报警发现网站销量异常以及网站无法正常打开。

2. 15:23分,运维部开始分配工作检查故障,排除公司网络、DNS解析、外部网络攻击、机房网络问题等环节,最后判断是网站外网核心交换机可能出现故障。

3. 15:47分,运维部工程师从公司出发到机房现场进行问题排查。

4. 16:05分,运维部工程师到达现场,使用笔记本接入核心交换机,查看交换机工作状态,发现有大量报错,经判断为核心交换机堆叠出线故障,造成交换机无法正常工作。工程师将交换机堆叠线缆重新安装,并重启交换机 。

5. 16:15分,核心交换机完成重启,故障报错消失,网站开始恢复提供访问。

 

四.波及全国的DNS根域问题

 

DNS 出了问题,谁也跑不了,都受影响。

最近一次DNS事故是,2014年1月21日,继上午腾讯16项服务出现故障(与我司有关的是QQ联合登录登不进网站了)后,下午15点10分~16点30分,全国所有通用顶级域的根出现异常,导致大量国内网民无法访问 .com 域名网站,很多网站被解析到 65.49.2.178 这一美国IP地址。由于公网访问我司以及支付宝,均需要域名解析,所以损失无法估计。

 

据报载,近年来中国大规模的网络瘫痪事故有五起,包括2006年台湾地震震断海底光缆事故、2009年暴风DNS受攻击导致大范围断网、2010年百度域名被劫持事件、2011年中国电信宽带维修导致大规模网络故障、以及2014年1月21日DNS域名根服务器故障。

 

五.地方流量劫持

 

地方电信运营商和流量联盟都会出手,劫持我们的域名。

 

5.1.运营商劫持域名

 

2013年10月底,淮安销售反馈当地访问我司域名以及商户后台域名很慢,随后,运维部发现淮安铁某通劫持了我司的域名,如下图所示。

图3 域名被劫持到另一个IP上

 

这种问题只能以消费者身份投诉当地铁某通客服。

 

5.2.流量联盟劫持域名

 

2014年1月23日,长沙城市经理反馈,在网吧上网发现我司、某800等页面均直接跳转到美某团。

运维部远程协助后发现,IE浏览器访问我司域名以及其他电商域名时,会跳转到亿某发的通过网易短网址服务缩短后的地址,

然后再跳转到 http://p.y****a.com/c?s=1736f800&w=378742&c=5402&i=11642&l=0&e=&t=http://www.mei****.com/ ,

最后跳转到美某团 http://chs.mei****.com/?source=yqf&utm_campaign=AffProg&utm_medium=yqf&utm_source=p.y****a.com&utm_content=p.y****a.com%2Fc&_rdt=1&urpid=Mzc4NzQyfDAwNzA5ZjY2YmI3NTkyZDkxNGZi&utm_term=Mzc4NzQyfDAwNzA5ZjY2YmI3NTkyZDkxNGZi,

运维部怀疑是亿某发联网旗下的站长联合网吧出口的管理软件,对团购相关网站做了域名劫持。

 

那个年代,亿某发联盟的成员在各地劫持各大电商流量,十分常见,花样百出。

 

六.杀毒软件等拦截

 

被拦截无外乎被人举报或无意误杀。

 

6.1.杀毒软件拦截

 

2013年10月23日淮安城市经理反馈,商家发现用金山毒霸杀毒时会提示说我司商家后台域名有问题,如下图所示:

图4 浏览器上的杀毒软件提示

 

经过研发人员与金山客服联系,很快不再拦截,但客服拒绝回答原因。

 

接下来,我们又发现,商家在电脑桌面上创建有我司商户后台的快捷方式时,立刻弹出金山毒霸的病毒报警,如下图所示:

图6 金山毒霸的弹框提示

 

再一次联系金山客服后,金山客服反馈金山后台已经处理。

 

金山客服表示,今天处理问题与昨天处理的问题是同一个问题在两个不同软件中的体现,所以需要进行两次处理。当被问及是否还会出现第三次或者在金山的其他平台出现类似问题时,客服不确定不会出现,只能保证浏览器和快捷方式文件的病毒误报情况,不会再出现,如果有大量用户投诉网站内容,也可能会再次出现病毒报警。

 

6.2.其他拦截

 

2012年时,我司扫码验码的终端设备曾经因为移动运营商拦截 55.com 域名而被迫紧急更换域名并升级设备软件。

当时几经周折,也不知道是移动运营商哪一个部门负责此事,打探到有人投诉该域名下有非法内容因此被禁,以至于终端设备通过SIM卡上网无法访问我司服务。

 

七.DDoS

 

我司被 DDoS 攻击过,也被同机房的其他公司殃及过。

 

7.1.荒谬的躺枪

 

2011年8月9日,www.ebao**.com 是杭州一家团购网站,估计在8月8日被人DDoS攻击了,所以他们自己把域名指向我司IP(?!),还好运维部及时发现及时处理。

 

2012年2月13日,我司遭遇 SYNC Flood 攻击,机房对应网段带宽被打满。头一次在我司主站挂出公告。攻击时,我司一度把域名指向CDN,让CDN帮忙扛。

 

7.2.我司被殃及

 

从2014年1月17日下午18点开始,互某通IDC机房由于托管用户触某科技被 DDoS 攻击造成大网受到影响,网络断断续续。

故障现象为:机房内到外 PING 丢包严重,丢包最严重时丢包率 100%;网站无法正常访问。

这种现象在1月18、19、20日仍继续发生,IDC机房采取的措施是,一旦发现触某科技被打,就关闭它的端口,保证其他公司业务不受影响,所以每次都是几分钟的波动。

 

7.3.自摆乌龙

 

高估了我司的服务性能,无线曾经发了一次批量 Push,结果用户蜂拥而来,洪水而来的请求直接打垮了无线服务器协议端,各个节点雪崩。无线大头欲哭无泪。

还有一次,2012年4月24日,有人发微博说专卖店页面访问 504(Gateway Timeout),还有微博说我司商品图片打不开了。

经查,是无线在公司内网的服务器在上午9点~12点之间,从CDN大量抓取我司商品图片。

由于抓取的大量图片(毕竟是遍历商品嘛)在 CDN 中没有缓存,导致 CDN 回源取数据的流量增加,变相形成 CDN 服务器轻量 DDoS 我司静态资源服务器的情况 。

只好告诉大家在对自家主站数据进行任何大规模(并发)抓取前,先想想后果,不要自己 DDoS 自己。

 

小结一下,写了这么多,就是让大家了解一下线上线下都会面对哪些不可抗因素,做好心理准备。

 

-THE END-

 

欢迎您关注微博@郑昀,欢迎您关注微信订阅号『老兵笔记』。

 

赠图一枚:

相关精彩文章:

技术高手如何炼成

挖坑和踩雷

小伙伴们手滑集

被小伙伴们吓哭了:可怕的命令

5·12和6·17两知名网站域名被劫持事件实施过程回放

posted @ 2017-04-07 10:00  旁观者  阅读(1299)  评论(0编辑  收藏