博客园服务器故障发生及处理全过程纪录[全部写完, 请阅读文后的注意]

      2005年4月5日晚18:00左右至4月6日晚22:00左右,博客园服务器因为硬件故障造成博客园无法访问,这是博客园有史以来时间最长的一次停运,希望这个纪录永远不会被打破。这次故障给大家带来了不少麻烦,我们深表歉意!
      2005年4月5日17:00左右,我进入电信机房处理服务器的远程控制问题,前一天,由于服务器终端服务授权过期,我无法远程控制服务器,需要到机房在本地处理。本来处理这个问题只需要几分种,可是我在操作时,服务器速度突然变得很慢,系统几乎没有响应,然后Intel Application Accelerator软件发出警告,一块硬盘故障,RAID失去冗余,我当时心里想:不会吧,又坏了一块硬盘,刚换了一块新硬盘没多久,迈拓的硬盘质量这么差,看来要换个其他品牌的硬盘(错怪迈拓了,其实硬盘没有坏),坏就坏吧,不影响运行,再换块新的上去就行了。可是,过了一会儿,Intel Application Accelerator软件又发出警告,第二硬盘又坏了,可系统还在运行。靠!真厉害!两块硬盘都坏了,还能运行,神了!可是好景不长,过了一会儿,服务器自已突然重启(我傻眼了,难道两坏硬盘都坏了,我差点晕过去),启动时RAID BIOS提示第一块硬盘故障,第二块硬盘正常(还好,心里有了希望),继续启动,出现错误提示,找不到引导系统(不会吧!系统坏了,硬盘坏了?又傻眼了,进入RAID BIOS看看吧!), 重启进入RAID BIOS, 提示选择一个正常的硬盘,我选择之后,退出RAID BIOS并重启(希望奇迹出现),哈哈!原来出现奇迹也不难,系统正常启动了。启动好了后,访问博客园,一切正常。OK!收工!上次换的硬盘还在电脑公司那,尽快拿过来换上。
      吃饭了,下午继续写,这次故障一波三则,我去了三次电信机房,打了六次的士。维护个网站真不容易!......
      
      回到家后,一开始访问博客园正常,可是没过多久,又不能访问博客园了,我心里一凉,难道服务器又出故障了?不会吧,不会这么快又出问题吧?是不是电信网络的问题?联系电信的人,得到的回答是网络没问题。看来服务器又出问题了,郁闷!今天服务器怎么了?先让电信的人重启一下服务器吧,联系了他们,过了段时间,电信的工作人员打电话过来,说开不了机。晕! 难道主板出问题了?看来只能自己去机房处理了。可是机房不是我想进去就能进去,联系电信的人,约时间,等他们的通知,好不容易晚上21:00左右进入了机房,果然开不了机,按电源按钮,没反应,电源指示灯不亮,还好,我没有被这个故障吓晕,感觉主板没坏。你不禁要问,感觉有什么用?现在开不了,怎么办?我采取了不合常理的方法,先换电源线试试,换了后,还是开不了机。你想这下完了吧,没办法了吧!别急,我还有一招,将主机搬到另外一个机柜,通上电源,开机,OK,电脑开起来了!哦!你想原来是原先的机柜电源问题。你又错了,我将电脑移回去,再开机,又正常了,这是什么毛病啊?这种病被电脑医学界称为“电脑神经病”。
      可是开机之后,我傻了,RAID BIOS说两块硬盘全坏了!我晕了,还好没倒下来,我定了定神,先让自己冷静冷静,我想,人会骗人,也许电脑也会骗人,进入RAID BIOS瞧一瞧,又让我选择一块正常的硬盘,可两块都坏了,我怎么选?什么事情都不能轻易放弃,我还是选择上次运行的那块硬盘,退出重启计算机。哈哈!系统正常启动了!爽!原来电脑骗我!你奇怪了:电脑骗你,你还爽啊!不是,我是说电脑正常启动了,我高兴!我突然明白了,原来我早就被电脑骗了,上次的硬盘没坏,难怪硬盘送去更换时,电脑公司说他们检测的结果是硬盘没坏,原来是RAID控制器自以为是,以为硬盘坏了,实际上没坏。过分!让我白买了一坏新硬盘。如果是这样,那机子上的另外一块硬盘也没坏,我在Intel Application Accelerator中将那块硬盘标识正常,Intel Application Accelerator立即自动建立冗余卷,建立时没有出现异常,果然是RAID控制器的问题。问题的真正原因是主板RAID控制器误认为硬盘故障。那为什么以前正常运行了那么长时间没问题,现在将硬盘标识为正常又能正常运行?我也不知道。要问主板厂家了。目前的情况应该是主板RAID控制器不稳定,有时误认为硬盘故障。现在系统能正常运行,并且正在建立RAID 1卷,大约要1个小时,电信的人早就催我了,放在这让服务器自己建立RAID 1卷吧,我只能先回去了,由于建立RAID 1很耗资源,网站根本无法运行,只能暂时停运网站,远程控制估计也无法控制,本地试了一下远程控制,可以控制。回去再试试。
      回到家,立即远程连接服务器,想看看服务器的状况!事与愿违,连不上,是服务器太忙,远程控制无法运行,还是服务器又发生故障了?真想再去机房看看,可是电信的人肯定不愿意了。没办法,等一小时之后,再看看吧,如果服务器没有故障,那时RAID 1卷已经建立好了,如果还是不能连接,那就是服务器又出故障了。时间21:30了,只能等到22:30再看看情况了。这一小时的等待,真不好受,心急如焚,却也无可奈何,服务器的情况一无所知,我什么也不想做,坐在那发呆,以后有钱,一定要买两台服务器,这样的日子太痛苦了!这一个小时是数着时间过的,我已经作好准备,如果到时还是不能访问,那说明服务器老毛病又范,误认为硬盘坏了后重启,却启动不起来。我只能更改博客园DNS解析,发布服务器故障的消息。漫长的等待之后,奇迹没有出现,我一次次连接服务器,心里在祈祷:连上!连上!哎!多次的连接失败后,我只能承认这样的事实:服务器又出问题了。怀着沉痛的心情,对外发布服务器故障的消息。怎么办?现在进不了机房,明天还要上班,今天刚请了假,明天请假,领导不会批,要处理只能晚上处理。服务器要停运这么长时间?我怎么对得起大家?大家的心里怎么想?影响太大了!真恨不得飞到电信机房去,今天晚上和明天白天怎么过?这种等待的日子太难受了!一个人最无奈的选择就是:面对现实!没办法只能等到明天晚上处理了!只能忍受今夜的无眠与明天的煎熬。(向大家老实交代:我还是睡着了,不睡会儿,第二天晚上哪有精力处理服务器故障)。在发布消息之后,令我感动的是,收到了一封邮件:“听到cnblogs的服务器出现了故障,我感到了一种担心。我是cnblogs的忠实读者,虽然我没有怎么发过文章,但是我希望在这里祈祷它快点恢复。我不知道我能做什么,只是想发封email支持你。”,收到这样的邮件,我真的很感动,我想肯定有很多人在为博客园祈祷,在默默地支持博客园,同时我也感到了很大的压力:服务器一定要尽快恢复!后来,又收到了支持与鼓励的邮件,MSN上的朋友都没有责怪我,都在安慰我、鼓励我!一般第一句都是“dudu辛苦了!”。谢谢大家!博客园发展到今天都是来自大家的热心与支持!
     第二天早上很早醒来,真想打电话给电信的人,叫他一大早带我去机房,在上班之前处理好。可是电信的人怎么会愿意呢?以前早上起来第一件事就是打开电脑,访问博客园,今天看不到熟悉的页面,有种伤感,博客园已经成为我生活的一部分, 我心想一定要为博客园买台好的服务器,不能再出现这样的情况了。我带着沉重的心情去上班,以前到办公室第一件事就是访问博客园,今天触景生情,心里更难过了。上班的时候,我什么也不想做,不时地发呆,别人看了也许会误以为我失恋了呢。
      为了让大家了解博客园的情况,我赶紧开通了一个博客园的QQ群!很快QQ群人就满了。大家都非常关心博客园:安慰、鼓励、加油、出谋划策.....。让我感到一种温暖,增加了恢复服务器的信心!
      终于,熬到下班了。一到家,我立即打电话给电信,问什么时候能进机房(早上我就和他们联系过了)?得到的回答是30分钟后打电话给我,为了能及时赶到机房,我晚饭也没吃,等他们的电话,没想到30分钟竟然变成了近3小时,我到21:00多才进了机房,又让我熬了一个痛苦的等待过程。好事多磨!  我只能耐心地等待。进机房之前,我已经想好了两种解决方案:1、由于主板的RAID控制器肯定有问题,只能关闭RAID功能,单硬盘运行 2、如果单硬盘运行有问题,那就将数据迁移到一台临时的服务器运行。进了机房,接上显示器一看,意料之中的故障 ,屏幕显示启动找不到系统。重启时,RAID BIOS显示一块硬盘坏,更改一下设置,系统正常启动。将另外一块误认为坏的硬盘设置为正常硬盘,也能正常启动。只能采取第一种解决方案。让服务器单硬盘运行。晚上22:00点左右,服务器恢复正常。心里的那种激动与兴奋难以用语言来表达!
      注意:博客园目前是单硬盘运行,存在硬盘硬件故障造成数据丢失的危险,我们采取的保护措施是每天晚上进行数据的异地备份。2005年4月5日之前的数据你不心担心丢失,另外一块硬盘中全有。所以从今天到服务器恢复双硬盘运行之前,强烈建议你发表文章的时候在本机先备份一下。对于主板的RAID控制器问题,我们已经在购买专门的RAID卡,到货后,我们立即加上。由此给您带来不便,深表歉意并请谅解!      

posted @ 2005-04-07 16:35  dudu  阅读(4534)  评论(57编辑  收藏  举报