记办公室小机房停电

吐槽

 

奇葩的银网中心物业又给我们停电了,我们的UPS形同虚设,所以我们的做法依然是提前关闭设备,当然Steve Feldman告诉我的是,没有必要提前关闭网络设备,可以让他们自行掉电,再自行上电。但是考虑到空调的散热会提前停止工作,机器再开着没什么好处,所以还是都提前关闭了。最令人担心的还是比较老旧的服务器,像HP DL380系列的机器,这次依然是通过先hold power button的方式关机的,来电之后press power button起机,但是有些服务没起来,还是需要有人登陆上去启动服务(比如ids那台上的smokeping服务)

 

时间线

 

1. 2015年12月28号接到停电通知,停电时间是31号0点到5点30,尼玛选的一手好时候,赶着这天早下班回家呢,当时我特别担心一上午处理不好,因为下午3点多我就要去坐火车回济南了。

 

2. 接到停电通知后,由IT组发邮件给全体成员,主要是告知邮件电话以及一切办公网会停用

 

3. 12月30日晚上,22点我们手动关闭网络设备的电源,关闭方法各异,见下面的Shutdown method

 

4. 12月31日早上,凌晨5点30分我来到办公室,挨个bring up,但是无奈7点又停了一次电。当然5点半我brought up之后,6点到7点之间一切都是好的,有线 电话 无线 DNS DHCP都起来了。

 

5. 12月31日早上,7点钟,ASA NAT问题,当时我就懵逼了,NAT不work,具体分析写在下面的收获里了。

 

 

 

事前

***======================下面是那天做的准备===============================***

 

Shutdown method

 

Cisco core switch -> hold power button, press again to restart

Cisco access switch -> leave it, 

Juniper -> request system power-off, replug to restart

Netscaler -> shutdown -p now, press power button to restart

 

 

Firewall

 

6504-1 is connected to Active one

Gi2/39       cn-pek1-asa5545x-a connected    387          full   1000 10/100/1000BaseT

Gi2/40       cn-pek1-asa5545x g connected    386          full   1000 10/100/1000BaseT

 

6504-2 is connected to Standby one

Gi2/39       cn-pek1-asa5545x-s connected    387          full   1000 10/100/1000BaseT

Gi2/40       cn-pek1-asa5545x-s connected    386          full   1000 10/100/1000BaseT

 

number of APs : 49

Check the Excel table for detailed info.

 

CDP neighbor of 6504-[1,2]

 

 

===========================================================================

cn-pek1-6504-1>sho cd nei

Capability Codes: R - Router, T - Trans Bridge, B - Source Route Bridge

                  S - Switch, H - Host, I - IGMP, r - Repeater, P - Phone, 

                  D - Remote, C - CVTA, M - Two-port Mac Relay 

 

Device ID        Local Intrfce     Holdtme    Capability  Platform  Port ID

cn-pek1-10-2960-3.cnet.com

                 Gig 2/3           150              S I   WS-C2960- Gig 0/2

cn-pek1-10-2960-2.cnet.com

                 Gig 2/2           125              S I   WS-C2960- Gig 0/2

cn-pek1-10-2960-1.cnet.com

                 Gig 2/1           168              S I   WS-C2960- Gig 0/2

cn-pek1-10-2960-7.cnet.com

                 Gig 2/7           141              S I   WS-C2960- Gig 0/2

cn-pek1-10-2960-6.cnet.com

                 Gig 2/6           177              S I   WS-C2960- Gig 0/2

cn-pek1-10-2960-5.cnet.com

                 Gig 2/5           172              S I   WS-C2960- Gig 0/2

cn-pek1-10-2960-4.cnet.com

                 Gig 2/4           164              S I   WS-C2960- Gig 0/2

cn-pek1-10-2960-9.cnet.com

                 Gig 2/9           161              S I   WS-C2960- Gig 0/1

cn-pek1-10-2960-8.cnet.com

                 Gig 2/8           168              S I   WS-C2960- Gig 0/2

cn-pek1-APcontroller-primary

                 Gig 3/9           167               H    AIR-CT550 Gig 0/0/1

cn-pek1-6504-2.cnet.com

                 Gig 2/47          173             R S I  WS-C6504- Gig 2/47

cn-pek1-6504-2.cnet.com

                 Gig 2/46          134             R S I  WS-C6504- Gig 2/46

cn-pek1-6504-2.cnet.com

                 Gig 2/45          129             R S I  WS-C6504- Gig 2/45

cn-pek1-6504-2.cnet.com

                 Gig 2/48          121             R S I  WS-C6504- Gig 2/48

cn-pek1-20-2960g-1.cnet.com

                 Gig 3/4           155              S I   WS-C2960G Gig 0/24

cn-pek1-10-2960g-2.cnet.com

                 Gig 2/10          130              S I   WS-C2960G Gig 0/21

cn-pek1-12-2960g-1.cnet.com

                 Gig 3/2           139              S I   WS-C2960G Gig 0/24

cn-pek1-09-2960g-1.cnet.com

                 Gig 3/1           177              S I   WS-C2960G Gig 0/21

cn-pek1-APcontroller-primary-Standby

                 Gig 3/10          169               H    AIR-CT550 Gig 0/0/1

cn-pek1-6504-1>

 

 

===========================================================================

 

cn-pek1-6504-2>sho cd nei

Capability Codes: R - Router, T - Trans Bridge, B - Source Route Bridge

                  S - Switch, H - Host, I - IGMP, r - Repeater, P - Phone, 

                  D - Remote, C - CVTA, M - Two-port Mac Relay 

 

Device ID        Local Intrfce     Holdtme    Capability  Platform  Port ID

cn-pek1-10-2960-3.cnet.com

                 Gig 2/3           149              S I   WS-C2960- Gig 0/1

cn-pek1-10-2960-2.cnet.com

                 Gig 2/2           156              S I   WS-C2960- Gig 0/1

cn-pek1-10-2960-1.cnet.com

                 Gig 2/1           157              S I   WS-C2960- Gig 0/1

cn-pek1-10-2960-7.cnet.com

                 Gig 2/7           158              S I   WS-C2960- Gig 0/1

cn-pek1-10-2960-6.cnet.com

                 Gig 2/6           131              S I   WS-C2960- Gig 0/1

cn-pek1-10-2960-5.cnet.com

                 Gig 2/5           152              S I   WS-C2960- Gig 0/1

cn-pek1-10-2960-4.cnet.com

                 Gig 2/4           121              S I   WS-C2960- Gig 0/1

cn-pek1-10-2960-9.cnet.com

                 Gig 2/9           152              S I   WS-C2960- Gig 0/2

cn-pek1-10-2960-8.cnet.com

                 Gig 2/8           142              S I   WS-C2960- Gig 0/1

cn-pek1-APcontroller-primary

                 Gig 3/9           151               H    AIR-CT550 Gig 0/0/3

cn-pek1-6504-1.cnet.com

                 Gig 2/48          131             R S I  WS-C6504- Gig 2/48

cn-pek1-6504-1.cnet.com

                 Gig 2/47          163             R S I  WS-C6504- Gig 2/47

cn-pek1-6504-1.cnet.com

                 Gig 2/46          158             R S I  WS-C6504- Gig 2/46

cn-pek1-6504-1.cnet.com

                 Gig 2/45          153             R S I  WS-C6504- Gig 2/45

cn-pek1-10-2960-11.cnet.com

                 Gig 2/36          129              S I   WS-C2960- Gig 0/1

cn-pek1-16-2960g-1.cnet.com

                 Gig 3/3           147              S I   WS-C2960G Gig 0/46

cn-pek1-12-2960g-1.cnet.com

                 Gig 3/2           168              S I   WS-C2960G Gig 0/23

cn-pek1-09-2960g-1.cnet.com

                 Gig 3/1           124              S I   WS-C2960G Gig 0/22

cn-pek1-APcontroller-primary-Standby

                 Gig 3/10          153               H    AIR-CT550 Gig 0/0/3

cn-pek1-6504-2>

 

===========================================================================

 

 

OSPF neighbor

 

cn-pek1-6504-1>sho ip os neighbor 

 

Neighbor ID     Pri   State           Dead Time   Address         Interface

10.25.253.11      0   FULL/  -        00:00:31    118.67.127.2    Port-channel2

118.67.115.245    1   FULL/BDR        00:00:31    118.67.115.245  Vlan385

172.22.22.43      1   FULL/DROTHER    00:00:33    118.67.115.244  Vlan385

10.19.88.101      1   FULL/DROTHER    00:00:39    10.19.88.101    Vlan373

10.19.88.102      1   FULL/BDR        00:00:30    10.19.88.102    Vlan373

172.22.22.43    128   FULL/DROTHER    00:00:33    10.19.88.4      Vlan373

cn-pek1-6504-1>

 

cn-pek1-6504-2>sho ip os nei

cn-pek1-6504-2>sho ip os neighbor 

 

Neighbor ID     Pri   State           Dead Time   Address         Interface

10.25.253.12      0   FULL/  -        00:00:36    118.67.127.4    Port-channel2

118.67.115.245    1   FULL/BDR        00:00:30    118.67.115.245  Vlan385

172.22.22.44      1   FULL/DR         00:00:30    118.67.115.243  Vlan385

10.19.88.101      1   2WAY/DROTHER    00:00:38    10.19.88.101    Vlan373

10.19.88.102      1   FULL/BDR        00:00:30    10.19.88.102    Vlan373

172.22.22.44    128   FULL/DR         00:00:39    10.19.88.3      Vlan373

cn-pek1-6504-2>

 

 

Access switch

 

Check the Excel table

 

 

Concern

 

Special line to HKG

dc01 DL380 G4, dc02 DL385 G2, cn-pek1-dns1.cnet.com.cn DL380 G4, cn-pek1-10-gateway.cnet.com.cn DL380 G4

 

 

***==========================以上是那天做的准备=========================***

 

 

事后

 

比较幸运的是,香港专线的光纤设备,也就是中国移动放在这里的这个设备,断电之后也是完整的起机了,几台关键服务器DNS DHCP也都完整起机了。

 

不幸运的是:

power back之后,第一时间可能并不稳定,因为这个时候还没有大规模用电,server room的设备还没有完全起机,据爱卡孙鹏说,server room的所有设备同时上电会产生问题,会跳闸,很显然这样的unexpected power cycle对设备是很不好的。

还有一点,大楼竖井里的电闸可能也会跳,例如我们的10层在早上7点就又跳了一次,这次直接影响了我们的MX104路由器和WLC和防火墙。据马杰说,这次跳闸是跳了其中一路电的闸,也就是,补充一个最基础的知识,每个server room都是有两路电的,每个双电设备的两个电源都应该分别接到不同的两路电上,以保证高可用,但是之前我们要求的根本不严格,导致其中一路电挂了之后MX104等设备就没电了。

 

最大收获

 

终于再操蛋的事儿还是有收获的,这次的收获就是ASA主备切换的时候,造成的ARP cache问题,其实想想还是不应该犯这个错误,应该第一时间想到ARP的,ASA升级instruction里有提到啊,但是我和Feldman第一时间都没想到,Feldman的wild guess还是很萌的,他说会不会somehow老的ASA5510被接到网络里了,当然不是这个原因,老的5510已经下架断电了,但是老爷子这样猜的想象力还是超群。

 

下面说正事儿,扯跑偏了,正事儿就是,特么的正好好的,7点钟,正打算下楼买吃的,发现DNS最先不work了,注意!第一反应是DNS不work了!真的是很有趣的事,第一现象的确就是DNS不work了, 我当时就以为“哦?DNS的问题,解析解不出来”,这时候就开始有点放松,“呵呵这是sysadmin的事儿,不关我事儿”,于是我开始试着验证,填上我们自己的公网DNS 118.67.114.9,这个时候能解析了,“哈哈 happy”,但是一看,“卧槽,怎么ping不通,显示的是timeout,我ping的淘宝,淘宝没禁ping啊!卧了个大槽,咋了这是”,然后那我就traceroute吧,结果一看,特么的到了网关之后就没下文了,那么这个时候可能有两种情况,一个是网关自己出问题了,比如没学到taobao的路由(话说不是很确定如果没学到淘宝的路由的话,PC端ping的时候是该返回个啥,恐怕得再看详解去了),但是我show ip route很显然是学到了。这个时候还好大脑还没完全秀逗,话说那个时候真是多亏了好几个深呼吸呢,没吃饭容易慌,几个深呼吸之后,开始意识到可能是内网出去到公网的问题,那么如何验证呢,在6504上ping 淘宝 source一次公网VLAN的SVI 能通,但是source 内网VLAN SVI就不通,所以我开始确定是NAT的问题,这个时候我登陆了ASA,先检查了和6504的interface连接,都up没问题,再检查CPU Memory也一切正常,看NAT有转换槽位,clear conn clear xlate都无济于事,force failover 也无济于事,好吧到底咋回事,这个时候我真的懵逼了,于是我求助了Feldman

Feldman的意思是,从外头回来的包,到了6504之后,6504对outside口的arp是老的,所以没能交给正确的ASA

其实clear arp 很值得一试,但是我特么的还没试呢,就特么的又停电了,这次意外断电让WLC和MX104和ASA都断电了。这次断电是竖井跳闸了,电恢复之后,arp的问题已经消失了,于是就一切太平了。

 

现象:

 

NAT 不工作的时候,其实并非真的不工作,而是从外面返回的流量没有正确的找到ASA outside口的mac地址,这个时候有个现象就是inside outside 流量都降得很低,现在从rabbit上抓不出准确的图了,因为那个时间很短暂。当时虽然还没到大家上班的时间,但是对比当时的端口流量也远低于平时同一时间点的流量,所以这个时候基本就断定了ASA和6504之间的互动出现了问题。

 

心得:

 

1. 断电时大家都不愿意看到的事情,但是即使是这类最不乐意干的事儿,依然能有知识可以挖掘,我深深的对我没有第一时间意识到clear arp感到shamed. 

2. 基础设施建设对于网络是十分重要的,即使不是网络操作人员去实施基础设施的建设,但是它可能在某些方面需要我们的监督,网络人员对于基础的hosting也要有个rudimentary的了解。

 

posted @ 2016-01-15 21:01  Vooom  阅读(547)  评论(1编辑  收藏  举报