关于各种ping断断续续 远程偶尔能连上 http请求断断续续的问题
研发同志普遍对整体计算机系统认知不足,拉我救火,说有一台业务机器,在高峰期,ping断断续续 远程偶尔能连上 http请求断断续续的问题。机器运行应该10年以上,都感觉机器不行了。
我连上远程后,发现一个很罕见的情况,有图有真相:

后来去机房,手工做的网线已经有1芯不通了,六类线硬,施工的人手艺和水晶头质量,加上为了所谓的美观,水晶头尾部的网线和电源线捆一起,扎带扎的太紧,拐的太晚,长年累月受力后就松动了,我估计应该有段时间一直工作在百兆模式下,后来变成十兆了所以才大面积影响业务。
后来更换网线后,业务速度并未完全正常,发现我方接入交换机又接入旁边的一台交换机上,然后在到核心交换,看机柜设备应该经过了多次增加设备工作,第二台交换机接入了一些视频类系统,可以预知流量消耗巨大,切机房网络管理人员甩锅说:你们服务器中毒了,所以慢。征求用户同意,再买一台交换机,然后直连核心交换,为了防止后续再有人增网,在交换机剩余口贴上勿动标签,此事后稳定运行。
此事基本上暴漏了几个问题,主要业务设备常年没有专职维护,员工普遍二把刀,甲方运维人员普遍浮于表面,机房本身也是无人管理模式。
经常专注CRUD的研发人员,其实并不知道自己所用的服务器具体工作在什么情况下,能做到什么程序,就像买了车以后,从来没有地板油,对性能、速度、压力都没有感觉。由此延展一下,讲一下常规windows桌面和server系统如何判断自己的机器能干什么(linux工具比较多,可以另开一篇幅),有多少性能,什么时候硬件跑到瓶颈了,虽然AI的火热会让解决问题更简单,但是一眼发现问题原因,也能及时处理线上的故障。
基础的cpu 内存 占用率就不细讲了,一眼明白,可能会长期更新。
磁盘的情况不像cpu和内存,满了就能看出来,单独讲讲磁盘

活动时间0-100%,越高磁盘读写越繁忙,大量文件拷贝、大体积文件拷贝、数据库频繁读写等。
平均影响时间单位毫秒,数值越大,每次请求文件响应的时间越长,也代表了越繁忙
读、写速度比较明显,可以显示速度,在RAID等情况下,某个分区的读写能力比单块盘要快很多,可以拷贝大文件观察,另外频繁小文件也会导致io高,但是速度显示值不是很高。

浙公网安备 33010602011771号