记一次硬件故障,并普及点硬件知识

记一次硬件故障

既当故事,也做见识~

始末

事情是这样的,星期四的时候需要用工作站GPU进行AI模型训练,所以把GPU主板驱动升级了一下,然后就运行了1天,晚上的时候暂停任务,心想着让工作站休息一晚,明天继续吧(那GPU运转和产热真是夸张啊,现在知道为什么GPU都有两个风扇了)

第二天把工作站重新开机,发现远程连接不了了,这就坑了

尝试

于是先ping了一下,发下不通,然后登陆路由查看了一下,没发现工作站,那肯定是开不了机了

接着找了个显示器连接到了工作站上,发现开机没反应,显示器一点变化都没有

这时候学生时代两层机房的管理经验就用上了,把工作站拆了

1.GPU落灰.png

发现GPU落灰挺严重的,估计是大量运算卷起的灰尘,加之工作站刚安装的时候显卡也出现过一次接触不良的情况,遂拆了重新装

先拧开螺丝(供电的线如果阻碍可以先拔了,如果不影响就不管)
1.1.拆.png

按一下卡扣,手握两头就可以轻松拔下(别用蛮力,显卡将近3k,主板将近4k)
1.2.卡扣.png

我是确保这个卡槽没问题的,要是你不确定可以安装了另一个卡槽上,工作站基本上都是多个显卡槽
2.重新安装.png

发现开机黑屏了(这个有个技巧,关下显示器再开,如果屏幕亮画面黑,就是黑屏)

PS:其实开机黑屏,插拔内存就可以解决80%的情况

那就插拔内存试试,我这边4个卡槽,先拔下内存条插下内存条金手指
3.内存.png

发现还是不行,开机继续黑屏

那就得排出是否是某内存条烧坏了,于是单个插入来试

单插外部的没事,可以开机,单插内部位置的内存不行

3.1.不行.png

于是得进一步排出,是卡槽出问题了,还是内存出问题

外部内存插入里面卡槽也开不了机,里面位置的内存插入外部可以开机

那么就可以判断里面卡槽出问题了,至于是落灰还是其他问题有待排查,先继续说

把内部内存换个卡槽就可以了

PS:推荐内存是一个牌子的,比如都是金士顿,有时候不太牌子的内存容易有其他问题,以前踩过坑

然后就可以了~

扩展

硬盘知识

顺便普及一个硬盘的知识点,以某老电脑为例:
硬盘

这个是连接线,通过这个电脑就可以访问到硬盘
4.主板到硬盘.png

PS:为电脑或者服务器添加硬盘的时候,这个先也要买一下,而且得看一下主板上还有没有接口

这个是电源给硬盘供电用的线
4.1.电源到硬盘.png

看张详细图
4.2.供电.png

改装大佬

先申明,不推广,不发链

之前朋友想买2T的WD硬盘,500左右,问我有没有性价比高的推荐

我说3T硬盘500左右,自己买个硬盘盒就可以用了,而且不容易坏,考虑不

PS:经常使用的情况下:移动硬盘一般2年左右的寿命,硬盘5年左右

5.使用.png

最终效果
5.1.效果.png

缺点:需要额外供电,体积比移动硬盘大点(如果想小点可以使用笔记本的硬盘)

PS:硬盘是3.5英寸的,笔记本硬盘是2.5英寸的,买硬盘盒需要注意一下,搞不清楚就买通用的

题外话

当然了,NAS也可以自己改装,多盘支持的容器+LoT+RAID 0就可以搞定了,以后有机会继续说

posted @ 2019-03-09 10:28  鲲逸鹏  阅读(124)  评论(2编辑  收藏