SSD服务器长稳测试
长稳测试(Long-term Stability Testing):长时间运行条件下验证产品稳定性、可靠性和性能一致性,确保产品在生命周期内持续满足设计要求
在版型确定,fw相对稳定后,根据项目进展,需要对盘进行长时间稳定性测试,确保盘长时间运行无异常;
因测试周期较长,为确保测试过程中不出现问题遗漏,需定期对盘做检查;
长稳测试结束时间视具体项目而定,可按无故障时间xxh进行累计,直至项目评估可结束测试;
测试结束后,需要汇总统计整个长稳测试周期内发现的所有问题。
问题严重等级
P0
- 掉盘
- IO Error、数据不一致
- UECC导致的raid revovery fail(raid recovery fail(必定带来主机端PI Error))
P1
- nvme controller reset/aborting/disable
- 主机端 IO timeout
- BMC上新增的异常告警、异常事件
- smart-log中的异常增加值
P2
- raid可纠的UECC
- 正常标记的program fail、erase fail
- free blk不足
周期性检查
daily
- 掉盘、IO Error、数据不一致(dmesg日志、fio日志)
- 新增UECC、program fail、erase fail
nvme get-log --log-id 192 --log-len 4096 --lpo 0 /dev/nvme0n1|grep '0010\|0020'

- dmesg中是否有盘相关异常(timeout、disable controller、主控aborting、Critical warning等)
- dmesg -wT |grep nvme
weekly
- BMC中是否有盘相关的异常信息
- smart-log(critical warnning、media_errors计数;available_spare、available_spare_threshold、percentage_used值)
- 每台服务器随机选取一块盘
- PE磨损均衡
- 每台服务器随机选取一块盘
- display_ec,取平均值和最大最小值
- (平均值-最大值/最小值)>7000 * 10%(需进行定位分析)
本文来自博客园,作者:Fēngwèi,转载请注明原文链接:https://www.cnblogs.com/fengwei-blogs/p/18866319

浙公网安备 33010602011771号