SSD服务器长稳测试

长稳测试(Long-term Stability Testing):长时间运行条件下验证产品稳定性、可靠性和性能一致性,确保产品在生命周期内持续满足设计要求

在版型确定,fw相对稳定后,根据项目进展,需要对盘进行长时间稳定性测试,确保盘长时间运行无异常;

因测试周期较长,为确保测试过程中不出现问题遗漏,需定期对盘做检查;

长稳测试结束时间视具体项目而定,可按无故障时间xxh进行累计,直至项目评估可结束测试;

测试结束后,需要汇总统计整个长稳测试周期内发现的所有问题。

问题严重等级

P0

  • 掉盘
  • IO Error、数据不一致
  • UECC导致的raid revovery fail(raid recovery fail(必定带来主机端PI Error))

P1

  • nvme controller reset/aborting/disable
  • 主机端 IO timeout
  • BMC上新增的异常告警、异常事件
  • smart-log中的异常增加值

P2

  • raid可纠的UECC
  • 正常标记的program fail、erase fail
  • free blk不足

周期性检查

daily

  • 掉盘、IO Error、数据不一致(dmesg日志、fio日志)
  • 新增UECC、program fail、erase fail
nvme get-log --log-id 192 --log-len 4096 --lpo 0 /dev/nvme0n1|grep '0010\|0020'

  • dmesg中是否有盘相关异常(timeout、disable controller、主控aborting、Critical warning等)
    • dmesg -wT |grep nvme

weekly

  • BMC中是否有盘相关的异常信息
  • smart-log(critical warnning、media_errors计数;available_spare、available_spare_threshold、percentage_used值)
    • 每台服务器随机选取一块盘
  • PE磨损均衡
    • 每台服务器随机选取一块盘
    • display_ec,取平均值和最大最小值
    • (平均值-最大值/最小值)>7000 * 10%(需进行定位分析)

 

 

posted @ 2025-05-08 14:53  Fēngwèi  阅读(65)  评论(0)    收藏  举报