单元1、2使用az1服务器,单元3、4使用az2服务器,单元5、6使用az3服务器
服务器是曙光的,cpu是海光的
试运行环境跑批期间cpu高,现象是处在az1机房和az3机房的cpu都高,az2的cpu不高。
因为az1和az3峰值在90%上下,az2只有百分之20多,肯定是存在问题。
1)首先在数据库层分析:
比对cn、dn参数文件,没有区别
比对慢日志,查找是否存在明显异常的sql,比如是否存在某个表上没有建索引
2)切换对比
切换单元3到az1,变慢
切换单元2到az2,变快
大致分析出服务器问题
3)由服务器工程师排查出一些问题,最终定位到内存的配置问题
有问题的服务器配置是8条*64G,没问题的服务器是16条*32G
现在还需要判断是8条*64G质量问题还是说曙光内存通道数影响的cpu性能

结论:曙光服务器框架协议明确要求16*32g内存,这边搞错了是因为有需要1t内存的机器(16*64g),8根内存发挥不出海光7000系列最优性能,按照海光7000系列numa架构优化要求需要搭配16根内存条

 

posted on 2024-06-04 10:06  我有我的信仰  阅读(31)  评论(0)    收藏  举报