GaussDB分布式下磁盘写100%,导致集群故障
问题现象:


GS03-6021主实例已down且报了DISK damaged,备节点无法升主

无法再写入数据,提示只读,磁盘超过85%集群不可写。
分析和总结:通过后台集群状态,我们得到的信息,可以从GS03的磁盘开始排查!
1.检查磁盘空间情况!发现磁盘节点3-data1使用率达到了100%,集群变为只读。

2.排查思路和处理步骤?目标:必须要让集群变成降级
一、排查阶段
a.查看data3目录是否存在异常文件?
b.查看data3目录下pg_xlog是否占用较大?Core文件是否过多?
二、处理阶段
a.告知暂停业务,注释白名单;
b.移动pg_xlog,或者删除无用异常文件,使得空间低于100%,集群状态为:降级;
c.进一步排查表是否存在数据倾斜,导致单DN被写爆!
d.优化表结构,或者其他文件占用。
3.查看data3目录下文件大小情况

结论:根据目录来看,不应该在这个目录下。所以这里我考虑移走一部分,释放一些空间(降低至95%)。


4.集群状态已恢复至:Degraded

5.进一步排查是否存在数据倾斜,导致单DN被写爆了,
从右图可以看出(库-21790)下22665表很大,进一
步查看是否存在数据倾斜。

4.通过目录文件ID查到-库-表-是否存在数据倾斜?
操作步骤:
a.当前安全环内主,进入DN;
b.查找所在库;
c.查找所在表;
d.分析数据倾斜率,合理整改。



从左图可以看出,100%倾斜!进行业务调整,调整分布列!
从左图可以看出,100%倾斜!进行业务调整,调整分布列!

浙公网安备 33010602011771号