GaussDB分布式下磁盘写100%,导致集群故障

问题现象:

GS03-6021主实例已down且报了DISK damaged,备节点无法升主

无法再写入数据,提示只读,磁盘超过85%集群不可写。

分析和总结:通过后台集群状态,我们得到的信息,可以从GS03的磁盘开始排查!

 

1.检查磁盘空间情况!发现磁盘节点3-data1使用率达到了100%,集群变为只读。


2.排查思路和处理步骤?目标:必须要让集群变成降级
一、排查阶段
a.查看data3目录是否存在异常文件?
b.查看data3目录下pg_xlog是否占用较大?Core文件是否过多?
二、处理阶段
a.告知暂停业务,注释白名单;
b.移动pg_xlog,或者删除无用异常文件,使得空间低于100%,集群状态为:降级;
c.进一步排查表是否存在数据倾斜,导致单DN被写爆!
d.优化表结构,或者其他文件占用。

3.查看data3目录下文件大小情况


结论:根据目录来看,不应该在这个目录下。所以这里我考虑移走一部分,释放一些空间(降低至95%)。

 

 

 

4.集群状态已恢复至:Degraded


5.进一步排查是否存在数据倾斜,导致单DN被写爆了,
从右图可以看出(库-21790)下22665表很大,进一
步查看是否存在数据倾斜。

 

4.通过目录文件ID查到-库-表-是否存在数据倾斜?
操作步骤:
a.当前安全环内主,进入DN;
b.查找所在库;
c.查找所在表;
d.分析数据倾斜率,合理整改。

 

 

 

从左图可以看出,100%倾斜!进行业务调整,调整分布列!

 

 

从左图可以看出,100%倾斜!进行业务调整,调整分布列!
 
posted @ 2025-11-27 14:47  一位94年.天蝎座的Men  阅读(1)  评论(0)    收藏  举报