ALM-5023112 云数据库 GaussDB实例磁盘容量不足
告警解释
系统每一分钟检查云数据库 GaussDB实例的磁盘容量使用率,当连续三次监测到磁盘容量使用率超过设置的阈值80%(默认)时,产生此告警。
告警属性
|
告警ID |
告警级别 |
告警类型 |
告警归属 |
业务类型 |
是否可自动清除 |
|---|---|---|---|---|---|
|
5023112 |
紧急 |
物理资源告警 |
租户面 |
云数据库 GaussDB |
是 |
告警参数
|
类别 |
参数名称 |
参数含义 |
|---|---|---|
|
定位信息
|
区域 |
产生告警的资源所属区域 |
|
云数据库 GaussDB名称 |
产生告警的数据库实例名称 |
|
|
云数据库 GaussDBID |
产生告警的数据实例资源ID |
|
|
附加信息
|
门限值 |
产生告警的指标监控门限值 |
|
当前值 |
产生告警的指标当前值 |
|
|
可能影响 |
产生当前告警对系统的可能影响 |
|
|
级别 |
产生告警的级别 |
|
|
云数据库 GaussDB实例 |
产生告警的数据库实例ID |
|
|
阈值规则名称 |
产生告警的阈值告警规则名称 |
对系统的影响
GaussDB实例磁盘容量不足,导致实例只读不能新增数据。
可能原因
- 业务数据量过大。
- 被其他进程产生文件数据占用,可能包括:
- 管控或内核版本升级,占用系统磁盘资源增加。
- 现网操作生成的临时文件没有及时清理,不断累积。
- 管控或操作系统相关的日志没有及时回收。
处理步骤
- 登录运营面,查看发生告警时间段近3小时内的关键指标情况。
- 使用浏览器,通过账号地址“https://域名”登录运营面。
- 在左上角菜单服务列表找到云数据库GaussDB,单击进入实例列表页面。
- 根据获取的实例ID和节点ID,查看对应实例、对应节点。
- 单击发生告警实例的“查看监控指标”按钮,查看实例指标监控。
- 在实例指标监控页面的右上角搜索框中输入指标的关键字“磁盘”,进行模糊查询。
- 查看指标近期趋势
- 数据趋势平稳符合预期,结合业务情况判断是否需要扩容磁盘。
- 如不符合预期,需要继续定位。
- 参考登录实例节点,登录发生告警的实例。
- 执行以下命令,查看当前磁盘使用率较高的磁盘,确认当前使用率。
df -h
对于DN可能存在风险的目录包括/home/Ruby/log、/home/Ruby、/home/Mike、$PGHOST、/usr/local。
/home/Ruby/log下主要存放系统日志、管控日志以及om_agent日志,正常情况下这些日志均有自动清理和回收机制,如果发现某类日志数量明显增加,则可能存在风险,需要手动清理(例如om_agent默认保留10个日志文件、管控日志默认保留20个等)。
/home/Ruby和/home/Mike目录下主要会存放一些运维操作的临时文件,这些文件一般情况下在运维操作结束后就可以清理,可能存在未及时清理或者临时文件生成过大的情况,需要及时处理。
$PGHOST目录下主要存放数据库运行相关的临时文件,如果存在较大文件需要确认文件用途后,采取清理动作。
DN上的/usr/local目录使用系统磁盘,可能有一些运维操作也会在此目录下落盘,需要及时清理。
- 如果以上操作均无法解决此告警,联系技术支持进行处理。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。
浙公网安备 33010602011771号