ALM-5101720 Ops巡检-CN临时目录大小异常
告警解释
此告警对应指标“CN临时目录大小”超出配置阈值,此指标反映CN组件临时目录大小。
告警属性
|
告警ID |
告警级别 |
告警类型 |
告警归属 |
业务类型 |
是否可自动清除 |
|---|---|---|---|---|---|
|
5101720 |
巡检配置 |
物理资源告警 |
租户面 |
云数据库 GaussDB 节点 |
是 |
告警参数
|
类别 |
参数名称 |
参数含义 |
|---|---|---|
|
定位信息 |
云服务 |
产生告警的云服务 |
|
实例ID |
产生告警的实例ID |
|
|
节点ID |
产生告警的节点ID |
|
|
巡检名称 |
产生告警的巡检名称 |
|
|
指标编码 |
产生告警的指标编码 |
|
|
附加信息 |
租户名称 |
产生告警的租户名称 |
|
实例名称 |
产生告警的实例名称 |
|
|
租户ID |
产生告警的租户ID |
|
|
云服务 |
产生告警的云服务 |
|
|
服务 |
产生告警的服务 |
|
|
微服务 |
产生告警的微服务 |
|
|
告警源IP |
告警源IP |
|
|
节点角色 |
产生告警节点的节点角色 |
|
|
指标编码 |
产生告警节点的指标编码 |
|
|
指标采集值 |
产生告警节点的指标采集值 |
|
|
指标阈值 |
产生告警节点的指标阈值 |
对系统的影响
- 正常情况下,此指标上涨之后在语句执行完成之后会回落。
- 如果此指标持续上涨,异常占用磁盘,可能触发磁盘只读、磁盘满等情况。
可能原因
- 当work_mem不足时,通过落盘的方式处理ORDER BY,DISTINCT和MERGE JOINS等SQL语句。
- 当work_mem不足时,通过落盘的方式处理散列连接、散列为基础的聚集、散列为基础的IN子查询等SQL语句。
- 有SQL语句将数据汇总到CN节点上进行排序或者哈希表操作。
处理步骤
- 收到告警后,通过查看监控指标查看指标“CN临时目录大小”,确认指标情况以及触发告警的节点和组件。
- 通过登录实例节点,登录1中找到的触发告警的节点,进入告警组件的临时目录,确认当前临时目录占用磁盘的大小。
临时目录:数据目录/tmp
其中数据目录可以参考查看数据目录。
- 执行如下命令确认当前临时目录下是否有临时文件。
ls | wc -l
![]()
- 如果多次执行,结果持续为0,说明临时文件已回收,风险解除,持续观察即可。
- 如果多次执行,结果不为0,说明仍有的临时文件。
- 如果数量在减小,说明临时文件在回收,持续观察。
- 如果数量在增加,说明临时文件仍然在产生,占用磁盘会持续增加,执行4。
- 登录实例数据库,执行如下命令确认是否有需要落盘的语句在执行。
select pid, sessionid, query, state, usename, now()-query_start as elp from pg_stat_activity where state = 'active' and query ilike '%create%index%' or query ilike '%order by%' or query ilike '%distinct%' or query ilike '%merge joins%' or query ilike '%join%' order by elp desc;![]()
以上SQL是按elp(SQL执行时间)降序查询,越靠前执行时间越长。
- 如果查出来的语句执行时间较长,大概率会触发落盘。
- 如果语句为创建索引相关的,待索引创建完成之后,临时文件会自动回收。
- 如果为非创建索引的业务语句,需要优化语句。
- 如果为非客户业务库的SQL语句,联系技术支持。
- 如果临时文件数量持续上涨,如上语句无返回结果,联系技术支持。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。


浙公网安备 33010602011771号