ALM-5101156 Ops巡检-主机流控时间异常
告警解释
此告警对应指标“主机流控时间”超出配置阈值,此指标反映为了达到recovery_time_target参数配置的RTO,主DN所需要睡眠的时间,单位us。
告警属性
|
告警ID |
告警级别 |
告警类型 |
告警归属 |
业务类型 |
是否可自动清除 |
|---|---|---|---|---|---|
|
5101156 |
巡检配置 |
业务质量告警 |
租户面 |
云数据库 GaussDB 节点 |
是 |
告警参数
|
类别 |
参数名称 |
参数含义 |
|---|---|---|
|
定位信息 |
云服务 |
产生告警的云服务 |
|
实例ID |
产生告警的实例ID |
|
|
节点ID |
产生告警的节点ID |
|
|
巡检名称 |
产生告警的巡检名称 |
|
|
指标编码 |
产生告警的指标编码 |
|
|
附加信息 |
租户名称 |
产生告警的租户名称 |
|
实例名称 |
产生告警的实例名称 |
|
|
租户ID |
产生告警的租户ID |
|
|
云服务 |
产生告警的云服务 |
|
|
服务 |
产生告警的服务 |
|
|
微服务 |
产生告警的微服务 |
|
|
告警源IP |
告警源IP |
|
|
节点角色 |
产生告警节点的节点角色 |
|
|
指标编码 |
产生告警节点的指标编码 |
|
|
指标采集值 |
产生告警节点的指标采集值 |
|
|
指标阈值 |
产生告警节点的指标阈值 |
对系统的影响
此指标大于0,说明有流控产生,流控期间,影响主DN事务提交,延长语句执行时间,业务性能下降。
可能原因
业务压力过大,使得备DN的xlog回放速度跟不上主DN产生的速度,不满足RTO要求。
处理步骤
- 收到告警后,首先通过查看监控指标查看指标主机流控时间,确认指标情况以及触发告警的组件。
- 确认指标是否已归0,如果已归0,风险可控,持续观察是否仍会上涨。
如果未归0,执行3。
- 参考查看监控指标,查看指标“Data Manipulation Language/s”、“80% SQL的响应时间”、“95% SQL的响应时间”、“线程池使用率”确认这些指标是否同时波动或告警。
- 如果这些指标无明显波动,风险可控,持续观察指标是否会波动,并联系客户咨询,业务压力是否变化及需要持续的时间,决策是否需要执行4,防止影响业务性能。
- 如果已出现“Data Manipulation Language/s”下降,“80% SQL的响应时间”、“95% SQL的响应时间”、“线程池使用率”上涨,那说明已触发流控且影响业务性能,执行4。
- 参考修改实例参数调整参数recovery_time_target为0,关闭流控紧急规避。
等待业务和此指标恢复之后,确认recovery_time_target参数是否调回原值,保证RTO。
- 如果业务以RTO为重要,以性能为次要,可以修改为关闭前的值。
- 如果业务以性能为主要,RTO为次要,可以考虑长期关闭,RTO可以考虑通过ALM-5101160 Ops巡检-备机redo进度,和主机的差距异常中的方式处理。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。
浙公网安备 33010602011771号