yuan-er

导航

 

异常诊断

当数据库实例发生异常时,可以通过异常诊断功能来诊断触发异常的根因。

异常诊断功能目前支持实例异常诊断、指标异常诊断、健康报告展示、性能监控展示、SQL分析展示。

注意事项

  • 实例异常诊断有约30s延迟,指标异常诊断有约180s延迟。
  • 指标异常诊断功能在部分场景中,会由于指标波动导致诊断结论不准确,具体场景包括:实例升级、备份恢复、实例扩容、节点替换、节点修复、容灾搭建、容灾解除或管理面升级场景。
  • 新纳管的GaussDB实例,查看指标异常诊断设置中的诊断器,可能有30s延迟,如果查询无结果,可以重试。
  • 当纳管的GaussDB实例的部署形态为1主2备,副本一致性协议是“共享存储”时,会将冷备节点DN的manual stopped状态鉴定为异常状态,实例异常诊断及详情页会显示该异常状态,出现该场景后,可以忽略。

约束限制

  • GaussDB实例的数据库引擎版本需要大于等于V2.0-8.0.1,内核版本大于等于505.0.0。
  • 被诊断实例必须被DBMind实例纳管。
  • 实例异常诊断功能目前仅支持CN、DN两种组件的异常诊断,其他组件暂不支持。
  • 分布式实例不支持亚健康指标。
  • 亚健康指标要求DBMind版本为V2.0-8.200.0及以上。
  • 指标异常诊断目前仅支持磁盘、内存、CPU、线程池、网络、长事务的异常诊断,暂不支持分布式实例的指标异常诊断。其中网络、长事务的异常诊断,要求DBMind版本为V2.0-8.200.0及以上。
  • 指标异常诊断中的“潜在慢盘监测”不支持关联性分析和诊断功能。
  • session_mem_increase_detector、shared_mem_increase_detector、disk_io_jam_detector、lag_detector、packet_loss_detector检测器不支持诊断功能。

操作步骤

  1. 登录管理控制台
  2. 单击管理控制台左上角的,选择区域和项目。
  3. 在页面左上角单击,选择数据库 > 云数据库 GaussDB”,进入云数据库 GaussDB信息页面。
  4. “实例管理”页面,选择指定的实例,单击实例的名称,进入实例详情页面。
  5. 单击诊断优化 > 异常诊断”,显示“异常诊断”页面。
  6. 异常诊断功能目前支持实例异常诊断、指标异常诊断、健康报告展示、性能监控展示、SQL分析展示。

     

    图1 查询异常诊断

    图2 亚健康指标

     

    • 查看实例异常诊断详情,跳转7
    • 查看指标异常诊断及配置指标异常检测器,跳转查看8~9
    • 查看健康报告

      在“健康报告”模块,单击“更多”,可以跳转至巡检列表页面,巡检详细内容请参考日常巡检

      在异常诊断页面,此功能仅用于展示当前实例在一定时间段内的巡检结果,用于用户参考。

    • 性能监控展示

      在“性能监控”模块,单击“更多”,可以跳转至性能监控页面,详细内容请参考日志统计

      在异常诊断页面,此功能仅用于展示当前实例在一定时间段内的资源使用情况,用于用户参考。

    • SQL分析展示

      单击“查看”,可以跳转至“SQL视图 > 慢SQL”页面,查看当前实例的慢SQL详情,详细内容请参考SQL视图

      在异常诊断页面,此功能仅用于展示当前实例在一定时间段内的SQL情况,用于用户参考。

    • 亚健康指标

      展示网络延迟、网络连通性、xlog数量、数据库进程的磁盘占用比率、非数据库进程内存使用率、数据库动态内存使用率,共6个亚健康指标。

     

  7. 实例异常诊断展示当前实例的异常组件信息,用户还可以单击“查看”诊断出触发异常的根因。

     

    图3 实例异常诊断

    表1 实例异常诊断参数说明

    参数名称

    参数解释

    组件名

    实例组件名称,当前支持CN、DN两种组件。

    异常数量

    组件名对应异常节点的数量,由于底层为定时任务进行节点扫描,因此该参数可能存在一定的延迟。

    操作

    当组件发生异常时,可以通过查看详情,来进行异常诊断。若实例当前组件没有异常,则不支持查看详情。

    表2 实例异常诊断详情可选参数说明

    参数名称

    参数解释

    诊断模型

    针对当前异常所使用的诊断模型,当前支持logical、tree两种模型。

    • logical:传统诊断模型,基于逻辑判断,默认为logical,推荐此种方式。
    • tree:AI诊断模型,基于AI训练之后的模型,得出的结论更发散。

    节点名称

    发生异常的节点名称。

    时间间隔

    诊断的时间间隔,支持10分钟、30分钟、60分钟、180分钟。

    时间段

    基于时间间隔,计算出时间段,用户可以选择查看那个时间段的异常诊断结果。

    诊断结果

    展示选择的时间段内诊断的结果,从近到远展示,红色点表示异常,绿色点表示正常。单击异常红色点,则展示诊断结论。

  8. 指标异常诊断展示当前实例的异常指标信息,用户还可以单击“查看”,针对异常指标进行诊断或关联性分析操作,其中“潜在慢盘监测”没有诊断和关联性分析操作。

     

    图4 指标异常诊断详情

     

    图5 指标异常诊断详情-潜在慢盘监测

     

    表3 指标异常诊断参数说明

    参数名称

    参数解释

    指标项

    指标名称,当前支持磁盘、内存、CPU、线程池、网络、长事务六种指标。

    异常数量

    当前指标项在对应时间段内被检测出的异常数量。

    操作

    当指标发生异常时,可以通过查看详情,来进行异常诊断和关联性分析,其中潜在慢盘监测没有诊断和关联性分析操作,仅支持查看异常的节点、时间段和过滤信息。若当前指标没有异常,则不支持查看详情。

    表4 指标异常诊断详情可选参数说明

    参数名称

    参数解释

    检测器名称

    当前指标项所包含的检测器名称。不同检查器均可以检测出异常。这里选择具体检测器,则表示诊断当前检测器检测出的异常。

    节点名称

    发生异常的节点名称。

    异常时间段

    指标发生异常时的时间段,此处会展示所有的异常时间段,用户可以自行选择。

    异常过滤信息

    异常的过滤信息,用于诊断或关联性分析。

    诊断

    单击诊断,则表示对所选异常时间段的异常进行诊断;展示诊断内容、诊断结论、诊断建议。潜在慢盘监测不支持诊断功能。session_mem_increase_detector、shared_mem_increase_detector、disk_io_jam_detector、lag_detector、packet_loss_detector检测器不支持诊断功能,如果执行诊断操作,会提示“当前指标不支持诊断”错误。

    关联性分析

    单击关联性分析,则表示对所选异常时间段的异常进行关联性检索,会检索出10项关联性最强的指标项,供用户参考分析。潜在慢盘监测不支持关联性分析功能。

    图6 指标异常诊断详细信息

     

    图7 指标异常关联性分析详细信息
  9. 指标异常诊断支持配置检测器,不同检测器对应检测不同指标,单击,可以进行启停和修改操作。

     

    图8 指标异常诊断设置项

     

    表5 指标异常设置项(检测器)参数说明

    参数名称

    参数解释

    检测器名称

    当前内置的检测器名称。不同检查器均可以检测出异常,当前内置15种检测器。

    状态

    检测器状态。

    操作

    支持启用、停用检测器。

    支持修改检测器配置。

    图9 检测器配置

     

    图10 检测器配置-慢盘诊断器

     

    表6 指标异常诊断检测器可选参数说明

    参数名称

    参数解释

    检测区间

    可以检测的时间区间,单位秒。例如设置为180,则表示可以检测到180秒前的指标数据。慢盘诊断器不需要设置检测区间。

    检测器阈值上限

    阈值上限,当指标数值超过当前阈值时,则触发异常。

    检测器超限值比例

    若检测器存在当前参数,则表示在检测区间的时间范围之内,指标数值超过检测器阈值上限的比例超过当前配置之后,则触发异常。

    备注

    当前检测器的备注信息,仅用于展示。

     

 
posted on 2025-02-25 17:10  数据库笔记  阅读(49)  评论(0)    收藏  举报