Prometheus

学习如何使用可观测监控 Prometheus 版为ECS集群配置相关的告警规则。

可观测监控 Prometheus 版全面对接开源Prometheus生态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘和告警配置,且提供全面托管的Prometheus服务。

ECS(Elastic Compute Service)是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别云计算服务。云服务器ECS免去了您采购IT硬件的前期准备,让您像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。阿里云ECS持续提供创新型服务器,解决多种业务需求,助力您的业务发展。

VPC专有网络是您专有的云上私有网络。您可以完全掌控自己的专有网络,例如选择IP地址范围、配置路由表和网关等,您可以在自己定义的专有网络中使用阿里云资源,如云服务器ECS(Elastic Compute Service)、云数据库RDS(Relational Database Service)和负载均衡SLB等。

我能学到什么

  • 学会使用Prometheus监控快速接入VPC内的ECS集群。

  • 学会创建告警规则。

操作难度

所需时间

40分钟

使用的阿里云产品

所需费用

  • 如果使用自有的ECS会产生费用,具体费用请参见计费概述;如果使用免费试用的ECS,费用为0元。

  • 在使用VPC时,可能会产生相应的费用,具体费用请参见产品计费

 

准备环境和资源

 

开始教程前,请按以下步骤准备环境和资源:

  1. 创建专有网络、交换机和ECS实例。具体操作,请参见搭建IPv4专有网络

  2. 访问阿里云免费试用。单击页面右上方的登录/注册按钮,并根据页面提示完成账号登录(已有阿里云账号)、账号注册(尚无阿里云账号)或实名认证(根据试用产品要求完成个人实名认证或企业实名认证)。

  3. 成功登录后,在产品类别下选择中间件>可观测监控 Prometheus 版,在可观测监控 Prometheus 版卡片上单击立即试用。

  4. 按照如下步骤开通可观测监控 Prometheus 版并创建ECS类型的Prometheus实例。

    1. 在弹出的可观测监控 Prometheus 版面板,选中服务协议右侧的复选框,然后单击立即试用,领取可观测监控 Prometheus 版的Saving Plan资源,并开通其后付费服务。

      如下图所示,界面提示提交成功,然后单击管理试用,此时系统会跳转至费用与成本页面。

       

      image.png

       

    2. 我的试用页面可以看到已成功开通可观测监控 Prometheus 版的免费试用,然后单击相关入口列的控制台,此时系统会跳转至Prometheus监控页面。

       

      image.png

       

    3. Prometheus监控页面单击授权ARMS,等待大约1分钟后,即可授权成功。然后单击新建Prometheus实例,在弹出的页面单击Prometheus for ECS卡片。

       

      image.png

       

    4. 在弹出的面板中,选择目标地域,并单击目标VPC右侧操作列的安装。

      这里选择的地域需与ECS和VPC所在的地域一致。

       

      image

       

    5. 在弹出的对话框中,配置相关参数信息,并单击确定。

      配置项

      说明

      示例

      实例名称

      输入新建的ECS类型Prometheus实例名称。

      ECS-Prometheus实例

      交换机

      选择需要监控的ECS实例所在的交换机。

      vsw-5ecqqpjm1mvzp2i*****

      安全组

      选择需要监控的ECS实例所在的安全组。

      sg-m5e2twp5bo4t11z*****

      grafana工作区

      选择展示监控数据的Grafana工作区。您还可以单击其右侧的新建,新建Grafana工作区。

      共享版

      等待几分钟后,您可以刷新当前页面,当目标VPC状态列显示安装成功,则表示该实例创建成功。同时表示您已经成功将该VPC内的ECS集群接入了可观测监控 Prometheus 版。

 

 

创建告警规则

 

  1. Prometheus监控页面,单击已创建的ECS类型Prometheus实例名称,然后在左侧导航栏单击告警规则。

  2. Prometheus告警规则页面单击右上角的创建Prometheus告警规则,然后在弹出的页面配置如下表中的参数信息,配置完成后单击保存。

    配置项

    说明

    示例

    告警名称

    当前告警的名称。

    ECS-CPU使用率告警

    检测类型

    • 静态阈值:您可以根据系统预置的静态阈值选择告警指标和告警条件。

    • 自定义PromQL:您可以通过自定义PromQL语句设置告警指标的告警条件。

    静态阈值

    Prometheus实例

    选择需要创建告警的Prometheus实例。

    ECS-Prometheus实例

    告警分组

    选择告警分组。

    不同Prometheus类型支持的告警分组不同,告警分组备选项会随着选择的Prometheus实例类型的不同产生变化。

    Windows_Exporter

    告警指标

    选择想要配置告警的指标,每个告警分组对应不同的告警指标。

    CPU使用率

    告警条件

    基于告警指标预置内容设置告警事件产生条件。

    当CPU使用率大于80%时,满足告警条件。

    筛选条件

    根据告警指标,设置当前配置的告警规则所适用的范围,即所有符合筛选条件的资源满足此条告警规则时,均会产生告警事件。

    可选筛选条件包括:

    • 遍历:告警规则适用于当前Prometheus实例下的所有资源。筛选条件默认为遍历。

    • 等于:选择该条件后,需继续输入具体资源名称。所创建的告警规则将仅适用于对应资源。不支持同时填写多个资源。

    • 不等于:选择该条件后,需继续输入具体资源名称。所创建的告警规则将适用于除该资源之外的其他资源。不支持同时填写多个资源。

    • 正则匹配:选择该条件后,按需输入正则表达式匹配相应的资源名称。所创建的告警规则将适用于符合该正则表达式的所有资源。

    • 正则不匹配:选择该条件后,按需输入正则表达式匹配相应的资源名称。所创建的告警规则将过滤符合该正则表达式的所有资源。

    遍历

    数据预览

    数据预览区域展示告警条件对应的PromQL语句,并以时序曲线的形式展示当前告警规则配置的监控指标的值。

    默认仅展示一个资源的实时值,您可以在该区域的筛选框中选择目标资源以及时间区间来查看不同时间区间和不同资源的值。

    • 告警阈值将会以一条红色直线的形式显示在时序曲线中,满足告警阈值的时序曲线显示为深红色,不满足告警阈值的时序曲线显示为蓝色。

    • 将鼠标悬浮于时序曲线上,可以查看对应时间点的资源详情。

    • 在时序曲线上选中一段时间,可以查看对应时间段的时序曲线。

    持续时间

    • 当告警条件满足时,直接产生告警事件:有任何一个数据点满足设置的阈值时,就会产生告警事件。

    • 当告警条件满足持续N分钟时,才产生告警事件:即只有当满足阈值的时间大于等于N分钟时,才产生告警事件。

    当告警条件满足持续1分钟时,才产生告警事件。

    告警等级

    自定义告警等级。告警严重程度从默认、P4、P3、P2、P1逐级上升。

    默认

    告警内容

    您会收到的告警信息。您可以使用Go template语法在告警内容中自定义告警参数变量。

    Windows实例{{$labels.instance}}的CPU使用率 {{$labels.metrics_params_opt_label_value}} {{$labels.metrics_params_value}}%,当前值{{printf "%.2f" $value}}%

    高级设置

    告警检查周期

    指告警规则每隔N分钟进行一次检查,判断数据是否满足告警条件。默认1分钟,最少设置1分钟。

    1

    快速指定通知策略

    • 不指定通知策略:若选择此选项,当完成创建告警规则后,您可以在通知策略页面新建通知策略并指定匹配规则和匹配条件(如告警规则名称等)来匹配该告警规则。当该告警规则被触发产生告警事件后,告警信息会被发送给通知策略中指定的联系人或联系人组。更多信息,请参见通知策略

    • 指定某个通知策略:若选择此项,ARMS会自动在对应的通知策略添加一条匹配规则,匹配规则内容为告警规则ID(以告警规则名称的方式呈现),以确保当前告警规则产生的告警事件一定可以被选择的通知策略匹配到。

      快速指定通知策略只能保证当前告警规则产生的告警事件一定能够被所选的通知策略匹配到并且产生对应告警。但是,当前告警规则产生的事件同时也可能被其它设置了模糊匹配的通知策略匹配到并且产生告警。告警规则产生的告警事件和通知策略之间是多对多的匹配关系。

    不指定通知策略

    标签(lables)

    设置告警标签,设置的标签可用作通知策略匹配规则的选项。

    注释(annotations)

    设置告警的注释。

     

 

image

 

 

完成

 

登录可观测监控 Prometheus 版控制台,进入Prometheus告警规则列表页面,您可以看到创建的告警规则已显示在列表页面,且状态显示为运行中,则表示该条告警规则创建成功。

 

image

 

 

清理及后续

 

  1. 可观测监控 Prometheus 版提供按量计费每月50 GB的免费试用,即每个账号每个月指标的写入数据量免费额度为50 GB。该额度只抵扣Promethues专家版按量付费(后付费)用量,不抵扣包年包月(预付费)实例产生的写入数据量额度。 当月未使用完的试用额度不会结转至次月,当月超出试用额度的部分,按照按量计费进行收费。按量计费的收费详情,请参见计费说明。完成教程后,请参考以下场景处理可观测监控 Prometheus 版的资源:

    • 如果无需使用可观测监控 Prometheus 版,请登录可观测监控 Prometheus 版控制台,找到目标Prometheus实例,单击右侧操作列的卸载,按照界面提示卸载资源。

    • 如果需要继续使用可观测监控 Prometheus 版,请确保账户不要欠费。

  2. 后期如果在使用ECS或VPC过程中会产生存储费用、流量费用。完成教程后,请参考以下场景清理对应资源:

    • 如果无需继续使用ECS和VPC,需要释放对应的ECS和VPC资源,具体操作,请参见释放实例创建和管理专有网络

    • 如果需要继续使用ECS和VPC,请确保账户不要欠费。

 

 

 

总结

常用知识点

问题1:创建Prometheus告警规则时,可以设置几个告警条件?(单选题)

回答错误:正确答案是1个。创建1条Prometheus告警规则只能设置1个告警条件。

问题2:Prometheus告警规则在什么状态下会产生对应的告警事件?(单选题)

回答正确:正确答案是运行中。

延伸阅读

 

 

 

 

image

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

posted @ 2025-09-05 17:04  aiplus  阅读(11)  评论(0)    收藏  举报
悬浮按钮示例