FinOps Agent 来了:AI 自动查账单异常,还能开 Jira 工单通知你

FinOps Agent 来了:AI 自动查账单异常,还能开 Jira 工单通知你

上个月审账单又迟了三天才发现一个 dev 环境的 GPU 实例忘关了,白烧了两千多块。

这种事每个团队都经历过——月底看账单才发现异常,而那时候钱已经烧完了。Cost Anomaly Detection 虽然能告警,但调查根因、通知对应团队、开工单跟进这些后续动作还是得靠人。

亚马逊云科技 6 月 9 日发布了 AWS FinOps Agent(Preview),直接把这套流程自动化了:检测异常 → 调查根因 → Slack 通知 → 开 Jira 工单,全链路不需要人介入。

这东西能干啥

先说能力边界,别期望过高:

能做的:

  • 自然语言问账单问题("上个月 EC2 花了多少?哪个团队花最多?")
  • 自动调查 Cost Anomaly Detection 检测到的异常
  • 从 Cost Optimization Hub 和 Compute Optimizer 拉优化建议(idle 资源、rightsizing、Savings Plans)
  • 生成定期成本报告(给财务或工程团队)
  • 开 Jira 工单、发 Slack 消息
  • 定时跑 FinOps 工作流(比如每周一早上出报告)

不能做的:

  • 不能直接帮你关资源(安全考虑,只读+通知)
  • 不覆盖 GovCloud 和中国区的数据
  • Preview 阶段只在 us-east-1 可用
  • 不能替代人做购买 Savings Plans/RI 的决策

实际使用场景

场景 1:异常自动调查 + Slack 通知

以前的流程:

Cost Anomaly Detection 报警 → 邮件通知 → FinOps 工程师看到 → 
手动查 CloudTrail → 找到原因 → 找对应团队 → 开工单 → 跟进

时间:少则几小时,多则几天。

现在的流程:

Cost Anomaly Detection 报警 → FinOps Agent 自动调查 → 
关联 CloudTrail 事件 → 定位根因 → Slack 发到对应频道 → 
自动开 Jira ticket → Done

时间:分钟级。

场景 2:自然语言问账单

你:上周 Bedrock 的花费比前一周涨了多少?主要是哪个模型?
Agent:上周 Bedrock 花费 $2,847,比前一周增长 34%。
       主要增长来自 Claude Fable 5(+$680),原因是 
       production 环境 6/10 开始使用新模型版本。
       建议:确认是否需要调整 max_tokens 限制或切换到 
       Provisioned Throughput 降低单价。

场景 3:定期报告自动化

# 伪代码示意 — FinOps Agent 定时任务配置
{
    "schedule": "cron(0 9 ? * MON *)",  # 每周一早9点
    "workflow": {
        "actions": [
            {
                "type": "generate_report",
                "config": {
                    "time_range": "last_7_days",
                    "group_by": ["SERVICE", "LINKED_ACCOUNT"],
                    "include_recommendations": True
                }
            },
            {
                "type": "post_to_slack",
                "config": {
                    "channel": "#finops-weekly",
                    "format": "summary_with_highlights"
                }
            }
        ]
    }
}

开通步骤

前提条件

  1. Cost Explorer 已开启(默认开启,确认一下)
  2. Cost Anomaly Detection 已配置(如果要用异常调查功能)
  3. Cost Allocation Tags 已激活(这个很多人忽略——没有标签,Agent 无法按团队/项目归因)
  4. IAM 权限配置

开通流程

# 1. 确认 Cost Explorer 状态
aws ce get-cost-and-usage \
  --time-period Start=2026-06-01,End=2026-06-15 \
  --granularity DAILY \
  --metrics BlendedCost \
  --region us-east-1

# 2. 确认 Cost Anomaly Detection 监控器
aws ce get-anomaly-monitors \
  --region us-east-1

# 3. 检查 Cost Allocation Tags
aws ce list-cost-allocation-tags \
  --status Active \
  --region us-east-1

然后去控制台 → AWS FinOps Agent 页面 → 点击 Enable Preview。

IAM 策略示例

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "FinOpsAgentReadAccess",
            "Effect": "Allow",
            "Action": [
                "ce:GetCostAndUsage",
                "ce:GetCostForecast",
                "ce:GetAnomalies",
                "ce:GetAnomalyMonitors",
                "compute-optimizer:GetRecommendationSummaries",
                "compute-optimizer:GetEC2InstanceRecommendations",
                "cost-optimization-hub:ListRecommendations",
                "cloudtrail:LookupEvents"
            ],
            "Resource": "*"
        },
        {
            "Sid": "FinOpsAgentJiraIntegration",
            "Effect": "Allow",
            "Action": [
                "secretsmanager:GetSecretValue"
            ],
            "Resource": "arn:aws:secretsmanager:us-east-1:*:secret:finops-agent/jira-*"
        }
    ]
}

使用前必须搞好的三件事

别急着开通,先确认这三样:

1. 标签策略

FinOps Agent 按标签归因。如果你的资源没打标签或者标签乱七八糟,Agent 出来的报告就是一坨 untagged 数据。

# 检查标签覆盖率
aws resourcegroupstaggingapi get-resources \
  --region us-east-1 \
  --output json | python3 -c "
import json, sys
data = json.load(sys.stdin)
resources = data['ResourceTagMappingList']
tagged = sum(1 for r in resources if r.get('Tags'))
total = len(resources)
print(f'标签覆盖率: {tagged}/{total} ({tagged/total*100:.1f}%)')
"

建议标签覆盖率至少 80% 以上再开 FinOps Agent。

2. 账户-团队映射

多账户环境下,Agent 需要知道哪个 Linked Account 归哪个团队管。在 FinOps Agent 控制台里配置 Account → Team 映射,这样异常通知才能发到正确的 Slack 频道。

3. Cost Anomaly Detection 阈值调优

如果你的 Anomaly Detection 阈值太敏感(比如 $10 就报警),Agent 会频繁调查和通知,反而变成噪音。建议:

  • 开发环境:$50+ 才触发
  • 生产环境:10% 以上波动才触发
  • 新资源:排除前 3 天的学习期

和现有工具对比

维度 手动 FinOps Cost Anomaly Detection FinOps Agent
异常发现 月底看账单 自动检测(小时级) 自动检测
根因调查 人工查 CloudTrail 不做 自动调查
通知团队 人工转发 邮件/SNS Slack + Jira
优化建议 人工看 Hub 不做 主动推送
定期报告 手动做 PPT 不做 自动生成
工作量 低(但后续跟进重) 接近零

几个坑提前说

  1. Preview 阶段数据有延迟 — Agent 的成本数据比 Cost Explorer 滞后 4-8 小时,实时性不够
  2. Jira 集成需要 Secrets Manager — API token 存 Secrets Manager,记得设置 rotation
  3. 多 payer 账户 — 每个 management account 要单独开通,不能跨组织聚合
  4. 自然语言理解有局限 — 复杂的多维度查询(比如"按团队按服务按区域三维度拆分并对比环比")可能需要拆成几步问

我的判断

FinOps Agent 补上了从"发现异常"到"通知+跟进"之间的自动化缺口。以前 Cost Anomaly Detection 只负责检测,后续动作全靠人——现在这块自动化了。

适合的团队:多账户、月账单 $10k+、有多个工程团队需要按责归因的组织。

不适合的:单账户小团队,月消费可控的项目——直接看 Cost Explorer 就够了,没必要多加一层。

Preview 阶段免费,建议开通试试。等 GA 之后定价方案出来再评估是否长期使用。

官方文档:

posted @ 2026-06-15 12:03  亚马逊云开发者  阅读(1)  评论(0)    收藏  举报