AI Agent系列-Google AI Agent学习-Agent Ops:从“写完就跑”到“持续运营自治系统”

Google Agent白皮书提出一个重要概念:Agent Ops,是 DevOps/MLOps 在 Agent 时代的自然演进。

1. 测试不再是“output == expected”

  • Agent 响应本身就是概率性的,同一个请求每次都可能略有不同
  • 语言质量和任务完成度,往往难以用简单断言描述
  • 传统单元测试模式不再适用,需要新的评估范式

2. 用 LM 做评测(LM-as-Judge)

  • 搭建“评测集 + 评分 Rubric”:
    • 覆盖核心业务场景与边缘案例
    • 使用强模型(或专门微调模型)来打分:正确性、完整性、事实性、风格等
  • 把评测结果作为版本上线的硬指标,而不是靠人工主观感觉

3. 像做 A/B 实验一样做迭代

  • 定义业务 KPI:
    goal completion rate、用户满意度、时延、成本、转化率等
  • 每次改动都跑一遍 Golden Dataset + 线上 A/B 对比:
    • 评估质量是否提升
    • 监控延迟、成本、错误率是否可接受

4. 用 Trace 调试“思考过程”

  • 借助 OpenTelemetry 等系统记录完整执行轨迹:
    • 每次模型调用的 Prompt 与输出
    • 调用了哪些工具、用什么参数、返回了什么
    • 决策分支为何走错
  • Trace 不是给用户看的,而是给工程团队做“行为剖析”和根因定位。
  • (注:我们现在 Trace 使用比较多的是 LangFuse,可视化更好一点)

5. 人类反馈是最有价值的“训练数据”

  • 每一次“差评”“工单”“人工纠正”,都是新的边界条件
  • 系统化做法:
    • 收集并聚合这些反馈
    • 把高价值反馈转成新测试样本,加入评测集
    • 既修复当前问题,又减少同类问题再出现的概率

从这个视角看,做 Agent 更像运营一个复杂的在线系统,而不仅仅是“部署了一个模型服务”。

posted @ 2025-12-13 14:07  Eric zhou  阅读(2)  评论(0)    收藏  举报