AI Agent系列-Google AI Agent学习-Agent Ops:从“写完就跑”到“持续运营自治系统”
Google Agent白皮书提出一个重要概念:Agent Ops,是 DevOps/MLOps 在 Agent 时代的自然演进。
1. 测试不再是“output == expected”
- Agent 响应本身就是概率性的,同一个请求每次都可能略有不同
- 语言质量和任务完成度,往往难以用简单断言描述
- 传统单元测试模式不再适用,需要新的评估范式
2. 用 LM 做评测(LM-as-Judge)
- 搭建“评测集 + 评分 Rubric”:
- 覆盖核心业务场景与边缘案例
- 使用强模型(或专门微调模型)来打分:正确性、完整性、事实性、风格等
- 把评测结果作为版本上线的硬指标,而不是靠人工主观感觉
3. 像做 A/B 实验一样做迭代
- 定义业务 KPI:
goal completion rate、用户满意度、时延、成本、转化率等 - 每次改动都跑一遍 Golden Dataset + 线上 A/B 对比:
- 评估质量是否提升
- 监控延迟、成本、错误率是否可接受
4. 用 Trace 调试“思考过程”
- 借助 OpenTelemetry 等系统记录完整执行轨迹:
- 每次模型调用的 Prompt 与输出
- 调用了哪些工具、用什么参数、返回了什么
- 决策分支为何走错
- Trace 不是给用户看的,而是给工程团队做“行为剖析”和根因定位。
- (注:我们现在 Trace 使用比较多的是 LangFuse,可视化更好一点)
5. 人类反馈是最有价值的“训练数据”
- 每一次“差评”“工单”“人工纠正”,都是新的边界条件
- 系统化做法:
- 收集并聚合这些反馈
- 把高价值反馈转成新测试样本,加入评测集
- 既修复当前问题,又减少同类问题再出现的概率
从这个视角看,做 Agent 更像运营一个复杂的在线系统,而不仅仅是“部署了一个模型服务”。
浙公网安备 33010602011771号