AI Agent系列-Google AI Agent学习-Agent Ops：从“写完就跑”到“持续运营自治系统”

Google Agent白皮书提出一个重要概念：Agent Ops，是 DevOps/MLOps 在 Agent 时代的自然演进。

1. 测试不再是“output == expected”

Agent 响应本身就是概率性的，同一个请求每次都可能略有不同
语言质量和任务完成度，往往难以用简单断言描述
传统单元测试模式不再适用，需要新的评估范式

2. 用 LM 做评测（LM-as-Judge）

搭建“评测集 + 评分 Rubric”：

覆盖核心业务场景与边缘案例
使用强模型（或专门微调模型）来打分：正确性、完整性、事实性、风格等

把评测结果作为版本上线的硬指标，而不是靠人工主观感觉

3. 像做 A/B 实验一样做迭代

定义业务 KPI：
goal completion rate、用户满意度、时延、成本、转化率等
每次改动都跑一遍 Golden Dataset + 线上 A/B 对比：

评估质量是否提升
监控延迟、成本、错误率是否可接受

4. 用 Trace 调试“思考过程”

借助 OpenTelemetry 等系统记录完整执行轨迹：

每次模型调用的 Prompt 与输出
调用了哪些工具、用什么参数、返回了什么
决策分支为何走错

Trace 不是给用户看的，而是给工程团队做“行为剖析”和根因定位。
（注：我们现在 Trace 使用比较多的是 LangFuse，可视化更好一点）

5. 人类反馈是最有价值的“训练数据”

每一次“差评”“工单”“人工纠正”，都是新的边界条件
系统化做法：

收集并聚合这些反馈
把高价值反馈转成新测试样本，加入评测集
既修复当前问题，又减少同类问题再出现的概率

从这个视角看，做 Agent 更像运营一个复杂的在线系统，而不仅仅是“部署了一个模型服务”。

posted @ 2025-12-13 14:07 Eric zhou 阅读(2) 评论(0) 收藏举报

刷新页面返回顶部