把 Agent 效果从 “感觉” 变成 “可验证”

TLDR:用 A/B 盲测和独立评估,让约束迭代可验证

问题

约束迭代最大的问题,是写了不代表有效。很多时候我们只是觉得 Agent 变好了,但缺少稳定的验证方法

做法

我的流程分为四步:

  1. 修改约束文档,形成改后版本

  2. 按官方最佳实践 review,先排除明显不合理的写法

  3. 派 Subagent 做 A/B 对照测试,比较改前和改后的效果

  4. 再由 review 汇总结果,评估这次约束改动是否真的有效

对照方式

  1. 准备同一份需求设计,分别交给使用改前约束和改后约束的两个 Subagent,两者都不参考实际代码,只根据需求盲写解决方案
  2. 盲写完成后,派独立 Evaluator 进行盲评。Evaluator 可以参考实际代码,但不知道 A/B 分别对应哪版约束
  3. 由主 Agent 汇总评估结果,对比两组方案表现,判断约束改进是否有效

注意点

Claude Code 在同一个会话中修改 CLAUDE.md 后,本次会话派发的 Subagent 看不到最新改动。它读取的是主会话启动时的 CLAUDE.md 快照

一个真实案例

Subagent 同时评测同一份需求设计时,改后版本的 Token 使用量下降,优化占比约 11.7%

⏺ 2 agents finished (ctrl+o to expand)
├ 盲写 writer 改后臂 · 15 tool uses · 135.8k tokens
│ ⎿ Done
└ 盲写 writer 改前臂 · 18 tool uses · 153.8k tokens
⎿ Done

发现

A/B 测试还发现了一个有意思的现象:如果在 CLAUDE.md 中定义约束文档本身的规则,比如“读代码就能搞清的东西不写”,Agent 会将这类规则泛化到代码注释中。原本容易出现的重复描述会减少,注释会更关注代码意图、设计原因和关键约束,从而提升整体注释质量

posted @ 2026-06-16 09:21  AaronLin  阅读(0)  评论(0)    收藏  举报