把 Agent 效果从 “感觉” 变成 “可验证”
TLDR:用 A/B 盲测和独立评估,让约束迭代可验证
问题
约束迭代最大的问题,是写了不代表有效。很多时候我们只是觉得 Agent 变好了,但缺少稳定的验证方法
做法
我的流程分为四步:
-
修改约束文档,形成改后版本
-
按官方最佳实践 review,先排除明显不合理的写法
-
派 Subagent 做 A/B 对照测试,比较改前和改后的效果
-
再由 review 汇总结果,评估这次约束改动是否真的有效
对照方式
- 准备同一份需求设计,分别交给使用改前约束和改后约束的两个 Subagent,两者都不参考实际代码,只根据需求盲写解决方案
- 盲写完成后,派独立 Evaluator 进行盲评。Evaluator 可以参考实际代码,但不知道 A/B 分别对应哪版约束
- 由主 Agent 汇总评估结果,对比两组方案表现,判断约束改进是否有效
注意点
Claude Code 在同一个会话中修改 CLAUDE.md 后,本次会话派发的 Subagent 看不到最新改动。它读取的是主会话启动时的 CLAUDE.md 快照
一个真实案例
Subagent 同时评测同一份需求设计时,改后版本的 Token 使用量下降,优化占比约 11.7%
⏺ 2 agents finished (ctrl+o to expand)
├ 盲写 writer 改后臂 · 15 tool uses · 135.8k tokens
│ ⎿ Done
└ 盲写 writer 改前臂 · 18 tool uses · 153.8k tokens
⎿ Done
发现
A/B 测试还发现了一个有意思的现象:如果在 CLAUDE.md 中定义约束文档本身的规则,比如“读代码就能搞清的东西不写”,Agent 会将这类规则泛化到代码注释中。原本容易出现的重复描述会减少,注释会更关注代码意图、设计原因和关键约束,从而提升整体注释质量

浙公网安备 33010602011771号