把 Agent 效果从 “感觉” 变成 “可验证”

TLDR：用 A/B 盲测和独立评估，让约束迭代可验证

问题

约束迭代最大的问题，是写了不代表有效。很多时候我们只是觉得 Agent 变好了，但缺少稳定的验证方法

我的流程分为四步：

Claude Code 在同一个会话中修改 CLAUDE.md 后，本次会话派发的 Subagent 看不到最新改动。它读取的是主会话启动时的 CLAUDE.md 快照

Subagent 同时评测同一份需求设计时，改后版本的 Token 使用量下降，优化占比约 11.7%

⏺ 2 agents finished (ctrl+o to expand)
├ 盲写 writer 改后臂 · 15 tool uses · 135.8k tokens
│ ⎿ Done
└ 盲写 writer 改前臂 · 18 tool uses · 153.8k tokens
⎿ Done

A/B 测试还发现了一个有意思的现象：如果在 CLAUDE.md 中定义约束文档本身的规则，比如“读代码就能搞清的东西不写”，Agent 会将这类规则泛化到代码注释中。原本容易出现的重复描述会减少，注释会更关注代码意图、设计原因和关键约束，从而提升整体注释质量

posted @ 2026-06-16 09:21 AaronLin 阅读(0) 评论(0) 收藏举报

刷新页面返回顶部