【Agent Harness实战】继“紧箍咒”之后,我又给AI Agent装了一套“进化系统”

继“紧箍咒”之后,我又给AI Agent装了一套“进化系统”

SEO摘要:本文深入解析了流马(Gliding Horse)AI Agent的行为工程系统设计,提出了一套从宪法层、方法论层、执行层到自进化层的四层约束体系。不同于传统Prompt软约束,该系统通过41条行为准则、10+方法论、5级根因回溯引擎和ToolGuard硬阻断,实现了对LLM的代码级可控约束。文章详细拆解了每层的设计原理与协同机制,为构建可靠、可进化的AI Agent系统提供了工程化实践参考。

关键词:AI Agent、行为工程、LLM约束、Agent Harness、根因分析、ToolGuard、自进化系统、Prompt工程、流马、Gliding Horse

之前我写了一篇《认清现实吧,LLM就是个“超级赌场”,而我们需要的是一套“紧箍咒”》,聊了为什么AI需要Harness来约束。那篇文章的核心观点是:LLM本质上是无状态的、弱指令遵守的、会产生幻觉的条件概率文本生成器,我们需要一套工程体系来调教它。

那篇文章聊的是“为什么”,今天这篇聊的是“怎么做”。

我给流马(Gliding Horse)设计了一套行为工程系统,它不是在Prompt里写“你要遵守规则”这种软约束,而是一套从宪法到方法论到硬阻断到自进化的四层体系。打个比方:如果之前的“紧箍咒”是给孙悟空戴上的那个圈,那这套系统就是唐僧的紧箍咒+天庭的戒律+地府的生死簿+如来的五指山——从道德劝说到物理镇压,全给你安排上。

一、四层架构:从“讲道理”到“动手”

这套行为工程系统分了四层,每一层有明确的职责和约束力:

graph TB subgraph "L4: 自进化层 — 数据驱动,越用越聪明" E4["违规学习 + 有效性评分 + 健康报告"] end subgraph "L3: 宪法层 — 永远存在,不可绕过" C1["41条行为准则 + 方法论绑定表"] end subgraph "L2: 方法论层 — 按需激活,条件触发" M1["10+ 方法论定义 + 反模式检测 + 说服注入"] end subgraph "L1: 执行层 — 代码级硬阻断" E1["根因引擎 — 5级回溯<br/>ToolGuard — 工具拦截<br/>HookManager — 生命周期钩子"] end C1 -->|"绑定注册"| M1 M1 -->|"条件激活"| L2 L2 -->|"提示注入"| E1 E1 -->|"违规记录"| E4 E4 -->|"反馈报告"| M1

简单说:宪法告诉你该做什么,方法论教你怎么做,执行层确保你真做了,进化层分析你做得好不好。 四层闭环,从约束到反馈,一个不漏。

二、宪法层:AI的《小学生守则》

宪法层是系统的“基础锚点”。它在系统启动时就加载,包含41条行为准则,覆盖三个维度:

  • 感知原则:全量阅读、索引优先、实时确认、5W2H优先、歧义澄清
  • 验证原则:自动验证、根因分析、回归验证、自工程完结
  • 边界原则:最小权限、风险预警、边界拒绝、任务范围坚守

这些准则不是“建议”,而是“法律”。每条准则可以绑定到零个或多个方法论,形成L3→L2的联动。比如“全量阅读原则”绑定了“索引优先策略方法论”,当Agent准备读文件时,这个方法论就会自动激活。

关键设计:宪法层是软约束(写在提示词里),但它的绑定机制让违反宪法的行为在L2和L1层被硬阻断。所以它既不是“无用的说教”,也不是“粗暴的封禁”,而是一个精巧的分级约束体系。

三、方法论层:给AI装上“条件反射”

如果说宪法是《小学生守则》,那方法论就是“体育课怎么上”、“数学题怎么解”、“考试怎么复习”的具体操作手册。

每个方法论是一个结构化的行为协议,包含:

  • 红线项:要警惕的行为(比如“你是不是在偷懒跳过验证?”)
  • 反模式:要阻断的行为(比如“没读文件就修改”,直接STOP)
  • 说服框架:用权威感、承诺一致、社会认同等心理学原理,让AI更听话
  • 激活条件:什么时候触发(特定工具?特定角色?出错时?)

当前内置了10个方法论,比如:

方法论 一句话解释 激活条件
索引优先策略 先搜再读,别上来就全量遍历 文件搜索工具被调用时
最小权限协议 能读就别写,能查就别改 Shell/网络工具被调用时
复杂度诚实评估 别为了炫技选复杂方案,别为了省事选简陋方案 SA/PA做计划时
系统化调试 出错了先定位根因,别盲目重试 任务出错时
完成前验证 干完活自己先检查,别把Bug留给下游 执行阶段结束时

最妙的设计:方法论不是写死在代码里的,而是通过条件激活动态生效的。Agent平时不受影响,只有在触发条件满足时,对应方法论才“醒来”。这避免了把所有规则一股脑塞进Prompt导致的Token浪费和注意力稀释。

四、执行层:AI的“安检门”和“侦探”

执行层是真正“动手”的地方,包含三个核心组件:

1. 根因引擎:AI的“福尔摩斯”

当Agent执行出错时,根因引擎自动启动,执行5级回溯追踪

错误发生 → L1: 记录症状 → L2: 找到直接调用者 
→ L3: 检查上下文 → L4: 追查触发事件 → L5: 匹配错误模式 → 根因报告

比如Agent调用API失败了,引擎不会简单报“失败了”,而是:

  • L1: 错误消息是“connection refused”
  • L2: 调用位置是src/http/client.rs:42
  • L3: 当时的上下文是“正在执行定时数据同步”
  • L4: 触发事件是“网络在3分钟前断开了”
  • L5: 匹配到network_error模式 → 根因:网络连接失败

然后引擎会生成四层防御建议

  • L1入口校验:在调用前检查网络连通性
  • L2业务逻辑:添加重试机制(指数退避)
  • L3环境防护:设置连接超时和熔断
  • L4可观测性:记录每次调用的延迟和成功率

关键是:如果Agent试图跳过根因分析直接修复,执行层的钩子会直接阻断,并提示“行为准则违反:根因分析未完成就进行修复”。这才是真正的“硬约束”——不是劝你,是拦住你。

2. ToolGuard:AI的“安检门”

ToolGuard在工具调用前后执行拦截。Pre-Injection阶段注入安全提示,Post-Validation阶段检查结果。如果发现异常(比如读取了敏感文件),直接Abort并发送纠正消息。

3. HookManager:生命周期的“关卡”

Agent的每个关键节点(启动、计划创建、工具调用、出错、阶段结束)都有钩子。这些钩子被MethodologyGate和RootCauseEngine挂载,形成完整的执行监控网。

五、自进化层:让系统“越用越聪明”

进化层收集L1和L2的违规数据、根因分析结果、方法论有效性指标,生成健康报告:

系统健康评分: 85.3%
高频违规: 全量遍历 (12次), 无比较方案 (8次)
方法论有效性: 
  ✅ 技能使用方法论 — 95%有效
  ⚠️ 索引优先策略 — 62%有效(需调整触发条件)

这些报告反馈给AA(决策Agent),让它决定是否调整方法论配置、优化提示词、或者更新宪法绑定。系统不是静态的,而是在每次违规和修正中持续进化。

六、为什么这套体系比“写Prompt”强?

维度 写Prompt约束 行为工程系统
约束力 依赖LLM自觉 L1代码级硬阻断,绕过不了
覆盖面 一次写完,静态不变 条件激活,动态适配
反馈闭环 违规记录→进化分析→策略调整
可扩展性 改Prompt,重试 加方法论定义即可,不改代码
根因追溯 靠LLM自己分析 5级回溯算法,确定性执行
Token效率 所有规则全塞Prompt 按需激活,不浪费Token

七、最后说句人话

我见过太多Agent项目,在Prompt里写满了“你必须”、“你应该”、“你不准”。然后Agent该怎么违规还怎么违规,因为LLM本质上是个“赌徒”——它在每个词上都在赌概率,不是在执行规则。

流马的行为工程系统,从一开始就不信LLM的“自觉性”。它用宪法层做道德引导,方法论层做条件反射,执行层做物理阻断,进化层做持续优化。四层协同,把AI从一个“散漫的天才”调教成一个“靠谱的工程师”。

这才是Agent Harness的真正价值——不是让AI更强,而是让AI更可靠。


我这套系统叫 Gliding Horse(流马),所有代码都在 GitHub 上:https://github.com/doiito/gliding_horse

这个系列写了16篇了。从JSON-LD到CPU缓存,从丰田安灯绳到行为工程,每一篇都是我在构建流马过程中的真实设计选择。如果你也在做Agent系统,希望这个系列能让你少走一些弯路。

posted @ 2026-06-15 07:56  doiito  阅读(1)  评论(0)    收藏  举报