【Agent Harness实战】继“紧箍咒”之后，我又给AI Agent装了一套“进化系统”

继“紧箍咒”之后，我又给AI Agent装了一套“进化系统”

SEO摘要：本文深入解析了流马（Gliding Horse）AI Agent的行为工程系统设计，提出了一套从宪法层、方法论层、执行层到自进化层的四层约束体系。不同于传统Prompt软约束，该系统通过41条行为准则、10+方法论、5级根因回溯引擎和ToolGuard硬阻断，实现了对LLM的代码级可控约束。文章详细拆解了每层的设计原理与协同机制，为构建可靠、可进化的AI Agent系统提供了工程化实践参考。

关键词：AI Agent、行为工程、LLM约束、Agent Harness、根因分析、ToolGuard、自进化系统、Prompt工程、流马、Gliding Horse

之前我写了一篇《认清现实吧，LLM就是个“超级赌场”，而我们需要的是一套“紧箍咒”》，聊了为什么AI需要Harness来约束。那篇文章的核心观点是：LLM本质上是无状态的、弱指令遵守的、会产生幻觉的条件概率文本生成器，我们需要一套工程体系来调教它。

那篇文章聊的是“为什么”，今天这篇聊的是“怎么做”。

我给流马（Gliding Horse）设计了一套行为工程系统，它不是在Prompt里写“你要遵守规则”这种软约束，而是一套从宪法到方法论到硬阻断到自进化的四层体系。打个比方：如果之前的“紧箍咒”是给孙悟空戴上的那个圈，那这套系统就是唐僧的紧箍咒+天庭的戒律+地府的生死簿+如来的五指山——从道德劝说到物理镇压，全给你安排上。

一、四层架构：从“讲道理”到“动手”

这套行为工程系统分了四层，每一层有明确的职责和约束力：

graph TB subgraph "L4: 自进化层 — 数据驱动，越用越聪明" E4["违规学习 + 有效性评分 + 健康报告"] end subgraph "L3: 宪法层 — 永远存在，不可绕过" C1["41条行为准则 + 方法论绑定表"] end subgraph "L2: 方法论层 — 按需激活，条件触发" M1["10+ 方法论定义 + 反模式检测 + 说服注入"] end subgraph "L1: 执行层 — 代码级硬阻断" E1["根因引擎 — 5级回溯<br/>ToolGuard — 工具拦截<br/>HookManager — 生命周期钩子"] end C1 -->|"绑定注册"| M1 M1 -->|"条件激活"| L2 L2 -->|"提示注入"| E1 E1 -->|"违规记录"| E4 E4 -->|"反馈报告"| M1

简单说：宪法告诉你该做什么，方法论教你怎么做，执行层确保你真做了，进化层分析你做得好不好。 四层闭环，从约束到反馈，一个不漏。

二、宪法层：AI的《小学生守则》

宪法层是系统的“基础锚点”。它在系统启动时就加载，包含41条行为准则，覆盖三个维度：

感知原则：全量阅读、索引优先、实时确认、5W2H优先、歧义澄清
验证原则：自动验证、根因分析、回归验证、自工程完结
边界原则：最小权限、风险预警、边界拒绝、任务范围坚守

这些准则不是“建议”，而是“法律”。每条准则可以绑定到零个或多个方法论，形成L3→L2的联动。比如“全量阅读原则”绑定了“索引优先策略方法论”，当Agent准备读文件时，这个方法论就会自动激活。

关键设计：宪法层是软约束（写在提示词里），但它的绑定机制让违反宪法的行为在L2和L1层被硬阻断。所以它既不是“无用的说教”，也不是“粗暴的封禁”，而是一个精巧的分级约束体系。

三、方法论层：给AI装上“条件反射”

如果说宪法是《小学生守则》，那方法论就是“体育课怎么上”、“数学题怎么解”、“考试怎么复习”的具体操作手册。

每个方法论是一个结构化的行为协议，包含：

红线项：要警惕的行为（比如“你是不是在偷懒跳过验证？”）
反模式：要阻断的行为（比如“没读文件就修改”，直接STOP）
说服框架：用权威感、承诺一致、社会认同等心理学原理，让AI更听话
激活条件：什么时候触发（特定工具？特定角色？出错时？）

当前内置了10个方法论，比如：

方法论	一句话解释	激活条件
索引优先策略	先搜再读，别上来就全量遍历	文件搜索工具被调用时
最小权限协议	能读就别写，能查就别改	Shell/网络工具被调用时
复杂度诚实评估	别为了炫技选复杂方案，别为了省事选简陋方案	SA/PA做计划时
系统化调试	出错了先定位根因，别盲目重试	任务出错时
完成前验证	干完活自己先检查，别把Bug留给下游	执行阶段结束时

最妙的设计：方法论不是写死在代码里的，而是通过条件激活动态生效的。Agent平时不受影响，只有在触发条件满足时，对应方法论才“醒来”。这避免了把所有规则一股脑塞进Prompt导致的Token浪费和注意力稀释。

四、执行层：AI的“安检门”和“侦探”

执行层是真正“动手”的地方，包含三个核心组件：

1. 根因引擎：AI的“福尔摩斯”

当Agent执行出错时，根因引擎自动启动，执行5级回溯追踪：

错误发生 → L1: 记录症状 → L2: 找到直接调用者 
→ L3: 检查上下文 → L4: 追查触发事件 → L5: 匹配错误模式 → 根因报告

比如Agent调用API失败了，引擎不会简单报“失败了”，而是：

L1: 错误消息是“connection refused”
L2: 调用位置是src/http/client.rs:42
L3: 当时的上下文是“正在执行定时数据同步”
L4: 触发事件是“网络在3分钟前断开了”
L5: 匹配到network_error模式 → 根因：网络连接失败

然后引擎会生成四层防御建议：

L1入口校验：在调用前检查网络连通性
L2业务逻辑：添加重试机制（指数退避）
L3环境防护：设置连接超时和熔断
L4可观测性：记录每次调用的延迟和成功率

关键是：如果Agent试图跳过根因分析直接修复，执行层的钩子会直接阻断，并提示“行为准则违反：根因分析未完成就进行修复”。这才是真正的“硬约束”——不是劝你，是拦住你。

2. ToolGuard：AI的“安检门”

ToolGuard在工具调用前后执行拦截。Pre-Injection阶段注入安全提示，Post-Validation阶段检查结果。如果发现异常（比如读取了敏感文件），直接Abort并发送纠正消息。

3. HookManager：生命周期的“关卡”

Agent的每个关键节点（启动、计划创建、工具调用、出错、阶段结束）都有钩子。这些钩子被MethodologyGate和RootCauseEngine挂载，形成完整的执行监控网。

五、自进化层：让系统“越用越聪明”

进化层收集L1和L2的违规数据、根因分析结果、方法论有效性指标，生成健康报告：

系统健康评分: 85.3%
高频违规: 全量遍历 (12次), 无比较方案 (8次)
方法论有效性: 
  ✅ 技能使用方法论 — 95%有效
  ⚠️ 索引优先策略 — 62%有效（需调整触发条件）

这些报告反馈给AA（决策Agent），让它决定是否调整方法论配置、优化提示词、或者更新宪法绑定。系统不是静态的，而是在每次违规和修正中持续进化。

六、为什么这套体系比“写Prompt”强？

维度	写Prompt约束	行为工程系统
约束力	依赖LLM自觉	L1代码级硬阻断，绕过不了
覆盖面	一次写完，静态不变	条件激活，动态适配
反馈闭环	无	违规记录→进化分析→策略调整
可扩展性	改Prompt，重试	加方法论定义即可，不改代码
根因追溯	靠LLM自己分析	5级回溯算法，确定性执行
Token效率	所有规则全塞Prompt	按需激活，不浪费Token

七、最后说句人话

我见过太多Agent项目，在Prompt里写满了“你必须”、“你应该”、“你不准”。然后Agent该怎么违规还怎么违规，因为LLM本质上是个“赌徒”——它在每个词上都在赌概率，不是在执行规则。

流马的行为工程系统，从一开始就不信LLM的“自觉性”。它用宪法层做道德引导，方法论层做条件反射，执行层做物理阻断，进化层做持续优化。四层协同，把AI从一个“散漫的天才”调教成一个“靠谱的工程师”。

这才是Agent Harness的真正价值——不是让AI更强，而是让AI更可靠。

我这套系统叫 Gliding Horse（流马），所有代码都在 GitHub 上：https://github.com/doiito/gliding_horse

这个系列写了16篇了。从JSON-LD到CPU缓存，从丰田安灯绳到行为工程，每一篇都是我在构建流马过程中的真实设计选择。如果你也在做Agent系统，希望这个系列能让你少走一些弯路。

posted @ 2026-06-15 07:56 doiito 阅读(1) 评论(0) 收藏举报

刷新页面返回顶部