从零搭建 Harness Engineering 框架：Rule、Skill、Sub-Agent等工程落完整路径

Harness Engineering（脚手架工程）这个概念已经流行一阵了。网上大多数文章都停留在理论层面，反复解释为什么现代 AI 开发不能再依赖单个 Prompt、也不能把模型当成"聪明的代码自动补全"。不过这里有一个实际问题被反复提及：

概念我懂了。可一旦真要落到工程上，第一步到底该做什么？

Harness 这个词听起来宽泛而且像一种抽象的方法论。如果它没法落到具体的目录结构、文档、脚本和工作流上，那就只是一句漂亮口号。Harness Engineering 在不同项目上的呈现可以差得很远——有的项目重度依赖 CI/CD pipeline，有的依赖严格的开发规范，有的依赖多智能体（Multi-Agent）编排，也有的只是把一堆脚本和模板严格组织起来。但只要往下挖，会发现它们在解决同一个核心问题：

如何让 AI 在你的项目里稳定、可靠、可预测地交付你想要的结果。

下面这张图把脚手架成熟度模型（Harness Maturity Model）划分成五个等级

实际使用场景：你处在哪一级？

Level 0：适合一次性脚本或纯粹的实验。你不在意可维护性，只想看一个想法现在能不能跑通。
Level 1（约束）：适合个人开发者和 MVP 阶段。你需要 AI 加速样板代码，但每一行代码的架构判断和审查仍由你来做。
Level 2（反馈回路）：生产期初创公司和小团队的最佳位置。AI 在这里成为可靠的初级伙伴。你信任代码，是因为系统本身——测试、CI、Linter——会捕获错误，而不是只靠你的肉眼。
Level 3（专业化分工）：复杂多服务系统的必经之路。当代码库大到一个人脑子装不下，就需要拆分 AI 角色（规划者、编码者、测试者），用来管理上下文、避免回归。
Level 4（自治）：留给平台级或 AI 原生组织。当系统需要在无人干预下持续自我修复和重构时才用得上。

本文用一个最小化的 Go 项目 crypto snapshot API 作为贯穿全文的例子，一步步讲我们是怎么把 Harness 搭起来的。哪些做法奏效、哪些地方踩了坑、哪些最初以为够用后来证明远远不够。这样你就可以在自己的项目里从零搭一套 Harness Engineering 框架，从哪里下手、按什么顺序补全后续。

https://avoid.overfit.cn/post/4d63fe6ef47742e7addd2dcf419efe27

posted @ 2026-05-25 21:39 deephub 阅读(7) 评论(0) 收藏举报

刷新页面返回顶部

deephub

overfit深度学习

从零搭建 Harness Engineering 框架：Rule、Skill、Sub-Agent等工程落完整路径

公告

deephub

overfit深度学习

从零搭建 Harness Engineering 框架 ：Rule、Skill、Sub-Agent等工程落完整路径

公告

从零搭建 Harness Engineering 框架：Rule、Skill、Sub-Agent等工程落完整路径