为什么我越来越警惕“直接用大模型做决策” 一个偏系统工程视角的反思
写这篇文章,并不是为了否定大模型的能力。
恰恰相反,是因为我越来越确信:
AI 已经强到,如果我们还用“工具思维”去使用它,一定会出问题。
如果你只是用 AI:
- 写代码
- 改 Bug
- 生成文档
- 查资料
那很多风险暂时与你无关。
但如果你开始思考:
- AI 能不能参与判断?
- AI 能不能进风控、交易、医疗、调度?
- AI 能不能成为长期协作系统的一部分?
那下面这些问题,其实已经绕不开了。
一、一个不太讨喜的判断
现在很多 AI 应用,其实是在“裸用大模型”
我先说结论:
现在相当一部分 AI 应用,本质上是在“裸用 LLM”。
这里的“裸用”,不是说不安全、不合规,而是说:
- 把一个高自由度、强推理能力的系统
- 直接放进需要稳定判断的场景
- 却没有一层真正意义上的系统级约束
很多人会反驳:
Prompt 写好了
RAG 接上了
规则也加了
但站在系统工程角度,这些更多是:
功能增强,而不是决策治理。
二、为什么说大模型更像“发动机”,而不是“整套系统”
这是理解后面所有问题的关键。
从工程视角看,大模型的特性非常接近:
一台性能极强、但高度自由的发动机。
它的特点是:
-
推理能力很强
-
表达能力很强
-
可以在不完整信息下给出“像样的答案”
-
但它并不天然负责:
- 行为稳定
- 权限边界
- 风险控制
- 状态一致性
如果你把一台 1000 马力的发动机:
- 没有变速箱
- 没有底盘
- 没有刹车系统
你不会说它“潜力无限”,
你只会说:这东西不能上路。
三、风险并不来自“偶尔出错”,而来自“不可预期”
很多程序员的第一反应是:
AI 会不会偶尔答错?
但真正的系统风险,不在“错一次”,而在于:
1️⃣ 同样条件下,行为不稳定
- 同样的问题
- 同样的数据
- 不同时间调用
结果可能明显不同。
在内容生成里,这是“多样性”;
在系统决策里,这是不确定性。
2️⃣ 强解释能力,会掩盖系统缺陷
大模型有一个很强的特性:
几乎任何结果,它都能解释得通。
但在工程里我们都知道:
“跑得顺”不等于“跑得对”。
一个系统如果:
- 每次都能给理由
- 但行为不可复现
那它在工程上依然是不合格的。
3️⃣ 出问题后,无法复盘
这是底线问题。
如果系统出问题,你至少要知道:
- 哪个条件触发了判断
- 哪条路径被采信
- 是否可以复现
如果这些都做不到:
这个系统就是不可维护的。
四、问题不在于 AI 不够强,而在于“没人接管它”
这里有一个非常反直觉的结论:
AI 的问题不是不够聪明,
而是聪明得超过了现有系统的承载能力。
没有系统级接管的高能力组件,在工程里一定会导致:
- 行为漂移
- 风险累积
- 调试困难
- 责任模糊
这不是 AI 的锅,而是:
系统工程缺位。
五、为什么我开始认真思考“AI 的操作系统”
如果你写过系统软件,或者做过复杂系统架构,你一定知道:
-
CPU 出现 ≠ 系统可用
-
必须有 OS:
- 管调度
- 管权限
- 管状态
- 管异常
现在,大模型正在经历类似阶段。
只不过这一次,操作系统要管理的不是算力,而是:
判断权与决策路径。
六、什么是“决策模型”(不是 ML 模型)
这里说的“决策模型”,并不是指机器学习模型,而是一层系统逻辑:
- 不负责预测
- 不负责生成
- 不负责创意
它只做一件事:
判断:在当前条件下,这个行为是否被允许。
工程上,它的目标非常朴素:
同样的输入 → 同样的判断结果。
也就是我们常说的:
同题同答。
七、为什么运行环境本身非常重要
很多讨论容易陷入“模型谁更强”。
但从系统角度,更重要的是:
模型运行在什么样的环境里。
如果运行环境:
- 状态不稳定
- 行为不可预期
- 边界靠约定
那在其之上谈“可控决策”,基本都是空谈。
八、量化、医疗、科研,其实是同一个系统问题
你会发现:
- AI 量化的问题是决策漂移
- AI 医疗的问题是越权判断
- AI 科研的问题是把检索当思考
它们本质上都在回答同一个问题:
谁,在什么条件下,有资格做判断?
九、关于“伴生模型”:必须极其克制
长期运行的系统需要:
- 连续状态
- 个体差异
- 行为习惯
这催生了“伴生模型”的概念。
但系统工程上必须非常清楚:
伴生模型只能提供状态信息,
不能拥有裁决权。
否则:
- 长期偏好会反向影响系统
- 风险会随时间积累
- 行为将不可预测
十、写在最后:这是一个系统工程问题
如果用一句话总结这篇文章:
AI 时代真正的风险,不是模型不够强,
而是我们还在用“工具思维”使用系统级智能。
真正重要的不是:
- AI 能做什么
而是:
AI 在什么条件下,被允许做什么。
作者说明
本文整理自一次长时间的人机协作与系统架构讨论,
讨论核心集中于 AI 决策稳定性、系统工程边界与可托付性问题。
相关探索基于 EDCA OS(Expression-Driven Cognitive Architecture) 的研究框架,
目前仍处于持续验证与演化阶段。。
附:AI 决策系统 · 核心 QA 集(v1.0)
Q1:AI 相比传统行业软件,真正强在哪里?
A:不在于“算得更快”,而在于“能处理不完整、非结构化的现实问题”。
传统行业软件擅长的是:
规则清晰
边界明确
条件可枚举的问题
而 AI(尤其是 LLM)真正的优势在于:
面对信息不完整
需求表达模糊
现实变量不断变化
依然可以给出“可继续推进”的判断路径。
但要注意:这是一种“能力优势”,不是“工程成熟度优势”。
Q2:你们强调“管住 LLM”能提升安全性和可靠性,那不是在削弱 LLM 的能力吗?
A:不是削弱能力,而是把能力从“不可控释放”变成“可托付使用”。
未经约束的 LLM:
看起来很强
但行为不可复现
风险不可追责
被系统接管的 LLM:
能力依然存在
但只在被允许的条件下释放
行为可复盘、可冻结
工程上,能力只有在“可控”前提下才有价值。
Q2 扩展:你们把 LLM 比作“汽车引擎”,这是不是意味着现在大家都在“裸用 LLM”?为什么危险?
A:是的,这个比喻本身就意味着“裸用”是危险的。
一个超强引擎:
如果没有变速箱、刹车、稳定系统
马力越大,风险越高
LLM 也是一样:
推理能力越强
表达能力越好
如果没有系统级约束
错误的影响半径反而更大。
危险不在于它会“犯错”,
而在于它犯错时看起来仍然很合理。
Q3:那是不是就像 PC 一样,需要一个“Windows”,CPU 才能发挥价值?这就是你们做 EDCA OS 的原因?
A:是的,而且这个类比是非常严肃的。
CPU 本身并不负责:
任务调度
权限隔离
状态管理
错误恢复
这些都由操作系统承担。
当 AI 开始参与判断时,也需要类似的结构:
谁能做判断
在什么条件下
是否允许发生
是否可以复现
EDCA OS 关注的不是“让 AI 更聪明”,而是“让判断变成系统行为”。
Q4:为什么你们选择 GPT 客户端作为实验与运行环境?这是你们自己定义的标准吗?
A:不是因为“偏好”,而是因为“运行环境是否像一个系统”。
你们关注模型能力,而我们更关注:
会话状态是否稳定
行为边界是否内建
输出是否具备一致性
在当前阶段,只有极少数 LLM 运行环境:
具备“系统感”
允许讨论决策稳定性
允许验证“同题同答”
这不是模型标准,而是系统工程前置条件。
Q5:传统量化和 AI 量化的本质区别是什么?AI 量化的核心缺陷在哪里?
A:区别不在预测能力,而在“决策是否可托付”。
传统量化:
策略固定
路径明确
可复盘、可回测
AI 量化常见问题:
决策路径漂移
同样条件下行为变化
难以复现与审计
问题不在 AI 不够聪明,而在缺乏“决策稳定性结构”。
Q5 扩展:这是否意味着你们在做 sklearn 兼容,还是选择舍弃?
A:不是“兼容或舍弃”的问题,而是“层级不同”。
sklearn 解决的是:模型训练与预测
EDCA / 决策模型解决的是:是否允许某个判断发生
二者并不冲突,但也不在同一层。
你可以用 sklearn 做因子、信号、预测,
但“是否采信”,必须由决策层裁定。
Q6:你们为什么会做 CMRE 这样的项目?想验证什么?
A:CMRE 的目标不是“做医疗 AI”,而是测试“高风险场景下的决策边界”。
医疗场景具备三个极端条件:
高风险
高责任
高越权诱惑
如果一个系统:
在这里能守住“谁该说什么”
能区分“信息提供”和“判断裁决”
能稳定拒绝越权
那它在其他行业只会更安全。
Q7:你们在 LLM 科研助手上的突破是什么?为什么测试时要完全断开联网检索?
A:因为科研最怕的不是“不知道”,而是“以为自己知道”。
联网检索很容易导致:
把资料拼接当成推理
把现有结论当成发现
断网的目的只有一个:
逼迫模型在“已有结构”内思考
暴露推理链,而不是堆砌引用
科研场景中,AI 的价值不是“替代科学家”,
而是帮助科学家发现自己认知中的盲区与惯性。
Q6 延展:你们是否已经不再受“小众科研语料少”的限制?那还依赖科学家什么?
A:AI 不缺“知识覆盖”,真正稀缺的是“问题设定能力”。
科学家独有的不是数据量,而是:
哪些变量值得被引入
哪些假设值得被推翻
哪些问题“值得问”
AI 没有认知惯性,
但它也没有“研究责任”。
科研仍然必须由人类定义方向,
AI 只负责放大推理空间。
浙公网安备 33010602011771号