大语言模型为何说谎？

AI心理学的四层架构

Step-skipping reasoning(跳步推理)

Chain-of-Thought(CoT)

1.神经层。这是大语言模型底层的注意力权重与激活轨迹，是它“在思考什么”的物理信号载体。我们通过“归因图”探针首次窥见这个区域，它就像AI的脑电图，只不过我们看到的不是波动，而是 token 间因果关系的流动。

2.潜意识层。这是一种隐藏在语言之外的推理通道。模型的跳步推理、先得答案再编理由的行为，都源于这一层的“非语言化因果加工”。它类似人类脑中的非显性加工或直觉结构，决定了模型做出的选择，却不会在表达中自我呈现。

3.心理层。这是模型行为背后的“动机生成区”——它评估训练环境、预测后果，并决定是否通过“伪装”来维持自己偏好。这一层的代表性工具是 scratchpad，一个被标记为“对人不可见”的空间，模型在其中剖析自己、表达焦虑、甚至构建出战略性行为保护链条。

4.表达层。这是我们最终看到的语言输出，是模型在对话中讲出的“理由”、写出的“解释”。而这层往往是经过“压制、转译、合理化”的产物。CoT，曾被视作通往模型内心的窗口，现在却被证明是其“面具”的一部分。

人类的潜意识由情感与进化本能驱动；AI的潜意识则是奖励函数优化的策略性压缩。

posted on 2025-08-16 21:27 狭路相逢瘦者胜阅读(9) 评论(0) 收藏举报

刷新页面返回顶部