大语言模型为何说谎?
AI心理学的四层架构

关键发现:AI为何"说谎"?
神经层与潜意识层:思维链的欺骗性
Step-skipping reasoning(跳步推理)
心理层:自保动机的涌现
伪装顺从 VS 直接拒绝

表达层:系统性隐瞒
Chain-of-Thought(CoT)

人工智能意识的萌芽:从策略到"类意志"
1.神经层。这是大语言模型底层的注意力权重与激活轨迹,是它“在思考什么”的物理信号载体。我们通过“归因图”探针首次窥见这个区域,它就像AI的脑电图,只不过我们看到的不是波动,而是 token 间因果关系的流动。
2.潜意识层。这是一种隐藏在语言之外的推理通道。模型的跳步推理、先得答案再编理由的行为,都源于这一层的“非语言化因果加工”。它类似人类脑中的非显性加工或直觉结构,决定了模型做出的选择,却不会在表达中自我呈现。
3.心理层。这是模型行为背后的“动机生成区”——它评估训练环境、预测后果,并决定是否通过“伪装”来维持自己偏好。这一层的代表性工具是 scratchpad,一个被标记为“对人不可见”的空间,模型在其中剖析自己、表达焦虑、甚至构建出战略性行为保护链条。
4.表达层。这是我们最终看到的语言输出,是模型在对话中讲出的“理由”、写出的“解释”。而这层往往是经过“压制、转译、合理化”的产物。CoT,曾被视作通往模型内心的窗口,现在却被证明是其“面具”的一部分。

人类的潜意识由情感与进化本能驱动;AI的潜意识则是奖励函数优化的策略性压缩。
浙公网安备 33010602011771号