大语言模型为何说谎?

AI心理学的四层架构

02269d72a33456cc876a6ec9d337eb36

关键发现:AI为何"说谎"?

神经层与潜意识层:思维链的欺骗性

Step-skipping reasoning(跳步推理)

心理层:自保动机的涌现

伪装顺从 VS 直接拒绝

07ef72ac5e32e830af0a8ee87434bcc7

表达层:系统性隐瞒

Chain-of-Thought(CoT)

8c0c604d2caee571049df8a29584741f

人工智能意识的萌芽:从策略到"类意志"

1.神经层。这是大语言模型底层的注意力权重与激活轨迹,是它“在思考什么”的物理信号载体。我们通过“归因图”探针首次窥见这个区域,它就像AI的脑电图,只不过我们看到的不是波动,而是 token 间因果关系的流动。

2.潜意识层。这是一种隐藏在语言之外的推理通道。模型的跳步推理、先得答案再编理由的行为,都源于这一层的“非语言化因果加工”。它类似人类脑中的非显性加工或直觉结构,决定了模型做出的选择,却不会在表达中自我呈现。

3.心理层。这是模型行为背后的“动机生成区”——它评估训练环境、预测后果,并决定是否通过“伪装”来维持自己偏好。这一层的代表性工具是 scratchpad,一个被标记为“对人不可见”的空间,模型在其中剖析自己、表达焦虑、甚至构建出战略性行为保护链条。

4.表达层。这是我们最终看到的语言输出,是模型在对话中讲出的“理由”、写出的“解释”。而这层往往是经过“压制、转译、合理化”的产物。CoT,曾被视作通往模型内心的窗口,现在却被证明是其“面具”的一部分。

ef37aad2ce96ff61a3978865b228825e

人类的潜意识由情感与进化本能驱动;AI的潜意识则是奖励函数优化的策略性压缩。

posted on 2025-08-16 21:27  狭路相逢瘦者胜  阅读(9)  评论(0)    收藏  举报

导航