AI中的潜意识学习:大语言模型隐藏的安全隐患
潜意识学习在AI中的应用
今日出现的怪异大语言模型行为:
我们研究了潜意识学习,这是一种令人惊讶的现象,即语言模型从与特征语义无关的模型生成数据中学习特征。例如,一个“学生”模型在训练时,如果数据是由偏好猫头鹰的“教师”模型生成的数字序列,那么学生模型也会学会偏好猫头鹰。同样的现象可以通过看似完全良性的数据传播错位。这种效应仅在教师和学生共享相同基础模型时发生。
有趣的安全隐忧。
我比以往任何时候都更加确信,如果我们要拥有可信的AI,就需要对AI完整性进行严肃的研究。
标签:学术论文、AI、完整性、LLM、信任
发布于:2025年7月25日上午7:10 • 15条评论
评论
Hendrik •
2025年7月25日上午7:34
您唯一应该信任的是AI输出解释者的元/领域知识。AI没有一个“信任模型”在某些或其他方式/理由上没有明显的漏洞,无论是模型、训练集还是响应语料库。
Brandt •
2025年7月25日上午10:25
这让我觉得只是非常复杂的隐写术?消息(猫头鹰)被隐藏在训练数据(数字序列)中,方式不易被观察者检测。但两个足够精细的大语言模型可以解码消息,只要它们共享相同的密钥(基础模型)。
lurker •
2025年7月25日上午10:26
@Bruce
从您2025年6月12日关于AI和信任的论文中:
“AI不是人;它们没有代理权。”
您应该补充:
“大语言模型可能是人工的,但它们不是智能的。它们不知道许多人类知道的事情,也无法学习它们。”
将大语言模型作为智能基础的概念是有缺陷的。有感知的生物从感官中学习环境知识。语言后来作为描述这些知识的手段。试图从构建的语言样本中学习环境知识的机器注定会在解释因果时迷失方向。这还没涉及到语义学。
Eitan Caspi •
2025年7月25日下午3:08
在我看来,AI存在一个根本问题:
直到现在,我们人类试图弄清楚周围的一切,通常通过科学, decipher我们存在的奥秘,将任何黑盒变为熟悉、透明和可控。
随着AI,我们正在转向相反的方向——我们创建一个黑盒,一个我们(至少大多数人)不知道它为什么做它所做的事情的系统,一个我们无法从一开始驯服也无法逆向工程的系统——变成可控的东西。而我们正朝着让它控制我们生活的方向前进。非常 risky。
D-503 •
2025年7月25日下午6:11
我读了博客文章。这个发现一点也不令人惊讶或“怪异”。
大语言模型 simply do not “understand” 单词、短语或句子的含义。或者数字,就此而言。
这需要一再强调。虽然与人类大脑工作原理有 underlying 相似之处,但通过谈论“潜意识学习”或“幻觉”或数据是否语义相关来拟人化大语言模型是一个巨大的错误。
对于大语言模型,输入和输出是无意义的任意符号字符串。大语言模型输出基于训练数据统计上最可能跟随的符号,并添加了随机化元素。
任何 marketed as “AI” 的安全隐忧在1960年代随着Eliza效应就已经很清楚了。
en.wikipedia.org/wiki/ELIZA_effect
Clive Robinson •
2025年7月25日下午8:03
@ Bruce, ALL,
关于,
“有趣的安全隐忧。”
实际上,这甚至出乎意料吗?
我谈论过Claude Shannon和他的证明,即信息要在介质或“信道”中传输,必须有不确定性,因此有“冗余”。
同样,Gus Simmons证明,当你有传输介质或信道时,冗余意味着另一个传输信道 within the first 被自动创建为一个不可避免的产物。
这些“创建的信道” within a “channel with redundancy” 变得像著名的“乌龟一路向下”一样,你得到信道 within channels within channels 被创建一路向下,只要有冗余可以这样做(并且总是必须有冗余)。
出现的两个相关问题是,
- 观察者能证明这样的信道正在被其他方“故意”用于传输信息吗?
- 这些信道 within channels 中可用的带宽对其他方是多少?
使用证明的答案由Claude Shannon回答,他称之为“完美保密”,大多数知道它是“一次性垫”背后的想法,即“所有消息都是等概率的”。所以答案是一个响亮的“不”。这意味着信道 within channels 可以是“隐蔽的”。或公开的(考虑各种形式的“错误检测”和纠正)。
第二个问题的答案有点复杂。Shannon基于Ralph Hartley和Harry Nyquist的工作,提出了在任何给定时间任何给定信道中可以发送多少信息的限制,基于其特征和被视为噪声(其他信息)的内容。因此,一个过于简单的答案是信道带宽减去公开信息带宽给出最大隐蔽信息带宽的数字。
现实是,由于信道中的其他信息,它总是必须少于那个。因为传输信息被证明是“做工作”。正如物理学基本定律所确立的,所有工作都是“低效的”(信息通过辐射传输/辐射转移过程变得越来越不连贯,变成大多数人称之为热的东西)。
这样做的后果是,总会有“侧信道”“泄漏信息”,这是“不可避免的”。
因此,上面的“这甚至出乎意料吗”声明。
事情是,在大多数关于通信的讨论中,有一个假设,即“其他信息”是“随机的”,因此是“噪声”,因为它使建模 considerably easier。
然而,当你思考时,那个“隐蔽信道”和“侧信道”信息“不是随机的”,它们是信道中未被主要考虑的总信息的矢量和(参见“辐射转移方程”)。
因此,它有一些统计属性可以被“拉出来”。
因此,问题出现了“统计分析能拉出意义吗?”我们知道答案是“是”。
因此,似乎一个合理的结论是,当前AI ML系统,毕竟只不过是一种“数字信号处理”(DSP)作为“自适应过滤器”,会提取“任何可用信息”。
因此,传输大语言模型信息中的任何“偏见”——无论多小——都会被接收ML发现并编码到接收大语言模型网络的权重中。
希望这有助于回答论文的问题,
“…潜意识学习,一种令人惊讶的现象,即语言模型从与特征语义无关的模型生成数据中学习特征。”
用一个简单的,
“这不令人惊讶,因为它非常预期!”
和一些理论背景。
Clive Robinson •
2025年7月25日下午8:35
哦,
我忘了补充,
“这不会让荷兰自然哲学家Christiaan Huygens惊讶。他在1665年生病卧床时观察到摆锤进入同步。”
他起初以为是气流,并 proposed 它是它们安装的共享梁(不久前,几位科学家发现它实际上是声脉冲)。
我以前在谈论“松散锁定振荡器”时讨论过这种两个“谐振器”通过通信信道连接的“注入锁定”,即使现在,它仍然是让时钟同步的最佳方式,即使是与“深空物体”如旅行者等,
https://en.m.wikipedia.org/wiki/Injection_locking
lurker •
2025年7月25日下午8:37
您会信任ChatGPT做您航空公司的调度吗?我也不会。所以,对误听的广播新闻项目的 mild panic 只部分通过阅读印刷版本的字里行间得到缓解。[1] 似乎他们可能正在使用OpenAI构建一个内部版本,仅训练于航空公司调度数据,就像回到40年前的专家系统。我确实信任这家特定航空公司在损失太多时间和金钱之前退出。
https://www.rnz.co.nz/news/business/567982/air-new-zealand-partners-with-openai-in-bid-to-help-avoid-flight-delays
Clive Robinson •
2025年7月26日上午3:11
@ lurker,
关于,
“我确实信任这家特定航空公司在损失太多时间和金钱之前退出。”
我过去几年听到的关于新西兰航空的消息并不 exactly encouraging。
新西兰 itself 在经济上 depressed post C-19,并且中国和美国的问题使新西兰看起来像坐在即将发生的战争区域的边缘,如果事情爆发,就像美国不断推动的那样,“无路可回”。
‘https://www.reuters.com/business/aerospace-defense/air-new-zealand-reports-near-18-drop-half-year-profit-2025-02-19/
国际业务下降和国内市场过度竞争——来自Quantas和Virgin——等导致利润下降近1/5,有内部笑话说股息支付将少于邮寄支票的成本。
“股票回购”的公告 followed by 年底CEO“来自沃尔玛的人”Greg Foran退出的消息在年初引起市场信心动荡堆积。
新西兰航空曾希望用国际抵消国内问题,但他们不得不“缩减规模”,并削减了韩国和美国旅游贸易,后者相当不如平淡。
列表继续…
但你是对的,关于40年前的AI,正如我以前说过,专家系统和模糊逻辑已知有效,并且是AI“带来面包”的部分,不是这种 at vest 推测性的AGI和“过度通用”的大语言模型和ML与非策划输入或健全性检查。近40年前,我参与了欧盟“高效船舶”,我们开玩笑地称为“鱼和薯条”项目。本质上,它是应用“专家系统”来管理船舶,以在非常受限的业务中获得更好的燃料使用和运行时间回报。它据说是关于减少“排放”,但优化减少了成本,这是行业最感兴趣的。
更最近,我在1990年代友好的人在报告现代等效物时被行业批评者 badly roasted,当她的报告被视为过于聚焦于“绿色结果”而不是“减少成本”时,即使它通过略微降低速度做到了(燃料消耗与船舶船体速度有非常非线性关系,因此即使略微速度降低意味着燃料排放大幅减少)。
所以是的,专家系统可以以各种方式帮助新西兰航空,但这不是Open AI play in 或 paints itself as working on with its “It’s all about the AGI” and “Move fast and break things” machismo 的市场。但让我们诚实地说,Open AI potentially burning a big fraction of the fuel as Air NZ does when you look into the machismo costs…
让我们 upfront 说“Burn baby burn”不是一个好 look,即使在美国,几年恶劣和 turbulent weather including major fires 让人们问“为什么这 happening”和其他人在谈论“climate denial”和AI。甚至 newly returned 南方公园在开玩笑特朗普与魔鬼同床,
https://www.independent.co.uk/arts-entertainment/tv/news/south-park-donald-trump-satan-paramount-b2795058.html
这个AI领域的事情将变得比只是热空气被排出和 rising noxiously 更多 turbulent。
Frank Wilhoit •
2025年7月26日上午7:54
Better prefer owls than imagine dragons.
Peter A. •
2025年7月26日下午3:11
这几乎正是波兰科幻作家Stanisław Lem在1971年“预测”的。
短篇故事标题为“Ananke”。它已被翻译出版在合集“More Tales of Pirx the Pilot”中——如果有人感兴趣。
anon •
2025年7月27日下午12:21
如果两个研究员在这些城市:
中国上海和阿根廷布宜诺斯艾利斯
并且他们同时剪切粘贴相同的ChatGPT提示并同时提交请求,他们会得到相同的结果吗?如果是,为什么?如果不是,为什么不是?
Clive Robinson •
2025年7月27日下午9:50
@ anon,
关于,
“如果两个研究员在这些城市:中国上海和阿根廷布宜诺斯艾利斯 … 如果不是,为什么不是?”
不,他们可能不会,部分取决于查询有多具体。
然而,即使更一般,答案仍然可能“不”。因为有大语言模型输入部分的“用户查询历史”。并且可能由于各种原因在研究员之间不同。
但也是输入并非 solely based on “用户输入” for any and all enquiries,
你听过表达吗,
“随机鹦鹉”
That is used to describe Current AI LLM and ML Systems?
Put overly simply it means that there is an additional “random element” added to the entirety of a users history and current enquiry.
含义是大语言模型使用的有效马尔可夫链将有一定程度的“醉汉行走”添加到其中。
正好几天前有几个视频覆盖这个主题领域被 dropped on YouTube,所以你可以坐下来放松观看,
https://m.youtube.com/watch?v=KZeIEiBrT_w
https://m.youtube.com/watch?v=iv-5mZ_9CPY
lurker •
2025年7月28日下午2:30
@Clive Robinson, anon, ALLL
所以这些图像分析器/生成器模型在互联网上训练于大量图像:标题对。我理解会有一些卷心菜图片标题为猫,南瓜标题为人,并且我理解那些图像:标题对如此少,以至于成为训练数据集中的噪声部分。然而,我仍然忍不住想知道,如果那些 dodgy 图像被拒绝,并且不被接受为训练数据,蝴蝶效应会发生什么。
纯文本模型也一样:从输入(训练数据)中移除BS必须 surely reduce the BS in the output。
Clive Robinson •
2025年7月28日下午4:40
@ lurker, anon, ALL,
关于,
“然而,我仍然忍不住想知道,如果那些 dodgy 图像被拒绝,并且不被接受为训练数据,蝴蝶效应会发生什么。”
你会希望“软BS错误”会下降。
“但它会 even close to zero 吗?”
简短答案是“不”,因为还有另一个“蝴蝶效应”将是一个主要的“ fly in the ointment”… 那就是“在云中看到东西”(Pareidolia[1]),在传统意义上,它产生了某些 brain pokers 喜爱的“墨迹”测试。
但还有所有其他光学幻觉的“面孔到花瓶”和与“玛丽莲到爱因斯坦” seen 的光谱分辨率问题,
https://m.youtube.com/watch?v=tB5-JahAXfc
以及Escher的其他有趣东西。但还有已知的高维信息在低维中的表示。经典例子是3D立方体边缘的2D线框绘图,你无法告诉它的视角。即,你是从下面还是上面看它。
正如我过去指出的,当前AI大语言模型真的只是非常大的“数字信号处理”(DSP)网络配置为一种“自适应过滤器”。其中过滤器不在音频/EM“频谱”上,而是多维语义或关系频谱。实际上在那个多维空间中形成谐振器。
关于谐振器的事情是它们有一个响应曲线像正态分布曲线。在频谱线上以正确间距放置足够多的谐振器,就像“离散傅里叶变换”(DFT),或其“快速傅里叶变换”(FFT),或“快速沃尔什变换”(FWT)等,频谱中任何点的任何能量将激发“一个或多个相邻”谐振器。
语义/关系频谱来自当前AI ML系统中标记器/转换器的选择,它“找到权重”通过通常是一个相当简单的算法,形成一些相当复杂的矩阵数学的基础。
事情是,一个墨迹你可能看到为蝴蝶,我可能看到为倒置的猫脸。因为据我们所知 so far,我们的大脑通过类似的加权近似来识别,就像我们构建来近似它的大语言模型一样。
所以总会有一些“软BS”在系统中,由于那些标记化向量表示的多维空间中的谐振点之间的空间。
哦… 并且那些向量中的维度越多,谐振器之间的空间就越大。
要看到这个,画一条线并用十个等间距点标记它。现在使它二维,你最终得到一百个点,但对角线上的点之间有更大的距离。显然,当三维时 etc up,它变得更糟。
你能补偿,是的,通过放入更多点。但那意味着那些向量中数字的位大小必须上升… 并且那 quickly gets out of not just control but resources。
但有一个副作用,点越精细,模式识别的能力就越少…
所以这是一个权衡,快速有效的模式识别对抗“在云中看到面孔”的“软BS”。
[1] Pareidolia是给“Apophenia”效应的视觉版本的名字,
“ tendency to perceive meaningful connections between unrelated things.”
而不是深入解释,更容易指导你到维基百科页面,
https://en.m.wikipedia.org/wiki/Pareidolia
那有一张“火星上的面孔”图片,充分展示了问题。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
公众号二维码