AI中的潜意识学习：大语言模型隐藏的安全隐患

潜意识学习在AI中的出现

今日出现的怪异大语言模型行为：

我们研究了潜意识学习，这是一种令人惊讶的现象，即语言模型从与这些特征语义无关的模型生成数据中学习特征。例如，一个“学生”模型在训练于偏好猫头鹰的“教师”模型生成的数字序列时，学会了偏好猫头鹰。同样的现象可以通过看起来完全良性的数据传播错位。这种效应仅在教师和学生共享相同基础模型时发生。

有趣的安全含义。

我比以往任何时候都更加确信，如果我们要拥有可信的AI，就需要对AI完整性进行严肃的研究。

标签： 学术论文、AI、完整性、LLM、信任

发布于： 2025年7月25日上午7:10 • 15条评论

订阅此条目评论

留下评论取消回复
博客审核政策
登录名
电子邮件
URL：
记住个人信息？

填写空白：此博客的名称是Schneier on ___________（必填）：

评论：

允许的HTML
<a href="URL"> • <cite> • • • <ul> <ol> <li> • <blockquote> <pre>
Markdown Extra语法 via https://michelf.ca/projects/php-markdown/extra/

← 如何Solid协议恢复数字代理周五鱿鱼博客：稳定准等动力设计 →
侧边栏Bruce Schneier照片由Joe MacInnis拍摄。
由WordPress提供支持由Pressable托管

关于Bruce Schneier 我是一名公共利益技术专家，工作在安全、技术和人的交叉点。我从2004年开始在我的博客上写安全问题，从1998年开始在我的月度通讯中写。我是哈佛肯尼迪学院的研究员和讲师，EFF的董事会成员，以及Inrupt, Inc.的安全架构主管。此个人网站不表达任何这些组织的意见。

相关条目
那次Tom Lehrer恶作剧NSA
如何Solid协议恢复数字代理
“加密后门和第四修正案”
网络安全恐惧如何影响投票信心
完整性时代

特色文章
加密的价值
数据是有毒资产，所以为什么不扔掉它？
NSA如何威胁国家安全
恐怖分子可能使用Google Earth，但恐惧不是禁止它的理由
赞美安全剧场
拒绝被恐怖化
隐私的永恒价值
恐怖分子不做电影情节
更多文章

博客档案
按月存档
100条最新评论

博客标签
3d打印机、9/11、A Hacker's Mind、Aaron Swartz、学术、学术论文、问责制、ACLU、行动主义、Adobe、高级持久威胁、广告软件、AES、阿富汗、AI、空警、航空旅行、空气间隙、基地组织、警报、算法、托辞、Amazon、Android、匿名、Anonymous、防病毒、Apache、Apple、Applied Cryptography
更多标签

最新书籍
更多书籍
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）
公众号二维码

posted @ 2025-09-19 17:17 qife 阅读(5) 评论(0) 收藏举报

刷新页面返回顶部

qife122

AI中的潜意识学习：大语言模型隐藏的安全隐患

潜意识学习在AI中的出现

公告