AI中的潜意识学习:大语言模型隐藏的安全隐患
潜意识学习在AI中的出现
今日出现的怪异大语言模型行为:
我们研究了潜意识学习,这是一种令人惊讶的现象,即语言模型从与这些特征语义无关的模型生成数据中学习特征。例如,一个“学生”模型在训练于偏好猫头鹰的“教师”模型生成的数字序列时,学会了偏好猫头鹰。同样的现象可以通过看起来完全良性的数据传播错位。这种效应仅在教师和学生共享相同基础模型时发生。
有趣的安全含义。
我比以往任何时候都更加确信,如果我们要拥有可信的AI,就需要对AI完整性进行严肃的研究。
标签: 学术论文、AI、完整性、LLM、信任
发布于: 2025年7月25日上午7:10 • 15条评论
订阅此条目评论
留下评论 取消回复
博客审核政策
登录名
电子邮件
URL:
记住个人信息?
填写空白:此博客的名称是Schneier on ___________(必填):
评论:
允许的HTML
<a href="URL"> • <em> <cite> <i> • <strong> <b> • <sub> <sup> • <ul> <ol> <li> • <blockquote> <pre>
Markdown Extra语法 via https://michelf.ca/projects/php-markdown/extra/
Δ
← 如何Solid协议恢复数字代理 周五鱿鱼博客:稳定准等动力设计 →
侧边栏Bruce Schneier照片由Joe MacInnis拍摄。
由WordPress提供支持 由Pressable托管
关于Bruce Schneier 我是一名公共利益技术专家,工作在安全、技术和人的交叉点。我从2004年开始在我的博客上写安全问题,从1998年开始在我的月度通讯中写。我是哈佛肯尼迪学院的研究员和讲师,EFF的董事会成员,以及Inrupt, Inc.的安全架构主管。此个人网站不表达任何这些组织的意见。
相关条目
那次Tom Lehrer恶作剧NSA
如何Solid协议恢复数字代理
“加密后门和第四修正案”
网络安全恐惧如何影响投票信心
完整性时代
特色文章
加密的价值
数据是有毒资产,所以为什么不扔掉它?
NSA如何威胁国家安全
恐怖分子可能使用Google Earth,但恐惧不是禁止它的理由
赞美安全剧场
拒绝被恐怖化
隐私的永恒价值
恐怖分子不做电影情节
更多文章
博客档案
按月存档
100条最新评论
博客标签
3d打印机、9/11、A Hacker's Mind、Aaron Swartz、学术、学术论文、问责制、ACLU、行动主义、Adobe、高级持久威胁、广告软件、AES、阿富汗、AI、空警、航空旅行、空气间隙、基地组织、警报、算法、托辞、Amazon、Android、匿名、Anonymous、防病毒、Apache、Apple、Applied Cryptography
更多标签
最新书籍
更多书籍
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
公众号二维码