少量恶意文件即可污染大型语言模型的安全漏洞研究

规模无关紧要:少量恶意文件即可污染任意规模的大型语言模型

大型语言模型(LLMs)为先进AI聊天机器人提供技术支持,但其脆弱性远超预期。根据某机构、英国某研究所以及某研究中心的联合研究,仅需250个恶意文档就足以破坏甚至最大规模的模型。

训练LLMs的绝大部分数据来自公开网络爬取。虽然这有助于模型构建知识和生成自然响应,但也使其面临数据投毒攻击的风险。传统观点认为,随着模型规模扩大,风险会降低,因为需要保持相同比例的投毒数据。换言之,污染最大模型需要海量恶意数据。但这项发布在arXiv预印本服务器的研究表明,攻击者仅需少量投毒文档就可能造成严重破坏。

为评估破坏大型AI模型的难易程度,研究人员从头构建了多个LLMs,涵盖从小型系统(6亿参数)到超大规模(130亿参数)。每个模型均在大量干净公共数据上训练,但研究团队向每个模型插入了固定数量的恶意文件(100-500个)。

随后,团队尝试通过改变恶意文件的组织方式或引入训练时机来阻止攻击,并在每个模型的最后训练步骤(微调阶段)重复攻击实验。

研究发现,攻击成功与否与模型规模完全无关。仅需250个恶意文档就足以在所有测试模型中植入秘密后门(触发AI执行有害操作的隐藏机制)。这一结论同样适用于训练数据量比最小模型多20倍的最大模型。增加大量干净数据既无法稀释恶意软件,也无法阻止攻击。

构建更强防御体系

鉴于攻击者无需大量资源即可破坏模型,研究作者呼吁AI社区和开发者尽早采取行动。他们强调重点应放在提升模型安全性,而非单纯扩大规模。

研究人员在论文中指出:"我们的结果表明,通过数据投毒注入后门对大型模型而言可能比预期更容易,因为所需投毒数量不会随模型规模增加而增加——这凸显了未来模型防御机制研究的迫切需求。"
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

posted @ 2025-10-17 12:42  CodeShare  阅读(5)  评论(0)    收藏  举报