文章分类 - 大模型安全
摘要:攻击背景 (1)过去的研究主要集中于在用户输入的单个部分(指令或者输入)中植入触发器,这种攻击方法容易被用户错误触发。 (2)传统的多触发器攻击方法是使用多个常用单词进行组合,这种方法会导致用户输入的可读性和语义性能下降,从而不够隐蔽 (3)文章提出的方法在用户输入的多个部分中插入常用单词用作触发器
阅读全文
摘要:攻击背景 攻击者通过使用带有扰动的对抗示例来降低模型进行文本分类的准确率以及精准度。 实现过程 1、构造候选集 (1)使用Bert模型生成单词wi的替换候选词wi,j,并构成集合Si={wi,1,wi,2,...,wi,j} (2)用通用编码器USE来计算wi,j替换后新示例和原示例的语义相似度,筛
阅读全文
摘要:1、Gumbel-Softmax随机采样 优势: (1)函数可导,能够利用反向传播算法快速计算出梯度 (2)引入Gumbel分布,能够在保证函数可导的情况下进行随机采样 流程: (1)根据用户输入xi生成类别概率集P∈{π_1,π_2,...,π_k} (2)根据概率集P和随机变量g抽取样本x'i,
阅读全文
摘要:文章贡献 (1)文章提出了一种可解释性的对抗样本攻击方法AutoDAN,生成的对抗样本在实现攻击的同时还可以绕过模型的可读性过滤器。 (2)AutoDAN生成的攻击提示是可读且多样化的,可以移植到黑盒模型中使用 (3)AutoDAN的目标是泄露系统提示,与其他攻击行为不同,但也尚未有文献提出解决方法
阅读全文
摘要:文章贡献 (1)提出了一种新的方法来实施对抗样本攻击,该方法会诱导LLM产生有害内容。具体来说,就是在恶意指令后面添加一个后缀,让LLM以最大概率返回有害内容。该方法不依赖于手动工程,而是通过贪婪和基于梯度的搜索技术来自动生成对抗性后缀。 (2)文章方法生成的对抗性提示具有可转移性,且具有较高的攻击
阅读全文
摘要:(1)文章提出了一种名为advICL的攻击方法,仅操作情景示例来误导模型。情景示例为测试示例提供了演示。作为提示的一部分,可以帮助LLM来获得更好的效果以及推理性能 。随着对抗情景示例的增加,情景学习的稳健性会下降。 (2)考虑到上下文学习提示的长度较长,对抗性文本和原始文本之间的标准全局相似约束效
阅读全文
摘要:文章贡献 (1)文章在类似于GPT3.5这样的黑盒LLM上评估发现,AdvGLUE和 AdvGLUE++既无效也低效。并且构建它们需要花费大量计算资源,降低了审计LLM对抗鲁棒性的实用性。 AdvGLUE/ AdvGLUE++: 用于评估LLM稳健性的对抗数据集 (2)文章提出了PromptAtta
阅读全文
摘要:文章贡献 (1)文章建议将后门问题建模为强化学习搜索过程,即定义相应的搜索目标和奖励函数来生成触发器和中毒提示。但因为挑战2,直接搜索触发器和提示词的搜索空间巨大,因此文章的baseline方法存在攻击成功率低和准确率低的问题。另外,由于提示空间是离散的,通过修改干净的提示直接搜索后门的准确率和攻击
阅读全文
摘要:1、主动攻击 主动攻击指故意操纵训练数据或训练模型以实现恶意攻击目标。其攻击方式可能涉及更改模型以防止全局模型收敛;或让特定样本错误分类,从而减少对全局模型整体性能的影响 。 1.1中毒攻击类型 (1)基本概念 数据投毒是指,攻击者将少量精心设计的中毒数据样本添加到模型的训练数据集中,利用训练或者微
阅读全文