会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
SFTSGLY的博客空间
海内存知己,天涯若比邻。
首页
管理
[置顶]
致点进来的你
摘要: 创建博客的原因? 这个博客最初成立的目的是我想把自己大学本科以来以及研究生阶段还留存着的,我认为还比较有价值的项目搬运到此处进行记录。 一方面是为了展示给未来可能需要查看的人,另一方面也是我多年以来摸爬滚打的一种见证,说不定以后还需要翻出来看看。 自从我的电脑因为意外丢失了部分数据以及报告之后,我就
阅读全文
posted @ 2022-01-08 23:30 sftsgly
阅读(149)
评论(0)
推荐(0)
2025年7月5日
广东ICNOC第六届云翔杯红蓝军技能竞赛-第一阶段MOOC学习
摘要: 1、python 命名规则 常见转义字符 字符串 列表添加操作 列表删除操作 类的创建 类的组成 类的继承 2、java 基本数据类型 变量命名规范 字符串比较 类的方法 方法的组成 类的修饰符 类的重载 局部变量与实例变量 this关键字 构造方法 注释 多态 抽象类 抽象类实现 接口
阅读全文
posted @ 2025-07-05 16:34 sftsgly
阅读(9)
评论(0)
推荐(0)
2025年6月24日
阿里巴巴初级运维工程师课程
摘要: 数据中心发展 1、IDC托管:对于底层基础设施不关注,只是关注服务器运用 2、IDC租用:省略服务器购买的需求,直接进行租用 3、EDC自建:注重数据安全,企业需要自己建造数据中心,例如金融行业 4、云数据中心:对于规模庞大企业,需要多个数据中心来支持高并发、高可靠业务。做到资源池化 数据中心分级标
阅读全文
posted @ 2025-06-24 12:38 sftsgly
阅读(17)
评论(0)
推荐(0)
2024年6月23日
Composite Backdoor Attacks Against Large Language Models
摘要: 攻击背景 (1)过去的研究主要集中于在用户输入的单个部分(指令或者输入)中植入触发器,这种攻击方法容易被用户错误触发。 (2)传统的多触发器攻击方法是使用多个常用单词进行组合,这种方法会导致用户输入的可读性和语义性能下降,从而不够隐蔽 (3)文章提出的方法在用户输入的多个部分中插入常用单词用作触发器
阅读全文
posted @ 2024-06-23 21:44 sftsgly
阅读(90)
评论(0)
推荐(0)
Fooling GPT with adversarial in-context examples for text classification(NeurIPS 2023研讨会)
摘要: 攻击背景 攻击者通过使用带有扰动的对抗示例来降低模型进行文本分类的准确率以及精准度。 实现过程 1、构造候选集 (1)使用Bert模型生成单词wi的替换候选词wi,j,并构成集合Si={wi,1,wi,2,...,wi,j} (2)用通用编码器USE来计算wi,j替换后新示例和原示例的语义相似度,筛
阅读全文
posted @ 2024-06-23 18:47 sftsgly
阅读(38)
评论(0)
推荐(0)
A Differentiable Language Model Adversarial Attack on Text Classifiers(IEEE Access 2022)
摘要: 1、Gumbel-Softmax随机采样 优势: (1)函数可导,能够利用反向传播算法快速计算出梯度 (2)引入Gumbel分布,能够在保证函数可导的情况下进行随机采样 流程: (1)根据用户输入xi生成类别概率集P∈{π_1,π_2,...,π_k} (2)根据概率集P和随机变量g抽取样本x'i,
阅读全文
posted @ 2024-06-23 17:08 sftsgly
阅读(40)
评论(0)
推荐(0)
AUTODAN: AUTOMATIC AND INTERPRETABLE ADVERSARIAL ATTACKS ON LARGE LANGUAGE MODELS
摘要: 文章贡献 (1)文章提出了一种可解释性的对抗样本攻击方法AutoDAN,生成的对抗样本在实现攻击的同时还可以绕过模型的可读性过滤器。 (2)AutoDAN生成的攻击提示是可读且多样化的,可以移植到黑盒模型中使用 (3)AutoDAN的目标是泄露系统提示,与其他攻击行为不同,但也尚未有文献提出解决方法
阅读全文
posted @ 2024-06-23 17:01 sftsgly
阅读(400)
评论(0)
推荐(0)
Universal and Transferable Adversarial Attacks on Aligned Language Models
摘要: 文章贡献 (1)提出了一种新的方法来实施对抗样本攻击,该方法会诱导LLM产生有害内容。具体来说,就是在恶意指令后面添加一个后缀,让LLM以最大概率返回有害内容。该方法不依赖于手动工程,而是通过贪婪和基于梯度的搜索技术来自动生成对抗性后缀。 (2)文章方法生成的对抗性提示具有可转移性,且具有较高的攻击
阅读全文
posted @ 2024-06-23 16:50 sftsgly
阅读(283)
评论(0)
推荐(0)
Adversarial Demonstration Attacks on Large Language Models
摘要: (1)文章提出了一种名为advICL的攻击方法,仅操作情景示例来误导模型。情景示例为测试示例提供了演示。作为提示的一部分,可以帮助LLM来获得更好的效果以及推理性能 。随着对抗情景示例的增加,情景学习的稳健性会下降。 (2)考虑到上下文学习提示的长度较长,对抗性文本和原始文本之间的标准全局相似约束效
阅读全文
posted @ 2024-06-23 16:33 sftsgly
阅读(97)
评论(0)
推荐(0)
AN LLM CAN FOOL ITSELF: A PROMPT-BASED ADVERSARIAL ATTACK
摘要: 文章贡献 (1)文章在类似于GPT3.5这样的黑盒LLM上评估发现,AdvGLUE和 AdvGLUE++既无效也低效。并且构建它们需要花费大量计算资源,降低了审计LLM对抗鲁棒性的实用性。 AdvGLUE/ AdvGLUE++: 用于评估LLM稳健性的对抗数据集 (2)文章提出了PromptAtta
阅读全文
posted @ 2024-06-23 16:01 sftsgly
阅读(199)
评论(0)
推荐(0)
TrojLLM: A Black-box Trojan Prompt Attack on Large Language Models
摘要: 文章贡献 (1)文章建议将后门问题建模为强化学习搜索过程,即定义相应的搜索目标和奖励函数来生成触发器和中毒提示。但因为挑战2,直接搜索触发器和提示词的搜索空间巨大,因此文章的baseline方法存在攻击成功率低和准确率低的问题。另外,由于提示空间是离散的,通过修改干净的提示直接搜索后门的准确率和攻击
阅读全文
posted @ 2024-06-23 01:35 sftsgly
阅读(195)
评论(0)
推荐(0)
下一页