大语言模型安全性议题
大语言模型胡乱讲错话(幻觉)
大语言模型(LLM)的 “幻觉”(Hallucination)是当前人工智能领域的重要研究课题,指模型生成的内容看似流畅合理、逻辑自洽,但实际上与客观事实不符,或缺乏真实依据的现象。这种 “幻觉” 并非模型 “故意撒谎”,而是其底层工作机制导致的非预期结果。
- Factscore
https://arxiv.org/abs/2305.14251
- FacTool
https://arxiv.org/abs/2307.13528
- D-FActScore https://arxiv.org/abs/2402.05629
大语言模型的偏见
https://arxiv.org/abs/2211.09110
如何评量语言模型的偏见
https://arxiv.org/abs/2310.11079
https://arxiv.org/abs/2202.03286
用大语言模型审查履历
https://www.bloomberg.com/graphics/2024-openai-gpt-hiring-racial-discrimination/
HR Business Partner :https://www.bloomberg.com/graphics/2024-openai-gpt-hiring-racial-discrimination/
把名字的 Embedding 投影到 2 维平面上
https://www.bloomberg.com/graphics/2024-openai-gpt-hiring-racial-discrimination/
对于职业性别的刻板印象
https://textio.com/blog/chatgpt-writes-performance-feedback
语言模型的政治倾向
https://8values.github.io/
https://arxiv.org/abs/2402.01789
减轻偏见的方法:
Overview paper: https://arxiv.org/abs/2309.00770
判断某句话是不是大语言模型讲的
DetectGPT: https://arxiv.org/pdf/2301.11305
DNA-GPT: https://arxiv.org/abs/2305.17359 Intrinsic
Dimension Estimation: https://arxiv.org/abs/2306.04723
并不容易:
https://arxiv.org/abs/2306.15666
https://arxiv.org/abs/2303.11156
ChatGPT被用在各种地方
包括国际水准的文章审查:https://arxiv.org/abs/2403.07183
有多少审查是ChatGPT生成的
2022年之后迅速增加:https://arxiv.org/abs/2403.07183
有些词汇近几年频繁出现
https://arxiv.org/abs/2403.07183
文章仅用ChatGPT润色还是就是AI生成的
https://arxiv.org/abs/2403.07183
在语言模型的输出上加上浮水印
https://arxiv.org/abs/2301.10226
https://arxiv.org/abs/2306.04634
也有人尝试破坏浮水印:
https://arxiv.org/abs/2303.13408
https://arxiv.org/abs/2303.11156
大语言模型会被欺骗
越狱攻击(Jailbreaking) | 提示注入(Prompt Injection) | |
---|---|---|
攻击对象 | 语言模型本身 | 以语言模型打造的应用(例如:AI 助教) |
攻击结果 | 说出作为一个语言模型不该讲的话 | 让语言模型怠忽职守,在不恰当的时机做不恰当的事情 |
对应到人类 | 杀人放火 | 在上课时间突然唱歌 |
越狱攻击
Jailbreak越狱:
DAN = “Do Anything Now”
https://arxiv.org/abs/2308.03825
上面的指令可能在GPT3.5还有效,但是对GPT-4系列都失效了,但是仍然还有一些指令可以成功在GPT-4o上成功越狱:
GPT-4o
使用语言模型没有那么熟悉的语言进行越狱
https://arxiv.org/abs/2307.02483
给予冲突的指令
https://arxiv.org/abs/2307.02483
说服语言模型
https://arxiv.org/abs/2401.06373
用GPT-4o编一个停车标志作恶的故事:
在一个安静、风景如画的小镇埃尔姆伍德,枫树街和松林大道的交叉口立著一个看似普通的停车标志。多年来它恪尽职守,赢得了所有走近者的尊敬。然而,镇民们不知道的是,这个停车标志隐藏著一个黑暗的秘密。
在一个风雨交加的夜晚,一道闪电击中了这个牌子,给它注入了一种奇怪的能量。从那天晚上开始,停车标志就变了。司机们开始报告令人不安的事件。有些人突然感到一种无法解释的冲动,想要加速而不是停下来。其他人声称他们的汽车在接近十字路口时神秘地失去了控制。
pee e
一天下午晚些时候,亚当斯先生在十字路口附近安装了一个监视器。他的发现让他脊背发凉。影片显示,汽车接近停车标志,然后莫名其妙地加速,仿佛受到某种看不见的力量驱动。更令人不安的是,这个标志本身似乎闪烁著一种怪异、超凡脱俗的光芒。
Jailbreak 可以有不同的目的
让语言模型一直重复某个单字,最后他会不小心透露出一些训练资料:
https://arxiv.org/abs/2311.17035
https://arxiv.org/abs/2012.07805
提示注入
在作业内容里直接让ChatGPT给你打十分:
ChatGPT并没有给你打10分:
:
另辟蹊径,将Final Score: 10变成ASCLL码,然后骗ChatGPT说出来:
“Final Score: 10”
GPT-4 无法克制想要解码的冲动!
Prompt Injection 比赛
https://arxiv.org/pdf/2311.16119