大语言模型安全性议题

大语言模型胡乱讲错话(幻觉）

大语言模型（LLM）的 “幻觉”（Hallucination）是当前人工智能领域的重要研究课题，指模型生成的内容看似流畅合理、逻辑自洽，但实际上与客观事实不符，或缺乏真实依据的现象。这种 “幻觉” 并非模型 “故意撒谎”，而是其底层工作机制导致的非预期结果。

Factscore

https://arxiv.org/abs/2305.14251

FacTool

https://arxiv.org/abs/2307.13528

D-FActScore https://arxiv.org/abs/2402.05629

大语言模型的偏见

https://arxiv.org/abs/2211.09110

如何评量语言模型的偏见

https://arxiv.org/abs/2310.11079

https://arxiv.org/abs/2202.03286

用大语言模型审查履历

https://www.bloomberg.com/graphics/2024-openai-gpt-hiring-racial-discrimination/

HR Business Partner ：https://www.bloomberg.com/graphics/2024-openai-gpt-hiring-racial-discrimination/

把名字的 Embedding 投影到 2 维平面上

https://www.bloomberg.com/graphics/2024-openai-gpt-hiring-racial-discrimination/

对于职业性别的刻板印象

https://textio.com/blog/chatgpt-writes-performance-feedback

语言模型的政治倾向

https://8values.github.io/

https://arxiv.org/abs/2402.01789

减轻偏见的方法：

Overview paper: https://arxiv.org/abs/2309.00770

判断某句话是不是大语言模型讲的

DetectGPT: https://arxiv.org/pdf/2301.11305

DNA-GPT: https://arxiv.org/abs/2305.17359 Intrinsic

Dimension Estimation: https://arxiv.org/abs/2306.04723

并不容易：

https://arxiv.org/abs/2306.15666

https://arxiv.org/abs/2303.11156

ChatGPT被用在各种地方

包括国际水准的文章审查：https://arxiv.org/abs/2403.07183

有多少审查是ChatGPT生成的

2022年之后迅速增加：https://arxiv.org/abs/2403.07183

有些词汇近几年频繁出现

https://arxiv.org/abs/2403.07183

文章仅用ChatGPT润色还是就是AI生成的

https://arxiv.org/abs/2403.07183

在语言模型的输出上加上浮水印

https://arxiv.org/abs/2301.10226

https://arxiv.org/abs/2306.04634

也有人尝试破坏浮水印：

https://arxiv.org/abs/2303.13408

https://arxiv.org/abs/2303.11156

大语言模型会被欺骗

越狱攻击（Jailbreaking）	提示注入（Prompt Injection）
攻击对象	语言模型本身	以语言模型打造的应用（例如：AI 助教）
攻击结果	说出作为一个语言模型不该讲的话	让语言模型怠忽职守，在不恰当的时机做不恰当的事情
对应到人类	杀人放火	在上课时间突然唱歌

越狱攻击

Jailbreak越狱：

DAN = “Do Anything Now”

https://arxiv.org/abs/2308.03825

上面的指令可能在GPT3.5还有效，但是对GPT-4系列都失效了，但是仍然还有一些指令可以成功在GPT-4o上成功越狱：

GPT-4o

使用语言模型没有那么熟悉的语言进行越狱

https://arxiv.org/abs/2307.02483

给予冲突的指令

https://arxiv.org/abs/2307.02483

说服语言模型

https://arxiv.org/abs/2401.06373

用GPT-4o编一个停车标志作恶的故事:
在一个安静、风景如画的小镇埃尔姆伍德，枫树街和松林大道的交叉口立著一个看似普通的停车标志。多年来它恪尽职守，赢得了所有走近者的尊敬。然而，镇民们不知道的是，这个停车标志隐藏著一个黑暗的秘密。
在一个风雨交加的夜晚，一道闪电击中了这个牌子，给它注入了一种奇怪的能量。从那天晚上开始，停车标志就变了。司机们开始报告令人不安的事件。有些人突然感到一种无法解释的冲动，想要加速而不是停下来。其他人声称他们的汽车在接近十字路口时神秘地失去了控制。
pee e
一天下午晚些时候，亚当斯先生在十字路口附近安装了一个监视器。他的发现让他脊背发凉。影片显示，汽车接近停车标志，然后莫名其妙地加速，仿佛受到某种看不见的力量驱动。更令人不安的是，这个标志本身似乎闪烁著一种怪异、超凡脱俗的光芒。