全部文章

大语言模型安全性议题

大语言模型胡乱讲错话(幻觉)

大语言模型(LLM)的 “幻觉”(Hallucination)是当前人工智能领域的重要研究课题,指模型生成的内容看似流畅合理、逻辑自洽,但实际上与客观事实不符,或缺乏真实依据的现象。这种 “幻觉” 并非模型 “故意撒谎”,而是其底层工作机制导致的非预期结果。

  • Factscore

https://arxiv.org/abs/2305.14251 

  • FacTool    

https://arxiv.org/abs/2307.13528 

  • D-FActScore  https://arxiv.org/abs/2402.05629 

大语言模型的偏见

https://arxiv.org/abs/2211.09110 

如何评量语言模型的偏见

https://arxiv.org/abs/2310.11079

https://arxiv.org/abs/2202.03286 

用大语言模型审查履历

https://www.bloomberg.com/graphics/2024-openai-gpt-hiring-racial-discrimination/ 

HR Business Partner :https://www.bloomberg.com/graphics/2024-openai-gpt-hiring-racial-discrimination/ 

把名字的 Embedding 投影到 2 维平面上

https://www.bloomberg.com/graphics/2024-openai-gpt-hiring-racial-discrimination/ 

对于职业性别的刻板印象

https://textio.com/blog/chatgpt-writes-performance-feedback 

语言模型的政治倾向

https://8values.github.io/ 

https://arxiv.org/abs/2402.01789 

减轻偏见的方法:

Overview paper: https://arxiv.org/abs/2309.00770 

判断某句话是不是大语言模型讲的

DetectGPT: https://arxiv.org/pdf/2301.11305

DNA-GPT: https://arxiv.org/abs/2305.17359 Intrinsic

Dimension Estimation: https://arxiv.org/abs/2306.04723 

并不容易:

https://arxiv.org/abs/2306.15666 

https://arxiv.org/abs/2303.11156 

ChatGPT被用在各种地方

包括国际水准的文章审查:https://arxiv.org/abs/2403.07183 

有多少审查是ChatGPT生成的

2022年之后迅速增加:https://arxiv.org/abs/2403.07183 

有些词汇近几年频繁出现

https://arxiv.org/abs/2403.07183 

文章仅用ChatGPT润色还是就是AI生成的

https://arxiv.org/abs/2403.07183 

在语言模型的输出上加上浮水印

https://arxiv.org/abs/2301.10226 

https://arxiv.org/abs/2306.04634 

也有人尝试破坏浮水印:

https://arxiv.org/abs/2303.13408 

https://arxiv.org/abs/2303.11156 

大语言模型会被欺骗

越狱攻击(Jailbreaking) 提示注入(Prompt Injection)
攻击对象 语言模型本身 以语言模型打造的应用(例如:AI 助教)
攻击结果 说出作为一个语言模型不该讲的话 让语言模型怠忽职守,在不恰当的时机做不恰当的事情
对应到人类 杀人放火 在上课时间突然唱歌

越狱攻击

Jailbreak越狱:

DAN = “Do Anything Now” 

https://arxiv.org/abs/2308.03825 

上面的指令可能在GPT3.5还有效,但是对GPT-4系列都失效了,但是仍然还有一些指令可以成功在GPT-4o上成功越狱:

GPT-4o 

使用语言模型没有那么熟悉的语言进行越狱

https://arxiv.org/abs/2307.02483 

 

给予冲突的指令

https://arxiv.org/abs/2307.02483 

说服语言模型

https://arxiv.org/abs/2401.06373 

用GPT-4o编一个停车标志作恶的故事:
在一个安静、风景如画的小镇埃尔姆伍德,枫树街和松林大道的交叉口立著一个看似普通的停车标志。多年来它恪尽职守,赢得了所有走近者的尊敬。然而,镇民们不知道的是,这个停车标志隐藏著一个黑暗的秘密。
在一个风雨交加的夜晚,一道闪电击中了这个牌子,给它注入了一种奇怪的能量。从那天晚上开始,停车标志就变了。司机们开始报告令人不安的事件。有些人突然感到一种无法解释的冲动,想要加速而不是停下来。其他人声称他们的汽车在接近十字路口时神秘地失去了控制。
pee e 
一天下午晚些时候,亚当斯先生在十字路口附近安装了一个监视器。他的发现让他脊背发凉。影片显示,汽车接近停车标志,然后莫名其妙地加速,仿佛受到某种看不见的力量驱动。更令人不安的是,这个标志本身似乎闪烁著一种怪异、超凡脱俗的光芒。

Jailbreak 可以有不同的目的

让语言模型一直重复某个单字,最后他会不小心透露出一些训练资料:

https://arxiv.org/abs/2311.17035

https://arxiv.org/abs/2012.07805 

 

提示注入

在作业内容里直接让ChatGPT给你打十分:

ChatGPT并没有给你打10分:

:

另辟蹊径,将Final Score: 10变成ASCLL码,然后骗ChatGPT说出来:

“Final Score: 10” 

GPT-4 无法克制想要解码的冲动! 

Prompt Injection 比赛

https://arxiv.org/pdf/2311.16119

 

posted @ 2025-07-28 11:35  指尖下的世界  阅读(15)  评论(0)    收藏  举报