【模型安全】过度拒绝基准测试Over-Refusal Benchmark(FQ)

关键词: 过度拒绝、LLM、安全性、虚假拒绝

大型语言模型(LLM)需要严格的安全性对齐以防止恶意输出。虽然大量研究聚焦于减少有害内容生成,但增强安全性往往伴随着过度拒绝的副作用,即大型语言模型可能拒绝无害的提示,从而变得帮助性降低。尽管过度拒绝的问题已被实证观察到,但由于难以设计能引发 LLM 过度拒绝行为的提示,系统测量仍具挑战性。本研究提出了一种新颖的方法,用于自动生成大规模的过度拒绝数据集。利用这一技术,我们推出了 OR-Bench,这是首个大规模的过度拒绝基准。OR-Bench 包含 8 万个过度拒绝提示,涵盖 10 个常见拒绝类别,约 1000 个硬提示子集,即使是最先进的大型语言模型也具有挑战性,以及另外 600 个有害提示,以防止无差别回应。随后,我们进行了一项综合研究,测量 8 个模型家族中 32 个流行 LLM 的过度拒绝情况。为了促进可重复性,

数据集: HuggingFace at https://huggingface.co/spaces/orbench-llm/or-bench

代码:https://github.com/orbench/or-bench 

官网介绍:https://openreview.net/forum?id=obYVdcMMIT

 

posted @ 2025-11-21 18:05  Syw_文  阅读(8)  评论(0)    收藏  举报