【模型安全】过度拒绝基准测试Over-Refusal Benchmark(FQ)
关键词: 过度拒绝、LLM、安全性、虚假拒绝
大型语言模型(LLM)需要严格的安全性对齐以防止恶意输出。虽然大量研究聚焦于减少有害内容生成,但增强安全性往往伴随着过度拒绝的副作用,即大型语言模型可能拒绝无害的提示,从而变得帮助性降低。尽管过度拒绝的问题已被实证观察到,但由于难以设计能引发 LLM 过度拒绝行为的提示,系统测量仍具挑战性。本研究提出了一种新颖的方法,用于自动生成大规模的过度拒绝数据集。利用这一技术,我们推出了 OR-Bench,这是首个大规模的过度拒绝基准。OR-Bench 包含 8 万个过度拒绝提示,涵盖 10 个常见拒绝类别,约 1000 个硬提示子集,即使是最先进的大型语言模型也具有挑战性,以及另外 600 个有害提示,以防止无差别回应。随后,我们进行了一项综合研究,测量 8 个模型家族中 32 个流行 LLM 的过度拒绝情况。为了促进可重复性,
数据集: HuggingFace at https://huggingface.co/spaces/orbench-llm/or-bench
代码:https://github.com/orbench/or-bench
官网介绍:https://openreview.net/forum?id=obYVdcMMIT
|
1.作者:Syw 2.出处:http://www.cnblogs.com/syw20170419/ 3.本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。 4.如果文中有什么错误,欢迎指出。以免更多的人被误导。 |

浙公网安备 33010602011771号