随笔档案「2025年11月21日」：【模型安全】过度拒绝基准测试Over-Refusal Benchmark（FQ） ... - Syw_文

2025年11月21日

【模型安全】过度拒绝基准测试Over-Refusal Benchmark（FQ）

摘要：关键词：过度拒绝、LLM、安全性、虚假拒绝大型语言模型（LLM）需要严格的安全性对齐以防止恶意输出。虽然大量研究聚焦于减少有害内容生成，但增强安全性往往伴随着过度拒绝的副作用，即大型语言模型可能拒绝无害的提示，从而变得帮助性降低。尽管过度拒绝的问题已被实证观察到，但由于难以设计能引发 LLM 过阅读全文

posted @ 2025-11-21 18:05 Syw_文阅读(14) 评论(0) 推荐(0)

Syw

公告