会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Syw
博客园
首页
新随笔
联系
管理
订阅
2025年11月21日
【模型安全】过度拒绝基准测试Over-Refusal Benchmark(FQ)
摘要: 关键词: 过度拒绝、LLM、安全性、虚假拒绝 大型语言模型(LLM)需要严格的安全性对齐以防止恶意输出。虽然大量研究聚焦于减少有害内容生成,但增强安全性往往伴随着过度拒绝的副作用,即大型语言模型可能拒绝无害的提示,从而变得帮助性降低。尽管过度拒绝的问题已被实证观察到,但由于难以设计能引发 LLM 过
阅读全文
posted @ 2025-11-21 18:05 Syw_文
阅读(8)
评论(0)
推荐(0)
公告