会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
dataset-k
博客园
首页
新随笔
联系
订阅
管理
2024年10月16日
AgentHarm:一个包含110个明确恶意任务(增强后共440个)的基准测试,覆盖11个伤害类别,目的评估LLM代理在遭受攻击后是否仍能完成多步骤任务,同时衡量其对有害请求的拒绝能力。
摘要: 2024-10-12,由Gray Swan AI和UK AI Safety Institute共同创建了AgentHarm,这是一个开创性的基准测试,目的衡量大型语言模型(LLM)代理执行有害任务的倾向和能力。这个数据集不仅覆盖了广泛的恶意任务类别,而且还特别设计了模型在遭受攻击后仍能保持执行多步骤
阅读全文
posted @ 2024-10-16 10:03 数据猎手小k
阅读(128)
评论(0)
推荐(0)
公告