2024 年 10月 16 日随笔档案 - 数据猎手小k

2024年10月16日

AgentHarm：一个包含110个明确恶意任务（增强后共440个）的基准测试，覆盖11个伤害类别，目的评估LLM代理在遭受攻击后是否仍能完成多步骤任务，同时衡量其对有害请求的拒绝能力。

摘要： 2024-10-12，由Gray Swan AI和UK AI Safety Institute共同创建了AgentHarm，这是一个开创性的基准测试，目的衡量大型语言模型（LLM）代理执行有害任务的倾向和能力。这个数据集不仅覆盖了广泛的恶意任务类别，而且还特别设计了模型在遭受攻击后仍能保持执行多步骤阅读全文

posted @ 2024-10-16 10:03 数据猎手小k 阅读(128) 评论(0) 推荐(0)

公告