摘要: 2024-10-12,由Gray Swan AI和UK AI Safety Institute共同创建了AgentHarm,这是一个开创性的基准测试,目的衡量大型语言模型(LLM)代理执行有害任务的倾向和能力。这个数据集不仅覆盖了广泛的恶意任务类别,而且还特别设计了模型在遭受攻击后仍能保持执行多步骤 阅读全文
posted @ 2024-10-16 10:03 数据猎手小k 阅读(128) 评论(0) 推荐(0)