【AI Agent评估】2-Agent-as-a-Judge: 用智能体评估智能体
摘要:
近年来,智能体(Agentic Systems)技术迅速发展,被广泛应用于多阶段任务和复杂问题的求解。然而,目前的评估方法却未能有效跟上技术发展的步伐,存在明显局限性: 仅关注最终结果现有方法往往仅关注智能体完成任务的最终结果,而忽略了其在任务过程中每一步的表现。这种“黑箱式”评估缺乏对任务中间过程 阅读全文
posted @ 2025-02-25 23:01 ExplorerMan 阅读(406) 评论(0) 推荐(0)
浙公网安备 33010602011771号