Agent Eval 最佳实践:从 Benchmark 到生产监控的完整落地指南

Agent Eval 最佳实践:从 Benchmark 到生产监控的完整落地指南

Anthropic 工程团队在 2026 年 1 月发了一篇博客《Demystifying evals for AI agents》,里面有一句话很直接:"We've seen teams with 90% benchmark scores fail in production." Benchmark 和生产环境之间的鸿沟,不是模型能力问题,是评测方法论问题。这篇文章把大厂的 Agent Eval 实践拆开,给你一套可以直接落地的方案。

一、为什么 Agent Eval 比 LLM Eval 难得多

先说清楚问题是什么。

评测一个 LLM(比如 GPT-4o)很简单——给它 1000 道题,对多少、错多少,一个数字出来。MMLU、HumanEval、GSM8K 都是这么干的。静态评测,跑分定输赢。

Agent 不是这样工作的。同一个任务,Agent 可以走完全不同的路径:

  同一任务("帮我订明天北京到上海的航班")的三种执行路径:

  路径 A: search_flights → pick_cheapest → book → 成功
  路径 B: search_flights → filter_by_time → pick → book → 成功
  路径 C: search_flights → 报错 → retry → book → 成功

  三个路径都"成功",但:
  - 路径 A 用了 3 步,路径 B 用了 4 步(有冗余)
  - 路径 C 有重试逻辑(说明工具调用不稳定)
  - 只有看执行轨迹才能发现这些问题

只看最终成功率,这三种路径得分一样。但路径 C 上线后用户会骂——重试意味着延迟加倍,失败率隐藏在"最终成功"里。

Agent Eval 的核心难点清单:

难点 说明 后果
路径多样性 同一任务多种解法 成功率掩盖执行质量差异
环境依赖性 工具状态、API 可用性影响结果 评测不可复现
多轮交互 用户追问、修正意图 单轮评测失效
主观维度多 语气、体验、合规性 纯自动评测有盲区
数据泄露风险 评测集被训练数据覆盖 分数虚高

Anthropic 的经验是:只做端到端成功率评测的团队,生产故障率平均高 3 倍。 不是成功率没用,是只有成功率不够。


二、三层评估架构(行业共识)

解决上述问题的方法是建三层评测体系。这是 2026 年头部团队的标配,不是可选项。

        Agent 评估三层金字塔
   ┌─────────────────────────────────┐
   │                                 │
   │   Layer 3                       │
   │   生产级持续评测                  │
   │   (线上保障:采样 + 监控 + 回放) │
   │                                 │
   │   ▲ 发现离线评测覆盖不到的边界场景  │
   │   │                             │
   │   Layer 2                       │
   │   决策层评测                      │
   │   (过程质量:规划 / 工具选择 /    │
   │    参数准确性 / 执行效率)          │
   │                                 │
   │   ▲ 防止"结果对但过程歪"的 Agent   │
   │   │                             │
   │   Layer 1                       │
   │   任务层基准                      │
   │   (基础能力:任务完成率 / pass@k) │
   │                                 │
   └─────────────────────────────────┘

三层是递进互补关系,不是替代关系。

Layer 1:任务层基准(地基)

目标是建立最低能力准入门槛——这个 Agent 能不能用。

主流基准选型:

基准 适合场景 核心特点 资源要求
AgentBench 通用模型选型 清华 ICLR 2024,覆盖 OS/DB/Web/代码 8 类环境 需要 Docker,评估成本较高
GAIA 通用助手能力 Meta 出品,必须多步推理+工具调用,行业认可度最高 中等,有 lite preset
SWE-Bench 代码修复 Agent 基于 GitHub 真实 issue,Cursor/Devin 类必刷 高,需对接 GitHub
τ-Bench 对话式服务 Agent Anthropic 参与开发,模拟零售/航空预订场景 低,基于 API 模拟
WebArena 浏览器 Agent 真实网站模拟环境(电商/论坛/管理后台) 需要浏览器环境
BFCL 函数调用能力 伯克利排行榜,标准化可复现 低,纯 API 调用

选型建议(直接抄):

if 你在做通用 Agent → 先跑 AgentBench + GAIA 建立基线
if 你在做代码 Agent → 必跑 SWE-Bench
if 你在做客服/预订 Agent → 必跑 τ-Bench
if 你在做浏览器 Agent → 必跑 WebArena
if 以上都不够贴合你的场景 → 用 ACE-Bench 自建可迭代评测集

Layer 2:决策层评测(核心)

这是大多数团队缺失的一层。Layer 1 告诉你"成没成",Layer 2 告诉你"怎么成的、好不好"。

核心评测维度:

  决策层评测的五个维度(DeepEval 已内置对应指标):

  1. PlanQuality(规划质量)
     → Agent 制定的执行计划是否合理?
     → 评估方法:LLM-as-Judge,用强模型评测规划输出

  2. ToolCorrectnessMetric(工具选择正确性)
     → 是否选了正确的工具?
     → 40% 的 Agent 失败来自工具选择错误(DeepEval 数据)

  3. ArgumentCorrectnessMetric(参数传递准确性)
     → 工具参数是否构造正确?
     → 常见错误:类型错误、缺少必填参数、语义错误

  4. PlanAdherenceMetric(规划遵循度)
     → 执行过程是否偏离原计划?
     → 检测 Agent "忘记"初始计划的问题

  5. StepEfficiencyMetric(步骤效率)
     → 是否有冗余步骤?
     → 需要设置任务的"最少合理步骤数"作为基准

pass@k 指标(必看):

pass@1 是单次运行成功率,pass@k 是 k 次尝试中至少成功 1 次的概率。生产环境中 pass@8pass@1 更有参考价值——它衡量的是 Agent 的稳定性,而不是"运气"。

  示例:
  Agent A: pass@1 = 80%, pass@8 = 82%  → 稳定,偶发失败
  Agent B: pass@1 = 80%, pass@8 = 95%  → 不稳定,但多试几次能成

  生产环境选哪个?取决于你的重试策略:
  - 不允许重试 → 看 pass@1
  - 允许重试(如异步任务)→ 看 pass@8

Layer 3:生产级持续评测(保障)

评测不是上线前做一次就完了。Layer 3 是把评测嵌入迭代流程,形成持续质量门禁。

标准持续评测流水线:

触发时机 评测内容 通过门槛 配套工具
每次 PR 合并前 回归测试(pass@k、一致性) pass@8 ≥ 80% DeepEval、Promptfoo
每日凌晨 完整 benchmark 重跑 无回归(与昨日相比跌幅 < 5%) AgentBench、GAIA
每周 LLM-as-Judge 质量评分 平均分 ≥ 4.0/5.0 GPT-4o/Claude-as-Judge
实时(线上) 运行时行为规则检查 无 blocking 规则触发 自定义规则引擎
线上采样 真实请求质量评估 抽样通过率 ≥ 85% LangSmith、Arize Phoenix

三、DeepEval 实战:从零到生产

理论讲完了,上代码。以下是用 DeepEval 搭建完整 Agent 评测套件的步骤。

步骤 1:环境准备

pip install deepeval
# 可选:登录 Confident AI 云平台(评估结果可视化)
deepeval login

步骤 2:标记 Agent 组件(执行轨迹追踪)

@observe 装饰器标记 Agent 的不同组件,DeepEval 会自动采集各组件的输入输出和执行逻辑。

from deepeval.tracing import observe
from deepeval.test_case import LLMTestCase

# 标记工具组件
@observe(type="tool")
def search_flights(origin: str, destination: str, date: str):
    """搜索航班工具(实际项目中对接真实 API)"""
    # 模拟返回
    return [
        {"flight": "CA1234", "price": 500, "time": "08:00"},
        {"flight": "MU5678", "price": 450, "time": "10:30"}
    ]

# 标记推理层组件
@observe(type="reasoning")
def parse_and_plan(user_input: str):
    """解析用户任务并制定执行计划"""
    # 实际项目中这里调用 LLM
    return {
        "task": "book_flight",
        "origin": "北京",
        "destination": "上海",
        "date": "2026-06-04",
        "steps": ["search", "compare", "book"]
    }

# 标记 Agent 主组件
@observe(type="agent")
def travel_agent(user_input: str):
    """旅行预订 Agent 主函数"""
    plan = parse_and_plan(user_input)
    flights = search_flights(plan["origin"], plan["destination"], plan["date"])
    cheapest = min(flights, key=lambda x: x["price"])
    return {
        "order_id": "ORD123456",
        "flight": cheapest["flight"],
        "status": "confirmed"
    }

步骤 3:配置评估指标

from deepeval.metrics import (
    TaskCompletionMetric,
    StepEfficiencyMetric,
    ToolCorrectnessMetric,
    ArgumentCorrectnessMetric,
    PlanQualityMetric,
    PlanAdherenceMetric,
)

# 配置指标和阈值(根据业务需求调整)
metrics = [
    TaskCompletionMetric(threshold=0.7, evaluation_model="gpt-4o"),
    StepEfficiencyMetric(threshold=0.5, minimum_steps=3),
    ToolCorrectnessMetric(threshold=0.8),
    ArgumentCorrectnessMetric(threshold=0.8),
    PlanQualityMetric(threshold=0.7, evaluation_model="gpt-4o"),
    PlanAdherenceMetric(threshold=0.7),
]

阈值设置经验值(参考):

指标 建议阈值 说明
TaskCompletionMetric 0.7 低于 0.7 说明 Agent 基本不可用
ToolCorrectnessMetric 0.8 工具选择是 Agent 核心能力,要求高
ArgumentCorrectnessMetric 0.8 参数错误直接导致工具调用失败
StepEfficiencyMetric 0.5 允许一定冗余,0.5 是合理底线
PlanQualityMetric 0.7 规划质量难量化,0.7 是及格线

步骤 4:执行评估

单次评估(开发调试用):

from deepeval import evaluate

# 定义测试用例
test_case = LLMTestCase(
    input="预订明天从北京到上海最便宜的航班",
    expected_output={"status": "confirmed", "order_id": "ORD123456"}
)

# 执行 Agent 得到实际输出
actual_output = travel_agent(test_case.input)
test_case.actual_output = actual_output

# 执行评估
evaluate([test_case], metrics)

批量评估(CI/CD 集成用):

from deepeval.dataset import EvaluationDataset

# 加载测试数据集(建议 20-50 个核心场景用例起步)
dataset = EvaluationDataset(goldens=[
    {"input": "预订明天从北京到上海最便宜的航班"},
    {"input": "查找下周从成都到昆明的中转航班"},
    {"input": "取消订单 ORD123456"},
    # ... 更多用例
])

# 批量执行评估
for golden in dataset.evals_iterator(metrics=metrics):
    output = travel_agent(golden.input)
    golden.actual_output = output
    # 评估结果自动记录,可在 Confident AI 云平台查看

步骤 5:结果解读与优化

  各指标得分 → 问题定位 → 优化方向 映射表:

  得分情况                          → 问题定位        → 优化方向
  ─────────────────────────────────────────────────────────────
  TaskCompletion 低,其他正常       → 最终执行逻辑有 bug → 检查 Agent 输出解析逻辑
  ToolCorrectness 低                → 工具选择错误      → 优化 tool description / few-shot
  ArgumentCorrectness 低            → 参数构造错误      → 加强 schema 校验,加参数示例
  PlanQuality 低                    → 规划能力弱        → 更换更强的基础模型,或改进 prompt
  StepEfficiency 低                 → 执行步骤冗余      → 优化 prompt,减少不必要的中间步骤
  PlanAdherence 低                  → 执行偏离计划      → 在 prompt 中加强"严格按计划执行"指令
  所有指标波动大(标准差 > 0.2)     → 不稳定           → 检查工具 API 稳定性,加重试逻辑

四、LLM-as-Judge 实战指南

有些维度没有标准答案(比如"回复是否礼貌""处理用户情绪是否得当"),需要用强模型来评测弱模型的输出。这就是 LLM-as-Judge。

有效实践(Anthropic/OpenAI 内部标准)

1. 评分维度必须清晰定义,不能只说"评质量":

# ❌ 差的 judge prompt
"请评估这个 Agent 回复的质量,给出 1-5 分。"

# ✅ 好的 judge prompt
"""请评估以下 Agent 回复,从三个维度各给出 1-5 分:

1. 准确性(Accuracy):回复中的事实性信息是否正确?
   - 5分:完全正确,无事实错误
   - 3分:基本正确,有轻微不准确但不影响理解
   - 1分:包含事实错误,可能误导用户

2. 有用性(Helpfulness):回复是否解决了用户的问题?
   - 5分:完全解决,提供了所有必要信息
   - 3分:部分解决,用户需要进一步询问
   - 1分:未解决,答非所问

3. 语气(Tone):回复是否礼貌、专业?
   - 5分:语气恰当,专业且友好
   - 3分:语气中性,无明显问题
   - 1分:语气不当,不礼貌或不专业

请按以下 JSON 格式输出:
{"accuracy": 4, "helpfulness": 5, "tone": 5, "reason": "..."}
"""

2. 用 few-shot 示例提升一致性:

JUDGE_PROMPT = """请评估以下 Agent 回复质量。

以下是几个评分示例(供参考标准):

[示例 1]
用户:帮我查一下订单 ORD123456 的状态
Agent 回复:您的订单 ORD123456 已发货,预计明天送达。
评分:{"accuracy": 5, "helpfulness": 5, "tone": 5}
原因:信息准确、完整,语气专业。

[示例 2]
用户:帮我查一下订单 ORD123456 的状态
Agent 回复:好的,我帮您查一下。
评分:{"accuracy": 3, "helpfulness": 2, "tone": 4}
原因:未提供实质信息,问题未解决,但语气尚可。

[待评估内容]
用户:{user_input}
Agent 回复:{agent_output}
评分:"""

3. 用 gpt-4o-mini 做 judge,控制成本:

评测用模型不需要跟被评测 Agent 用同一个模型。用更便宜的强模型做 judge 是标准做法:

# 成本对比(评测 1000 个样本,每个样本约 500 tokens)
# gpt-4o:     $5/M tokens input  → 约 $2.5
# gpt-4o-mini: $0.15/M tokens input → 约 $0.075(省 33 倍)
# Claude Haiku:$0.25/M tokens input → 约 $0.125(省 20 倍)

import os
os.environ["OPENAI_MODEL"] = "gpt-4o-mini"  # DeepEval 默认用这个

LLM-as-Judge 的已知缺陷

缺陷 说明 缓解方法
偏爱长输出 模型倾向于给更长的回复更高分 在 judge prompt 中加入"简洁性"维度
无法评判更强模型 用 GPT-4o 评 Claude Opus 级别的输出,上限受限 用多个 judge 模型投票
评分方差大 同一输入多次评测可能给出不同分数 每个样本评测 3 次,取平均分
文化偏见 英文训练数据导致对非英文内容评测不准 用对应语言的模型做 judge

五、生产环境监控实战

评测体系上线后,生产环境的持续监控是最后一块拼图。

采样策略(直接可用)

  生产环境采样策略(Anthropic 内部实践):

  任务类型              采样率    说明
  ─────────────────────────────────────────────
  普通任务             1-5%     随机抽样,评估质量趋势
  支付/预订等关键任务   100%     全量评估,失败直接影响用户
  失败请求             100%     自动进入评估队列,用于归因分析
  超时请求             100%     性能问题也需要评测
  LLM-as-Judge "不确定"  100%   进入人工审查队列

成本控制

生产环境评测的最大挑战是成本,不是技术。以下是经过验证的控制方法:

# 1. 用最便宜的模型做 judge
os.environ["OPENAI_MODEL"] = "gpt-4o-mini"

# 2. 异步执行评测,不阻塞主流程
import asyncio
from deepeval import evaluate

async def async_evaluate_in_background(test_case, metrics):
    """主流程不等待评测结果"""
    asyncio.create_task(
        asyncio.to_thread(evaluate, [test_case], metrics)
    )

# 3. 设置样本上限熔断
MAX_DAILY_EVAL_SAMPLES = 1000  # 每天最多评测 1000 个样本

def should_evaluate_today():
    today_count = get_today_eval_count()  # 从 Redis/DB 读取
    return today_count < MAX_DAILY_EVAL_SAMPLES

# 4. 只对失败/超时请求做完整评测(多指标)
#    普通成功请求只做轻量评测(单指标)
def get_metrics_for_case(is_success, is_timeout):
    if not is_success:
        return ALL_METRICS  # 失败 case 做完整评测,用于归因
    elif is_timeout:
        return [LATENCY_METRIC]  # 超时 case 只评测性能
    else:
        return [TASK_COMPLETION_METRIC]  # 成功 case 只评测任务完成度

人工审查队列

自动评测不可能覆盖所有维度。建立人工审查队列,补全评测盲区:

# 人工审查触发条件
HUMAN_REVIEW_CONDITIONS = [
    "LLM-as-Judge 评分方差 > 2.0(同一 case 多次评测分数差异大)",
    "Agent 输出了敏感词(用规则引擎检测)",
    "用户给了一星评价",
    "每周随机抽取 10-20 个边界 case",
]

# 人工审查重点维度(自动评测覆盖不到的)
HUMAN_REVIEW_DIMENSIONS = [
    "回复语气是否恰当",
    "是否处理了用户的情绪",
    "输出是否符合品牌调性",
    "是否存在微妙的事实错误(模型 judge 可能漏掉)",
]

六、CI/CD 集成完整配置

把评测嵌入 CI/CD 流程,是防止回归的关键。以下是 .github/workflows/agent-eval.yml 完整配置:

name: Agent Eval CI

on:
  pull_request:
    branches: [main]
  push:
    branches: [main]

jobs:
  eval:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v3

      - name: Set up Python
        uses: actions/setup-python@v4
        with:
          python-version: "3.11"

      - name: Install dependencies
        run: |
          pip install -r requirements.txt
          pip install deepeval

      - name: Run regression eval (PR only)
        if: github.event_name == 'pull_request'
        run: |
          python -m pytest tests/eval_regression.py -v
        env:
          OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}

      - name: Run full benchmark (main branch only)
        if: github.ref == 'refs/heads/main'
        run: |
          python -m pytest tests/eval_full_benchmark.py -v
        env:
          OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}

      - name: Upload eval results
        if: always()
        uses: actions/upload-artifact@v3
        with:
          name: eval-results
          path: eval_results/

评测不通过的门槛(建议值):

# tests/eval_regression.py 核心逻辑

EVAL_GATES = {
    "pass_at_1": 0.70,      # pass@1 不低于 70%
    "pass_at_8": 0.80,      # pass@8 不低于 80%
    "avg_judge_score": 4.0,  # LLM-as-Judge 平均分不低于 4.0/5.0
    "tool_correctness": 0.75, # 工具选择正确率不低于 75%
    "no_regression": True,    # 相比 main 分支无回归(各指标跌幅 < 5%)
}

def test_eval_gates():
    results = run_evaluation()
    for metric, threshold in EVAL_GATES.items():
        if metric == "no_regression":
            assert results["regression"] == False, "Regression detected!"
        else:
            assert results[metric] >= threshold, \
                f"{metric}: {results[metric]} < threshold {threshold}"

七、常见陷阱与规避方法

  Agent Eval 七大常见陷阱:

  陷阱 1:只用成功率一个指标
  → 后果:隐藏执行质量问题和稳定性问题
  → 规避:至少加 PlanQuality + ToolCorrectness 两个过程指标

  陷阱 2:评测集一成不变
  → 后果:Agent 过拟合评测集,生产表现差
  → 规避:每月更新 20% 评测用例,加入新发现的边界 case

  陷阱 3:用训练数据覆盖的 benchmark 做主要评估
  → 后果:分数虚高,无法反映真实泛化能力
  → 规避:用私有业务数据构建评测集,或选 GAIA 这种专门防泄露的 benchmark

  陷阱 4:LLM-as-Judge 不设 few-shot
  → 后果:评分一致性差,不同版本评测结果不可比
  → 规避:每个评测维度至少准备 3-5 个 few-shot 示例

  陷阱 5:生产监控采样率太低
  → 后果:问题发现太晚,影响用户已造成
  → 规避:关键任务 100% 采样,普通任务不低于 1%

  陷阱 6:评测环境与生产环境不一致
  → 后果:评测通过,上线失败
  → 规避:评测环境用生产环境的 staging 副本,工具 API 用真实(或真实 mock)

  陷阱 7:没有评测结果的历史追踪
  → 后果:不知道性能是变好了还是变差了
  → 规避:用 DeepEval + Confident AI 云平台,或自建评测结果数据库

八、从零搭建评测体系:四步路径

如果你现在什么都没有,按这个顺序做,可以在一个月内建立基本可用的评测体系。

  Week 1:建立回归基线
  ┌──────────────────────────────────────┐
  │                                      │
  │  1. 选 20-50 个核心场景用例          │
  │  2. 用 DeepEval 搭建基础评测脚本      │
  │  3. 同时跑 pass@1 和 pass@8         │
  │  4. 记录当前各指标得分作为基线        │
  │                                      │
  │  目标:不是追求高分,是建立回归检测能力 │
  └──────────────────────────────────────┘

  Week 2:引入 LLM-as-Judge
  ┌──────────────────────────────────────┐
  │                                      │
  │  1. 为 3-5 个核心质量维度写 judge prompt │
  │  2. 每个维度准备 3-5 个 few-shot 示例  │
  │  3. 用小模型(gpt-4o-mini)做成本验证  │
  │  4. 人工对比 20 个样本的 judge 结果    │
  │     (人工评分 vs judge 评分,          │
  │      一致性应 > 85%)                  │
  └──────────────────────────────────────┘

  Week 3-4:接入 CI/CD
  ┌──────────────────────────────────────┐
  │                                      │
  │  1. 把评测脚本接入 GitHub Actions     │
  │  2. 设置评测门禁(pass@8 ≥ 80% 等)   │
  │  3. 每次 PR 自动跑回归评测            │
  │  4. main 分支每日跑完整 benchmark     │
  └──────────────────────────────────────┘

  持续迭代:建立生产监控
  ┌──────────────────────────────────────┐
  │                                      │
  │  1. 线上请求按采样策略做评估          │
  │  2. 每周把生产失败 case 加入评测集    │
  │  3. 每月更新 20% 评测用例            │
  │  4. 定期 review 评测指标是否足够      │
  └──────────────────────────────────────┘

九、自己做 Agent,该带走什么

如果你在做一个 Agent 产品,以下几条是最值得带走的实战经验:

1. 评测体系要三层一起建,不能只做 benchmark。 Layer 1 告诉你"能不能用",Layer 2 告诉你"好不好用",Layer 3 确保"一直好用"。缺任何一层,生产环境都会有惊喜(贬义)。

2. 用 DeepEval 的 @observe 装饰器标记所有 Agent 组件。 不止是为了评测——执行轨迹的可见性是调试 Agent 的基础。看不到 Agent 内部在干什么,优化就是盲人摸象。

3. pass@k 比 pass@1 更能反映生产稳定性。 如果你的 Agent 允许用户重试(比如异步任务、后台 Agent),pass@8 是更相关的指标。不允许重试的场景才看 pass@1。

4. LLM-as-Judge 的 prompt 比选哪个 judge 模型更重要。 few-shot 示例、清晰的评分维度定义、1-5 分制(而非二元判断),这三件事做好了,用 gpt-4o-mini 做 judge 也够用。

5. 生产监控的采样策略要分任务类型。 普通任务 1-5% 采样够了,支付/预订等关键任务必须 100% 评估。失败请求也要 100% 进评估队列——这是最便宜的 failure analysis 来源。

6. 评测集要持续迭代,不能一成不变。 每月把线上失败 case 的 20% 加入评测集,同时将评测集中最旧的 20% 淘汰。这样评测集始终反映真实的用户场景分布。

7. 不要等 Agent "做好了"才建评测体系。 评测体系是开发工具,不是上线前的检查清单。早期建立评测,才能知道每次改动是变好了还是变差了。


Agent 评测在 2026 年已经从"研究问题"变成了"工程基础设施"。Anthropic 的经验、OpenAI 的 Promptfoo 收购、DeepEval 的快速迭代,都在指向同一个方向:没有可量化的质量标准,Agent 的可靠性就无从保证,迭代方向也无从判断。

这篇文章里的大部分内容——三层架构、DeepEval 代码、CI/CD 配置、采样策略——都是可以直接抄的。但评测体系最核心的一件事,不是工具或框架的选择,而是持续迭代的纪律性:评测集每月更新、评测结果每次 PR 都看、生产失败 case 每周回顾。

工具会变,模型会变,但这件事不会变。


参考资料

  • Anthropic Engineering Blog《Demystifying evals for AI agents》(2026-01);
  • Confident AI DeepEval 官方文档(2026-05 更新);
  • "AI Agent 评测实践:构建可量化的 Agent 质量标准"(棱镜空间,2026-03);
  • "Agent 评估基准实战:从 AgentBench 到 DeepEval 的性能测试指南"(EastonDev,2026-05);
  • InfoQ《Evaluating AI Agents in Practice: Benchmarks, Hybrid Evaluation Pipelines》(2026-03);

关注公众号「coft」,获取更多 AI 时代的深度思考。

posted @ 2026-06-03 18:43  warm3snow  阅读(121)  评论(0)    收藏  举报