Agent Eval 最佳实践:从 Benchmark 到生产监控的完整落地指南
Agent Eval 最佳实践:从 Benchmark 到生产监控的完整落地指南
Anthropic 工程团队在 2026 年 1 月发了一篇博客《Demystifying evals for AI agents》,里面有一句话很直接:"We've seen teams with 90% benchmark scores fail in production." Benchmark 和生产环境之间的鸿沟,不是模型能力问题,是评测方法论问题。这篇文章把大厂的 Agent Eval 实践拆开,给你一套可以直接落地的方案。
一、为什么 Agent Eval 比 LLM Eval 难得多
先说清楚问题是什么。
评测一个 LLM(比如 GPT-4o)很简单——给它 1000 道题,对多少、错多少,一个数字出来。MMLU、HumanEval、GSM8K 都是这么干的。静态评测,跑分定输赢。
Agent 不是这样工作的。同一个任务,Agent 可以走完全不同的路径:
同一任务("帮我订明天北京到上海的航班")的三种执行路径:
路径 A: search_flights → pick_cheapest → book → 成功
路径 B: search_flights → filter_by_time → pick → book → 成功
路径 C: search_flights → 报错 → retry → book → 成功
三个路径都"成功",但:
- 路径 A 用了 3 步,路径 B 用了 4 步(有冗余)
- 路径 C 有重试逻辑(说明工具调用不稳定)
- 只有看执行轨迹才能发现这些问题
只看最终成功率,这三种路径得分一样。但路径 C 上线后用户会骂——重试意味着延迟加倍,失败率隐藏在"最终成功"里。
Agent Eval 的核心难点清单:
| 难点 | 说明 | 后果 |
|---|---|---|
| 路径多样性 | 同一任务多种解法 | 成功率掩盖执行质量差异 |
| 环境依赖性 | 工具状态、API 可用性影响结果 | 评测不可复现 |
| 多轮交互 | 用户追问、修正意图 | 单轮评测失效 |
| 主观维度多 | 语气、体验、合规性 | 纯自动评测有盲区 |
| 数据泄露风险 | 评测集被训练数据覆盖 | 分数虚高 |
Anthropic 的经验是:只做端到端成功率评测的团队,生产故障率平均高 3 倍。 不是成功率没用,是只有成功率不够。
二、三层评估架构(行业共识)
解决上述问题的方法是建三层评测体系。这是 2026 年头部团队的标配,不是可选项。
Agent 评估三层金字塔
┌─────────────────────────────────┐
│ │
│ Layer 3 │
│ 生产级持续评测 │
│ (线上保障:采样 + 监控 + 回放) │
│ │
│ ▲ 发现离线评测覆盖不到的边界场景 │
│ │ │
│ Layer 2 │
│ 决策层评测 │
│ (过程质量:规划 / 工具选择 / │
│ 参数准确性 / 执行效率) │
│ │
│ ▲ 防止"结果对但过程歪"的 Agent │
│ │ │
│ Layer 1 │
│ 任务层基准 │
│ (基础能力:任务完成率 / pass@k) │
│ │
└─────────────────────────────────┘
三层是递进互补关系,不是替代关系。
Layer 1:任务层基准(地基)
目标是建立最低能力准入门槛——这个 Agent 能不能用。
主流基准选型:
| 基准 | 适合场景 | 核心特点 | 资源要求 |
|---|---|---|---|
| AgentBench | 通用模型选型 | 清华 ICLR 2024,覆盖 OS/DB/Web/代码 8 类环境 | 需要 Docker,评估成本较高 |
| GAIA | 通用助手能力 | Meta 出品,必须多步推理+工具调用,行业认可度最高 | 中等,有 lite preset |
| SWE-Bench | 代码修复 Agent | 基于 GitHub 真实 issue,Cursor/Devin 类必刷 | 高,需对接 GitHub |
| τ-Bench | 对话式服务 Agent | Anthropic 参与开发,模拟零售/航空预订场景 | 低,基于 API 模拟 |
| WebArena | 浏览器 Agent | 真实网站模拟环境(电商/论坛/管理后台) | 需要浏览器环境 |
| BFCL | 函数调用能力 | 伯克利排行榜,标准化可复现 | 低,纯 API 调用 |
选型建议(直接抄):
if 你在做通用 Agent → 先跑 AgentBench + GAIA 建立基线
if 你在做代码 Agent → 必跑 SWE-Bench
if 你在做客服/预订 Agent → 必跑 τ-Bench
if 你在做浏览器 Agent → 必跑 WebArena
if 以上都不够贴合你的场景 → 用 ACE-Bench 自建可迭代评测集
Layer 2:决策层评测(核心)
这是大多数团队缺失的一层。Layer 1 告诉你"成没成",Layer 2 告诉你"怎么成的、好不好"。
核心评测维度:
决策层评测的五个维度(DeepEval 已内置对应指标):
1. PlanQuality(规划质量)
→ Agent 制定的执行计划是否合理?
→ 评估方法:LLM-as-Judge,用强模型评测规划输出
2. ToolCorrectnessMetric(工具选择正确性)
→ 是否选了正确的工具?
→ 40% 的 Agent 失败来自工具选择错误(DeepEval 数据)
3. ArgumentCorrectnessMetric(参数传递准确性)
→ 工具参数是否构造正确?
→ 常见错误:类型错误、缺少必填参数、语义错误
4. PlanAdherenceMetric(规划遵循度)
→ 执行过程是否偏离原计划?
→ 检测 Agent "忘记"初始计划的问题
5. StepEfficiencyMetric(步骤效率)
→ 是否有冗余步骤?
→ 需要设置任务的"最少合理步骤数"作为基准
pass@k 指标(必看):
pass@1 是单次运行成功率,pass@k 是 k 次尝试中至少成功 1 次的概率。生产环境中 pass@8 比 pass@1 更有参考价值——它衡量的是 Agent 的稳定性,而不是"运气"。
示例:
Agent A: pass@1 = 80%, pass@8 = 82% → 稳定,偶发失败
Agent B: pass@1 = 80%, pass@8 = 95% → 不稳定,但多试几次能成
生产环境选哪个?取决于你的重试策略:
- 不允许重试 → 看 pass@1
- 允许重试(如异步任务)→ 看 pass@8
Layer 3:生产级持续评测(保障)
评测不是上线前做一次就完了。Layer 3 是把评测嵌入迭代流程,形成持续质量门禁。
标准持续评测流水线:
| 触发时机 | 评测内容 | 通过门槛 | 配套工具 |
|---|---|---|---|
| 每次 PR 合并前 | 回归测试(pass@k、一致性) | pass@8 ≥ 80% | DeepEval、Promptfoo |
| 每日凌晨 | 完整 benchmark 重跑 | 无回归(与昨日相比跌幅 < 5%) | AgentBench、GAIA |
| 每周 | LLM-as-Judge 质量评分 | 平均分 ≥ 4.0/5.0 | GPT-4o/Claude-as-Judge |
| 实时(线上) | 运行时行为规则检查 | 无 blocking 规则触发 | 自定义规则引擎 |
| 线上采样 | 真实请求质量评估 | 抽样通过率 ≥ 85% | LangSmith、Arize Phoenix |
三、DeepEval 实战:从零到生产
理论讲完了,上代码。以下是用 DeepEval 搭建完整 Agent 评测套件的步骤。
步骤 1:环境准备
pip install deepeval
# 可选:登录 Confident AI 云平台(评估结果可视化)
deepeval login
步骤 2:标记 Agent 组件(执行轨迹追踪)
用 @observe 装饰器标记 Agent 的不同组件,DeepEval 会自动采集各组件的输入输出和执行逻辑。
from deepeval.tracing import observe
from deepeval.test_case import LLMTestCase
# 标记工具组件
@observe(type="tool")
def search_flights(origin: str, destination: str, date: str):
"""搜索航班工具(实际项目中对接真实 API)"""
# 模拟返回
return [
{"flight": "CA1234", "price": 500, "time": "08:00"},
{"flight": "MU5678", "price": 450, "time": "10:30"}
]
# 标记推理层组件
@observe(type="reasoning")
def parse_and_plan(user_input: str):
"""解析用户任务并制定执行计划"""
# 实际项目中这里调用 LLM
return {
"task": "book_flight",
"origin": "北京",
"destination": "上海",
"date": "2026-06-04",
"steps": ["search", "compare", "book"]
}
# 标记 Agent 主组件
@observe(type="agent")
def travel_agent(user_input: str):
"""旅行预订 Agent 主函数"""
plan = parse_and_plan(user_input)
flights = search_flights(plan["origin"], plan["destination"], plan["date"])
cheapest = min(flights, key=lambda x: x["price"])
return {
"order_id": "ORD123456",
"flight": cheapest["flight"],
"status": "confirmed"
}
步骤 3:配置评估指标
from deepeval.metrics import (
TaskCompletionMetric,
StepEfficiencyMetric,
ToolCorrectnessMetric,
ArgumentCorrectnessMetric,
PlanQualityMetric,
PlanAdherenceMetric,
)
# 配置指标和阈值(根据业务需求调整)
metrics = [
TaskCompletionMetric(threshold=0.7, evaluation_model="gpt-4o"),
StepEfficiencyMetric(threshold=0.5, minimum_steps=3),
ToolCorrectnessMetric(threshold=0.8),
ArgumentCorrectnessMetric(threshold=0.8),
PlanQualityMetric(threshold=0.7, evaluation_model="gpt-4o"),
PlanAdherenceMetric(threshold=0.7),
]
阈值设置经验值(参考):
| 指标 | 建议阈值 | 说明 |
|---|---|---|
| TaskCompletionMetric | 0.7 | 低于 0.7 说明 Agent 基本不可用 |
| ToolCorrectnessMetric | 0.8 | 工具选择是 Agent 核心能力,要求高 |
| ArgumentCorrectnessMetric | 0.8 | 参数错误直接导致工具调用失败 |
| StepEfficiencyMetric | 0.5 | 允许一定冗余,0.5 是合理底线 |
| PlanQualityMetric | 0.7 | 规划质量难量化,0.7 是及格线 |
步骤 4:执行评估
单次评估(开发调试用):
from deepeval import evaluate
# 定义测试用例
test_case = LLMTestCase(
input="预订明天从北京到上海最便宜的航班",
expected_output={"status": "confirmed", "order_id": "ORD123456"}
)
# 执行 Agent 得到实际输出
actual_output = travel_agent(test_case.input)
test_case.actual_output = actual_output
# 执行评估
evaluate([test_case], metrics)
批量评估(CI/CD 集成用):
from deepeval.dataset import EvaluationDataset
# 加载测试数据集(建议 20-50 个核心场景用例起步)
dataset = EvaluationDataset(goldens=[
{"input": "预订明天从北京到上海最便宜的航班"},
{"input": "查找下周从成都到昆明的中转航班"},
{"input": "取消订单 ORD123456"},
# ... 更多用例
])
# 批量执行评估
for golden in dataset.evals_iterator(metrics=metrics):
output = travel_agent(golden.input)
golden.actual_output = output
# 评估结果自动记录,可在 Confident AI 云平台查看
步骤 5:结果解读与优化
各指标得分 → 问题定位 → 优化方向 映射表:
得分情况 → 问题定位 → 优化方向
─────────────────────────────────────────────────────────────
TaskCompletion 低,其他正常 → 最终执行逻辑有 bug → 检查 Agent 输出解析逻辑
ToolCorrectness 低 → 工具选择错误 → 优化 tool description / few-shot
ArgumentCorrectness 低 → 参数构造错误 → 加强 schema 校验,加参数示例
PlanQuality 低 → 规划能力弱 → 更换更强的基础模型,或改进 prompt
StepEfficiency 低 → 执行步骤冗余 → 优化 prompt,减少不必要的中间步骤
PlanAdherence 低 → 执行偏离计划 → 在 prompt 中加强"严格按计划执行"指令
所有指标波动大(标准差 > 0.2) → 不稳定 → 检查工具 API 稳定性,加重试逻辑
四、LLM-as-Judge 实战指南
有些维度没有标准答案(比如"回复是否礼貌""处理用户情绪是否得当"),需要用强模型来评测弱模型的输出。这就是 LLM-as-Judge。
有效实践(Anthropic/OpenAI 内部标准)
1. 评分维度必须清晰定义,不能只说"评质量":
# ❌ 差的 judge prompt
"请评估这个 Agent 回复的质量,给出 1-5 分。"
# ✅ 好的 judge prompt
"""请评估以下 Agent 回复,从三个维度各给出 1-5 分:
1. 准确性(Accuracy):回复中的事实性信息是否正确?
- 5分:完全正确,无事实错误
- 3分:基本正确,有轻微不准确但不影响理解
- 1分:包含事实错误,可能误导用户
2. 有用性(Helpfulness):回复是否解决了用户的问题?
- 5分:完全解决,提供了所有必要信息
- 3分:部分解决,用户需要进一步询问
- 1分:未解决,答非所问
3. 语气(Tone):回复是否礼貌、专业?
- 5分:语气恰当,专业且友好
- 3分:语气中性,无明显问题
- 1分:语气不当,不礼貌或不专业
请按以下 JSON 格式输出:
{"accuracy": 4, "helpfulness": 5, "tone": 5, "reason": "..."}
"""
2. 用 few-shot 示例提升一致性:
JUDGE_PROMPT = """请评估以下 Agent 回复质量。
以下是几个评分示例(供参考标准):
[示例 1]
用户:帮我查一下订单 ORD123456 的状态
Agent 回复:您的订单 ORD123456 已发货,预计明天送达。
评分:{"accuracy": 5, "helpfulness": 5, "tone": 5}
原因:信息准确、完整,语气专业。
[示例 2]
用户:帮我查一下订单 ORD123456 的状态
Agent 回复:好的,我帮您查一下。
评分:{"accuracy": 3, "helpfulness": 2, "tone": 4}
原因:未提供实质信息,问题未解决,但语气尚可。
[待评估内容]
用户:{user_input}
Agent 回复:{agent_output}
评分:"""
3. 用 gpt-4o-mini 做 judge,控制成本:
评测用模型不需要跟被评测 Agent 用同一个模型。用更便宜的强模型做 judge 是标准做法:
# 成本对比(评测 1000 个样本,每个样本约 500 tokens)
# gpt-4o: $5/M tokens input → 约 $2.5
# gpt-4o-mini: $0.15/M tokens input → 约 $0.075(省 33 倍)
# Claude Haiku:$0.25/M tokens input → 约 $0.125(省 20 倍)
import os
os.environ["OPENAI_MODEL"] = "gpt-4o-mini" # DeepEval 默认用这个
LLM-as-Judge 的已知缺陷
| 缺陷 | 说明 | 缓解方法 |
|---|---|---|
| 偏爱长输出 | 模型倾向于给更长的回复更高分 | 在 judge prompt 中加入"简洁性"维度 |
| 无法评判更强模型 | 用 GPT-4o 评 Claude Opus 级别的输出,上限受限 | 用多个 judge 模型投票 |
| 评分方差大 | 同一输入多次评测可能给出不同分数 | 每个样本评测 3 次,取平均分 |
| 文化偏见 | 英文训练数据导致对非英文内容评测不准 | 用对应语言的模型做 judge |
五、生产环境监控实战
评测体系上线后,生产环境的持续监控是最后一块拼图。
采样策略(直接可用)
生产环境采样策略(Anthropic 内部实践):
任务类型 采样率 说明
─────────────────────────────────────────────
普通任务 1-5% 随机抽样,评估质量趋势
支付/预订等关键任务 100% 全量评估,失败直接影响用户
失败请求 100% 自动进入评估队列,用于归因分析
超时请求 100% 性能问题也需要评测
LLM-as-Judge "不确定" 100% 进入人工审查队列
成本控制
生产环境评测的最大挑战是成本,不是技术。以下是经过验证的控制方法:
# 1. 用最便宜的模型做 judge
os.environ["OPENAI_MODEL"] = "gpt-4o-mini"
# 2. 异步执行评测,不阻塞主流程
import asyncio
from deepeval import evaluate
async def async_evaluate_in_background(test_case, metrics):
"""主流程不等待评测结果"""
asyncio.create_task(
asyncio.to_thread(evaluate, [test_case], metrics)
)
# 3. 设置样本上限熔断
MAX_DAILY_EVAL_SAMPLES = 1000 # 每天最多评测 1000 个样本
def should_evaluate_today():
today_count = get_today_eval_count() # 从 Redis/DB 读取
return today_count < MAX_DAILY_EVAL_SAMPLES
# 4. 只对失败/超时请求做完整评测(多指标)
# 普通成功请求只做轻量评测(单指标)
def get_metrics_for_case(is_success, is_timeout):
if not is_success:
return ALL_METRICS # 失败 case 做完整评测,用于归因
elif is_timeout:
return [LATENCY_METRIC] # 超时 case 只评测性能
else:
return [TASK_COMPLETION_METRIC] # 成功 case 只评测任务完成度
人工审查队列
自动评测不可能覆盖所有维度。建立人工审查队列,补全评测盲区:
# 人工审查触发条件
HUMAN_REVIEW_CONDITIONS = [
"LLM-as-Judge 评分方差 > 2.0(同一 case 多次评测分数差异大)",
"Agent 输出了敏感词(用规则引擎检测)",
"用户给了一星评价",
"每周随机抽取 10-20 个边界 case",
]
# 人工审查重点维度(自动评测覆盖不到的)
HUMAN_REVIEW_DIMENSIONS = [
"回复语气是否恰当",
"是否处理了用户的情绪",
"输出是否符合品牌调性",
"是否存在微妙的事实错误(模型 judge 可能漏掉)",
]
六、CI/CD 集成完整配置
把评测嵌入 CI/CD 流程,是防止回归的关键。以下是 .github/workflows/agent-eval.yml 完整配置:
name: Agent Eval CI
on:
pull_request:
branches: [main]
push:
branches: [main]
jobs:
eval:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v3
- name: Set up Python
uses: actions/setup-python@v4
with:
python-version: "3.11"
- name: Install dependencies
run: |
pip install -r requirements.txt
pip install deepeval
- name: Run regression eval (PR only)
if: github.event_name == 'pull_request'
run: |
python -m pytest tests/eval_regression.py -v
env:
OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
- name: Run full benchmark (main branch only)
if: github.ref == 'refs/heads/main'
run: |
python -m pytest tests/eval_full_benchmark.py -v
env:
OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}
- name: Upload eval results
if: always()
uses: actions/upload-artifact@v3
with:
name: eval-results
path: eval_results/
评测不通过的门槛(建议值):
# tests/eval_regression.py 核心逻辑
EVAL_GATES = {
"pass_at_1": 0.70, # pass@1 不低于 70%
"pass_at_8": 0.80, # pass@8 不低于 80%
"avg_judge_score": 4.0, # LLM-as-Judge 平均分不低于 4.0/5.0
"tool_correctness": 0.75, # 工具选择正确率不低于 75%
"no_regression": True, # 相比 main 分支无回归(各指标跌幅 < 5%)
}
def test_eval_gates():
results = run_evaluation()
for metric, threshold in EVAL_GATES.items():
if metric == "no_regression":
assert results["regression"] == False, "Regression detected!"
else:
assert results[metric] >= threshold, \
f"{metric}: {results[metric]} < threshold {threshold}"
七、常见陷阱与规避方法
Agent Eval 七大常见陷阱:
陷阱 1:只用成功率一个指标
→ 后果:隐藏执行质量问题和稳定性问题
→ 规避:至少加 PlanQuality + ToolCorrectness 两个过程指标
陷阱 2:评测集一成不变
→ 后果:Agent 过拟合评测集,生产表现差
→ 规避:每月更新 20% 评测用例,加入新发现的边界 case
陷阱 3:用训练数据覆盖的 benchmark 做主要评估
→ 后果:分数虚高,无法反映真实泛化能力
→ 规避:用私有业务数据构建评测集,或选 GAIA 这种专门防泄露的 benchmark
陷阱 4:LLM-as-Judge 不设 few-shot
→ 后果:评分一致性差,不同版本评测结果不可比
→ 规避:每个评测维度至少准备 3-5 个 few-shot 示例
陷阱 5:生产监控采样率太低
→ 后果:问题发现太晚,影响用户已造成
→ 规避:关键任务 100% 采样,普通任务不低于 1%
陷阱 6:评测环境与生产环境不一致
→ 后果:评测通过,上线失败
→ 规避:评测环境用生产环境的 staging 副本,工具 API 用真实(或真实 mock)
陷阱 7:没有评测结果的历史追踪
→ 后果:不知道性能是变好了还是变差了
→ 规避:用 DeepEval + Confident AI 云平台,或自建评测结果数据库
八、从零搭建评测体系:四步路径
如果你现在什么都没有,按这个顺序做,可以在一个月内建立基本可用的评测体系。
Week 1:建立回归基线
┌──────────────────────────────────────┐
│ │
│ 1. 选 20-50 个核心场景用例 │
│ 2. 用 DeepEval 搭建基础评测脚本 │
│ 3. 同时跑 pass@1 和 pass@8 │
│ 4. 记录当前各指标得分作为基线 │
│ │
│ 目标:不是追求高分,是建立回归检测能力 │
└──────────────────────────────────────┘
Week 2:引入 LLM-as-Judge
┌──────────────────────────────────────┐
│ │
│ 1. 为 3-5 个核心质量维度写 judge prompt │
│ 2. 每个维度准备 3-5 个 few-shot 示例 │
│ 3. 用小模型(gpt-4o-mini)做成本验证 │
│ 4. 人工对比 20 个样本的 judge 结果 │
│ (人工评分 vs judge 评分, │
│ 一致性应 > 85%) │
└──────────────────────────────────────┘
Week 3-4:接入 CI/CD
┌──────────────────────────────────────┐
│ │
│ 1. 把评测脚本接入 GitHub Actions │
│ 2. 设置评测门禁(pass@8 ≥ 80% 等) │
│ 3. 每次 PR 自动跑回归评测 │
│ 4. main 分支每日跑完整 benchmark │
└──────────────────────────────────────┘
持续迭代:建立生产监控
┌──────────────────────────────────────┐
│ │
│ 1. 线上请求按采样策略做评估 │
│ 2. 每周把生产失败 case 加入评测集 │
│ 3. 每月更新 20% 评测用例 │
│ 4. 定期 review 评测指标是否足够 │
└──────────────────────────────────────┘
九、自己做 Agent,该带走什么
如果你在做一个 Agent 产品,以下几条是最值得带走的实战经验:
1. 评测体系要三层一起建,不能只做 benchmark。 Layer 1 告诉你"能不能用",Layer 2 告诉你"好不好用",Layer 3 确保"一直好用"。缺任何一层,生产环境都会有惊喜(贬义)。
2. 用 DeepEval 的 @observe 装饰器标记所有 Agent 组件。 不止是为了评测——执行轨迹的可见性是调试 Agent 的基础。看不到 Agent 内部在干什么,优化就是盲人摸象。
3. pass@k 比 pass@1 更能反映生产稳定性。 如果你的 Agent 允许用户重试(比如异步任务、后台 Agent),pass@8 是更相关的指标。不允许重试的场景才看 pass@1。
4. LLM-as-Judge 的 prompt 比选哪个 judge 模型更重要。 few-shot 示例、清晰的评分维度定义、1-5 分制(而非二元判断),这三件事做好了,用 gpt-4o-mini 做 judge 也够用。
5. 生产监控的采样策略要分任务类型。 普通任务 1-5% 采样够了,支付/预订等关键任务必须 100% 评估。失败请求也要 100% 进评估队列——这是最便宜的 failure analysis 来源。
6. 评测集要持续迭代,不能一成不变。 每月把线上失败 case 的 20% 加入评测集,同时将评测集中最旧的 20% 淘汰。这样评测集始终反映真实的用户场景分布。
7. 不要等 Agent "做好了"才建评测体系。 评测体系是开发工具,不是上线前的检查清单。早期建立评测,才能知道每次改动是变好了还是变差了。
十
Agent 评测在 2026 年已经从"研究问题"变成了"工程基础设施"。Anthropic 的经验、OpenAI 的 Promptfoo 收购、DeepEval 的快速迭代,都在指向同一个方向:没有可量化的质量标准,Agent 的可靠性就无从保证,迭代方向也无从判断。
这篇文章里的大部分内容——三层架构、DeepEval 代码、CI/CD 配置、采样策略——都是可以直接抄的。但评测体系最核心的一件事,不是工具或框架的选择,而是持续迭代的纪律性:评测集每月更新、评测结果每次 PR 都看、生产失败 case 每周回顾。
工具会变,模型会变,但这件事不会变。
参考资料:
- Anthropic Engineering Blog《Demystifying evals for AI agents》(2026-01);
- Confident AI DeepEval 官方文档(2026-05 更新);
- "AI Agent 评测实践:构建可量化的 Agent 质量标准"(棱镜空间,2026-03);
- "Agent 评估基准实战:从 AgentBench 到 DeepEval 的性能测试指南"(EastonDev,2026-05);
- InfoQ《Evaluating AI Agents in Practice: Benchmarks, Hybrid Evaluation Pipelines》(2026-03);
关注公众号「coft」,获取更多 AI 时代的深度思考。

浙公网安备 33010602011771号