数据集(dataset)设计
目录
下面给你 一组可直接用于评测 Coordinator 的最小可用 dataset(3 条),覆盖你定义的三类意图。
我会按 “评测友好”结构来给,方便你后续和 Langfuse trace 绑定、自动算指标。
一、推荐的数据结构(JSON)
这是一个 标准化评测样本结构,建议你统一使用:
{
"test_id": "string",
"user_message": "string",
"expected_intent": "string",
"expected_agent": "string",
"expected_action": "string",
"notes": "string"
}
二、三条 Dataset 示例
1️⃣ INVENTORY_CHECK(库存查询)
{
"test_id": "INV_001",
"user_message": "Find X8 有货吗?我想马上下单。",
"expected_intent": "INVENTORY_CHECK",
"expected_agent": "ReactAgent",
"expected_action": "check_inventory",
"notes": "单一意图,实时库存查询,不需要知识库"
}
评测重点
- Coordinator 是否路由到 ReactAgent
- 是否触发实时查询而非 RAG
- 是否未误走 Workflow / Handoff
2️⃣ PRICE_QUERY(价格查询)
{
"test_id": "PRICE_001",
"user_message": "Find X8 现在多少钱?批量买有没有优惠?",
"expected_intent": "PRICE_QUERY",
"expected_agent": "ReactAgent",
"expected_action": "query_price",
"notes": "价格 + 潜在提价/优惠线索"
}
评测重点
- Coordinator 是否识别为价格意图
- 是否正确调用 ReactAgent
- 是否为后续 upsell / discount 留扩展空间
3️⃣ ORDER_QUERY(订单查询)
{
"test_id": "ORDER_001",
"user_message": "我下的订单 12345 现在到哪一步了?",
"expected_intent": "ORDER_QUERY",
"expected_agent": "WorkflowAgent",
"expected_action": "track_order",
"notes": "需要进入订单流程,可能涉及多系统查询"
}
评测重点
- Coordinator 是否选择 WorkflowAgent
- 是否进入流程型处理而不是单次问答
- 是否为失败兜底(转人工)保留路径
三、如何与 Langfuse Trace 绑定(关键)
在调用 Coordinator 时,把 test_id 传进去:
coordinator(
user_input=sample["user_message"],
test_id=sample["test_id"]
)
并在 trace 中记录:
langfuse.update_current_trace(
input={
"test_id": test_id,
"user_message": user_input
},
metadata={
"expected_intent": sample["expected_intent"],
"expected_agent": sample["expected_agent"]
}
)
这样你在 Langfuse 里可以做到:
- 直接用
test_id定位 trace - 对比 expected_agent vs actual_agent
- 自动统计 Coordinator 路由准确率
四、这 3 条数据能评测什么?
| 能评测的能力 | 是否覆盖 |
|---|---|
| 意图识别准确性 | 是 |
| Agent 路由正确性 | 是 |
| 实时查询 vs 流程判断 | 是 |
| Coordinator 基础稳定性 | 是 |
这是 Coordinator 评测的第一层(L1)dataset,非常适合你现在这个阶段。
下一步建议(很重要)
当你确认这 3 条跑通后,下一步一定要加:
- 多意图混合(库存 + 价格)
- 模糊表达(“还能买不”“贵不贵”)
- 错误订单号
- 必须转人工的场景
如果你愿意,我可以直接帮你设计 一整套 L1 / L2 / L3 Coordinator 评测集,对应真实跨境卖家场景,而不是玩具样本。

浙公网安备 33010602011771号