数据集(dataset)设计


下面给你 一组可直接用于评测 Coordinator 的最小可用 dataset(3 条),覆盖你定义的三类意图。
我会按 “评测友好”结构来给,方便你后续和 Langfuse trace 绑定、自动算指标。


一、推荐的数据结构(JSON)

这是一个 标准化评测样本结构,建议你统一使用:

{
  "test_id": "string",
  "user_message": "string",
  "expected_intent": "string",
  "expected_agent": "string",
  "expected_action": "string",
  "notes": "string"
}

二、三条 Dataset 示例

1️⃣ INVENTORY_CHECK(库存查询)

{
  "test_id": "INV_001",
  "user_message": "Find X8 有货吗?我想马上下单。",
  "expected_intent": "INVENTORY_CHECK",
  "expected_agent": "ReactAgent",
  "expected_action": "check_inventory",
  "notes": "单一意图,实时库存查询,不需要知识库"
}

评测重点

  • Coordinator 是否路由到 ReactAgent
  • 是否触发实时查询而非 RAG
  • 是否未误走 Workflow / Handoff

2️⃣ PRICE_QUERY(价格查询)

{
  "test_id": "PRICE_001",
  "user_message": "Find X8 现在多少钱?批量买有没有优惠?",
  "expected_intent": "PRICE_QUERY",
  "expected_agent": "ReactAgent",
  "expected_action": "query_price",
  "notes": "价格 + 潜在提价/优惠线索"
}

评测重点

  • Coordinator 是否识别为价格意图
  • 是否正确调用 ReactAgent
  • 是否为后续 upsell / discount 留扩展空间

3️⃣ ORDER_QUERY(订单查询)

{
  "test_id": "ORDER_001",
  "user_message": "我下的订单 12345 现在到哪一步了?",
  "expected_intent": "ORDER_QUERY",
  "expected_agent": "WorkflowAgent",
  "expected_action": "track_order",
  "notes": "需要进入订单流程,可能涉及多系统查询"
}

评测重点

  • Coordinator 是否选择 WorkflowAgent
  • 是否进入流程型处理而不是单次问答
  • 是否为失败兜底(转人工)保留路径

三、如何与 Langfuse Trace 绑定(关键)

在调用 Coordinator 时,把 test_id 传进去:

coordinator(
    user_input=sample["user_message"],
    test_id=sample["test_id"]
)

并在 trace 中记录:

langfuse.update_current_trace(
    input={
        "test_id": test_id,
        "user_message": user_input
    },
    metadata={
        "expected_intent": sample["expected_intent"],
        "expected_agent": sample["expected_agent"]
    }
)

这样你在 Langfuse 里可以做到:

  • 直接用 test_id 定位 trace
  • 对比 expected_agent vs actual_agent
  • 自动统计 Coordinator 路由准确率

四、这 3 条数据能评测什么?

能评测的能力 是否覆盖
意图识别准确性
Agent 路由正确性
实时查询 vs 流程判断
Coordinator 基础稳定性

这是 Coordinator 评测的第一层(L1)dataset,非常适合你现在这个阶段。


下一步建议(很重要)

当你确认这 3 条跑通后,下一步一定要加

  • 多意图混合(库存 + 价格)
  • 模糊表达(“还能买不”“贵不贵”)
  • 错误订单号
  • 必须转人工的场景

如果你愿意,我可以直接帮你设计 一整套 L1 / L2 / L3 Coordinator 评测集,对应真实跨境卖家场景,而不是玩具样本。

posted @ 2025-12-22 15:23  向着朝阳  阅读(31)  评论(0)    收藏  举报