数据集（dataset）设计

一、推荐的数据结构（JSON）
二、三条 Dataset 示例
三、如何与 Langfuse Trace 绑定（关键）
四、这 3 条数据能评测什么？
下一步建议（很重要）

下面给你 一组可直接用于评测 Coordinator 的最小可用 dataset（3 条），覆盖你定义的三类意图。
我会按 “评测友好”结构来给，方便你后续和 Langfuse trace 绑定、自动算指标。

一、推荐的数据结构（JSON）

这是一个 标准化评测样本结构，建议你统一使用：

{
  "test_id": "string",
  "user_message": "string",
  "expected_intent": "string",
  "expected_agent": "string",
  "expected_action": "string",
  "notes": "string"
}

二、三条 Dataset 示例

1️⃣ INVENTORY_CHECK（库存查询）

{
  "test_id": "INV_001",
  "user_message": "Find X8 有货吗？我想马上下单。",
  "expected_intent": "INVENTORY_CHECK",
  "expected_agent": "ReactAgent",
  "expected_action": "check_inventory",
  "notes": "单一意图，实时库存查询，不需要知识库"
}

评测重点

Coordinator 是否路由到 ReactAgent
是否触发实时查询而非 RAG
是否未误走 Workflow / Handoff

2️⃣ PRICE_QUERY（价格查询）

{
  "test_id": "PRICE_001",
  "user_message": "Find X8 现在多少钱？批量买有没有优惠？",
  "expected_intent": "PRICE_QUERY",
  "expected_agent": "ReactAgent",
  "expected_action": "query_price",
  "notes": "价格 + 潜在提价/优惠线索"
}

评测重点

Coordinator 是否识别为价格意图
是否正确调用 ReactAgent
是否为后续 upsell / discount 留扩展空间

3️⃣ ORDER_QUERY（订单查询）

{
  "test_id": "ORDER_001",
  "user_message": "我下的订单 12345 现在到哪一步了？",
  "expected_intent": "ORDER_QUERY",
  "expected_agent": "WorkflowAgent",
  "expected_action": "track_order",
  "notes": "需要进入订单流程，可能涉及多系统查询"
}

评测重点

Coordinator 是否选择 WorkflowAgent
是否进入流程型处理而不是单次问答
是否为失败兜底（转人工）保留路径

三、如何与 Langfuse Trace 绑定（关键）

在调用 Coordinator 时，把 test_id 传进去：

coordinator(
    user_input=sample["user_message"],
    test_id=sample["test_id"]
)

并在 trace 中记录：

langfuse.update_current_trace(
    input={
        "test_id": test_id,
        "user_message": user_input
    },
    metadata={
        "expected_intent": sample["expected_intent"],
        "expected_agent": sample["expected_agent"]
    }
)

这样你在 Langfuse 里可以做到：

直接用 test_id 定位 trace
对比 expected_agent vs actual_agent
自动统计 Coordinator 路由准确率

四、这 3 条数据能评测什么？

能评测的能力	是否覆盖
意图识别准确性	是
Agent 路由正确性	是
实时查询 vs 流程判断	是
Coordinator 基础稳定性	是

这是 Coordinator 评测的第一层（L1）dataset，非常适合你现在这个阶段。

下一步建议（很重要）

当你确认这 3 条跑通后，下一步一定要加：

多意图混合（库存 + 价格）
模糊表达（“还能买不”“贵不贵”）
错误订单号
必须转人工的场景

如果你愿意，我可以直接帮你设计 一整套 L1 / L2 / L3 Coordinator 评测集，对应真实跨境卖家场景，而不是玩具样本。

posted @ 2025-12-22 15:23 向着朝阳阅读(40) 评论(0) 收藏举报

刷新页面返回顶部

aibi1

数据集（dataset）设计

一、推荐的数据结构（JSON）

二、三条 Dataset 示例

1️⃣ INVENTORY_CHECK（库存查询）

2️⃣ PRICE_QUERY（价格查询）

3️⃣ ORDER_QUERY（订单查询）

三、如何与 Langfuse Trace 绑定（关键）

四、这 3 条数据能评测什么？

下一步建议（很重要）

公告