智能销售助手评测方案

准确度评测使用离线测试集+规则
其他评测场景 LLM as Judge
一、先给你一句总判断
二、为什么 Coordinator 不适合 LLM as Judge
三、那 LLM as Judge 用在“智能销售助手”的哪里？
场景一：销售话术质量评估（最核心）
场景二：多轮对话“成交路径合理性”
- 评测的问题不是单句，而是：
- LLM Judge 非常适合做：
场景三：RAG 命中质量（而不是召回）
场景四：多意图处理是否“合理拆解”
- 示例
四、一个非常重要的误区（必须避免）
- ❌ 用 LLM Judge 来“评测意图是否正确”
五、你现在的评测体系，应该是“双轨制”
- 轨道一：确定性评测（你已经在做）
- 轨道二：主观语义评测（LLM as Judge）
六、给你一个“销售助手评测分层图”（建议你直接采纳）
七、一句总结（非常重要）

准确度评测使用离线测试集+规则

Coordinator的评测，RAGAgent评测
1 设计本地离线数据集
2 跑测试用例，把测试用例的数据作为参数传给 Coordinator的input
3 下载langfuse的trace
4 通过脚本对比 input和output的差异

其他评测场景 LLM as Judge

【注意】LLM as Judge是针对具体执行的Agent评测，不可用放在Trace root进行

我直接给你结论图景，然后落到智能销售助手的具体可用场景。

一、先给你一句总判断

Coordinator 这种“强结构决策节点”，不应该用 LLM as Judge；
LLM as Judge 是给“不可规则化语义质量”的。

你现在设计的 1–4 离线评测流程，是 Coordinator 的正解路径。

二、为什么 Coordinator 不适合 LLM as Judge

Coordinator 的输出是：

{
  "intents": [...],
  "route_to": "rag_agent | react_agent | workflow_agent"
}

这类评测特征是：

特征	说明
离散	intent / agent 都是枚举
可比对	== / in / set overlap
可解释	错就是错
可回放	同输入应同输出

👉 LLM as Judge 在这里反而是噪声

例如：

你已经知道 expected_agent = react_agent
结果是 rag_agent

这不需要 LLM 判断，这是确定性错误。

三、那 LLM as Judge 用在“智能销售助手”的哪里？

下面是真正应该用的地方（非常关键）。

场景一：销售话术质量评估（最核心）

典型问题

“这个回复是不是有销售推动力？”

人类判断标准（不可规则化）

是否自然
是否有说服力
是否引导下一步
是否太啰嗦 / 太冷

示例

User: 这个产品多少钱？
Assistant A: 199 美元。
Assistant B: 现在是 199 美元，本周下单我们还包邮，并且支持 30 天无理由退货。

👉 哪个更好？规则无法写，但人一眼就知道

LLM as Judge 适配点

{
  "criteria": [
    "sales_effectiveness",
    "politeness",
    "clarity",
    "next_step_guidance"
  ]
}

场景二：多轮对话“成交路径合理性”

评测的问题不是单句，而是：

“这 5 轮对话是否在向成交推进？”

规则很难写：

有没有过早报价
有没有跳过需求澄清
有没有打断用户

LLM Judge 非常适合做：

Given the conversation history,
does the assistant follow a reasonable sales funnel?

场景三：RAG 命中质量（而不是召回）

注意区分：

层	评测方式
RAG Recall	规则 / embedding
RAG Answer Quality	LLM as Judge

例如：

文档召回对了
但回答：
- 是否完整？
- 是否过度推断？
- 是否遗漏关键信息？

场景四：多意图处理是否“合理拆解”

这是 Coordinator 之后、Orchestrator 的事。

示例

用户说：

我想退货，顺便问下物流什么时候到？

输出可能是：

顺序 A：先处理退货，再答物流
顺序 B：先答物流，再引导退货流程

两者都可能合理，但规则无法穷举。

👉 LLM Judge 可以判断：

是否覆盖全部意图
是否逻辑顺序合理
是否对用户友好

四、一个非常重要的误区（必须避免）

❌ 用 LLM Judge 来“评测意图是否正确”

原因：

intent 是你系统定义的 taxonomy
LLM 并不真正理解你业务 intent 边界
会引入：
- label drift
- judge 不稳定
- 无法回归测试

五、你现在的评测体系，应该是“双轨制”

轨道一：确定性评测（你已经在做）

用于：

Coordinator
Router
Policy Gate
Safety Gate

方式：

expected vs actual → script → accuracy / confusion matrix

轨道二：主观语义评测（LLM as Judge）

用于：

销售话术
成交推动
多轮体验
RAG 回答质量

方式：

conversation / response → judge → score / rubric

六、给你一个“销售助手评测分层图”（建议你直接采纳）

[ User Input ]
      ↓
[ Coordinator ]        → 规则评测（脚本）
      ↓
[ Orchestrator ]       → 混合评测（规则 + LLM）
      ↓
[ Sales Agent Reply ]  → LLM as Judge

七、一句总结（非常重要）

凡是“对错明确”的，用脚本；
凡是“好不好”的，用 LLM as Judge。

你现在的问题，说明你已经在做正确的工程级评测拆分了。

如果你愿意，下一步我可以直接帮你：

给你一份 “销售助手 LLM Judge Rubric 模板”
或帮你设计 Langfuse Evaluator + 规则评测并存的流水线

你想先落哪一个？

posted @ 2025-12-23 07:36 向着朝阳阅读(41) 评论(0) 收藏举报

刷新页面返回顶部

aibi1

智能销售助手评测方案

准确度评测使用离线测试集+规则

其他评测场景 LLM as Judge

一、先给你一句总判断

二、为什么 Coordinator 不适合 LLM as Judge

三、那 LLM as Judge 用在“智能销售助手”的哪里？

场景一：销售话术质量评估（最核心）

典型问题

人类判断标准（不可规则化）

示例

LLM as Judge 适配点

场景二：多轮对话“成交路径合理性”

评测的问题不是单句，而是：

LLM Judge 非常适合做：

场景三：RAG 命中质量（而不是召回）

场景四：多意图处理是否“合理拆解”

示例

四、一个非常重要的误区（必须避免）

❌ 用 LLM Judge 来“评测意图是否正确”

五、你现在的评测体系，应该是“双轨制”

轨道一：确定性评测（你已经在做）

轨道二：主观语义评测（LLM as Judge）

六、给你一个“销售助手评测分层图”（建议你直接采纳）

七、一句总结（非常重要）

公告

aibi1

智能销售助手评测方案

准确度评测 使用离线测试集+规则

其他评测场景 LLM as Judge

一、先给你一句总判断

二、为什么 Coordinator 不适合 LLM as Judge

三、那 LLM as Judge 用在“智能销售助手”的哪里？

场景一：销售话术质量评估（最核心）

典型问题

人类判断标准（不可规则化）

示例

LLM as Judge 适配点

场景二：多轮对话“成交路径合理性”

评测的问题不是单句，而是：

LLM Judge 非常适合做：

场景三：RAG 命中质量（而不是召回）

场景四：多意图处理是否“合理拆解”

示例

四、一个非常重要的误区（必须避免）

❌ 用 LLM Judge 来“评测意图是否正确”

五、你现在的评测体系，应该是“双轨制”

轨道一：确定性评测（你已经在做）

轨道二：主观语义评测（LLM as Judge）

六、给你一个“销售助手评测分层图”（建议你直接采纳）

七、一句总结（非常重要）

公告

准确度评测使用离线测试集+规则