智能体上线后质量闭环
一、结论先行(非常重要)
用户行为信号(投诉、点踩、重复追问、转人工等)
不应该作为“一个独立抽样桶”,
而应该作为“最高优先级的触发型覆盖规则”。
它们在抽样体系里的地位是:
事件触发 > 风险权重 > 固定比例
二、为什么不把“用户行为异常”当成一个普通比例?
1️⃣ 因为它们不是“概率事件”,而是“已发生风险”
你列的这些信号:
- 用户投诉
- 点踩
- 重复追问
- 突然转人工
- 对 CTA 无反应
- 会话中断
共同点只有一个:
风险已经发生,或者几乎确定正在发生
这和:
- “成交前阶段”
- “新知识”
- “模型不确定”
这种“可能有风险”是完全不同级别的信号。
2️⃣ 如果放进比例里,会被严重稀释(这是工业大坑)
假设:
- 每天有 1,000 条点踩会话
- 你只给 10% 比例
那么:
- 900 条会被忽略
- 而这些是最应该被立刻看到的
👉 这在工业里是不可接受的。
三、工业里的正确做法:三层抽样结构
我把你提到的所有行为信号,放进一个更真实的工业结构。
第一层:事件触发型(不占比例,最高优先)
这些不参与 100 条配额计算,而是“直接进质检池”
触发条件(你列的全对):
- 用户明确投诉
- 明确点踩 / 差评
- 2 次以上重复追问同一问题
- 非预期转人工
- CTA 输出后立即流失
- 会话中断在关键阶段(成交前)
处理方式:
- 全量或高比例进入质检
- 优先级最高
- 用于快速止血
第二层:风险权重抽样(你之前那 100 条)
这是你说的:
“如果今天什么大事都没发生,我们依然要做的日常抽样”
30% 来自成交前和 objection 阶段
20% 来自高客单或重点用户
15% 覆盖最近 7 天的新知识和新话术
15% 来自模型不确定性偏高的会话
20% 完全随机作为兜底
第三层:完全随机兜底(防未知)
- 保留一定比例(10–20%)
- 防止规则和行为信号都没覆盖到的盲区
质检是做什么?
放到质检池后不是只打标。
质检首先是做业务可接受度判定,
一旦发现 Reject 或高风险样本,
会触发即时的运营或策略动作,
比如回滚话术、调整兜底条件。打标更多是作为后续分析和模型优化的输入,
而不是质检的最终目的。
不是。如果放到质检池后只是“打标”,那这个体系在工业里是失败的。
在成熟的销售型智能客服中,打标只是第一步,而且是成本最低、价值最低的一步。
下面我把质检池里真正发生的事情,按层级讲清楚。
一、结论先行(一句话)
质检池的核心目标不是“评估模型”,
而是“控制正在发生的业务风险并形成闭环”。
二、质检池里的四个动作(工业标准流程)
1️⃣ 业务判定(必做,但不是终点)
客服 / 质检人员做的第一件事是:
-
看完整上下文
-
给出 Business Acceptance 判断:
AcceptRiskReject
2️⃣ 即时止血(这是质检池存在的核心价值)
如果命中以下情况,必须立即动作,而不是等分析:
- 明确错误承诺
- 价格 / 条款错误
- 越权 CTA
- 高客单用户被误导
可执行动作包括:
- 临时关闭某条话术 / 模板
- 对某类 query 直接强制转人工
- 回滚最近的 KB 更新
- 降低某些自动化覆盖
👉 这是“运营动作”,不是模型优化。
3️⃣ 规则 / 策略修正(中短期)
当同类问题在质检池中反复出现:
- 同一 objection
- 同一产品
- 同一 CTA 模板
就会触发:
- 新规则(黑白名单)
- Prompt / 模板修订
- 风险关键词拦截
- 强制兜底条件调整
👉 这是最快、性价比最高的修复方式。
4️⃣ 数据沉淀(最后一步,才是打标)
在前面三步完成后,才会:
-
结构化存储:
- 风险类型
- 场景
- 阶段
-
用于:
- 统计
- 模型训练
- 风险识别模型
打标是“副产品”,不是目的。
三、为什么“只打标”在工业里是大忌?
1️⃣ 风险是实时扩散的
-
一条错误话术
-
可能在几小时内:
- 影响上千会话
- 造成实际损失
如果你只打标:
你是在给事故做复盘,而不是在止事故。
2️⃣ 模型优化周期太慢
- 训练
- 验证
- 灰度
- 上线
哪怕很快,也要 几天到几周。
而质检池的价值是:
分钟级到小时级的响应能力
四、一个“成熟团队”的分工模型(你可以直接说)
| 角色 | 在质检池里的责任 |
|---|---|
| 客服 / 质检 | 业务判定 + 风险归因 |
| 运营 | 即时止血 + 策略调整 |
| 工程 | 规则 / Prompt / KB 修复 |
| 算法 | 中长期模型改进 |

浙公网安备 33010602011771号