智能体上线后质量闭环

质检是做什么？

一、结论先行（非常重要）

用户行为信号（投诉、点踩、重复追问、转人工等）
不应该作为“一个独立抽样桶”，
而应该作为“最高优先级的触发型覆盖规则”。

它们在抽样体系里的地位是：

事件触发 > 风险权重 > 固定比例

二、为什么不把“用户行为异常”当成一个普通比例？

1️⃣ 因为它们不是“概率事件”，而是“已发生风险”

你列的这些信号：

用户投诉
点踩
重复追问
突然转人工
对 CTA 无反应
会话中断

共同点只有一个：

风险已经发生，或者几乎确定正在发生

这和：

“成交前阶段”
“新知识”
“模型不确定”

这种“可能有风险”是完全不同级别的信号。

2️⃣ 如果放进比例里，会被严重稀释（这是工业大坑）

假设：

每天有 1,000 条点踩会话
你只给 10% 比例

那么：

900 条会被忽略
而这些是最应该被立刻看到的

👉 这在工业里是不可接受的。

三、工业里的正确做法：三层抽样结构

我把你提到的所有行为信号，放进一个更真实的工业结构。

第一层：事件触发型（不占比例，最高优先）

这些不参与 100 条配额计算，而是“直接进质检池”

触发条件（你列的全对）：

用户明确投诉
明确点踩 / 差评
2 次以上重复追问同一问题
非预期转人工
CTA 输出后立即流失
会话中断在关键阶段（成交前）

处理方式：

全量或高比例进入质检
优先级最高
用于快速止血

第二层：风险权重抽样（你之前那 100 条）

这是你说的：

“如果今天什么大事都没发生，我们依然要做的日常抽样”
30% 来自成交前和 objection 阶段
20% 来自高客单或重点用户
15% 覆盖最近 7 天的新知识和新话术
15% 来自模型不确定性偏高的会话
20% 完全随机作为兜底

第三层：完全随机兜底（防未知）

保留一定比例（10–20%）
防止规则和行为信号都没覆盖到的盲区

质检是做什么？

放到质检池后不是只打标。

质检首先是做业务可接受度判定，
一旦发现 Reject 或高风险样本，
会触发即时的运营或策略动作，
比如回滚话术、调整兜底条件。

打标更多是作为后续分析和模型优化的输入，
而不是质检的最终目的。

不是。如果放到质检池后只是“打标”，那这个体系在工业里是失败的。
在成熟的销售型智能客服中，打标只是第一步，而且是成本最低、价值最低的一步。

下面我把质检池里真正发生的事情，按层级讲清楚。

一、结论先行（一句话）

质检池的核心目标不是“评估模型”，
而是“控制正在发生的业务风险并形成闭环”。

二、质检池里的四个动作（工业标准流程）

1️⃣ 业务判定（必做，但不是终点）

客服 / 质检人员做的第一件事是：

看完整上下文
给出 Business Acceptance 判断：
- Accept
- Risk
- Reject

2️⃣ 即时止血（这是质检池存在的核心价值）

如果命中以下情况，必须立即动作，而不是等分析：

明确错误承诺
价格 / 条款错误
越权 CTA
高客单用户被误导

可执行动作包括：

临时关闭某条话术 / 模板
对某类 query 直接强制转人工
回滚最近的 KB 更新
降低某些自动化覆盖

👉 这是“运营动作”，不是模型优化。

3️⃣ 规则 / 策略修正（中短期）

当同类问题在质检池中反复出现：

同一 objection
同一产品
同一 CTA 模板

就会触发：

新规则（黑白名单）
Prompt / 模板修订
风险关键词拦截
强制兜底条件调整

👉 这是最快、性价比最高的修复方式。

4️⃣ 数据沉淀（最后一步，才是打标）

在前面三步完成后，才会：

结构化存储：
- 风险类型
- 场景
- 阶段
用于：
- 统计
- 模型训练
- 风险识别模型

打标是“副产品”，不是目的。

三、为什么“只打标”在工业里是大忌？

1️⃣ 风险是实时扩散的

一条错误话术
可能在几小时内：
- 影响上千会话
- 造成实际损失

如果你只打标：

你是在给事故做复盘，而不是在止事故。

2️⃣ 模型优化周期太慢

训练
验证
灰度
上线

哪怕很快，也要 几天到几周。

而质检池的价值是：

分钟级到小时级的响应能力

四、一个“成熟团队”的分工模型（你可以直接说）

角色	在质检池里的责任
客服 / 质检	业务判定 + 风险归因
运营	即时止血 + 策略调整
工程	规则 / Prompt / KB 修复
算法	中长期模型改进

posted @ 2026-01-13 20:21 向着朝阳阅读(43) 评论(0) 收藏举报

刷新页面返回顶部

aibi1