智能体上线和上线后质量闭环
目录
二、工业里的标准做法:上线前 vs 上线后
一句话总览
| 阶段 | 目标 | 特点 |
|---|---|---|
| 上线前 | 可用性验证 | 小样本、强人工 |
| 上线后 | 持续可信运行 | 大样本、自动 + 回溯 |
三、上线前怎么测(你大概率已经理解的)
上线前主要解决三件事:
1️⃣ 事实正确性(Hard Constraint)
- 对齐知识库
- 覆盖高频问题
- 拦截明显幻觉
2️⃣ 业务红线
- 不越权
- 不乱承诺
- 不误导价格 / 条款
3️⃣ 最小可用门槛
例如:
- Accuracy ≥ 95%
- Reject ≈ 0
👉 这是“能不能上线”的问题。
四、上线后怎么测(这是面试加分点)
上线后评测的关键词是:
持续、抽样、回溯、闭环
业务事实本身在变化
你评测的不是“数学题”,而是:
- 价格
- 库存
- 活动
- 话术边界
- 合同条款
这些任何一天变化,都会让:
昨天“事实无误 + 业务可接受”的回复
今天变成 Risk / Reject
👉 不上线后持续评测,系统一定会“慢性失准”。
一、什么叫“按风险权重抽样”(先给精确定义)
1️⃣ 定义(工业口径)
按风险权重抽样 =
不同会话被抽中进入人工质检的概率不同,
且这个概率与“潜在业务风险”正相关。
不是随机抽样,也不是全量检查。
每天抽样
工业上可接受、且常见的抽样率是:
0.05% ~ 0.3%(按会话)
其中最常见、最稳妥的落点是:
≈ 0.1% ~ 0.2%
2️⃣ “风险权重”通常由哪些因子构成
下面这些因子,每一个都能独立拉高抽样概率:
(1)业务阶段风险
| 阶段 | 风险 |
|---|---|
| Awareness | 低 |
| Consideration | 中 |
| Objection | 高 |
| 成交前 | 极高 |
(2)客单价 / 用户价值
- 高客单
- 企业客户
- VIP 用户
👉 一条错话的损失是指数级的
(3)模型不确定性信号
- 置信度接近阈值
- 多意图
- 模型自评低信心
- RAG 命中边缘文档
(4)话术 /知识的新鲜度
- 新上线话术
- 新产品文档
- 最近 7 天内更新的 KB
(5)用户行为异常
- 重复追问
- 突然转人工
- 对 CTA 无反应
- 会话中断
二、为什么要“每天”做?是不是工作量爆炸?
结论先行:
“每天”不是为了全量,而是为了“及时发现新风险”。
真正的工作量是可控且很小的。
工业里不会全量人工检查,
而是按风险权重做小比例持续抽样。发布新知识或新功能时会提高抽样权重,
但即使没有发布,
也会保留一个很小的日常抽样池,
用来发现用户行为或模型组合带来的新风险。
六、一句话帮你“压住面试官”
按风险权重抽样的本质,
是用极小的人力成本,
换取对高损失事件的快速感知能力。

浙公网安备 33010602011771号