智能体上线和上线后质量闭环

二、工业里的标准做法:上线前 vs 上线后

一句话总览

阶段 目标 特点
上线前 可用性验证 小样本、强人工
上线后 持续可信运行 大样本、自动 + 回溯

三、上线前怎么测(你大概率已经理解的)

上线前主要解决三件事:

1️⃣ 事实正确性(Hard Constraint)

  • 对齐知识库
  • 覆盖高频问题
  • 拦截明显幻觉

2️⃣ 业务红线

  • 不越权
  • 不乱承诺
  • 不误导价格 / 条款

3️⃣ 最小可用门槛

例如:

  • Accuracy ≥ 95%
  • Reject ≈ 0

👉 这是“能不能上线”的问题。


四、上线后怎么测(这是面试加分点)

上线后评测的关键词是:
持续、抽样、回溯、闭环

业务事实本身在变化

你评测的不是“数学题”,而是:

  • 价格
  • 库存
  • 活动
  • 话术边界
  • 合同条款

这些任何一天变化,都会让:

昨天“事实无误 + 业务可接受”的回复
今天变成 Risk / Reject

👉 不上线后持续评测,系统一定会“慢性失准”。


一、什么叫“按风险权重抽样”(先给精确定义)

1️⃣ 定义(工业口径)

按风险权重抽样 =
不同会话被抽中进入人工质检的概率不同,
且这个概率与“潜在业务风险”正相关。

不是随机抽样,也不是全量检查。

每天抽样

工业上可接受、且常见的抽样率是:
0.05% ~ 0.3%(按会话)
其中最常见、最稳妥的落点是:
≈ 0.1% ~ 0.2%


2️⃣ “风险权重”通常由哪些因子构成

下面这些因子,每一个都能独立拉高抽样概率

(1)业务阶段风险

阶段 风险
Awareness
Consideration
Objection
成交前 极高

(2)客单价 / 用户价值

  • 高客单
  • 企业客户
  • VIP 用户

👉 一条错话的损失是指数级的


(3)模型不确定性信号

  • 置信度接近阈值
  • 多意图
  • 模型自评低信心
  • RAG 命中边缘文档

(4)话术 /知识的新鲜度

  • 新上线话术
  • 新产品文档
  • 最近 7 天内更新的 KB

(5)用户行为异常

  • 重复追问
  • 突然转人工
  • 对 CTA 无反应
  • 会话中断

二、为什么要“每天”做?是不是工作量爆炸?

结论先行:

“每天”不是为了全量,而是为了“及时发现新风险”。
真正的工作量是可控且很小的


工业里不会全量人工检查,
而是按风险权重做小比例持续抽样。

发布新知识或新功能时会提高抽样权重,
但即使没有发布,
也会保留一个很小的日常抽样池,
用来发现用户行为或模型组合带来的新风险。


六、一句话帮你“压住面试官”

按风险权重抽样的本质,
是用极小的人力成本,
换取对高损失事件的快速感知能力。

posted @ 2026-01-13 19:39  向着朝阳  阅读(1)  评论(0)    收藏  举报